Identifikační kód | RIV/00216224:14330/12:00060279 |
Název v anglickém jazyce | Similarity Ranking as Attribute for Machine Learning Approach to Authorship Identification |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | A - Společenské vědy |
Obor | AI - Jazykověda |
Rok uplatnění | 2012 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 2 |
Počet tvůrců celkem | 2 |
Počet domácích tvůrců | 2 |
Výčet všech uvedených jednotlivých tvůrců | Jan Rygl (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6045111) Aleš Horák (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 3161870) |
Popis výsledku v anglickém jazyce | In the authorship identification task, examples of short writings of N authors and an anonymous document written by one of these N authors are given. The task is to determine the authorship of the anonymous text. Practically all approaches solved this problem with machine learning methods. The input attributes for the machine learning process are usually formed by stylistic or grammatical properties of individual documents or a defined similarity between a document and an author. In this paper, we present the results of an experiment to extend the machine learning attributes by ranking the similarity between a document and an author: we transform the similarity between an unknown document and one of the N authors to the order in which the author is themost similar to the document in the set of N authors. The comparison of similarity probability and similarity ranking was made using the Support Vector Machines algorithm. |
Klíčová slova oddělená středníkem | authorship identification; machine learning; similarity ranking |
Stránka www, na které se nachází výsledek | - |