Identifikační kód | RIV/00216224:14330/14:00073237 |
Název v anglickém jazyce | Automatic Adaptation of Author's Stylometric Features to Document Types |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2014 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 2 |
Počet tvůrců celkem | 1 |
Počet domácích tvůrců | 1 |
Výčet všech uvedených jednotlivých tvůrců | Jan Rygl (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6045111) |
Popis výsledku v anglickém jazyce | Many Internet users face the problem of anonymous documents and texts with a counterfeit authorship. The number of questionable documents exceeds the capacity of human experts, therefore a universal automated authorship identification system supporting all types of documents is needed. In this paper, five predominant document types are analysed in the context of the authorship verification: books, blogs, discussions, comments and tweets. A method of an automatic selection of authors? stylometric features using a double-layer machine learning is proposed and evaluated. Experiments are conducted on ten disjunct train and test sets and a method of an efficient training of large number of machine learning models is introduced (163,700 models were trained). |
Klíčová slova oddělená středníkem | authorship verification; feature selection; machine learning; stylome; stylometric features |
Stránka www, na které se nachází výsledek | - |
DOI výsledku | 10.1007/978-3-319-10816-2_7 |