Identifikační kód | RIV/00216224:14330/14:00077516 |
Název v anglickém jazyce | Style Markers Based on Stop-word List |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2014 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 2 |
Počet domácích tvůrců | 2 |
Výčet všech uvedených jednotlivých tvůrců | Jan Rygl (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6045111) Marek Medveď (státní příslušnost: SK - Slovenská republika, domácí tvůrce: A, vedidk: 8900167) |
Popis výsledku v anglickém jazyce | The analysis of author?s characteristic writing style and vocabulary has been used to uncover the identity of authors of documents by both manual linguistic approaches and automatic algorithmic methods. The revealing of the gender, name, or age can helpto expose pedophiles in social networks, false product reviews on the Internet servers, or machine translations submitted as manually translated texts. These problems are predominantly solved by a combination of stylometry and machine learning techniques. Since the stylometry focuses on the author?s style, word n-grams cannot be used as a style marker. Stop words are not influenced by a topic of documents, therefore they can be used to create style markers. In this paper, we present a guidance on how toimplement stop-word extraction and to include stop-words based style markers into a multilingual classification system based on the stylometry. |
Klíčová slova oddělená středníkem | style marker; stop-word list; corpus |
Stránka www, na které se nachází výsledek | - |