Identifikační kód | RIV/00216224:14330/15:00084706 |
Název v anglickém jazyce | Determining Window Size from Plagiarism Corpus for Stylometric Features |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2015 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 2 |
Počet domácích tvůrců | 2 |
Výčet všech uvedených jednotlivých tvůrců | Šimon Suchomel (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 7837445) Michal Brandejs (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 5800951) |
Popis výsledku v anglickém jazyce | The sliding window concept is a common method for computing a profile of a document with unknown structure. This paper outlines an experiment with stylometric word-based feature in order to determine an optimal size of the sliding window. It was conducted for a vocabulary richness method called average word frequency class? using the PAN 2015 source retrieval training corpus for plagiarism detection. The paper shows the pros and cons of the stop words removal for the sliding window document profiling and discusses the utilization of the selected feature for intrinsic plagiarism detection. The experiment resulted in the recommendation of setting the sliding windows to around 100 words in length for computing the text profile using the average word frequency class stylometric feature. |
Klíčová slova oddělená středníkem | plagiarism; average word frequency class; stylometry; text classification; intrinsic plagiarism |
Stránka www, na které se nachází výsledek | http://link.springer.com/chapter/10.1007%2F978-3-319-24027-5_31 |
DOI výsledku | 10.1007/978-3-319-24027-5_31 |