Identifikační kód | RIV/00216224:14330/13:00087410 |
Název v anglickém jazyce | Diverse queries and feature type selection for plagiarism discovery: Notebook for PAN at CLEF 2013 |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2013 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 3 |
Počet domácích tvůrců | 3 |
Výčet všech uvedených jednotlivých tvůrců | Šimon Suchomel (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 7837445) Jan Kasprzak (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6603351) Michal Brandejs (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 5800951) |
Popis výsledku v anglickém jazyce | This paper describes approaches used for the Plagiarism Detection task in PAN 2013 international competition on uncovering plagiarism, authorship, and social software misuse. We present modified three-way search methodology for Source Retrieval subtask and analyse snippet similarity performance. The results show, that presented approach is adaptable in real-world plagiarism situations. For the Detailed Comparison task, we discuss feature type selection and global postprocessing. Resulting performance issignificantly better with the described modifications, and further improvement is still possible. |
Klíčová slova oddělená středníkem | suspicious document; plagiarism detection; search engine; source retrieval; stop word; text alignment; contextual n gram; word n gram; representative sentence; overlapping detection; snippet similarity; global postprocessing |
Stránka www, na které se nachází výsledek | http://ceur-ws.org/Vol-1179/ |