]> www.fi.muni.cz Git - pan13-paper.git/blob - pan13-paper/extended-abstract.txt
Uprava titulku, ext. abstrakt
[pan13-paper.git] / pan13-paper / extended-abstract.txt
1 This paper describes our approaches for the Plagiarism Detection task
2 of PAN 2013.
3
4 We present modified three-way search methodology for source retrieval subtask.
5 TODO Neco podrobnejsiho.
6
7 For the text alignment subtask, we use the similar approach as in PAN 2012.
8 We detect common features of various types between the suspicious and source
9 documents. We have experimented with more types of features. The best
10 results had the combination of sorted word 4-grams with unsorted stop-word
11 8-grams. From the common features we compute valid intervals, which map
12 passages from the suspicious document to the passages of the source document,
13 such that these passages are covered ``densely enough'' with corresponding
14 common features. For PAN 2013, we have modified the postprocessing phase:
15 the fact that the algorithm had access to the whole corpus of source and
16 suspicious documents at once allowed us to process the documents in one
17 batch and to perform a global post-processing, handling the overlapping
18 detections not only between the given suspicious and source document,
19 but also between all the detections from a given suspicious document.
20 The modifications brought a significant improvement compared to PAN 2013
21 on a training corpus, and the results from the competition corpus
22 are similar enough to claim that these improvements are usable in general.