]> www.fi.muni.cz Git - pan13-paper.git/blob - pan13-paper/pan13-notebook.tex
8adaa7fbe8b4bb50701a04f4498a2289c6fa0aa5
[pan13-paper.git] / pan13-paper / pan13-notebook.tex
1 \documentclass{llncs}
2 \usepackage[american]{babel}
3 \usepackage[T1]{fontenc}
4 \usepackage{times}
5 \usepackage{graphicx}
6
7 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
8 \begin{document}
9
10 \title{Diverse Queries and Feature Type Selection for Plagiarism Discovery}
11 %%% Please do not remove the subtitle.
12 \subtitle{Notebook for PAN at CLEF 2013}
13
14 \author{\v{S}imon Suchomel \and Jan Kasprzak \and Michal Brandejs}
15 \institute{Faculty of Informatics, Masaryk University \\
16 {\tt\{suchomel,kas,brandejs\}@fi.muni.cz}}
17
18 \maketitle
19
20 \begin{abstract}
21 This paper describes approaches used for the Plagiarism Detection task in PAN 2013 international competition
22 on uncovering plagiarism, authorship, and social software misuse.  
23 We present modified three-way search methodology for Source Retrieval subtask and analyse snippet similarity performance.
24 The results show, that presented approach is adaptable in real-world plagiarism situations.
25 For the Detailed Comparison task, we discuss feature type selection and
26 global postprocessing. Resulting performance is significantly better
27 with the described modifications, and further improvement is still possible.
28 \end{abstract}
29
30
31 \section{Introduction}
32 In PAN 2013 competition on plagiarism detection we participated in both the Source Retrieval
33 and the Text Alignment subtask. In both tasks we adapted methodology used in PAN 2012\footnote{%
34 See \cite{pan2012} for an overview of PAN 2012 plagiarism detection campaign.} \cite{suchomel_kas_12}.
35 Section~\ref{source_retr} describes querying approach for source retrieval, where we used three different 
36 types of queries. We present a new type of query based on text paragraphs.
37 The query execution were controled by its type and by preliminary similarities
38 discovered during the searches. 
39 Section~\ref{text_alignment} describes our approach for the text alignment
40 (pairwise comparison) subtask. We briefly introduce our system,
41 and then we discuss the feature types, which are usable for pairwise comparison, 
42 including the evaluation of their feasibility for this purpose. We then describe
43 the global (corpus-wide) optimizations used, and finally we discuss
44 the results achieved and further development.
45
46 \input{simon-source_retrieval}
47 \input{yenya-text_alignment}
48
49
50 \section{Conclusions}
51 We introduces querying strategy with snippet similarity measure which approved to be
52 competitive. In source retrieval subtask the strategy performed with the second best ratio 
53 of recall to the number of used queries.  
54 We focused our queries on selected parts of text 
55 and on parts with no discovered external similarities. 
56 Unfortunately the ChatNoir search engine currently does not support phrasal search, therefore it
57 is possible that evaluated results may be quite distorted in this manner.
58
59 In the text alignment subtask, we have achieved a significant improvement
60 with respect to our system from PAN 2012. Further development in this
61 area is still possible. For a real-world system, however, a completely
62 different set of parameters and heuristics needs to be used, as a result
63 of plagdet score together with the structure of the competition corpus
64 being too different from the real world.
65
66 \bibliographystyle{splncs03}
67 \begin{raggedright}
68 \bibliography{pan13-notebook}
69 \end{raggedright}
70
71 \end{document}
72
73
74 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
75