]> www.fi.muni.cz Git - pan12-paper.git/blob - paper.tex
yenya: aplikovany pripominky od Simona
[pan12-paper.git] / paper.tex
1 \documentclass{llncs}
2 \usepackage[american]{babel}
3 %\usepackage[T1]{fontenc}
4 \usepackage[utf8]{inputenc}
5 \usepackage{times}
6 \usepackage{graphicx}
7 \usepackage{algorithm}
8 \usepackage{algorithmic}
9 \usepackage{amssymb}
10 \usepackage{multirow}
11
12 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
13 \begin{document}
14
15 \title{Three way search engine queries with multi-feature document comparison for plagiarism detection}
16 %%% Please do not remove the subtitle.
17 \subtitle{Notebook for PAN at CLEF 2012}
18
19 \author{\v{S}imon Suchomel \and Jan Kasprzak \and Michal Brandejs}
20 \institute{Faculty of Informatics, Masaryk University \\
21 {\tt\{suchomel,kas,brandejs\}@fi.muni.cz}}
22
23 \maketitle
24
25 \begin{abstract}
26 In this paper, we describe our approach at the PAN 2012 plagiarism detection competition.
27 Our candidate retrieval system is based on extraction of three different types of
28 web queries with narrowing their execution by skipping certain passages of an input document.
29
30 Our detailed comparison system detects common features of input  
31 document pair, computing valid intervals from them, and then merging
32 some detections in the postprocessing phase. We also discuss
33 the relevance of current PAN 2012 settings to the real-world
34 plagiarism detection systems.
35
36 \end{abstract}
37
38
39 \section{Introduction}
40
41 %The notebooks shall contain a full write-up of your approach, including all details necessary to reproduce your results.
42
43
44 Due to the increasing ease of plagiarism the plagiarism detection has nowadays become a need for many institutions.
45 Especially for universities where modern learning methods include e-learning and vast document sources are available online.
46 %In the Information System of Masaryk University~\cite{ismu} there is also an antiplagiarism tool which is based upon the same principles as are shown in this paper.
47 The core methods for automatic plagiarism detection, which also work in practice on extensive collections of documents,
48 are based on document similarities. In order to compute a similarity
49 we need to possess the original and the plagiarized document.
50 %The most straightforward method is to use an online search engine in order to enrich
51 %document base with potential plagiarized documents and evaluate the amount of plagiarism by detailed document comparison. 
52 %In this paper we introduce a method which has been used in PAN 2012 competition\footnote{\url{http://pan.webis.de/}}
53 %in plagiarism detection.
54
55 In the first section we will introduce methods, which took part in
56 PAN 2012 competition\footnote{\url{http://pan.webis.de/}} in plagiarism detection, for candidate document retrieval from online sources.
57 The task was to retrieve a set of candidate source documents that may had served as an original for plagiarism.
58 During the competition, there were several measures of performance such as: i) Number of queries submitted, 
59 ii) Number of web pages downloaded, iii) Precision and recall of web pages downloaded regarding the actual sources,
60 iv) Number of queries until the first actual source is found, v) Number of downloads until the first actual source is downloaded.
61 Nevertheless, the overall performance measure was not set, thus we mainly focus on minimizing the query workload.   
62 %In the PAN 2012 candidate document retrieval test corpus, there were 32 text documents all contained at least one plagiarism case.
63 %The documents were approximately 30 KB of size, the smallest were 18 KB and the largest were 44 KB.
64
65 In the second section we describe our approach to detailed document comparison.
66 We highlight the differences of this approach to the one we used for PAN 2010
67 competition. We then provide the outline of the algorithm, and describe
68 its steps in detail. We briefly mention the approaches we have explored,
69 but did not use in the final submission. Finally, we discuss the performance
70 of our system (both in terms of the plagdet score, and in terms of CPU time).
71
72
73 \include{simon-searchengine}
74 \include{yenya-detailed}
75
76 \section{Conclusions}
77
78 We present methods for candidate document retrieval which lead to
79 discovery a decent amount of plagiarism with minimizing the number of used queries. 
80 The proposed methods are applicable in general to any type of text input with no apriori information about the input document.
81 In PAN 2012 competition the proposed methods succeeded with competitive amount of plagiarism detected with
82 only a small fraction of used queries compared to the others.  
83  
84 We also present a novel approach for detailed (pair-wise) document
85 comparison, where we allow the common features of different types
86 to be evaluated together into valid intervals, even though the particular
87 types of common features can vary to the great extent in their length
88 and importance, and do not provide a natural ordering.
89 The presented approach achieved a second-highest plagdet score
90 in the PAN 2012 competition.
91
92 \bibliographystyle{splncs03}
93 \begin{raggedright}
94 \bibliography{paper}
95 \end{raggedright}
96
97 \end{document}
98
99
100 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
101