]> www.fi.muni.cz Git - pan13-paper.git/blobdiff - pan13-paper/pan13-notebook.tex
Reference na 5th overview
[pan13-paper.git] / pan13-paper / pan13-notebook.tex
index 1d1330065b5e6b618dcf3cd86229f914d72d23c2..4bdcaedb1140014c5be76202e398e9d051a462b4 100755 (executable)
@@ -7,7 +7,7 @@
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \begin{document}
 
-\title{Diverse Queries and Feature Type Selection for Pairwise Document Comparison}
+\title{Diverse Queries and Feature Type Selection for Plagiarism Discovery}
 %%% Please do not remove the subtitle.
 \subtitle{Notebook for PAN at CLEF 2013}
 
@@ -22,19 +22,19 @@ This paper describes approaches used for the Plagiarism Detection task in PAN 20
 on uncovering plagiarism, authorship, and social software misuse.  
 We present modified three-way search methodology for Source Retrieval subtask and analyse snippet similarity performance.
 The results show, that presented approach is adaptable in real-world plagiarism situations.
-For the Detailed Comparison task, we discuss feature type selection,
-global postprocessing. We significantly improved the pairwise comparison
-results with even further optimizations possible.
+For the Detailed Comparison task, we discuss feature type selection and
+global postprocessing. Resulting performance is significantly better
+with the described modifications, and further improvement is still possible.
 \end{abstract}
 
 
 \section{Introduction}
 In PAN 2013 competition on plagiarism detection we participated in both the Source Retrieval
-and the Text Alignment subtask. In both tasks we adapted methodology used in PAN 2012\footnote{%
+and the Text Alignment subtasks. In both tasks we adapted methodology used in PAN 2012\footnote{%
 See \cite{pan2012} for an overview of PAN 2012 plagiarism detection campaign.} \cite{suchomel_kas_12}.
 Section~\ref{source_retr} describes querying approach for source retrieval, where we used three different 
 types of queries. We present a new type of query based on text paragraphs.
-The query execution were controled by its type and by preliminary similarities
+The query execution was controlled by its type and by preliminary similarities
 discovered during the searches. 
 Section~\ref{text_alignment} describes our approach for the text alignment
 (pairwise comparison) subtask. We briefly introduce our system,
@@ -48,8 +48,8 @@ the results achieved and further development.
 
 
 \section{Conclusions}
-We introduces querying strategy with snippet similarity measure which approved to be
-competitive. In source retrieval subtask the strategy performed with the second best ratio 
+We introduced querying strategy with snippet similarity measure. %which approved to be competitive.
+In source retrieval subtask the strategy performed with the second best ratio 
 of recall to the number of used queries.  
 We focused our queries on selected parts of text 
 and on parts with no discovered external similarities. 
@@ -62,6 +62,7 @@ area is still possible. For a real-world system, however, a completely
 different set of parameters and heuristics needs to be used, as a result
 of plagdet score together with the structure of the competition corpus
 being too different from the real world.
+More information obout the competition proceedings can be found in~\cite{pan2013}.
 
 \bibliographystyle{splncs03}
 \begin{raggedright}