]> www.fi.muni.cz Git - pan12-paper.git/blobdiff - paper.tex
Prvni draft
[pan12-paper.git] / paper.tex
index e098f4ae4ceb6da19f51cf9b6876d7e38a20b561..dd3c3b7eb3bca282660dc46085e1476516aead19 100755 (executable)
--- a/paper.tex
+++ b/paper.tex
@@ -4,11 +4,15 @@
 \usepackage[utf8]{inputenc}
 \usepackage{times}
 \usepackage{graphicx}
+\usepackage{algorithm}
+\usepackage{algorithmic}
+\usepackage{amssymb}
+\usepackage{multirow}
 
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \begin{document}
 
-\title{Your Title}
+\title{Three way search engine queries with multi-feature document comparison for plagiarism detection}
 %%% Please do not remove the subtitle.
 \subtitle{Notebook for PAN at CLEF 2012}
 
@@ -28,8 +32,25 @@ Briefly describe the main ideas of your approach.
 %The notebooks shall contain a full write-up of your approach, including all details necessary to reproduce your results.
 
 
-Due to the increasing ease of plagirism the plagiarism detection has nowdays become a need for many instutisions. Especially for universities where modern learning methods include e-learning and a vast document sources are online available.  
+Due to the increasing ease of plagiarism the plagiarism detection has nowadays become a need for many institutions.
+Especially for universities where modern learning methods include e-learning and a vast document sources are online available.
+%In the Information System of Masaryk University~\cite{ismu} there is also an antiplagiarism tool which is based upon the same principles as are shown in this paper.
+The core methods for automatic plagiarism detection, which also work in practice on extensive collections of documents,
+are based on computation document similarities. In order to compute a similarity
+we need to possess the original and the plagiarized document.
+%The most straightforward method is to use an online search engine in order to enrich
+%document base with potential plagiarized documents and evaluate the amount of plagiarism by detailed document comparison. 
+%In this paper we introduce a method which has been used in PAN 2012 competition\footnote{\url{http://pan.webis.de/}}
+%in plagiarism detection.
+In the first section we will introduce methods for candidate document retrieval from online sources, which took part in
+PAN 2012  competition\footnote{\url{http://pan.webis.de/}} in plagiarism detection. 
+The task was to retrieve a set of candidate source documents that may had served as an original to plagiarize from.
+In the PAN 2012 candidate document retrieval test corpus, there were 32 text documents all contained at least one plagiarism case.
+The documents were approximately 30 KB of size, the smallest were 18 KB and the largest were 44 KB.
 
+In the second section we describe our approach of detailed document comparison.
+We also discuss the performance ...
 
 
 
@@ -38,7 +59,15 @@ Due to the increasing ease of plagirism the plagiarism detection has nowdays bec
 
 \section{Conclusions}
 
-Tady napsat zaver
+We present methods for candidate document retrieval which lead to
+discovery the decent amount of plagiarism with minimizing the number of used queries. 
+The proposed methods are applicable in general to any type of text input with no apriori information about the input document.
+In PAN 2012 competition the proposed methods succeeded with similar amount of plagiarism detected with
+only a small fraction of used queries compared to the others.  
+
+   
+
 
 \bibliographystyle{splncs03}
 \begin{raggedright}