]> www.fi.muni.cz Git - pan13-paper.git/blobdiff - pan13-paper/simon-source_retrieval.tex
Prvni plneni textu, jeste je potreba hodne dopsat :)
[pan13-paper.git] / pan13-paper / simon-source_retrieval.tex
index e32c1913b6233549de774586b17a7bbffdd08d4e..b3289c9fe6beb2c3e0f1e7e818d68212a2849462 100755 (executable)
@@ -1 +1,78 @@
 \section{Source Retrieval}\r
+The source retrieval is a subtask in a plagiarism detection process during\r
+which only a relatively small subset of documents are retrieved from the\r
+large corpus. Those candidate documents are usually further compared in detail with the\r
+suspicious document. In the PAN 2013 source retrieval subtask the main goal was to\r
+identified web pages which have been used as a source of plagiarism for creation of the \r
+test corpus. \r
+The test corpus contained XX documents each discussing one and only one theme.\r
+Those documents were created intentionally by\r
+ semiprofessional writers, thus they feature nearly realistic plagiarism cases. \r
+ Such conditions are similar to a realistic plagiarism detection scenario, such as for\r
+state of the art commercial plagiarism detection systems or the anti-plagiarism service developed on and\r
+utilized at the Masaryk University. The main difference between real-world corpus \r
+of suspicious documents such as for example corpus created from theses stored in Information System of Masaryk University\r
+and the corpus of suspicious documents used during the PAN 2013 competition is that in the PAN\r
+corpus each document contains plagiarism passages. Therefore we can deepen the search during the process\r
+in certain parts of the document where no similar passage has yet been found. This is the main\r
+idea of improving recall of detected plagiarism in a suspicious document.\r
+\r
+\r
+\begin{figure}\r
+  \centering\r
+  \includegraphics[width=1.00\textwidth]{img/source_retrieval_process.pdf}\r
+  \caption{Source retrieval process.}\r
+  \label{fig:source_retr_process}\r
+\end{figure}\r
+\r
+An online plagiarism detection can be viewed as a reverse engineering task where \r
+we need to find original documents from which the plagiarized document was created.\r
+During the process the plagiarist locates original documents with the use of a search engine.\r
+The user decides what query the search engine to ask and which of the results from the result page to use.\r
+In real-world scenario the corpus is the whole Web and the search engine can be a contemporary commercial search engine\r
+which scales to the size of the Web. This methodology is based on the fact that we do not\r
+possess enough resources to download and effectively process the whole corpus.\r
+In the case of PAN 2013 competition the corpus\r
+of source documents is the ClueWeb~\footnote{\url{http://lemurproject.org/clueweb09.php/}} corpus. \r
+As a document retrieval tool for the competition we utilized the ChatNoir~\cite{chatnoir} search engine which indexes the English\r
+subset of the ClueWeb.   \r
+The reverse engineering decision process reside in creation of suitable queries on the basis of the suspicious document\r
+and in decision what to actually download and what to report as a plagiarism case from the search results.\r
+\r
+These first two stages can be viewed in figure~\ref{fig:source_retr_process} as Querying and Selecting. Selected results \r
+from the search engine are forthwith textually aligned with the suspicious document (see section~\ref{text_alignment} for more details).\r
+This is the last decision phase -- what to report.\r
+If there is any continuous passage of reused text detected, the result document is reported\r
+ and the continuous passages in the suspicious document are marked as 'discovered' and no further processing\r
+of those parts is made. \r
\r
+\subsection{Querying}\r
+Querying means to effectively utilize the search engine in order to retrieve as many relevant\r
+documents as possible with the minimum amount of queries. We consider the resulting document relevant \r
+if it shares some of text characteristics with the suspicious document.  \r
+\r
+We used 3 different types of queries~\footnote{We used similar three-way based methodology in PAN 2012 \r
+Candidate Document Retrieval subtask. However this time we completely replaced the headers based queries\r
+with paragraph based queries, since the headers based queries did not pay off in the overall process.}:\r
+i) keywords based queries, ii) intrinsic plagiarism\r
+based queries, and iii) paragraph based queries. Three main properties distinguish each type of query: i) Positional; ii) Phrasal; iii) Deterministic.\r
+Positional queries carry extra information about a textual interval in the suspicious document which the query represents.\r
+A phrasal query aims for retrieval of documents containing the same small piece of a text. They are usually created from closely coupled words. \r
+Deterministic queries for specific suspicious document are always the same no matter how many times we run the software. \r
+On the contrary the software can create in two runs potentially different nondeterministic queries.\r
+\r
+\subsubsection{Keywords Based Queries}\r
+\r
+\subsubsection{Intrinsic Plagiarism Based Queries}\r
+\subsubsection{Paragraph Based Queries}\r
+\subsection{Search Control}\r
+\r
+\r
+\subsection{Result Selection}\r
+\subsection{Snippet Control}\r
+\r
+\r
\r
+\r
+\r
+\r