]> www.fi.muni.cz Git - pan13-paper.git/blobdiff - pan13-paper/simon-source_retrieval.tex
Ctvrtecni rane upravy
[pan13-paper.git] / pan13-paper / simon-source_retrieval.tex
index c27a16e627ebf792f05603fa21f075d4f2460e0c..2cb1a8f9c4f32945ef00a87e94c8fcc2fd9730c3 100755 (executable)
@@ -5,9 +5,9 @@ large corpus. Those candidate documents are usually further compared in detail w
 suspicious document. In the PAN 2013 source retrieval subtask the main goal was to\r
 identified web pages which have been used as a source of plagiarism for creation of the \r
 test corpus. \r
-The test corpus contained XX documents each discussing one and only one theme.\r
+The test corpus contained 58 documents each discussing one and only one theme.\r
 Those documents were created intentionally by\r
- semiprofessional writers, thus they feature nearly realistic plagiarism cases. \r
+ semiprofessional writers, thus they feature nearly realistic plagiarism cases~\cite{plagCorpus}\r
  Such conditions are similar to a realistic plagiarism detection scenario, such as for\r
 state of the art commercial plagiarism detection systems or the anti-plagiarism service developed on and\r
 utilized at the Masaryk University. The main difference between real-world corpus \r
@@ -33,7 +33,8 @@ In real-world scenario the corpus is the whole Web and the search engine can be
 which scales to the size of the Web. This methodology is based on the fact that we do not\r
 possess enough resources to download and effectively process the whole corpus.\r
 In the case of PAN 2013 competition the corpus\r
-of source documents is the ClueWeb\footnote{\url{http://lemurproject.org/clueweb09.php/}} corpus. \r
+of source documents is the ClueWeb\footnote{\url{http://lemurproject.org/clueweb09.php/}} corpus.\r
+\r
 As a document retrieval tool for the competition we utilized the ChatNoir~\cite{chatnoir} search engine which indexes the English\r
 subset of the ClueWeb.   \r
 The reverse engineering decision process reside in creation of suitable queries on the basis of the suspicious document\r
@@ -103,17 +104,47 @@ The intrinsic plagiarism based queries are positional. They carry the position o
 They are phrasal, since they represent a search for a specific sentence. And they are\r
 nondeterministic, because the representative sentence is selected randomly. \r
  \r
+\subsubsection{Paragraph Based Queries.}\r
+The purpose of paragraph based queries is to check some parts of the text in more depth.\r
+Parts for which no similarity has been found during previous searches. \r
 \r
+For this case we considered a paragraph as a minimum text chunk for plagiarism to occur. \r
+It is discussible whether a plagiarist would be persecuted for plagiarizing only one sentence in a paragraph.\r
+Also a detection of a specific sentence is very difficult if want to avoid exhaustive search approach.\r
+If someone is to reuse some peace of continuous text, it would probably be no shorter than a paragraph. \r
+Despite the fact, that paragraphs differ in length, we represent one paragraph by one query.\r
 \r
-\subsubsection{Paragraph Based Queries.}\r
-they were executed as the last asi az v search control\r
-it would be extremely difficult to detect a single sentence other way than by exhaustive searching methods\r
+\r
+The paragraph based query was created from each paragraph of a suspicious document.\r
+From each paragraph we extracted the longest sentence from which the query was constructed.\r
+Ideally the extracted sentence should carry the highest information gain.\r
+The query was maximally 10 words in length which is the upper bound of ChatNoir\r
+and was constructed from the selected sentence by omitting stop words.\r
 \r
 \subsection{Search Control}\r
-neoptimalizujeme na spravne utvorene dotazy z klicovych slov - stoji to vice dotazu\r
+For each suspicious document we prepared all three types of queries during the first phase at once.\r
+Queries were executed stepwise. \r
+After processing each query the results were evaluated (see the following subsection~\ref{resSelection} for more details) and from\r
+all textual similarities between each result and the suspicious document, the suspicious document intervals of those similarities\r
+were marked as 'discovered'. \r
+At first the keywords based queries. All of the keywords based queries were\r
+always executed. \r
+After having all the keywords based queries processed, the intrinsic plagiarism based queries were executed according to \r
+their creation sequence. \r
+Since they carry its position not all of the intrinsic plagiarism based queries were caried out.\r
+During the execution, if any of the query position intersected with any of the 'discovered' interval, the\r
+query was dropped out. In the same way, the last paragraph based queries were processed. \r
+\r
+This search control results in two major properties. Firstly, the source retrieval effort were increased \r
+in parts of the suspicious document, where there have not yet been found any textual similarity.\r
+Especially by the paragraph based queries. And secondly, after detection a similarity for a certain part of the text,\r
+no more intentionally retrieval attempts for that part were effectuated. Meaning that all\r
+discovered search engine results were evaluated, but there were executed no more queries regarding that passage.\r
 \r
 \r
 \subsection{Result Selection}\r
+\r
 \subsection{Snippet Control}\r
+\subsection{Source Retrieval Results}\r
 \r
 \r