]> www.fi.muni.cz Git - pan13-paper.git/commitdiff
Kratim
authorSimon Suchomel <xsuchom1@anxur.fi.muni.cz>
Fri, 31 May 2013 16:50:22 +0000 (18:50 +0200)
committerSimon Suchomel <xsuchom1@anxur.fi.muni.cz>
Fri, 31 May 2013 16:50:22 +0000 (18:50 +0200)
pan13-paper/img/snippets_graph.pdf
pan13-paper/simon-source_retrieval.tex

index 7441e984874e17222e39caf164c2b68a9b33468c..96192d0829de2547d1a97c3b11aa308e497e4651 100755 (executable)
Binary files a/pan13-paper/img/snippets_graph.pdf and b/pan13-paper/img/snippets_graph.pdf differ
index 4316d6c57b8fc03bb818359a2f449357f560b077..8e94380e1b84ec6f8fd71f59caee5390a3088ba8 100755 (executable)
@@ -18,14 +18,6 @@ a plagiarized passage and deepen the search during the process
 in certain parts of the document where no similar passage has yet been found.\r
 % This is the main idea of improving recall of detected plagiarism in a suspicious document.\r
 \r
-\r
-\begin{figure}\r
-  \centering\r
-  \includegraphics[width=1.00\textwidth]{img/source_retrieval_process.pdf}\r
-  \caption{Source retrieval process.}\r
-  \label{fig:source_retr_process}\r
-\end{figure}\r
-\r
 An online plagiarism detection can be viewed as a reverse engineering task where \r
 we need to find original documents from which the plagiarized document was created.\r
 During the process the plagiarist locates original documents with the use of a search engine.\r
@@ -39,6 +31,13 @@ possess enough resources to download and effectively process the whole corpus.
 In the case of PAN 2013 competition we utilized the ChatNoir~\cite{chatnoir} \r
 search engine which indexes the English subset of the ClueWeb.\r
 \r
+\begin{figure}\r
+  \centering\r
+  \includegraphics[width=0.8\textwidth]{img/source_retrieval_process.pdf}\r
+  \caption{Source retrieval process.}\r
+  \label{fig:source_retr_process}\r
+\end{figure}\r
+\r
 The reverse engineering decision process resides in creation of suitable queries on the basis of the suspicious document\r
 and in decision what to actually download and what to report as a plagiarism case from the search results.\r
 \r
@@ -67,9 +66,8 @@ Deterministic queries for specific suspicious document are always the same no ma
 \r
 \subsubsection{Keywords Based Queries.}\r
 The keywords based queries are composed of automatically extracted keywords from the whole suspicious document.\r
-Their purpose is to retrieve documents concerning the same theme. Two documents discussing the \r
-same theme usually share a set of overlapping keywords. Also the combination of keywords in\r
-query matters. \r
+Their purpose is to retrieve documents concerning the same theme.\r
+%Two documents discussing the same theme usually share a set of overlapping keywords. Also the combination of keywords in query matters. \r
 As a method for automated keywords extraction, we used a frequency based approach described in~\cite{suchomel_kas_12}.\r
 The method combines term frequency analysis with TF-IDF score~\cite{Introduction_to_information_retrieval}. As a reference\r
 corpus we used English web corpus~\cite{ententen} crawled by SpiderLink~\cite{SpiderLink} in 2012 which contains 4.65 billion tokens. \r
@@ -78,31 +76,31 @@ Each keywords based query was constructed from five top ranked keywords consecut
 used only in one query. Too long keywords based queries would be overspecific and it would have resulted\r
 in a low recall. On the other hand having constructed too short queries (one or two tokens) would have resulted\r
 in a low precision and also possibly low recall since they would be too general.\r
-\r
 In order to direct the search more at the highest ranked keywords we also extracted their \r
 most frequent two and three term long collocations. These were combined also into queries of 5 words.\r
 Resulting the 4 top ranked keywords alone can appear in two different queries, one from the keywords\r
-alone and one from the collocations. Collocation describes its keyword better than the keyword alone. \r
+alone and one from the collocations.\r
+%Collocation describes its keyword better than the keyword alone. \r
 \r
 The keywords based queries are non-positional, since they represent the whole document. They are also non-phrasal since\r
 they are constructed of tokens gathered from different parts of the text. And they are deterministic; for certain input\r
 document the extractor always returns the same keywords.\r
 \r
 \subsubsection{Intrinsic Plagiarism Based Queries.}\r
-The second type of queries purpose to retrieve pages which contain similar text detected\r
+The second type of queries purpose to retrieve pages which contain text detected\r
 as different, in a manner of writing style, from other parts of the suspicious document.\r
 Such a change may point out plagiarized passage which is intrinsically bound up with the text.  \r
 We implemented vocabulary richness method which computes average word frequency class value for \r
-a given text part. The method is described in~\cite{awfc}. The problem is that generally methods\r
-based on the vocabulary statistics work better for longer texts. According to authors this method\r
-scales well for shorter texts than other text style detection methods. \r
-Still the usage is in our case limited by relatively short texts. It is also difficult to determine\r
+a given text part. The method is described in~\cite{awfc}.\r
+%The problem is that generally methods based on the vocabulary statistics work better for longer texts.\r
+%According to authors this method scales well for shorter texts than other text style detection methods. \r
+The usage of this method is in our case limited by relatively short texts.\r
+It is also difficult to determine\r
 what parts of text to compare. Therefore we used sliding window concept for text chunking with the \r
 same settings as described in~\cite{suchomel_kas_12}.\r
 \r
 A representative sentence longer than 6 words was randomly selected among those that apply from the suspicious part of the document.\r
-An intrinsic plagiarism based query is created from the representative sentence leaving out stop words.\r
-\r
+The query was created from the representative sentence leaving out stop words.\r
 The intrinsic plagiarism based queries are positional. They carry the position of the representative sentence in the document.\r
 They are phrasal, since they represent a search for a specific sentence. And they are\r
 nondeterministic, because the representative sentence is selected randomly. \r
@@ -110,15 +108,13 @@ nondeterministic, because the representative sentence is selected randomly.
 \subsubsection{Paragraph Based Queries.}\r
 The purpose of paragraph based queries is to check some parts of the text in more depth.\r
 Those are parts for which no similarity has been found during previous searches. \r
-\r
 For this case we considered a paragraph as a minimum text chunk for plagiarism to occur. \r
-It is discussible whether a plagiarist would be persecuted for plagiarizing only one sentence in a paragraph.\r
-Also a detection of a specific sentence is very difficult if we want to avoid exhaustive search approach.\r
-If someone is to reuse some peace of continuous text, it would probably be no shorter than a paragraph. \r
+%It is discussible whether a plagiarist would be persecuted for plagiarizing only one sentence in a paragraph.\r
+%A detection of a specific sentence is very difficult if we want to avoid exhaustive search approach.\r
+%If someone is to reuse some peace of continuous text, it would probably be no shorter than a paragraph. \r
 Despite the fact, that paragraphs differ in length, we represent one paragraph by only one query.\r
 \r
-\r
-The paragraph based query was created from each paragraph of suspicious document.\r
+%The paragraph based query was created from each paragraph of suspicious document.\r
 From each paragraph we extracted the longest sentence from which the query was constructed.\r
 Ideally the extracted sentence should carry the highest information gain.\r
 The query was maximally 10 words in length which is the upper bound of ChatNoir\r
@@ -165,7 +161,7 @@ On the basis of snippet, we needed to decide whether to actually download the re
 \subsection{Snippet Control}\r
 \begin{figure}\r
   \centering\r
-  \includegraphics[width=1.00\textwidth]{img/snippets_graph.pdf}\r
+  \includegraphics[width=0.8\textwidth]{img/snippets_graph.pdf}\r
   \caption{Downloads and similarities performance.}\r
   \label{fig:snippet_graph}\r
 \end{figure}\r