]> www.fi.muni.cz Git - pan13-paper.git/commitdiff
Ctvrtecni upravy
authorSimon Suchomel <xsuchom1@anxur.fi.muni.cz>
Thu, 30 May 2013 21:00:51 +0000 (23:00 +0200)
committerSimon Suchomel <xsuchom1@anxur.fi.muni.cz>
Thu, 30 May 2013 21:00:51 +0000 (23:00 +0200)
pan13-paper/pan13-notebook.bib
pan13-paper/simon-source_retrieval.tex

index 59c4aa082237448f51861c2319e8ccdf33a5cbcb..204d2fcea2023069b652900d6638d7f0e101a337 100755 (executable)
@@ -12,7 +12,6 @@
         YEAR               = {2012}\r
 }\r
 \r
-<<<<<<< HEAD
 @inproceedings{suchomel_kas_12,\r
   added-at = {2012-10-01T11:37:58.000+0200},\r
   author = {Suchomel, {\v S}imon and Kasprzak, Jan and Brandejs, Michal},\r
@@ -85,7 +84,8 @@
         TITLE              = {Crowdsourcing Interaction Logs to Understand Text Reuse from the Web},\r
         URL                = {},\r
         YEAR               = {2013}\r
-=======
+}\r
+\r
 @INPROCEEDINGS{Kasprzak2009a,\r
   AUTHOR =       "Jan Kasprzak and Michal Brandejs and Miroslav K\v{r}ipa\v{c}",\r
   TITLE =        "Finding Plagiarism by Evaluating Document Similarities",\r
   booktitle={CLEF (Online Working Notes/Labs/Workshop)},\r
   pages={1--8},\r
   year={2012}\r
->>>>>>> 2278ad058d0a6e0c2228741c76aece9ace432912
 }\r
index d5b338b948a6cc4a13fac8319d8bb51328861b7e..29e97818b4c29103fc7cc8a5c9f1c233515a0594 100755 (executable)
@@ -73,7 +73,7 @@ The method combines term frequency analysis with TF-IDF score~\cite{Introduction
 corpus we used English web corpus~\cite{ententen} crawled by SpiderLink~\cite{SpiderLink} in 2012 which contains 4.65 billion tokens. \r
 \r
 Each keywords based query were constructed from five top ranked keywords consecutively. Each keyword were\r
-used only in one query. Too long keywords based queries would be over-specific and it would have resulted\r
+used only in one query. Too long keywords based queries would be overspecific and it would have resulted\r
 in a low recall. On the other hand having constructed too short (one or two tokens) queries would have resulted\r
 in a low precision and also possibly low recall since they would be too general.\r
 \r
@@ -143,7 +143,7 @@ no more intentionally retrieval attempts for that part were effectuated. Meaning
 discovered search engine results were evaluated, but there were executed no more queries regarding that passage.\r
 \r
 \r
-\subsection{Result Selection}\r
+\subsection{Result Selection}~\label{resSelection}\r
 The second main decisive area about source retrieval task is to decide which from the search engine results to download.\r
 This process is represented in figure~\ref{fig:source_retr_process} as 'Selecting'. \r
 Nowadays in real-world is download very cheap and quick operation. There can be some disk space considerations\r
@@ -157,11 +157,6 @@ operation. The snippet purpose is to have a quick glance at a small extract of r
 The extract is maximally 500 characters long and it is a portion of the document around given keywords.\r
 On the basis of snippet, we needed to decide whether to actually download the result or not.\r
 \r
-Since the snippet is relatively small and it can be discontinuous part of the text, the \r
-text alignment methods described in section~\ref{text_alignment} were insufficient for \r
-\r
-\r
-\r
 \subsection{Snippet Control}\r
 \begin{figure}\r
   \centering\r
@@ -169,6 +164,46 @@ text alignment methods described in section~\ref{text_alignment} were insufficie
   \caption{Downloads and similarities performance.}\r
   \label{fig:snippet_graph}\r
 \end{figure}\r
-\subsection{Source Retrieval Results}\r
 \r
+Since the snippet is relatively small and it can be discontinuous part of the text, the \r
+text alignment methods described in section~\ref{text_alignment} were insufficient \r
+in decision making over document download. Therefore we chose to compare existence of snippet word tuples\r
+in the suspicious document. For 1-tuples the measure means how many words from the snippet\r
+also exist in the suspicious document. If the snippet contains many common words they may\r
+also occur in many documents. In this case the 1-tuple measurement is little decisive. \r
+\r
+We used 2-tuples measurement, which indicates how many neighbouring word pairs coexist in the snippet and in the suspicious document.\r
+We decided according to this value whether to download the source or not. For the deduction \r
+ of the threshold value we used 4413 search results from various queries according to documents \r
+ in the training corpus. Each resulting document was textually aligned to its corresponding suspicious document.\r
+One similarity represents continuous passage of text alignment similarity as is described in the following section~\ref{text_alignment}.\r
+In this way we obtained 248 similarities in total after downloading all of the 4431 documents.\r
+\r
+The 2-tuples similarity performance is depicted in figure~\ref{fig:snippet_graph}.\r
+Horizontal axis represents threshold of the 2-tuples similarity percentage between the snippet and the suspicious document.\r
+The graph curves represent obtain resource percentage according to the snippet similarity threshold.\r
+A profitable threshold is the one with the largest distance between those two curves.\r
+We chose threshold of the snippet similarity to 20\%, which in the graph corresponds to 20\% of all\r
+downloads and simultaneously with 70\% discovered similarities.\r
\r
+\subsection{Source Retrieval Results}\r
+In PAN 2013 Source Retrieval subtask we competed with other 8 teams. \r
+There can not be selected the best approach because there were several independent\r
+performance measures. Possibly each approach has its pros and cons and many approaches\r
+are usable in different situations. \r
+\r
+We believe that in the realistic plagiarism detection the most important is keeping the number of\r
+queries low and simultaneously maximizing recall. \r
+% It is often some tradeoff between cost and efectivness.\r
+It is also advisable to keep the number of downloads down, but on the other hand,\r
+it is relatively cheep and easily scalable operation.\r
+\r
+Our approach had the second best ration of recall to the number of used queries, which\r
+tells about the query efficacy. The approach with the best ratio used few queries (4.9 queries per document which\r
+was 0.4 of the amount we used), but also obtained the lowest recall (0.65 of our recall).\r
+The approach with highest recall (and also lowest precision) achieved 2.8 times higher recall with 3.9 times more queries.\r
+\r
+Our approach achieved also low precision, which means we reported many more results and they\r
+were not considered as correct hits. On the other hand each reported result contained some\r
+textual similarity according to text alignment subtask score, which we believe is still worthwhile to report.\r
 \r