]> www.fi.muni.cz Git - pan13-paper.git/commitdiff
Prvni nastrel Y. kapitoly + bibliografie
authorJan "Yenya" Kasprzak <kas@fi.muni.cz>
Thu, 30 May 2013 15:33:38 +0000 (17:33 +0200)
committerJan "Yenya" Kasprzak <kas@fi.muni.cz>
Thu, 30 May 2013 15:33:38 +0000 (17:33 +0200)
pan13-paper/pan13-notebook.bib
pan13-paper/yenya-text_alignment.tex

index f424bf1787da068b96dc7c42f29af2341493068e..e325b6f2034a30275643ee8c6e945ab4235d5781 100755 (executable)
         TITLE              = {{ChatNoir: A Search Engine for the ClueWeb09 Corpus}},\r
         YEAR               = {2012}\r
 }\r
+\r
+@INPROCEEDINGS{Kasprzak2009a,\r
+  AUTHOR =       "Jan Kasprzak and Michal Brandejs and Miroslav K\v{r}ipa\v{c}",\r
+  TITLE =        "Finding Plagiarism by Evaluating Document Similarities",\r
+  BOOKTITLE =    "SEPLN'09: The 25th edition of the Annual Conference of the Spanish Society for Natural Language Processing",\r
+  YEAR =         "2009",\r
+  file = F\r
+}\r
+\r
+@inproceedings{Kasprzak2010,\r
+  title={Improving the reliability of the plagiarism detection system},\r
+  author={Kasprzak, J. and Brandejs, M.},\r
+  booktitle={Notebook Papers of CLEF 2010 LABs and Workshops},\r
+  year={2010},\r
+  organization={Citeseer}\r
+}\r
+\r
+@article{stamatatos2011plagiarism,\r
+  title={Plagiarism detection using stopword n-grams},\r
+  author={Stamatatos, E.},\r
+  journal={Journal of the American Society for Information Science and Technology},\r
+  year={2011},\r
+  publisher={Wiley Online Library}\r
+}\r
+\r
+@inproceedings{suchomel2012,\r
+  title={Three way search engine queries with multi-feature document comparison for plagiarism detection},\r
+  author={Suchomel, {\v{S}}imon and Kasprzak, Jan and Brandejs, Michal},\r
+  booktitle={CLEF (Online Working Notes/Labs/Workshop)},\r
+  pages={0--8},\r
+  year={2012}\r
+}\r
+\r
+@inproceedings{torrejondetailed,\r
+  title={Detailed Comparison Module In CoReMo 1.9 Plagiarism Detector},\r
+  author={Torrej{\'o}n, Diego A Rodr{\'\i}guez and Ramos, Jos{\'e} Manuel Mart{\'\i}n},\r
+  booktitle={CLEF (Online Working Notes/Labs/Workshop)},\r
+  pages={1--8},\r
+  year={2012}\r
+}\r
index 7a93e50fc0564bf32935d00ce872acc1daa070c9..2f4a2d3fb57c056f4ce71d12c74e6bb799adabab 100755 (executable)
@@ -1 +1,51 @@
 \section{Text Alignment}~\label{text_alignment}\r
+\r
+\subsection{Overview}\r
+\r
+Our approach at the text alignment subtask of PAN 2013 uses the same\r
+basic principles as our previous work in this area, described\r
+in \cite{Suchomel2012}, which in turn builds on our work for previous\r
+PAN campaigns,, \cite{Kasprzak2010}, \cite{Kasprzak2009a}:\r
+\r
+We detect {\it common features} between source and suspicious documents,\r
+where features we currently use are word $n$-grams, and stop-word $m$-grams\r
+\cite{stamatatos2011plagiarism}. From those common features (each of which\r
+can occur multiple times in both source and suspicious document), we form\r
+{\it valid intervals}\footnote{%\r
+We describe the algorithm for computing valid intervals in \cite{Kasprzak2009a},\r
+and a similar approach is also used in \cite{stamatatos2011plagiarism}.}\r
+of characters\r
+from the source and suspicious documents, where the interval in both\r
+of these documents is covered ``densely enough'' by the common features.\r
+\r
+We then postprocess the valid intervals, removing overlapping detections,\r
+and merging detections which are close enough to each other.\r
+\r
+In the next sections, we summarize the modifications we did for PAN 2013,\r
+including approaches tried but not used. For the training corpus,\r
+our software from PAN 2012 gave the plagdet score of TODO, which we\r
+consider the baseline for further improvements.\r
+\r
+\subsection{Alternative features}\r
+\r
+TODO \cite{torrejondetailed}\r
+\r
+\subsection{Global postprocessing}\r
+\r
+For PAN 2013, the algorithm had access to all of the source and suspicious\r
+documents. Because of this, we have rewritten our software to handle\r
+all of the documents at once, in order to be able to do cross-document\r
+optimizations and postprocessing, similar to what we did for PAN 2010.\r
+This required refactorization of most of the code. We are able to handle\r
+most of the computation in parallel in per-CPU threads, with little\r
+synchronization needed. The parallelization was used especially\r
+for development, where it has provided a significant performance boost.\r
+The official performance numbers are from single-threaded run, though.\r
+\r
+For PAN 2010, we have used the following postprocessing heuristics:\r
+If there are overlapping detections inside a suspicious document,\r
+keep the longer one, provided that it is long enough. For overlapping\r
+detections up to 600 characters, \r
+TODO\r
+\r
+\r