]> www.fi.muni.cz Git - pan13-paper.git/commitdiff
Prvni plneni textu, jeste je potreba hodne dopsat :)
authorSimon Suchomel <xsuchom1@anxur.fi.muni.cz>
Tue, 28 May 2013 13:15:43 +0000 (15:15 +0200)
committerSimon Suchomel <xsuchom1@anxur.fi.muni.cz>
Tue, 28 May 2013 13:15:43 +0000 (15:15 +0200)
pan13-paper/img/source_retrieval_process.pdf [new file with mode: 0755]
pan13-paper/pan13-notebook.aux
pan13-paper/pan13-notebook.bib
pan13-paper/pan13-notebook.log
pan13-paper/pan13-notebook.pdf
pan13-paper/pan13-notebook.tex
pan13-paper/simon-source_retrieval.aux
pan13-paper/simon-source_retrieval.tex
pan13-paper/yenya-text_alignment.aux
pan13-paper/yenya-text_alignment.tex

diff --git a/pan13-paper/img/source_retrieval_process.pdf b/pan13-paper/img/source_retrieval_process.pdf
new file mode 100755 (executable)
index 0000000..bc4c6b9
Binary files /dev/null and b/pan13-paper/img/source_retrieval_process.pdf differ
index 863dc19672ae74f6a31e69edd25727b63d97f687..3f11c17dc737d2fa32aca4c36d4e95e4ebe8206f 100644 (file)
@@ -11,4 +11,5 @@
 \@input{yenya-text_alignment.aux}
 \bibstyle{splncs03}
 \bibdata{pan13-notebook}
-\@writefile{toc}{\contentsline {section}{\numberline {4}Conclusion}{4}}
+\bibcite{chatnoir}{1}
+\@writefile{toc}{\contentsline {section}{\numberline {4}Conclusions}{5}}
index e69de29bb2d1d6434b8b29ae775ad8c2e48c5391..f424bf1787da068b96dc7c42f29af2341493068e 100755 (executable)
@@ -0,0 +1,13 @@
+@INPROCEEDINGS{chatnoir,\r
+        AUTHOR             = {Martin Potthast and Matthias Hagen and Benno Stein and Jan Gra{\ss}egger and Maximilian Michel and Martin Tippmann and Clement Welsch},\r
+        BOOKTITLE          = {35th International ACM Conference on Research and Development in Information Retrieval (SIGIR 12)},\r
+        DOI                = {},\r
+        EDITOR             = {Bill Hersh and Jamie Callan and Yoelle Maarek and Mark Sanderson},\r
+        ISBN               = {},\r
+        MONTH              = aug,\r
+        PAGES              = {},\r
+        PUBLISHER          = {},\r
+        SITE               = {Portland, Oregon},\r
+        TITLE              = {{ChatNoir: A Search Engine for the ClueWeb09 Corpus}},\r
+        YEAR               = {2012}\r
+}\r
index 3aa6225d00b2b1f5e7b321adf329dafb04bb79c6..08cbc133595d4664f5d09a171dbabcae3e14f369 100644 (file)
@@ -1,4 +1,4 @@
-This is pdfeTeXk, Version 3.141592-1.11a-2.1 (Web2C 7.5.2) (format=pdflatex 2011.8.15)  10 MAY 2013 15:21
+This is pdfeTeXk, Version 3.141592-1.11a-2.1 (Web2C 7.5.2) (format=pdflatex 2011.8.15)  28 MAY 2013 14:44
 entering extended mode
  %&-line parsing enabled.
 **pan13-notebook.tex
@@ -181,7 +181,7 @@ File: pdftex.def 2002/06/19 v0.03k graphics/color for pdftex
 \Gin@req@width=\dimen126
 )
 (./pan13-notebook.aux (./simon-source_retrieval.aux)
-(./yenya-dtext_alignment.aux))
+(./yenya-text_alignment.aux))
 \openout1 = `pan13-notebook.aux'.
 
 LaTeX Font Info:    Checking defaults for OML/cmm/m/it on input line 8.
@@ -281,34 +281,45 @@ red
 }]
 \openout2 = `simon-source_retrieval.aux'.
 
- (./simon-source_retrieval.tex) [2
+ (./simon-source_retrieval.tex
+<img/source_retrieval_process.pdf, id=14, 518.6878pt x 264.99pt>
+File: img/source_retrieval_process.pdf Graphic file (type pdf)
 
-]
+<use img/source_retrieval_process.pdf>
+LaTeX Font Info:    External font `cmex10' loaded for size
+(Font)              <9> on input line 36.
+LaTeX Font Info:    External font `cmex10' loaded for size
+(Font)              <6> on input line 36.
+ [2
+
+ <./img/source_retrieval_process.pdf>]
+LaTeX Font Info:    Font shape `T1/ptm/bx/n' in size <10> not available
+(Font)              Font shape `T1/ptm/b/n' tried instead on input line 49.
+) [3]
 \openout2 = `yenya-text_alignment.aux'.
 
- (./yenya-text_alignment.tex) [3
+ (./yenya-text_alignment.tex) [4
 
 
-]
-No file pan13-notebook.bbl.
-[4
+] (./pan13-notebook.bbl) [5
 
-] (./pan13-notebook.aux (./simon-source_retrieval.aux)
+]
+(./pan13-notebook.aux (./simon-source_retrieval.aux)
 (./yenya-text_alignment.aux)) ) 
 Here is how much of TeX's memory you used:
- 1837 strings out of 94668
- 22204 string characters out of 1175711
- 76646 words of memory out of 1527888
- 4965 multiletter control sequences out of 10000+50000
32234 words of font info for 34 fonts, out of 1000000 for 2000
+ 1868 strings out of 94668
+ 22666 string characters out of 1175711
+ 77666 words of memory out of 1527908
+ 4987 multiletter control sequences out of 10000+50000
47511 words of font info for 49 fonts, out of 1000000 for 2000
  458 hyphenation exceptions out of 1000
- 29i,4n,21p,221b,226s stack positions out of 5000i,500n,6000p,200000b,40000s
22 PDF objects out of 300000
+ 29i,9n,21p,221b,226s stack positions out of 5000i,500n,6000p,200000b,40000s
56 PDF objects out of 300000
  0 named destinations out of 131072
1 words of extra memory for PDF output out of 65536
6 words of extra memory for PDF output out of 65536
 {/export/packages/share/texlive2003/texmf/dvips/
 psnfss/8r.enc}</export/packages/share/texlive2003/texmf/fonts/type1/urw/courier
 /ucrr8a.pfb></export/packages/share/texlive2003/texmf/fonts/type1/urw/times/utm
 r8a.pfb></export/packages/share/texlive2003/texmf/fonts/type1/urw/times/utmb8a.
 pfb>
-Output written on pan13-notebook.pdf (4 pages, 42541 bytes).
+Output written on pan13-notebook.pdf (5 pages, 146423 bytes).
index e3ba710a7cff92648f43eae4eef837b9d911a740..cbde3e147a0444daf3f8222d026f50595babbc75 100644 (file)
Binary files a/pan13-paper/pan13-notebook.pdf and b/pan13-paper/pan13-notebook.pdf differ
index bfe20e25bd626789046367f05dc0f558372fccf3..a6d2ba3f9c7dc1bbd7590de86fcd611a417f2864 100755 (executable)
@@ -33,7 +33,8 @@ The notebooks shall contain a full write-up of your approach, including all deta
 \include{yenya-text_alignment}
 
 
-\section{Conclusion}
+\section{Conclusions}
+
 
 \bibliographystyle{splncs03}
 \begin{raggedright}
index f5e2645736107bcfcb10fa9d6a179762244c6d2e..1648a02fa298d2b8a6ff807ee313c44e031e1a56 100644 (file)
@@ -1,21 +1,31 @@
 \relax 
+\citation{chatnoir}
 \@writefile{toc}{\contentsline {section}{\numberline {2}Source Retrieval}{2}}
+\@writefile{lof}{\contentsline {figure}{\numberline {1}{\ignorespaces Source retrieval process.}}{2}}
+\newlabel{fig:source_retr_process}{{1}{2}}
+\@writefile{toc}{\contentsline {subsection}{\numberline {2.1}Querying}{3}}
+\@writefile{toc}{\contentsline {subsubsection}{Keywords Based Queries}{3}}
+\@writefile{toc}{\contentsline {subsubsection}{Intrinsic Plagiarism Based Queries}{3}}
+\@writefile{toc}{\contentsline {subsubsection}{Paragraph Based Queries}{3}}
+\@writefile{toc}{\contentsline {subsection}{\numberline {2.2}Search Control}{3}}
+\@writefile{toc}{\contentsline {subsection}{\numberline {2.3}Result Selection}{3}}
+\@writefile{toc}{\contentsline {subsection}{\numberline {2.4}Snippet Control}{3}}
 \@setckpt{simon-source_retrieval}{
-\setcounter{page}{3}
+\setcounter{page}{4}
 \setcounter{equation}{0}
 \setcounter{enumi}{0}
 \setcounter{enumii}{0}
 \setcounter{enumiii}{0}
 \setcounter{enumiv}{0}
-\setcounter{footnote}{0}
+\setcounter{footnote}{2}
 \setcounter{mpfootnote}{0}
 \setcounter{part}{0}
 \setcounter{section}{2}
-\setcounter{subsection}{0}
+\setcounter{subsection}{4}
 \setcounter{subsubsection}{0}
 \setcounter{paragraph}{0}
 \setcounter{subparagraph}{0}
-\setcounter{figure}{0}
+\setcounter{figure}{1}
 \setcounter{table}{0}
 \setcounter{chapter}{1}
 \setcounter{@inst}{1}
index e32c1913b6233549de774586b17a7bbffdd08d4e..b3289c9fe6beb2c3e0f1e7e818d68212a2849462 100755 (executable)
@@ -1 +1,78 @@
 \section{Source Retrieval}\r
+The source retrieval is a subtask in a plagiarism detection process during\r
+which only a relatively small subset of documents are retrieved from the\r
+large corpus. Those candidate documents are usually further compared in detail with the\r
+suspicious document. In the PAN 2013 source retrieval subtask the main goal was to\r
+identified web pages which have been used as a source of plagiarism for creation of the \r
+test corpus. \r
+The test corpus contained XX documents each discussing one and only one theme.\r
+Those documents were created intentionally by\r
+ semiprofessional writers, thus they feature nearly realistic plagiarism cases. \r
+ Such conditions are similar to a realistic plagiarism detection scenario, such as for\r
+state of the art commercial plagiarism detection systems or the anti-plagiarism service developed on and\r
+utilized at the Masaryk University. The main difference between real-world corpus \r
+of suspicious documents such as for example corpus created from theses stored in Information System of Masaryk University\r
+and the corpus of suspicious documents used during the PAN 2013 competition is that in the PAN\r
+corpus each document contains plagiarism passages. Therefore we can deepen the search during the process\r
+in certain parts of the document where no similar passage has yet been found. This is the main\r
+idea of improving recall of detected plagiarism in a suspicious document.\r
+\r
+\r
+\begin{figure}\r
+  \centering\r
+  \includegraphics[width=1.00\textwidth]{img/source_retrieval_process.pdf}\r
+  \caption{Source retrieval process.}\r
+  \label{fig:source_retr_process}\r
+\end{figure}\r
+\r
+An online plagiarism detection can be viewed as a reverse engineering task where \r
+we need to find original documents from which the plagiarized document was created.\r
+During the process the plagiarist locates original documents with the use of a search engine.\r
+The user decides what query the search engine to ask and which of the results from the result page to use.\r
+In real-world scenario the corpus is the whole Web and the search engine can be a contemporary commercial search engine\r
+which scales to the size of the Web. This methodology is based on the fact that we do not\r
+possess enough resources to download and effectively process the whole corpus.\r
+In the case of PAN 2013 competition the corpus\r
+of source documents is the ClueWeb~\footnote{\url{http://lemurproject.org/clueweb09.php/}} corpus. \r
+As a document retrieval tool for the competition we utilized the ChatNoir~\cite{chatnoir} search engine which indexes the English\r
+subset of the ClueWeb.   \r
+The reverse engineering decision process reside in creation of suitable queries on the basis of the suspicious document\r
+and in decision what to actually download and what to report as a plagiarism case from the search results.\r
+\r
+These first two stages can be viewed in figure~\ref{fig:source_retr_process} as Querying and Selecting. Selected results \r
+from the search engine are forthwith textually aligned with the suspicious document (see section~\ref{text_alignment} for more details).\r
+This is the last decision phase -- what to report.\r
+If there is any continuous passage of reused text detected, the result document is reported\r
+ and the continuous passages in the suspicious document are marked as 'discovered' and no further processing\r
+of those parts is made. \r
\r
+\subsection{Querying}\r
+Querying means to effectively utilize the search engine in order to retrieve as many relevant\r
+documents as possible with the minimum amount of queries. We consider the resulting document relevant \r
+if it shares some of text characteristics with the suspicious document.  \r
+\r
+We used 3 different types of queries~\footnote{We used similar three-way based methodology in PAN 2012 \r
+Candidate Document Retrieval subtask. However this time we completely replaced the headers based queries\r
+with paragraph based queries, since the headers based queries did not pay off in the overall process.}:\r
+i) keywords based queries, ii) intrinsic plagiarism\r
+based queries, and iii) paragraph based queries. Three main properties distinguish each type of query: i) Positional; ii) Phrasal; iii) Deterministic.\r
+Positional queries carry extra information about a textual interval in the suspicious document which the query represents.\r
+A phrasal query aims for retrieval of documents containing the same small piece of a text. They are usually created from closely coupled words. \r
+Deterministic queries for specific suspicious document are always the same no matter how many times we run the software. \r
+On the contrary the software can create in two runs potentially different nondeterministic queries.\r
+\r
+\subsubsection{Keywords Based Queries}\r
+\r
+\subsubsection{Intrinsic Plagiarism Based Queries}\r
+\subsubsection{Paragraph Based Queries}\r
+\subsection{Search Control}\r
+\r
+\r
+\subsection{Result Selection}\r
+\subsection{Snippet Control}\r
+\r
+\r
\r
+\r
+\r
+\r
index 0cc5e52a01844d92d742b7fe2fdf8b54c2e736a2..566eeb05e2255ab0aa3fb7bbb519c490cacbd378 100644 (file)
@@ -1,13 +1,14 @@
 \relax 
-\@writefile{toc}{\contentsline {section}{\numberline {3}Text Alignment}{3}}
+\@writefile{toc}{\contentsline {section}{\numberline {3}Text Alignment}{4}}
+\newlabel{text_alignment}{{3}{4}}
 \@setckpt{yenya-text_alignment}{
-\setcounter{page}{4}
+\setcounter{page}{5}
 \setcounter{equation}{0}
 \setcounter{enumi}{0}
 \setcounter{enumii}{0}
 \setcounter{enumiii}{0}
 \setcounter{enumiv}{0}
-\setcounter{footnote}{0}
+\setcounter{footnote}{2}
 \setcounter{mpfootnote}{0}
 \setcounter{part}{0}
 \setcounter{section}{3}
@@ -15,7 +16,7 @@
 \setcounter{subsubsection}{0}
 \setcounter{paragraph}{0}
 \setcounter{subparagraph}{0}
-\setcounter{figure}{0}
+\setcounter{figure}{1}
 \setcounter{table}{0}
 \setcounter{chapter}{1}
 \setcounter{@inst}{1}
index c3c6c4984c0f2c6c941a581ceb5f55cdb4ffa835..7a93e50fc0564bf32935d00ce872acc1daa070c9 100755 (executable)
@@ -1 +1 @@
-\section{Text Alignment}\r
+\section{Text Alignment}~\label{text_alignment}\r