]> www.fi.muni.cz Git - pan13-paper.git/blobdiff - pan13-poster/poster.tex
Yenya: conclusion. qr kod, literatura
[pan13-paper.git] / pan13-poster / poster.tex
index da045962ab135c7d43dfeeae5ae1a2f1449f9c0b..a01b220400aeb1d6e42f7b2fa44eead3b1b26c76 100755 (executable)
@@ -7,8 +7,8 @@
 \usepackage{bera}\r
 \usepackage[utf8]{inputenc}\r
 %\usepackage{fancybullets}\r
-\usepackage{floatflt}\r
-\usepackage{graphics}\r
+%\usepackage{floatflt}\r
+%\usepackage{graphics}\r
 \r
 \definecolor{BoxCol}{rgb}{0.9,0.9,1}\r
 % uncomment for light blue background to \section boxes \r
 \r
 \r
 \begin{multicols}{2}\setlength{\columnseprule}{0pt}\r
-\r
-\r
 \section{Introduction}\r
-PAN 2013 LOrem ipsum Lorem ipsum Lorem ipsumLorem ipsumLorem ipsumLorem ipsumLorem ipsum \r
-\r
-\r
-\r
+%\r
+A program for helping detering real-world plagiarism needs to accomplish many tasks.\r
+Original documents which served for creation of plagiarism must be retrieved and also suspicious passages according to\r
+input document must be highlighted. This poster presents methodology used during PAN2013 competition on uncovering plagiarism.\r
+\r
+The whole process is depicted at picture~\ref{fig:process}. The source retrieval task is divided into\r
+2 subtasks: Quering and Selecting, during which the software utilizes given search engine. The retrieved\r
+sources must be examined in detail in order to highlight as many plagiarism cases as possible. This process is depicted\r
+as Text Alignment.\r
+\r
+%\r
+\vfill\r
+\columnbreak\r
+%\r
 \begin{figure}\r
  \centering\r
-  \includegraphics[width=0.8\textwidth]{img/source_retrieval_process.pdf}\r
+  \includegraphics[width=0.7\textwidth]{img/source_retrieval_process.pdf}\r
   \caption{Plagiarism discovery process.}\r
   \label{fig:process}\r
 \end{figure} \r
-\r
-\r
 \end{multicols}\r
-\r
-\r
-\r
 \begin{multicols}{2}\r
-\r
 %\rm\r
-\r
 %%% Introduction\r
 \section{Querying}\r
 Querying means to effectively utilize the search engine in order to retrieve as many relevant\r
 documents as possible with the minimum amount of queries.\r
 %We consider the resulting document relevantif it shares some of text characteristics with the suspicious document.\r
-In real-world queries as such represent appreciable cost, therefore their minimization should be one of the top priorities. \\\r
-\subsection{Types of Queries}\r
-From the suspicious document, there were three diverse types of queries extracted.\r
-\subsubsection{Keywords Based Queries}\r
+In real-world queries as such represent appreciable cost, therefore their minimization should be one of the top priorities. \r
+%\subsection{Types of Queries}\r
+From the suspicious document, there were three diverse types of queries extracted.\\\r
+\begin{minipage}{0.55\linewidth}\r
+\subsection{Keywords Based Queries}\r
 \begin{ytemize}\r
 \item TF--IDF base automated keywords extraction;\r
 \item 5-token long; \r
@@ -155,29 +157,58 @@ From the suspicious document, there were three diverse types of queries extracte
 \item Non-positional;\r
 \item Non-phrasal.\r
 \end{ytemize}\r
-\subsubsection{Intrinsic Plagiarism Based Queries}\r
+\end{minipage}\r
+\begin{minipage}{0.45\linewidth}\r
+\begin{figure}[h]\r
+ %\centering\r
+  \includegraphics[width=1\linewidth]{img/document_keywords.pdf}\r
+\end{figure}\r
+\end{minipage}\r
+\begin{minipage}{0.55\linewidth}\r
+\subsection{Intrinsic Plagiarism Based Queries}\r
 \begin{ytemize}\r
-\item Averaged Word Frequency Class based chunking~\cite{AWFC};\r
+\item Averaged Word Frequency Class based chunking~\cite{awfc};\r
 \item Random sentence selection from the chunk;\r
 \item Non-deterministic;\r
 \item Positional;\r
 \item Phrasal.\r
 \end{ytemize}\r
-\r
-\begin{floatingfigure}[r]{100pt}\r
- \centering\r
-  \includegraphics[width=0.4\textwidth]{img/document_awfc.pdf}\r
-\end{floatingfigure}\r
-\r
-\subsubsection{Paragraph Based Queries}\r
+\end{minipage}\r
+\begin{minipage}{0.45\linewidth}\r
+\begin{figure}[h]\r
+ %\centering\r
+  \includegraphics[width=1\linewidth]{img/document_awfc.pdf}\r
+\end{figure}\r
+\end{minipage}\r
+\begin{minipage}{0.55\linewidth}\r
+\subsection{Paragraph Based Queries}\r
 \begin{ytemize}\r
 \item Longest sentences from miscellaneous paragraphs;\r
 \item Deterministic;\r
 \item Positional;\r
 \item Phrasal.\r
 \end{ytemize}\r
+\end{minipage}\r
+\begin{minipage}{0.45\linewidth}\r
+\begin{figure}[h]\r
+ %\centering\r
+  \includegraphics[width=1\linewidth]{img/document_paragraphs.pdf}\r
+\end{figure}\r
+\end{minipage}\r
+\r
+\begin{figure}[h]\r
+ \centering\r
+  \includegraphics[width=0.8\linewidth]{img/queryprocess.pdf}\r
+   \caption{Stepwise queries execution process.}\r
+\end{figure}\r
 \r
 \section{Selecting}\r
+Document snippets were used for deciding whether to download the document for the text alignment.\r
+We used 2-tuples measurement, which indicates how many neighbouring word pairs coexist in the snippet and in the suspicious document.\r
+Performance of this measure is depicted at picture~\ref{fig:snippet_graph}.\r
+Having this measure, a threshold for download decision needs to be set in order to maximize all discovered similarities\r
+and minimize total downloads.\r
+A profitable threshold is such that matches with the largest distance between those two curves.\r
 \begin{figure}\r
   \centering\r
   \includegraphics[width=0.8\textwidth]{img/snippets_graph.pdf}\r
@@ -185,32 +216,59 @@ From the suspicious document, there were three diverse types of queries extracte
   \label{fig:snippet_graph}\r
 \end{figure}\r
 \r
+\r
+%\r
+% Yenyova cast\r
+%\r
+\r
 \section{Text Alignment}\r
 \r
-\section{Conclusion}\r
+The system uses the same basic principles as in \cite{suchomel_kas_12}.\r
 \r
-Nějaký závěr\r
+%\r
+% Spolecna cast\r
+%\r
 \r
-%%% References\r
+\section{Conclusion}\r
 \r
-%% Note: use of BibTeX als works!!\r
+\subsection{Candidate retrieval}\r
 \r
-\bibliographystyle{plain}\r
-\begin{thebibliography}{1}\r
+\begin{itemize}\r
+\item{Second best ratio of recall to the number of queries}\r
+\item{Missing support for phrasal search in ChatNoir is a big stumbling block}\r
+\end{itemize}\r
 \r
-\bibitem{ISMU}\r
-\cemph{Masaryk University Information System}\\\r
-{\tt http://is.muni.cz/}, contact: {\tt iscor@fi.muni.cz}.\r
+\subsection{Text alignment}\r
 \r
-\bibitem{Theses}\r
-\cemph{Czech National Archive of Graduate Theses}\\\r
-{\tt http://theses.cz/}, contact: {\tt theses@fi.muni.cz}.\r
+\begin{itemize}\r
+\item{Significant improvement against PAN 2013}\r
+\item{Word 4-grams are better than contextual 4-grams}\r
+\item{We need a better ranking system than plagdet!}\r
+\end{itemize}\r
 \r
-\bibitem{AWFC}\r
-\cemph{Sven Meyer Zu Eissen and Benno Stein: Intrinsic Plagiarism Detection}\\\r
-{\tt Proceedings of the European Conference on Information Retrieval (ECIR-06)}, {\tt 2006}\r
+%%% References\r
+\r
+%% Note: use of BibTeX als works!!\r
 \r
-\end{thebibliography}\r
+\bibliographystyle{plain}\r
+\bibliography{pan13-notebook}\r
+\nocite{awfc}\r
+\r
+%\begin{thebibliography}{1}\r
+%\r
+%\bibitem{ISMU}\r
+%\cemph{Masaryk University Information System}\\\r
+%{\tt http://is.muni.cz/}, contact: {\tt iscor@fi.muni.cz}.\r
+%\r
+%\bibitem{Theses}\r
+%\cemph{Czech National Archive of Graduate Theses}\\\r
+%{\tt http://theses.cz/}, contact: {\tt theses@fi.muni.cz}.\r
+%\r
+%\bibitem{AWFC}\r
+%\cemph{Sven Meyer Zu Eissen and Benno Stein: Intrinsic Plagiarism Detection}\\\r
+%{\tt Proceedings of the European Conference on Information Retrieval (ECIR-06)}, {\tt 2006}\r
+%\r
+%\end{thebibliography}\r
 \r
 \smallskip\r
 \hrule height .1em\r
@@ -218,14 +276,20 @@ Nějaký závěr
 \r
 % \sffamily\r
 \r
-QR kód?\r
 \r
+\hbox to \hsize{\r
+       {\hsize=0.5\hsize\vbox{\r
 \cemph{Contact information:}\\\r
-       Šimon Suchomel {\tt suchomel@fi.muni.cz},\\\r
-       Jan Kasprzak, {\tt kas@fi.muni.cz}.\r
-\r
+       Šimon Suchomel {\tt suchomel@fi.muni.cz}\\\r
+       Jan Kasprzak {\tt kas@fi.muni.cz}\\\r
+       {\cemph{\tt http://www.fi.muni.cz/\~{}kas/pan13/}}\r
+}\r
+       \hfill\r
+       {\hsize=0.4\hsize\vbox{\r
+       \includegraphics[width=\hsize]{qrcode.png}\r
+}}}}\r
+       \r
 \r
 \end{multicols}\r
 \r
 \end{document}\r
-\r