]> www.fi.muni.cz Git - pan13-paper.git/commitdiff
Finalka
authorSimon Suchomel <xsuchom1@anxur.fi.muni.cz>
Fri, 20 Sep 2013 10:41:05 +0000 (12:41 +0200)
committerSimon Suchomel <xsuchom1@anxur.fi.muni.cz>
Fri, 20 Sep 2013 10:41:05 +0000 (12:41 +0200)
pan13-poster/poster.tex

index e166b91cf15b7498da5987890083a8b036cd0ded..44a14eebe9fae3c4eb52fb05338e017d8bfb9338 100755 (executable)
@@ -134,7 +134,7 @@ Original documents which served for creation of plagiarism must be retrieved and
 input document must be highlighted. This poster presents methodology used during PAN2013 competition on uncovering plagiarism.\r
 \r
 The whole process is depicted at picture~\ref{fig:process}. The source retrieval task is divided into\r
-2 subtasks: Quering and Selecting, during which the software utilizes given search engine. The retrieved\r
+2 subtasks: Quering and Selecting, during which the software utilizes given search engine. The retrieved\r
 sources must be examined in detail in order to highlight as many plagiarism cases as possible. This process is depicted\r
 as Text Alignment. Results of this process are called {\em detections}, i.e.~passages of {\em source document} and {\em suspicious document}, which are similar enough to each other, and can serve as a basis for further manual examination for possible plagiarism.\r
 %\r
@@ -143,7 +143,7 @@ as Text Alignment. Results of this process are called {\em detections}, i.e.~pas
 %\r
 \begin{figure}\r
  \centering\r
-  \includegraphics[width=0.7\textwidth]{img/source_retrieval_process.pdf}\r
+  \includegraphics[width=0.8\textwidth]{img/source_retrieval_process.pdf}\r
   \caption{Plagiarism discovery process.}\r
   \label{fig:process}\r
 \end{figure} \r
@@ -152,12 +152,12 @@ as Text Alignment. Results of this process are called {\em detections}, i.e.~pas
 %\rm\r
 %%% Introduction\r
 \section{Querying}\r
-Querying means to effectively utilize the search engine in order to retrieve as many relevant\r
+Querying means to effectively utilize a search engine in order to retrieve as many relevant\r
 documents as possible with the minimum amount of queries.\r
 %We consider the resulting document relevantif it shares some of text characteristics with the suspicious document.\r
-In real-world queries as such represent appreciable cost, therefore their minimization should be one of the top priorities. \r
+In real-world, queries as such represent appreciable cost, therefore their quantity minimization should be one of the top priorities. \r
 %\subsection{Types of Queries}\r
-From the suspicious document, there were three diverse types of queries extracted.\\\r
+During initial phase, there were three diverse types of queries extracted from each suspicious document.\\\r
 \begin{minipage}{0.55\linewidth}\r
 \subsection{Keywords Based Queries}\r
 \begin{ytemize}\r
@@ -225,12 +225,9 @@ A profitable threshold is such that matches with the largest distance between th
   \caption{Downloads and similarities performance.}\r
   \label{fig:snippet_graph}\r
 \end{figure}\r
-\r
-\r
 %\r
 % Yenyova cast\r
 %\r
-\r
 \section{Text Alignment}\r
 \r
 The system uses the same basic principles as in \cite{suchomel_kas_12}:\r
@@ -284,7 +281,7 @@ plain      4-grams & \cemph{0.7556} & 0.7340 & 1.0000 & \cemph{0.7447} \\
 \begin{ytemize}\r
 \item{Similar to PAN 2010 \cite{Kasprzak2010}}\r
 \item{Overlapping detections removal}\r
-\item{\cemph{Result:} improvement, but not as big as in 2010}\r
+\item{\cemph{Result:} improvement, but not as significant as in 2010}\r
 \end{ytemize}\r
 \r
 %\r