]> www.fi.muni.cz Git - pan13-paper.git/blobdiff - pan13-paper/simon-source_retrieval.tex
Finalni upravy
[pan13-paper.git] / pan13-paper / simon-source_retrieval.tex
index 17a01249875738a6f800f02559580689df2a8ed9..4370a1de5ae5f1a2bedd226e9167c0c149823621 100755 (executable)
@@ -2,7 +2,7 @@
 The source retrieval is a subtask in a plagiarism detection process during\r
 which only a relatively small subset of documents are retrieved from the\r
 large corpus. Those candidate documents are usually further compared in detail with the\r
-suspicious document. In the PAN 2013 source retrieval subtask the main goal was to\r
+suspicious document. In PAN 2013 source retrieval subtask the main goal was to\r
 identify web pages which have been used as a source of plagiarism for test corpus creation.\r
 \r
 The test corpus contained 58 documents each discussing only one theme.\r
@@ -25,7 +25,7 @@ The user decides what query the search engine to ask and which of the results fr
 \r
 %In the real-world scenario the corpus is the whole Web and the search engine can be a contemporary commercial search engine which scales to the size of the Web.\r
  \r
-The same methodology -- utilizing a search engine is use for the source retrieval. \r
+The same methodology -- utilizing a search engine; is used for source retrieval. \r
 This approach is based on the fact that we do not\r
 possess enough resources to download and effectively process the whole corpus.\r
 In the case of PAN 2013 competition we utilized the ChatNoir~\cite{chatnoir} \r
@@ -42,7 +42,7 @@ The reverse engineering decision process resides in creation of suitable queries
 and in decision what to actually download and what to report as a plagiarism case from the search results.\r
 \r
 These first two stages are shown in Figure~\ref{fig:source_retr_process} as Querying and Selecting. Selected results \r
-from the search engine are forthwith textually aligned with the suspicious document (see section~\ref{text_alignment} for more details).\r
+from the search engine are then textually aligned with the suspicious document (see section~\ref{text_alignment} for more details).\r
 %This is the last decision phase -- what to report.\r
 If there is any continuous passage of reused text detected, the result document is reported\r
  and the continuous passages in the suspicious document are marked as {\it discovered} and no further processing\r
@@ -60,7 +60,7 @@ with paragraph based queries, since the headers based queries did not pay off in
 i) keywords based queries, ii) intrinsic plagiarism\r
 based queries, and iii) paragraph based queries. Three main properties distinguish each type of query: i) Positional; ii) Phrasal; iii) Deterministic.\r
 Positional queries carry extra information about a textual interval in the suspicious document which the query represents.\r
-A phrasal query aims for retrieval of documents containing the same small piece of text. They are usually created from closely coupled words. \r
+A phrasal query aims for retrieval of documents containing the same small piece of text. They are usually created from closely coupled words. \r
 Deterministic queries for specific suspicious document are always the same no matter how many times we run the software. \r
 %On the contrary the software can create in two runs potentially different nondeterministic queries.\r
 \r
@@ -207,7 +207,7 @@ it is relatively cheep and easily scalable operation.
 Our approach had the second best ratio of recall to the number of used queries, which\r
 tells about the query efficacy. The approach with the best ratio used few queries (4.9 queries per document which\r
 was 0.4 of the amount we used), but also obtained the lowest recall (0.65 of our recall).\r
-The approach with highest recall (and also lowest precision) achieved 2.8 times higher recall with 3.9 times more queries compared to ours.\r
+The approach with the highest recall (and also lowest precision) achieved 2.8 times higher recall with 3.9 times more queries compared to ours.\r
 \r
 Our approach achieved also low precision, which means we reported many more results and they\r
 were not considered as correct hits. On the other hand each reported result contained some\r