RIV/00216224:14330/12:00062284 - Detecting Spam in Web Corpora (2012)

Údaje o výsledku
Identifikační kódRIV/00216224:14330/12:00062284
Název v původním jazyceDetecting Spam in Web Corpora
DruhD - Článek ve sborníku
Jazykeng - angličtina
OborIN - Informatika
Rok uplatnění2012
Kód důvěrnosti údajůS - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
Počet výskytů výsledku1
Údaje z Hodnocení výsledků výzkumných organizací 2014
Výsledek byl hodnocen v Pilíři I
Rozsah vyřazení výsledkuTento výskyt výsledku není vyřazen
Zařazení výsledku v hodnoceníneu - Výsledky bez bodového hodnocení nebo vyřazené
Skupina oboru v hodnocení04 - Technické a informatické vědy
Konkrétní způsob(y) hodnocení výsledkuČlánek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.
Rozdělení výsledku mezi předkladatele
OrganizaceVýzkumná organizace?PodílBodyBody (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatikyano100,0 %0,000
Tvůrci výsledku
Počet tvůrců celkem2
Počet domácích tvůrců2
TvůrceBaisa Vít (státní příslušnost: SK - Slovenská republika; A - domácí tvůrce; G - garant výsledku; vedidk: 9652353)
TvůrceSuchomel Vít (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 8884439)
Údaje blíže specifikující výsledek
Popis v původním jazyceTo increase the search result rank of a website, many fake websites full of generated or semigenerated texts have been made in last years. Since we do not want this garbage in our text corpora, this is a becoming problem. This paper describes generated texts observed in the recently crawled web corpora and proposes a new way to detect such unwanted contents. The main idea of the presented approach is based on comparing frequencies of n-grams of words from the potentially forged texts with n-grams of words from a trusted corpus. As a source of spam text, fake webpages concerning loans from an English web corpus as an example of data aimed to fool search engines were used. The results show this approach is able to detect properly certain kind of forged texts with accuracy reaching almost 70 %.
Klíčová slovaspam detection; web corpora; n-gram
Rozsah stran69-76
Název sborníku6th Workshop on Recent Advances in Slavonic Natural Language Processing
Forma vydáníP - Tištěná verze „print“
ISBN9788026303138
Počet stran výsledku8
Název nakladateleTribun EU
Místo vydáníBrno
Místo konání akceKarlova Studánka
Datum zahájení akce7.12.2012
Typ akce podle státní příslušnoti účastníkůEUR - Evropská
Údaje o tomto záznamu o výsledku
PředkladatelMasarykova univerzita / Fakulta informatiky
DodavatelMSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
Rok sběru2013
Systémové označení dodávky datRIV13-MSM-14330___/02:2
SpecifikaceRIV/00216224:14330/12:00062284!RIV13-MSM-14330___
Kontrolní kód[1C7A7EDC089A]
Jiný výskyt tohoto výsledku se v RIV nenachází
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
ProjektLM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM)
S - Specifický výzkum na vysokých školách