RIV/00216224:14330/12:00062284 - Detecting Spam in Web Corpora (2012)

Údaje o výsledku

Identifikační kód

RIV/00216224:14330/12:00062284

Název v původním jazyce

Detecting Spam in Web Corpora

Druh

D - Článek ve sborníku

Jazyk

eng - angličtina

Obor

IN - Informatika

Rok uplatnění

2012

Kód důvěrnosti údajů

S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů

Počet výskytů výsledku

Údaje z Hodnocení výsledků výzkumných organizací 2014

Výsledek byl hodnocen v Pilíři I

Rozsah vyřazení výsledku

Tento výskyt výsledku není vyřazen

Zařazení výsledku v hodnocení

neu - Výsledky bez bodového hodnocení nebo vyřazené

Skupina oboru v hodnocení

04 - Technické a informatické vědy

Konkrétní způsob(y) hodnocení výsledku

Článek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.

Rozdělení výsledku mezi předkladatele

Organizace	Výzkumná organizace?	Podíl	Body	Body (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatiky	ano	100,0 %	0,000

Tvůrci výsledku

Počet tvůrců celkem

Počet domácích tvůrců

Tvůrce

Baisa Vít (státní příslušnost: SK - Slovenská republika; A - domácí tvůrce; G - garant výsledku; vedidk: 9652353)

Tvůrce

Suchomel Vít (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 8884439)

Údaje blíže specifikující výsledek

Popis v původním jazyce

To increase the search result rank of a website, many fake websites full of generated or semigenerated texts have been made in last years. Since we do not want this garbage in our text corpora, this is a becoming problem. This paper describes generated texts observed in the recently crawled web corpora and proposes a new way to detect such unwanted contents. The main idea of the presented approach is based on comparing frequencies of n-grams of words from the potentially forged texts with n-grams of words from a trusted corpus. As a source of spam text, fake webpages concerning loans from an English web corpus as an example of data aimed to fool search engines were used. The results show this approach is able to detect properly certain kind of forged texts with accuracy reaching almost 70 %.

Klíčová slova

spam detection; web corpora; n-gram

Rozsah stran

69-76

Název sborníku

6th Workshop on Recent Advances in Slavonic Natural Language Processing

Forma vydání

P - Tištěná verze „print“

ISBN

9788026303138

Počet stran výsledku

Název nakladatele

Tribun EU

Místo vydání

Brno

Místo konání akce

Karlova Studánka

Datum zahájení akce

7.12.2012

Typ akce podle státní příslušnoti účastníků

EUR - Evropská

Údaje o tomto záznamu o výsledku

Předkladatel

Masarykova univerzita / Fakulta informatiky

Dodavatel

MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)

Rok sběru

2013

Systémové označení dodávky dat

RIV13-MSM-14330___/02:2

Specifikace

RIV/00216224:14330/12:00062284!RIV13-MSM-14330___

Kontrolní kód

[1C7A7EDC089A]

Jiný výskyt tohoto výsledku se v RIV nenachází

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt

LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM)

S - Specifický výzkum na vysokých školách