Organizace U  S Kód
hodnocení
Skupina
oborů
Body
výsledku
Body
upravené
Podíl VOBody VOBody VO
upravené
H14
Masarykova univerzita / Fakulta informatiky1112 neu 400100
Výsledky hodnocení dříve prezentovala speciální podoba stránek výskytů výsledků doplněná informacemi o hodnocení daného výskytu a výsledku. To zde supluji doplněním kopií stránek z rvvi.cz/riv z 18.12.2017 o relevantní údaje z dat H16. Najetí myší na kód či skupinu zobrazí vysvětlující text (u některých vyřazených není k dispozici). Čísla jsou oproti zdroji zaokrouhlena na 3 desetinná místa.

Practical Web Crawling for Text Corpora (2011)výskyt výsledku

Identifikační kódRIV/00216224:14330/11:00050166
Název v anglickém jazycePractical Web Crawling for Text Corpora
DruhD - Článek ve sborníku
Jazykeng - angličtina
Obor - skupinaI - Informatika
OborIN - Informatika
Rok uplatnění2011
Kód důvěrnosti údajůS - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů.
Počet výskytů výsledku2
Počet tvůrců celkem2
Počet domácích tvůrců2
Výčet všech uvedených jednotlivých tvůrcůVít Suchomel (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 8884439)
Jan Pomikálek (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 4980190)
Popis výsledku v anglickém jazyceSpiderLing--a web spider for linguistics--is new software for creating text corpora from the web, which we present in this article. Many documents on the web only contain material which is not useful for text corpora, such as lists of links, lists of products, and other kind of text not comprised of full sentences. In fact such pages represent the vast majority of the web. Therefore, by doing unrestricted web crawls, we typically download a lot of data which gets filtered out during post-processing. This makes the process of web corpus collection inefficient. The aim of our work is to focus the crawling on the text rich parts of the web and maximize the number of words in the final corpus per downloaded megabyte. We present our preliminary results fromcreating Web corpora of texts in Czech and Tajik.
Klíčová slova oddělená středníkemcrawler; web crawling; corpus; web corpus; text corpus
Stránka www, na které se nachází výsledek-

Údaje o výsledku v závislosti na druhu výsledku

Název sborníkuProceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011
ISBN978-80-263-0077-9
ISSN-
Počet stran výsledku11
Strana od-do97-108
Název nakladateleTribun EU
Místo vydáníBrno
Místo konání akceKarlova Studánka, Czech Republic
Datum konání akce02.12.2011
Typ akce podle státní příslušnosti účastníkůEUR - Evropská
Kód UT WoS článku podle Web of Science-

Ostatní informace o výsledku

PředkladatelMasarykova univerzita / Fakulta informatiky
DodavatelGA0 - Grantová agentura České republiky (GA ČR)
Rok sběru2012
SpecifikaceRIV/00216224:14330/11:00050166!RIV12-GA0-14330___
Datum poslední aktualizace výsledku18.05.2012
Kontrolní číslo13406905

Informace o dalších výskytech výsledku dodaného stejným předkladatelem

Dodáno MŠMT v roce 2012RIV/00216224:14330/11:00050166 v dodávce dat RIV12-MSM-14330___/01:1

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt podporovaný GA ČR v programu GAGAP401/10/0792 - Temporální aspekty znalostí a informací (2010 - 2012)
Projekt podporovaný MŠMT v programu LCLC536 - Integrované centrum počítačového zpracování přirozeného jazyka (2005 - 2009)
Podpora / návaznostiSpecifický výzkum na vysokých školách, poskytovatel MŠMT