Vyhledávání ve výsledcích Hodnocení 2016

Organizace	U	S	Kód hodnocení	Skupina oborů	Body výsledku	Body upravené	Podíl VO	Body VO	Body VO upravené	H14
Masarykova univerzita / Fakulta informatiky	11	12	neu	4	0	0	1	0	0	→

Výsledky hodnocení dříve prezentovala speciální podoba stránek výskytů výsledků doplněná informacemi o hodnocení daného výskytu a výsledku. To zde supluji doplněním kopií stránek z rvvi.cz/riv z 18.12.2017 o relevantní údaje z dat H16. Najetí myší na kód či skupinu zobrazí vysvětlující text (u některých vyřazených není k dispozici). Čísla jsou oproti zdroji zaokrouhlena na 3 desetinná místa.

Practical Web Crawling for Text Corpora (2011)výskyt výsledku

Identifikační kód	RIV/00216224:14330/11:00050166
Název v anglickém jazyce	Practical Web Crawling for Text Corpora
Druh	D - Článek ve sborníku
Jazyk	eng - angličtina
Obor - skupina	I - Informatika
Obor	IN - Informatika
Rok uplatnění	2011
Kód důvěrnosti údajů	S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů.
Počet výskytů výsledku	2
Počet tvůrců celkem	2
Počet domácích tvůrců	2
Výčet všech uvedených jednotlivých tvůrců	Vít Suchomel (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 8884439) Jan Pomikálek (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 4980190)
Popis výsledku v anglickém jazyce	SpiderLing--a web spider for linguistics--is new software for creating text corpora from the web, which we present in this article. Many documents on the web only contain material which is not useful for text corpora, such as lists of links, lists of products, and other kind of text not comprised of full sentences. In fact such pages represent the vast majority of the web. Therefore, by doing unrestricted web crawls, we typically download a lot of data which gets filtered out during post-processing. This makes the process of web corpus collection inefficient. The aim of our work is to focus the crawling on the text rich parts of the web and maximize the number of words in the final corpus per downloaded megabyte. We present our preliminary results fromcreating Web corpora of texts in Czech and Tajik.
Klíčová slova oddělená středníkem	crawler; web crawling; corpus; web corpus; text corpus
Stránka www, na které se nachází výsledek	-

Údaje o výsledku v závislosti na druhu výsledku

Název sborníku	Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011
ISBN	978-80-263-0077-9
ISSN	-
Počet stran výsledku	11
Strana od-do	97-108
Název nakladatele	Tribun EU
Místo vydání	Brno
Místo konání akce	Karlova Studánka, Czech Republic
Datum konání akce	02.12.2011
Typ akce podle státní příslušnosti účastníků	EUR - Evropská
Kód UT WoS článku podle Web of Science	-

Ostatní informace o výsledku

Předkladatel	Masarykova univerzita / Fakulta informatiky
Dodavatel	GA0 - Grantová agentura České republiky (GA ČR)
Rok sběru	2012
Specifikace	RIV/00216224:14330/11:00050166!RIV12-GA0-14330___
Datum poslední aktualizace výsledku	18.05.2012
Kontrolní číslo	13406905

Informace o dalších výskytech výsledku dodaného stejným předkladatelem

Dodáno MŠMT v roce 2012	RIV/00216224:14330/11:00050166 v dodávce dat RIV12-MSM-14330___/01:1

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt podporovaný GA ČR v programu GA	GAP401/10/0792 - Temporální aspekty znalostí a informací (2010 - 2012)
Projekt podporovaný MŠMT v programu LC	LC536 - Integrované centrum počítačového zpracování přirozeného jazyka (2005 - 2009)
Podpora / návaznosti	Specifický výzkum na vysokých školách, poskytovatel MŠMT