Vyhledávání ve výsledcích Hodnocení 2016

Organizace	U	S	Kód hodnocení	Skupina oborů	Body výsledku	Body upravené	Podíl VO	Body VO	Body VO upravené	H14
Masarykova univerzita / Fakulta informatiky	12	13	D	4	8	6.205	1	8	6.205	→

Výsledky hodnocení dříve prezentovala speciální podoba stránek výskytů výsledků doplněná informacemi o hodnocení daného výskytu a výsledku. To zde supluji doplněním kopií stránek z rvvi.cz/riv z 18.12.2017 o relevantní údaje z dat H16. Najetí myší na kód či skupinu zobrazí vysvětlující text (u některých vyřazených není k dispozici). Čísla jsou oproti zdroji zaokrouhlena na 3 desetinná místa.

Building a 70 billion word corpus of English from ClueWeb (2012)výskyt výsledku

Identifikační kód	RIV/00216224:14330/12:00057572
Název v anglickém jazyce	Building a 70 billion word corpus of English from ClueWeb
Druh	D - Článek ve sborníku
Jazyk	eng - angličtina
Obor - skupina	I - Informatika
Obor	IN - Informatika
Rok uplatnění	2012
Kód důvěrnosti údajů	S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů.
Počet výskytů výsledku	2
Počet tvůrců celkem	3
Počet domácích tvůrců	3
Výčet všech uvedených jednotlivých tvůrců	Jan Pomikálek (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 4980190) Pavel Rychlý (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6616844) Miloš Jakubíček (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 5837189)
Popis výsledku v anglickém jazyce	This work describes the process of creation of a 70 billion word text corpus of English. We used an existing language resource, namely the ClueWeb09 dataset, as source for the corpus data. Processing such a vast amount of data presented several challenges, mainly associated with pre-processing (boilerplate cleaning, text de-duplication) and post-processing (indexing for efficient corpus querying using the CQL ? Corpus Query Language) steps. In this paper we explain how we tackled them: we describe the tools used for boilerplate cleaning (jusText) and for de-duplication (onion) that was performed not only on full (document-level) duplicates but also on the level of near-duplicate texts. Moreover we show the impact of each of the performed pre-processingsteps on the final corpus size.
Klíčová slova oddělená středníkem	corpus; clueweb; English; encoding; word sketch
Stránka www, na které se nachází výsledek	http://nlp.fi.muni.cz/publications/lrec2012_xpomikal_pary_xjakub/lrec2012.pdf

Údaje o výsledku v závislosti na druhu výsledku

Název sborníku	Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)
ISBN	9782951740877
ISSN	-
Počet stran výsledku	5
Strana od-do	502-506
Název nakladatele	European Language Resources Association (ELRA)
Místo vydání	Istanbul, Turkey
Místo konání akce	Istanbul, Turkey
Datum konání akce	2012
Typ akce podle státní příslušnosti účastníků	WRD - Celosvětová
Kód UT WoS článku podle Web of Science	-

Ostatní informace o výsledku

Předkladatel	Masarykova univerzita / Fakulta informatiky
Dodavatel	GA0 - Grantová agentura České republiky (GA ČR)
Rok sběru	2013
Specifikace	RIV/00216224:14330/12:00057572!RIV13-GA0-14330___
Datum poslední aktualizace výsledku	04.09.2013
Kontrolní číslo	43536581

Informace o dalších výskytech výsledku dodaného stejným předkladatelem

Dodáno MŠMT v roce 2013	RIV/00216224:14330/12:00057572 v dodávce dat RIV13-MSM-14330___/02:2

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt podporovaný GA ČR v programu GA	GAP401/10/0792 - Temporální aspekty znalostí a informací (2010 - 2012)
Projekt podporovaný MŠMT v programu LM	LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010 - 2015)