Údaje o výsledku |
Identifikační kód | RIV/00216224:14330/12:00057572 |
Název v původním jazyce | Building a 70 billion word corpus of English from ClueWeb |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor | IN - Informatika |
Rok uplatnění | 2012 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů |
Počet výskytů výsledku | 2 |
Údaje z Hodnocení výsledků výzkumných organizací 2014 |
Výsledek byl hodnocen v Pilíři I |
Rozsah vyřazení výsledku | Tento výskyt výsledku není vyřazen |
Zařazení výsledku v hodnocení | D - Článek ve sborníku |
Skupina oboru v hodnocení | 04 - Technické a informatické vědy |
Konkrétní způsob(y) hodnocení výsledku | Článek ve sborníku evidovaném v databázi Conference Proceedings Citation Index |
Bodové ohodnocení | 8,000 |
Faktor korekce | 77,6 % |
Body (upravené podle přílohy č. 8 Metodiky) | 6,205 |
Rozdělení výsledku mezi předkladatele |
Organizace | Výzkumná organizace? | Podíl | Body | Body (upravené podle přílohy č. 8 Metodiky) |
Masarykova univerzita / Fakulta informatiky | ano | 100,0 % | 8,000 | 6,205 |
|
Tvůrci výsledku |
Počet tvůrců celkem | 3 |
Počet domácích tvůrců | 3 |
Tvůrce | Pomikálek Jan (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 4980190) |
Tvůrce | Rychlý Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 6616844) |
Tvůrce | Jakubíček Miloš (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 5837189) |
Údaje blíže specifikující výsledek |
Popis v původním jazyce | This work describes the process of creation of a 70 billion word text corpus of English. We used an existing language resource, namely the ClueWeb09 dataset, as source for the corpus data. Processing such a vast amount of data presented several challenges, mainly associated with pre-processing (boilerplate cleaning, text de-duplication) and post-processing (indexing for efficient corpus querying using the CQL – Corpus Query Language) steps. In this paper we explain how we tackled them: we describe the tools used for boilerplate cleaning (jusText) and for de-duplication (onion) that was performed not only on full (document-level) duplicates but also on the level of near-duplicate texts. Moreover we show the impact of each of the performed pre-processing steps on the final corpus size. |
Klíčová slova | corpus; clueweb; English; encoding; word sketch |
Rozsah stran | 502-506 |
Název sborníku | Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12) |
Forma vydání | P - Tištěná verze „print“ |
Počet stran výsledku | 5 |
ISBN | 9782951740877 |
Název nakladatele | European Language Resources Association (ELRA) |
Místo vydání | Istanbul, Turkey |
Místo konání akce | Istanbul, Turkey |
Rok konání akce | 2012 |
Typ akce podle státní příslušnoti účastníků | WRD - Světová |
Adresa www stránky s výsledkem | http://nlp.fi.muni.cz/publications/lrec2012_xpomikal_pary_xjakub/lrec2012.pdf |
Údaje o tomto záznamu o výsledku |
Předkladatel | Masarykova univerzita / Fakulta informatiky |
Dodavatel | GA0 - Grantová agentura České republiky (GA ČR) |
Rok sběru | 2013 |
Systémové označení dodávky dat | RIV13-GA0-14330___/02:2 |
Specifikace | RIV/00216224:14330/12:00057572!RIV13-GA0-14330___ |
Kontrolní kód | [8B31293499DE] |
Další výskyty tohoto výsledku od stejného předkladatele |
Dodáno MŠMT v roce 2013 | Záznam s identifikačním kódem RIV/00216224:14330/12:00057572 v dodávce dat RIV13-MSM-14330___/02:2 |
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl |
Projekt | GAP401/10/0792 - Temporální aspekty znalostí a informací (2010-2012, GA0/GA) |
Projekt | LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM) |