RIV/00216224:14330/12:00057572 - Building a 70 billion word corpus of English from ClueWeb (2012)

Údaje o výsledku
Identifikační kódRIV/00216224:14330/12:00057572
Název v původním jazyceBuilding a 70 billion word corpus of English from ClueWeb
DruhD - Článek ve sborníku
Jazykeng - angličtina
OborIN - Informatika
Rok uplatnění2012
Kód důvěrnosti údajůS - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
Počet výskytů výsledku2
Údaje z Hodnocení výsledků výzkumných organizací 2014
Výsledek byl hodnocen v Pilíři I
Rozsah vyřazení výsledkuTento výskyt výsledku není vyřazen
Zařazení výsledku v hodnoceníD - Článek ve sborníku
Skupina oboru v hodnocení04 - Technické a informatické vědy
Konkrétní způsob(y) hodnocení výsledkuČlánek ve sborníku evidovaném v databázi Conference Proceedings Citation Index
Bodové ohodnocení8,000
Faktor korekce77,6 %
Body (upravené podle přílohy č. 8 Metodiky)6,205
Rozdělení výsledku mezi předkladatele
OrganizaceVýzkumná organizace?PodílBodyBody (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatikyano100,0 %8,0006,205
Tvůrci výsledku
Počet tvůrců celkem3
Počet domácích tvůrců3
TvůrcePomikálek Jan (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 4980190)
TvůrceRychlý Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 6616844)
TvůrceJakubíček Miloš (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 5837189)
Údaje blíže specifikující výsledek
Popis v původním jazyceThis work describes the process of creation of a 70 billion word text corpus of English. We used an existing language resource, namely the ClueWeb09 dataset, as source for the corpus data. Processing such a vast amount of data presented several challenges, mainly associated with pre-processing (boilerplate cleaning, text de-duplication) and post-processing (indexing for efficient corpus querying using the CQL – Corpus Query Language) steps. In this paper we explain how we tackled them: we describe the tools used for boilerplate cleaning (jusText) and for de-duplication (onion) that was performed not only on full (document-level) duplicates but also on the level of near-duplicate texts. Moreover we show the impact of each of the performed pre-processing steps on the final corpus size.
Klíčová slovacorpus; clueweb; English; encoding; word sketch
Rozsah stran502-506
Název sborníkuProceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)
Forma vydáníP - Tištěná verze „print“
Počet stran výsledku5
ISBN9782951740877
Název nakladateleEuropean Language Resources Association (ELRA)
Místo vydáníIstanbul, Turkey
Místo konání akceIstanbul, Turkey
Rok konání akce2012
Typ akce podle státní příslušnoti účastníkůWRD - Světová
Adresa www stránky s výsledkemhttp://nlp.fi.muni.cz/publications/lrec2012_xpomikal_pary_xjakub/lrec2012.pdf
Údaje o tomto záznamu o výsledku
PředkladatelMasarykova univerzita / Fakulta informatiky
DodavatelMSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
Rok sběru2013
Systémové označení dodávky datRIV13-MSM-14330___/02:2
SpecifikaceRIV/00216224:14330/12:00057572!RIV13-MSM-14330___
Kontrolní kód[B507972415BB]
Další výskyty tohoto výsledku od stejného předkladatele
Dodáno GA ČR v roce 2013Záznam s identifikačním kódem RIV/00216224:14330/12:00057572 v dodávce dat RIV13-GA0-14330___/02:2
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
ProjektGAP401/10/0792 - Temporální aspekty znalostí a informací (2010-2012, GA0/GA)
ProjektLM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM)