RIV/00216224:14330/12:00057572 - Building a 70 billion word corpus of English from ClueWeb (2012)

Údaje o výsledku

Identifikační kód

RIV/00216224:14330/12:00057572

Název v původním jazyce

Building a 70 billion word corpus of English from ClueWeb

Druh

D - Článek ve sborníku

Jazyk

eng - angličtina

Obor

IN - Informatika

Rok uplatnění

2012

Kód důvěrnosti údajů

S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů

Počet výskytů výsledku

Údaje z Hodnocení výsledků výzkumných organizací 2014

Výsledek byl hodnocen v Pilíři I

Rozsah vyřazení výsledku

Tento výskyt výsledku není vyřazen

Zařazení výsledku v hodnocení

D - Článek ve sborníku

Skupina oboru v hodnocení

04 - Technické a informatické vědy

Konkrétní způsob(y) hodnocení výsledku

Článek ve sborníku evidovaném v databázi Conference Proceedings Citation Index

Bodové ohodnocení

8,000

Faktor korekce

77,6 %

Body (upravené podle přílohy č. 8 Metodiky)

6,205

Rozdělení výsledku mezi předkladatele

Organizace	Výzkumná organizace?	Podíl	Body	Body (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatiky	ano	100,0 %	8,000	6,205

Tvůrci výsledku

Počet tvůrců celkem

Počet domácích tvůrců

Tvůrce

Pomikálek Jan (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 4980190)

Tvůrce

Rychlý Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 6616844)

Tvůrce

Jakubíček Miloš (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 5837189)

Údaje blíže specifikující výsledek

Popis v původním jazyce

This work describes the process of creation of a 70 billion word text corpus of English. We used an existing language resource, namely the ClueWeb09 dataset, as source for the corpus data. Processing such a vast amount of data presented several challenges, mainly associated with pre-processing (boilerplate cleaning, text de-duplication) and post-processing (indexing for efficient corpus querying using the CQL – Corpus Query Language) steps. In this paper we explain how we tackled them: we describe the tools used for boilerplate cleaning (jusText) and for de-duplication (onion) that was performed not only on full (document-level) duplicates but also on the level of near-duplicate texts. Moreover we show the impact of each of the performed pre-processing steps on the final corpus size.

Klíčová slova

corpus; clueweb; English; encoding; word sketch

Rozsah stran

502-506

Název sborníku

Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)

Forma vydání

P - Tištěná verze „print“

Počet stran výsledku

ISBN

9782951740877

Název nakladatele

European Language Resources Association (ELRA)

Místo vydání

Istanbul, Turkey

Místo konání akce

Istanbul, Turkey

Rok konání akce

2012

Typ akce podle státní příslušnoti účastníků

WRD - Světová

Adresa www stránky s výsledkem

http://nlp.fi.muni.cz/publications/lrec2012_xpomikal_pary_xjakub/lrec2012.pdf

Údaje o tomto záznamu o výsledku

Předkladatel

Masarykova univerzita / Fakulta informatiky

Dodavatel

MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)

Rok sběru

2013

Systémové označení dodávky dat

RIV13-MSM-14330___/02:2

Specifikace

RIV/00216224:14330/12:00057572!RIV13-MSM-14330___

Kontrolní kód

[B507972415BB]

Další výskyty tohoto výsledku od stejného předkladatele

Dodáno GA ČR v roce 2013

Záznam s identifikačním kódem RIV/00216224:14330/12:00057572 v dodávce dat RIV13-GA0-14330___/02:2

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt

GAP401/10/0792 - Temporální aspekty znalostí a informací (2010-2012, GA0/GA)

Projekt

LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM)