Identifikační kód | RIV/00216224:14330/12:00057572 |
Název v anglickém jazyce | Building a 70 billion word corpus of English from ClueWeb |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2012 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 2 |
Počet tvůrců celkem | 3 |
Počet domácích tvůrců | 3 |
Výčet všech uvedených jednotlivých tvůrců | Jan Pomikálek (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 4980190) Pavel Rychlý (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6616844) Miloš Jakubíček (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 5837189) |
Popis výsledku v anglickém jazyce | This work describes the process of creation of a 70 billion word text corpus of English. We used an existing language resource, namely the ClueWeb09 dataset, as source for the corpus data. Processing such a vast amount of data presented several challenges, mainly associated with pre-processing (boilerplate cleaning, text de-duplication) and post-processing (indexing for efficient corpus querying using the CQL ? Corpus Query Language) steps. In this paper we explain how we tackled them: we describe the tools used for boilerplate cleaning (jusText) and for de-duplication (onion) that was performed not only on full (document-level) duplicates but also on the level of near-duplicate texts. Moreover we show the impact of each of the performed pre-processingsteps on the final corpus size. |
Klíčová slova oddělená středníkem | corpus; clueweb; English; encoding; word sketch |
Stránka www, na které se nachází výsledek | http://nlp.fi.muni.cz/publications/lrec2012_xpomikal_pary_xjakub/lrec2012.pdf |