Identifikační kód | RIV/00216224:14330/12:00064722 |
Název v anglickém jazyce | Towards 100M Morphologically Annotated Corpus of Tajik |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | A - Společenské vědy |
Obor | AI - Jazykověda |
Rok uplatnění | 2012 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 3 |
Počet domácích tvůrců | 3 |
Výčet všech uvedených jednotlivých tvůrců | Gulshan Dovudov (státní příslušnost: TJ - Republika Tádžikistán, domácí tvůrce: A) Vít Suchomel (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 8884439) Pavel Šmerk (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 1322451) |
Popis výsledku v anglickém jazyce | The paper presents a work in progress: building morphologically annotated corpus of Tajik language of the size more than 100 million tokens. The corpus is and will be by far the largest available computer corpus of Tajik: even its current size is almost85 million tokens. Because the available text sources are rather scarce, to achieve the goal also the texts of a lower quality have to be included. This short paper briefly reviews the current state of the corpus and analyzer, discusses problems with either ?normalization? or at least categorization of low quality texts and finally also the perspectives for the nearest future. |
Klíčová slova oddělená středníkem | web corpora; Tajik |
Stránka www, na které se nachází výsledek | http://raslan2012.nlp-consulting.net/program |