Identifikační kód | RIV/00216224:14330/11:00054044 |
Název v anglickém jazyce | Building a 50M Corpus of Tajik Language |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | A - Společenské vědy |
Obor | AI - Jazykověda |
Rok uplatnění | 2011 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 4 |
Počet domácích tvůrců | 4 |
Výčet všech uvedených jednotlivých tvůrců | Gulshan Dovudov (státní příslušnost: TJ - Republika Tádžikistán, domácí tvůrce: A) Jan Pomikálek (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 4980190) Vít Suchomel (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 8884439) Pavel Šmerk (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 1322451) |
Popis výsledku v anglickém jazyce | Paper presents by far the largest available computer corpus of Tajik Language of the size of more than 50 million words. To obtain the texts for the corpus two different approaches were used. The paper brings a description of both of them, discusses their advantages and disadvantages and shows some statistics of the two respective partial corpora. Then the paper characterizes the resulting joined corpus and finally discusses some possible future improvements. |
Klíčová slova oddělená středníkem | language corpora; corpus; corpus building; tajik |
Stránka www, na které se nachází výsledek | - |