Identifikační kód | RIV/00216224:14330/12:00059944 |
Název v anglickém jazyce | Large Corpora for Turkic Languages and Unsupervised Morphological Analysis |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | A - Společenské vědy |
Obor | AI - Jazykověda |
Rok uplatnění | 2012 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 2 |
Počet domácích tvůrců | 2 |
Výčet všech uvedených jednotlivých tvůrců | Vít Baisa (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 9652353) Vít Suchomel (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 8884439) |
Popis výsledku v anglickém jazyce | In this article we describe six new web corpora for Turkish, Azerbaijani, Kazakh, Turkmen, Kyrgyz and Uzbek languages. The data for these corpora was automatically crawled from the web by SpiderLing. Only minimal knowledge of these languages was requiredto obtain the data in raw form. Corpora are tokenized only since morphological analyzers and disambiguators for these languages are not available (except for Turkish). Subsequent experiment with unsupervised morphological segmentation was carried out onthe Turkish corpus. In this experiment we achieved encouraging results. We used data provided for MorphoChallenge competition for the purpose of evaluation. |
Klíčová slova oddělená středníkem | corpus; turkic languages; unsupervised morphological analysis |
Stránka www, na které se nachází výsledek | - |