Údaje o výsledku |
Identifikační kód | RIV/00216224:14330/12:00059944 |
Název v původním jazyce | Large Corpora for Turkic Languages and Unsupervised Morphological Analysis |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor | AI - Jazykověda |
Rok uplatnění | 2012 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů |
Počet výskytů výsledku | 1 |
Údaje z Hodnocení výsledků výzkumných organizací 2014 |
Výsledek byl hodnocen v Pilíři I |
Rozsah vyřazení výsledku | Tento výskyt výsledku není vyřazen |
Zařazení výsledku v hodnocení | D - Článek ve sborníku |
Skupina oboru v hodnocení | 01 - Společenské, humanitní a umělecké vědy - SHVa |
Konkrétní způsob(y) hodnocení výsledku | Článek ve sborníku evidovaném v databázi Conference Proceedings Citation Index |
Bodové ohodnocení | 8,000 |
Faktor korekce | 100,3 % |
Body (upravené podle přílohy č. 8 Metodiky) | 8,020 |
Rozdělení výsledku mezi předkladatele |
Organizace | Výzkumná organizace? | Podíl | Body | Body (upravené podle přílohy č. 8 Metodiky) |
Masarykova univerzita / Fakulta informatiky | ano | 100,0 % | 8,000 | 8,020 |
|
Tvůrci výsledku |
Počet tvůrců celkem | 2 |
Počet domácích tvůrců | 2 |
Tvůrce | Baisa Vít (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 9652353) |
Tvůrce | Suchomel Vít (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 8884439) |
Údaje blíže specifikující výsledek |
Popis v původním jazyce | In this article we describe six new web corpora for Turkish, Azerbaijani, Kazakh, Turkmen, Kyrgyz and Uzbek languages. The data for these corpora was automatically crawled from the web by SpiderLing. Only minimal knowledge of these languages was required to obtain the data in raw form. Corpora are tokenized only since morphological analyzers and disambiguators for these languages are not available (except for Turkish). Subsequent experiment with unsupervised morphological segmentation was carried out on the Turkish corpus. In this experiment we achieved encouraging results. We used data provided for MorphoChallenge competition for the purpose of evaluation. |
Klíčová slova | corpus; turkic languages; unsupervised morphological analysis |
Rozsah stran | 28-32 |
Název sborníku | Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12) |
Forma vydání | E - Elektronická verze „online“ |
Počet stran výsledku | 5 |
ISBN | 9782951740877 |
Název nakladatele | European Language Resources Association (ELRA) |
Místo vydání | Istanbul, Turkey |
Místo konání akce | Istanbul |
Rok konání akce | 2012 |
Typ akce podle státní příslušnoti účastníků | WRD - Světová |
Údaje o tomto záznamu o výsledku |
Předkladatel | Masarykova univerzita / Fakulta informatiky |
Dodavatel | MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT) |
Rok sběru | 2013 |
Systémové označení dodávky dat | RIV13-MSM-14330___/02:2 |
Specifikace | RIV/00216224:14330/12:00059944!RIV13-MSM-14330___ |
Kontrolní kód | [DEB8C8F697F5] |
Jiný výskyt tohoto výsledku se v RIV nenachází |
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl |
Projekt | LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM) |
S - Specifický výzkum na vysokých školách |