RIV/00216224:14330/12:00059944 - Large Corpora for Turkic Languages and Unsupervised Morphological Analysis (2012)

Údaje o výsledku
Identifikační kódRIV/00216224:14330/12:00059944
Název v původním jazyceLarge Corpora for Turkic Languages and Unsupervised Morphological Analysis
DruhD - Článek ve sborníku
Jazykeng - angličtina
OborAI - Jazykověda
Rok uplatnění2012
Kód důvěrnosti údajůS - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
Počet výskytů výsledku1
Údaje z Hodnocení výsledků výzkumných organizací 2014
Výsledek byl hodnocen v Pilíři I
Rozsah vyřazení výsledkuTento výskyt výsledku není vyřazen
Zařazení výsledku v hodnoceníD - Článek ve sborníku
Skupina oboru v hodnocení01 - Společenské, humanitní a umělecké vědy - SHVa
Konkrétní způsob(y) hodnocení výsledkuČlánek ve sborníku evidovaném v databázi Conference Proceedings Citation Index
Bodové ohodnocení8,000
Faktor korekce100,3 %
Body (upravené podle přílohy č. 8 Metodiky)8,020
Rozdělení výsledku mezi předkladatele
OrganizaceVýzkumná organizace?PodílBodyBody (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatikyano100,0 %8,0008,020
Tvůrci výsledku
Počet tvůrců celkem2
Počet domácích tvůrců2
TvůrceBaisa Vít (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 9652353)
TvůrceSuchomel Vít (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 8884439)
Údaje blíže specifikující výsledek
Popis v původním jazyceIn this article we describe six new web corpora for Turkish, Azerbaijani, Kazakh, Turkmen, Kyrgyz and Uzbek languages. The data for these corpora was automatically crawled from the web by SpiderLing. Only minimal knowledge of these languages was required to obtain the data in raw form. Corpora are tokenized only since morphological analyzers and disambiguators for these languages are not available (except for Turkish). Subsequent experiment with unsupervised morphological segmentation was carried out on the Turkish corpus. In this experiment we achieved encouraging results. We used data provided for MorphoChallenge competition for the purpose of evaluation.
Klíčová slovacorpus; turkic languages; unsupervised morphological analysis
Rozsah stran28-32
Název sborníkuProceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)
Forma vydáníE - Elektronická verze „online“
Počet stran výsledku5
ISBN9782951740877
Název nakladateleEuropean Language Resources Association (ELRA)
Místo vydáníIstanbul, Turkey
Místo konání akceIstanbul
Rok konání akce2012
Typ akce podle státní příslušnoti účastníkůWRD - Světová
Údaje o tomto záznamu o výsledku
PředkladatelMasarykova univerzita / Fakulta informatiky
DodavatelMSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
Rok sběru2013
Systémové označení dodávky datRIV13-MSM-14330___/02:2
SpecifikaceRIV/00216224:14330/12:00059944!RIV13-MSM-14330___
Kontrolní kód[DEB8C8F697F5]
Jiný výskyt tohoto výsledku se v RIV nenachází
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
ProjektLM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM)
S - Specifický výzkum na vysokých školách