RIV/00216224:14330/12:00059944 - Large Corpora for Turkic Languages and Unsupervised Morphological Analysis (2012)

Údaje o výsledku

Identifikační kód

RIV/00216224:14330/12:00059944

Název v původním jazyce

Large Corpora for Turkic Languages and Unsupervised Morphological Analysis

Druh

D - Článek ve sborníku

Jazyk

eng - angličtina

Obor

AI - Jazykověda

Rok uplatnění

2012

Kód důvěrnosti údajů

S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů

Počet výskytů výsledku

Údaje z Hodnocení výsledků výzkumných organizací 2014

Výsledek byl hodnocen v Pilíři I

Rozsah vyřazení výsledku

Tento výskyt výsledku není vyřazen

Zařazení výsledku v hodnocení

D - Článek ve sborníku

Skupina oboru v hodnocení

01 - Společenské, humanitní a umělecké vědy - SHVa

Konkrétní způsob(y) hodnocení výsledku

Článek ve sborníku evidovaném v databázi Conference Proceedings Citation Index

Bodové ohodnocení

8,000

Faktor korekce

100,3 %

Body (upravené podle přílohy č. 8 Metodiky)

8,020

Rozdělení výsledku mezi předkladatele

Organizace	Výzkumná organizace?	Podíl	Body	Body (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatiky	ano	100,0 %	8,000	8,020

Tvůrci výsledku

Počet tvůrců celkem

Počet domácích tvůrců

Tvůrce

Baisa Vít (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 9652353)

Tvůrce

Suchomel Vít (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 8884439)

Údaje blíže specifikující výsledek

Popis v původním jazyce

In this article we describe six new web corpora for Turkish, Azerbaijani, Kazakh, Turkmen, Kyrgyz and Uzbek languages. The data for these corpora was automatically crawled from the web by SpiderLing. Only minimal knowledge of these languages was required to obtain the data in raw form. Corpora are tokenized only since morphological analyzers and disambiguators for these languages are not available (except for Turkish). Subsequent experiment with unsupervised morphological segmentation was carried out on the Turkish corpus. In this experiment we achieved encouraging results. We used data provided for MorphoChallenge competition for the purpose of evaluation.

Klíčová slova

corpus; turkic languages; unsupervised morphological analysis

Rozsah stran

28-32

Název sborníku

Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)

Forma vydání

E - Elektronická verze „online“

Počet stran výsledku

ISBN

9782951740877

Název nakladatele

European Language Resources Association (ELRA)

Místo vydání

Istanbul, Turkey

Místo konání akce

Istanbul

Rok konání akce

2012

Typ akce podle státní příslušnoti účastníků

WRD - Světová

Údaje o tomto záznamu o výsledku

Předkladatel

Masarykova univerzita / Fakulta informatiky

Dodavatel

MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)

Rok sběru

2013

Systémové označení dodávky dat

RIV13-MSM-14330___/02:2

Specifikace

RIV/00216224:14330/12:00059944!RIV13-MSM-14330___

Kontrolní kód

[DEB8C8F697F5]

Jiný výskyt tohoto výsledku se v RIV nenachází

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt

LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM)

S - Specifický výzkum na vysokých školách