RIV/00216224:14330/12:00064722 - Towards 100M Morphologically Annotated Corpus of Tajik (2012)

Údaje o výsledku
Identifikační kódRIV/00216224:14330/12:00064722
Název v původním jazyceTowards 100M Morphologically Annotated Corpus of Tajik
DruhD - Článek ve sborníku
Jazykeng - angličtina
OborAI - Jazykověda
Rok uplatnění2012
Kód důvěrnosti údajůS - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
Počet výskytů výsledku1
Údaje z Hodnocení výsledků výzkumných organizací 2014
Výsledek byl hodnocen v Pilíři I
Rozsah vyřazení výsledkuTento výskyt výsledku není vyřazen
Zařazení výsledku v hodnoceníneu - Výsledky bez bodového hodnocení nebo vyřazené
Skupina oboru v hodnocení01 - Společenské, humanitní a umělecké vědy - SHVa
Konkrétní způsob(y) hodnocení výsledkuČlánek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.
Rozdělení výsledku mezi předkladatele
OrganizaceVýzkumná organizace?PodílBodyBody (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatikyano100,0 %0,000
Tvůrci výsledku
Počet tvůrců celkem3
Počet domácích tvůrců3
TvůrceDovudov Gulshan (státní příslušnost: TJ - Republika Tádžikistán; A - domácí tvůrce)
TvůrceSuchomel Vít (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 8884439)
TvůrceŠmerk Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 1322451)
Údaje blíže specifikující výsledek
Popis v původním jazyceThe paper presents a work in progress: building morphologically annotated corpus of Tajik language of the size more than 100 million tokens. The corpus is and will be by far the largest available computer corpus of Tajik: even its current size is almost 85 million tokens. Because the available text sources are rather scarce, to achieve the goal also the texts of a lower quality have to be included. This short paper briefly reviews the current state of the corpus and analyzer, discusses problems with either “normalization” or at least categorization of low quality texts and finally also the perspectives for the nearest future.
Klíčová slovaweb corpora; Tajik
Název sborníkuProceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2012
Rozsah stran91-94
Forma vydáníP - Tištěná verze „print“
ISBN9788026303138
Počet stran výsledku4
Název nakladateleTribun EU
Místo vydáníBrno
Místo konání akceKarlova Studánka
Rok konání akce2012
Typ akce podle státní příslušnoti účastníkůEUR - Evropská
Adresa www stránky s výsledkemhttp://raslan2012.nlp-consulting.net/program
Údaje o tomto záznamu o výsledku
PředkladatelMasarykova univerzita / Fakulta informatiky
DodavatelMSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
Rok sběru2013
Systémové označení dodávky datRIV13-MSM-14330___/02:2
SpecifikaceRIV/00216224:14330/12:00064722!RIV13-MSM-14330___
Kontrolní kód[7C1CE48E9CB5]
Jiný výskyt tohoto výsledku se v RIV nenachází
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
ProjektLM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM)