RIV/00216224:14330/11:00054044 - Building a 50M Corpus of Tajik Language (2011)

Údaje o výsledku
Identifikační kódRIV/00216224:14330/11:00054044
Název v původním jazyceBuilding a 50M Corpus of Tajik Language
DruhD - Článek ve sborníku
Jazykeng - angličtina
OborAI - Jazykověda
Rok uplatnění2011
Kód důvěrnosti údajůS - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
Počet výskytů výsledku1
Údaje z Hodnocení výsledků výzkumných organizací 2014
Výsledek byl hodnocen v Pilíři I
Rozsah vyřazení výsledkuTento výskyt výsledku není vyřazen
Zařazení výsledku v hodnoceníneu - Výsledky bez bodového hodnocení nebo vyřazené
Skupina oboru v hodnocení01 - Společenské, humanitní a umělecké vědy - SHVa
Konkrétní způsob(y) hodnocení výsledkuČlánek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.
Rozdělení výsledku mezi předkladatele
OrganizaceVýzkumná organizace?PodílBodyBody (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatikyano100,0 %0,000
Tvůrci výsledku
Počet tvůrců celkem4
Počet domácích tvůrců4
TvůrceDovudov Gulshan (státní příslušnost: TJ - Republika Tádžikistán; A - domácí tvůrce)
TvůrcePomikálek Jan (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 4980190)
TvůrceSuchomel Vít (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 8884439)
TvůrceŠmerk Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 1322451)
Údaje blíže specifikující výsledek
Popis v původním jazycePaper presents by far the largest available computer corpus of Tajik Language of the size of more than 50 million words. To obtain the texts for the corpus two different approaches were used. The paper brings a description of both of them, discusses their advantages and disadvantages and shows some statistics of the two respective partial corpora. Then the paper characterizes the resulting joined corpus and finally discusses some possible future improvements.
Klíčová slovalanguage corpora; corpus; corpus building; tajik
Název sborníkuProceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011
Rozsah stran89-95
ISBN978-80-263-0077-9
Počet stran výsledku7
Název nakladateleTribun EU
Místo vydáníBrno
Místo konání akceKarlova Studánka
Rok konání akce2011
Typ akce podle státní příslušnoti účastníkůCST - Celostátní
Údaje o tomto záznamu o výsledku
PředkladatelMasarykova univerzita / Fakulta informatiky
DodavatelMSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
Rok sběru2012
Systémové označení dodávky datRIV12-MSM-14330___/01:1
SpecifikaceRIV/00216224:14330/11:00054044!RIV12-MSM-14330___
Kontrolní kód[7648BA1D309B]
Jiný výskyt tohoto výsledku se v RIV nenachází
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
ProjektLC536 - Centrum komputační lingvistiky (2005-2011, MSM/LC)
S - Specifický výzkum na vysokých školách