RIV/00216224:14330/11:00054044 - Building a 50M Corpus of Tajik Language (2011)

Údaje o výsledku

Identifikační kód

RIV/00216224:14330/11:00054044

Název v původním jazyce

Building a 50M Corpus of Tajik Language

Druh

D - Článek ve sborníku

Jazyk

eng - angličtina

Obor

AI - Jazykověda

Rok uplatnění

2011

Kód důvěrnosti údajů

S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů

Počet výskytů výsledku

Údaje z Hodnocení výsledků výzkumných organizací 2014

Výsledek byl hodnocen v Pilíři I

Rozsah vyřazení výsledku

Tento výskyt výsledku není vyřazen

Zařazení výsledku v hodnocení

neu - Výsledky bez bodového hodnocení nebo vyřazené

Skupina oboru v hodnocení

01 - Společenské, humanitní a umělecké vědy - SHVa

Konkrétní způsob(y) hodnocení výsledku

Článek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.

Rozdělení výsledku mezi předkladatele

Organizace	Výzkumná organizace?	Podíl	Body	Body (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatiky	ano	100,0 %	0,000

Tvůrci výsledku

Počet tvůrců celkem

Počet domácích tvůrců

Tvůrce

Dovudov Gulshan (státní příslušnost: TJ - Republika Tádžikistán; A - domácí tvůrce)

Tvůrce

Pomikálek Jan (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 4980190)

Tvůrce

Suchomel Vít (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 8884439)

Tvůrce

Šmerk Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 1322451)

Údaje blíže specifikující výsledek

Popis v původním jazyce

Paper presents by far the largest available computer corpus of Tajik Language of the size of more than 50 million words. To obtain the texts for the corpus two different approaches were used. The paper brings a description of both of them, discusses their advantages and disadvantages and shows some statistics of the two respective partial corpora. Then the paper characterizes the resulting joined corpus and finally discusses some possible future improvements.

Klíčová slova

language corpora; corpus; corpus building; tajik

Název sborníku

Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011

Rozsah stran

89-95

ISBN

978-80-263-0077-9

Počet stran výsledku

Název nakladatele

Tribun EU

Místo vydání

Brno

Místo konání akce

Karlova Studánka

Rok konání akce

2011

Typ akce podle státní příslušnoti účastníků

CST - Celostátní

Údaje o tomto záznamu o výsledku

Předkladatel

Masarykova univerzita / Fakulta informatiky

Dodavatel

MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)

Rok sběru

2012

Systémové označení dodávky dat

RIV12-MSM-14330___/01:1

Specifikace

RIV/00216224:14330/11:00054044!RIV12-MSM-14330___

Kontrolní kód

[7648BA1D309B]

Jiný výskyt tohoto výsledku se v RIV nenachází

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt

LC536 - Centrum komputační lingvistiky (2005-2011, MSM/LC)

S - Specifický výzkum na vysokých školách