RIV/00216224:14330/12:00064722 - Towards 100M Morphologically Annotated Corpus of Tajik (2012)

Údaje o výsledku

Identifikační kód

RIV/00216224:14330/12:00064722

Název v původním jazyce

Towards 100M Morphologically Annotated Corpus of Tajik

Druh

D - Článek ve sborníku

Jazyk

eng - angličtina

Obor

AI - Jazykověda

Rok uplatnění

2012

Kód důvěrnosti údajů

S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů

Počet výskytů výsledku

Údaje z Hodnocení výsledků výzkumných organizací 2014

Výsledek byl hodnocen v Pilíři I

Rozsah vyřazení výsledku

Tento výskyt výsledku není vyřazen

Zařazení výsledku v hodnocení

neu - Výsledky bez bodového hodnocení nebo vyřazené

Skupina oboru v hodnocení

01 - Společenské, humanitní a umělecké vědy - SHVa

Konkrétní způsob(y) hodnocení výsledku

Článek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.

Rozdělení výsledku mezi předkladatele

Organizace	Výzkumná organizace?	Podíl	Body	Body (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatiky	ano	100,0 %	0,000

Tvůrci výsledku

Počet tvůrců celkem

Počet domácích tvůrců

Tvůrce

Dovudov Gulshan (státní příslušnost: TJ - Republika Tádžikistán; A - domácí tvůrce)

Tvůrce

Suchomel Vít (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 8884439)

Tvůrce

Šmerk Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 1322451)

Údaje blíže specifikující výsledek

Popis v původním jazyce

The paper presents a work in progress: building morphologically annotated corpus of Tajik language of the size more than 100 million tokens. The corpus is and will be by far the largest available computer corpus of Tajik: even its current size is almost 85 million tokens. Because the available text sources are rather scarce, to achieve the goal also the texts of a lower quality have to be included. This short paper briefly reviews the current state of the corpus and analyzer, discusses problems with either “normalization” or at least categorization of low quality texts and finally also the perspectives for the nearest future.

Klíčová slova

web corpora; Tajik

Název sborníku

Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2012

Rozsah stran

91-94

Forma vydání

P - Tištěná verze „print“

ISBN

9788026303138

Počet stran výsledku

Název nakladatele

Tribun EU

Místo vydání

Brno

Místo konání akce

Karlova Studánka

Rok konání akce

2012

Typ akce podle státní příslušnoti účastníků

EUR - Evropská

Adresa www stránky s výsledkem

http://raslan2012.nlp-consulting.net/program

Údaje o tomto záznamu o výsledku

Předkladatel

Masarykova univerzita / Fakulta informatiky

Dodavatel

MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)

Rok sběru

2013

Systémové označení dodávky dat

RIV13-MSM-14330___/02:2

Specifikace

RIV/00216224:14330/12:00064722!RIV13-MSM-14330___

Kontrolní kód

[7C1CE48E9CB5]

Jiný výskyt tohoto výsledku se v RIV nenachází

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt

LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM)