Organizace U  S Kód
hodnocení
Skupina
oborů
Body
výsledku
Body
upravené
Podíl VOBody VOBody VO
upravené
H14
Masarykova univerzita / Fakulta informatiky1213 neu 100100
Výsledky hodnocení dříve prezentovala speciální podoba stránek výskytů výsledků doplněná informacemi o hodnocení daného výskytu a výsledku. To zde supluji doplněním kopií stránek z rvvi.cz/riv z 18.12.2017 o relevantní údaje z dat H16. Najetí myší na kód či skupinu zobrazí vysvětlující text (u některých vyřazených není k dispozici). Čísla jsou oproti zdroji zaokrouhlena na 3 desetinná místa.

Towards 100M Morphologically Annotated Corpus of Tajik (2012)výskyt výsledku

Identifikační kódRIV/00216224:14330/12:00064722
Název v anglickém jazyceTowards 100M Morphologically Annotated Corpus of Tajik
DruhD - Článek ve sborníku
Jazykeng - angličtina
Obor - skupinaA - Společenské vědy
OborAI - Jazykověda
Rok uplatnění2012
Kód důvěrnosti údajůS - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů.
Počet výskytů výsledku1
Počet tvůrců celkem3
Počet domácích tvůrců3
Výčet všech uvedených jednotlivých tvůrcůGulshan Dovudov (státní příslušnost: TJ - Republika Tádžikistán, domácí tvůrce: A)
Vít Suchomel (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 8884439)
Pavel Šmerk (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 1322451)
Popis výsledku v anglickém jazyceThe paper presents a work in progress: building morphologically annotated corpus of Tajik language of the size more than 100 million tokens. The corpus is and will be by far the largest available computer corpus of Tajik: even its current size is almost85 million tokens. Because the available text sources are rather scarce, to achieve the goal also the texts of a lower quality have to be included. This short paper briefly reviews the current state of the corpus and analyzer, discusses problems with either ?normalization? or at least categorization of low quality texts and finally also the perspectives for the nearest future.
Klíčová slova oddělená středníkemweb corpora; Tajik
Stránka www, na které se nachází výsledekhttp://raslan2012.nlp-consulting.net/program

Údaje o výsledku v závislosti na druhu výsledku

Název sborníkuProceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2012
ISBN9788026303138
ISSN-
Počet stran výsledku4
Strana od-do91-94
Název nakladateleTribun EU
Místo vydáníBrno
Místo konání akceKarlova Studánka
Datum konání akce2012
Typ akce podle státní příslušnosti účastníkůEUR - Evropská
Kód UT WoS článku podle Web of Science-

Ostatní informace o výsledku

PředkladatelMasarykova univerzita / Fakulta informatiky
DodavatelMSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
Rok sběru2013
SpecifikaceRIV/00216224:14330/12:00064722!RIV13-MSM-14330___
Datum poslední aktualizace výsledku09.08.2013
Kontrolní číslo43451658

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt podporovaný MŠMT v programu LMLM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010 - 2015)