RIV/00216224:14330/13:00070353 - Typos in Czech Corpora (2013)

Údaje o výsledku
Identifikační kódRIV/00216224:14330/13:00070353
Název v původním jazyceTypos in Czech Corpora
DruhD - Článek ve sborníku
Jazykeng - angličtina
OborIN - Informatika
Rok uplatnění2013
Kód důvěrnosti údajůS - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
Počet výskytů výsledku1
Údaje z Hodnocení výsledků výzkumných organizací 2014
Výsledek byl hodnocen v Pilíři I
Rozsah vyřazení výsledkuTento výskyt výsledku není vyřazen
Zařazení výsledku v hodnoceníneu - Výsledky bez bodového hodnocení nebo vyřazené
Skupina oboru v hodnocení04 - Technické a informatické vědy
Konkrétní způsob(y) hodnocení výsledkuČlánek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.
Rozdělení výsledku mezi předkladatele
OrganizaceVýzkumná organizace?PodílBodyBody (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatikyano100,0 %0,000
Tvůrci výsledku
Počet tvůrců celkem1
Počet domácích tvůrců1
TvůrceGrác Marek (státní příslušnost: SK - Slovenská republika; A - domácí tvůrce; vedidk: 8666865)
Údaje blíže specifikující výsledek
Popis v původním jazyceThe extended usage of written corpora not only for manual querying but also for machine learning led to the creation of massive corpora. These corpora are almost solely crawled from the internet and contain texts of various quality. Corpora that contain more typos or ungrammatical texts are more difficult to use for computational linguists and are thus a major obstacle in automatic development. In this paper we attempt to qualify some of existing Czech corpora using manually created wordlist. We will show that building such a list of frequent typos can be done without major investing when agile techniques are used.
Klíčová slovatext corpus; errors in text
Rozsah stran59-62
Název sborníkuSeventh Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2013
Forma vydáníP - Tištěná verze „print“
ISBN9788026305200
Počet stran výsledku4
Název nakladateleTribun EU
Místo vydáníBrno
Místo konání akceBrno
Rok konání akce2013
Typ akce podle státní příslušnoti účastníkůCST - Celostátní
Údaje o tomto záznamu o výsledku
PředkladatelMasarykova univerzita / Fakulta informatiky
DodavatelMSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
Rok sběru2014
Systémové označení dodávky datRIV14-MSM-14330___/01:1
SpecifikaceRIV/00216224:14330/13:00070353!RIV14-MSM-14330___
Kontrolní kód[33E92A5BA85B]
Jiný výskyt tohoto výsledku se v RIV nenachází
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
ProjektLM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM)
S - Specifický výzkum na vysokých školách