RIV/00216224:14330/13:00070353 - Typos in Czech Corpora (2013)

Údaje o výsledku

Identifikační kód

RIV/00216224:14330/13:00070353

Název v původním jazyce

Typos in Czech Corpora

Druh

D - Článek ve sborníku

Jazyk

eng - angličtina

Obor

IN - Informatika

Rok uplatnění

2013

Kód důvěrnosti údajů

S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů

Počet výskytů výsledku

Údaje z Hodnocení výsledků výzkumných organizací 2014

Výsledek byl hodnocen v Pilíři I

Rozsah vyřazení výsledku

Tento výskyt výsledku není vyřazen

Zařazení výsledku v hodnocení

neu - Výsledky bez bodového hodnocení nebo vyřazené

Skupina oboru v hodnocení

04 - Technické a informatické vědy

Konkrétní způsob(y) hodnocení výsledku

Článek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.

Rozdělení výsledku mezi předkladatele

Organizace	Výzkumná organizace?	Podíl	Body	Body (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatiky	ano	100,0 %	0,000

Tvůrci výsledku

Počet tvůrců celkem

Počet domácích tvůrců

Tvůrce

Grác Marek (státní příslušnost: SK - Slovenská republika; A - domácí tvůrce; vedidk: 8666865)

Údaje blíže specifikující výsledek

Popis v původním jazyce

The extended usage of written corpora not only for manual querying but also for machine learning led to the creation of massive corpora. These corpora are almost solely crawled from the internet and contain texts of various quality. Corpora that contain more typos or ungrammatical texts are more difficult to use for computational linguists and are thus a major obstacle in automatic development. In this paper we attempt to qualify some of existing Czech corpora using manually created wordlist. We will show that building such a list of frequent typos can be done without major investing when agile techniques are used.

Klíčová slova

text corpus; errors in text

Rozsah stran

59-62

Název sborníku

Seventh Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2013

Forma vydání

P - Tištěná verze „print“

ISBN

9788026305200

Počet stran výsledku

Název nakladatele

Tribun EU

Místo vydání

Brno

Místo konání akce

Brno

Rok konání akce

2013

Typ akce podle státní příslušnoti účastníků

CST - Celostátní

Údaje o tomto záznamu o výsledku

Předkladatel

Masarykova univerzita / Fakulta informatiky

Dodavatel

MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)

Rok sběru

2014

Systémové označení dodávky dat

RIV14-MSM-14330___/01:1

Specifikace

RIV/00216224:14330/13:00070353!RIV14-MSM-14330___

Kontrolní kód

[33E92A5BA85B]

Jiný výskyt tohoto výsledku se v RIV nenachází

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt

LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM)

S - Specifický výzkum na vysokých školách