Identifikační kód | RIV/00216224:14330/13:00070353 |
Název v anglickém jazyce | Typos in Czech Corpora |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2013 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 1 |
Počet domácích tvůrců | 1 |
Výčet všech uvedených jednotlivých tvůrců | Marek Grác (státní příslušnost: SK - Slovenská republika, domácí tvůrce: A, vedidk: 8666865) |
Popis výsledku v anglickém jazyce | The extended usage of written corpora not only for manual querying but also for machine learning led to the creation of massive corpora. These corpora are almost solely crawled from the internet and contain texts of various quality. Corpora that containmore typos or ungrammatical texts are more difficult to use for computational linguists and are thus a major obstacle in automatic development. In this paper we attempt to qualify some of existing Czech corpora using manually created wordlist. We will show that building such a list of frequent typos can be done without major investing when agile techniques are used. |
Klíčová slova oddělená středníkem | text corpus; errors in text |
Stránka www, na které se nachází výsledek | - |