Identifikační kód | RIV/00216224:14330/11:00051849 |
Název v původním jazyce | Anotácia dát |
Název v anglickém jazyce | Data Annotation |
Druh | D - Článek ve sborníku |
Jazyk | sla - slovenština |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2011 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 2 |
Počet domácích tvůrců | 2 |
Výčet všech uvedených jednotlivých tvůrců | Adam Rambousek (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 5798809) Marek Grác (státní příslušnost: SK - Slovenská republika, domácí tvůrce: A, vedidk: 8666865) |
Popis výsledku v původním jazyce | Práca s prirodzeným jazykom vyžaduje rozsiahle dátové zdroje -- korpusy. Čím viac informácií z nich dokážeme extrahovať, tým sú pre nás užitočnejšie. Niektoré úlohy však nie je možné kvalitne značkovať pomocou automatických nástrojov. V našom príspevku sa venujeme problematike manuálneho resp. poloautomatického značkovania jazykových zdrojov. Reflektujeme v nich skúsenosti získané z viacerých projektov, ktoré sa líšili množstvom anotátorov, ich skúsenosťami, druhom anotovaných dát a v neposlednej rade aj kvalitou anotátorov. |
Popis výsledku v anglickém jazyce | Natural language processing needs large data resources -- corpora. The more information we can extract, the more useful they are. However it is not possible to annotate some information automatically in good quality. This paper deals with manual and semi-automatical annotation of language resources. It summarize the experience from several projects that differ in amount of annotators, their experience, data type and annotator quality. |
Klíčová slova oddělená středníkem | annotation; corpora; inter-annotator agreement |
Stránka www, na které se nachází výsledek | - |