RIV/00216224:14330/11:00049482 - Building Annotated Corpora without Experts (2011)

Údaje o výsledku

Identifikační kód

RIV/00216224:14330/11:00049482

Název v původním jazyce

Building Annotated Corpora without Experts

Druh

D - Článek ve sborníku

Jazyk

eng - angličtina

Obor

IN - Informatika

Rok uplatnění

2011

Kód důvěrnosti údajů

S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů

Počet výskytů výsledku

Údaje z Hodnocení výsledků výzkumných organizací 2014

Výsledek byl hodnocen v Pilíři I

Rozsah vyřazení výsledku

Tento výskyt výsledku není vyřazen

Zařazení výsledku v hodnocení

neu - Výsledky bez bodového hodnocení nebo vyřazené

Skupina oboru v hodnocení

04 - Technické a informatické vědy

Konkrétní způsob(y) hodnocení výsledku

Článek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.

Rozdělení výsledku mezi předkladatele

Organizace	Výzkumná organizace?	Podíl	Body	Body (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatiky	ano	100,0 %	0,000

Tvůrci výsledku

Počet tvůrců celkem

Počet domácích tvůrců

Tvůrce

Grác Marek (státní příslušnost: SK - Slovenská republika; A - domácí tvůrce; G - garant výsledku; vedidk: 8666865)

Údaje blíže specifikující výsledek

Popis v původním jazyce

In this paper, we present a low-cost approach of building a multi-purpose language resource for Czech, based on currently available results of previous work done by various teams. We focus on the first phase that consists of verifying validity of automatically discovered syntactic elements in 10 000 sentences by 47 human annotators. Due to the number of annotators and very limited time for training, existing heavy-weight techniques for building annotated corpora were not applicable. We have decided to avoid using experts when results between annotators differed. This means that our corpus does not offer ultimate answers, but raw data and models for obtaining ``correct'' answer tailored to user's application. Finally we discuss the currently achieved results and future plans.

Klíčová slova

corpus annotation crowdsourcing

Název sborníku

Natural Language Processing, Multilinguality

Rozsah stran

81-88

ISBN

978-80-263-0049-6

Počet stran výsledku

Název nakladatele

Slovak National Corpus

Místo vydání

Bratislava, Slovensko

Místo konání akce

2011

Rok konání akce

2011

Typ akce podle státní příslušnoti účastníků

EUR - Evropská

Údaje o tomto záznamu o výsledku

Předkladatel

Masarykova univerzita / Fakulta informatiky

Dodavatel

MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)

Rok sběru

2012

Systémové označení dodávky dat

RIV12-MSM-14330___/01:1

Specifikace

RIV/00216224:14330/11:00049482!RIV12-MSM-14330___

Kontrolní kód

[A624FB185991]

Další výskyty tohoto výsledku od stejného předkladatele

Dodáno AV ČR v roce 2012

Záznam s identifikačním kódem RIV/00216224:14330/11:00049482 v dodávce dat RIV12-AV0-14330___/01:1

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt

LC536 - Centrum komputační lingvistiky (2005-2011, MSM/LC)

Projekt

1ET100300419 - Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu (2004-2008, AV0/1E)

S - Specifický výzkum na vysokých školách