Údaje o výsledku |
Identifikační kód | RIV/00216224:14330/11:00049482 |
Název v původním jazyce | Building Annotated Corpora without Experts |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor | IN - Informatika |
Rok uplatnění | 2011 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů |
Počet výskytů výsledku | 2 |
Údaje z Hodnocení výsledků výzkumných organizací 2014 |
Výsledek byl hodnocen v Pilíři I |
Rozsah vyřazení výsledku | Tento výskyt výsledku není vyřazen |
Zařazení výsledku v hodnocení | neu - Výsledky bez bodového hodnocení nebo vyřazené |
Skupina oboru v hodnocení | 04 - Technické a informatické vědy |
Konkrétní způsob(y) hodnocení výsledku | Článek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus. |
Rozdělení výsledku mezi předkladatele |
Organizace | Výzkumná organizace? | Podíl | Body | Body (upravené podle přílohy č. 8 Metodiky) |
Masarykova univerzita / Fakulta informatiky | ano | 100,0 % | 0,000 | |
|
Tvůrci výsledku |
Počet tvůrců celkem | 1 |
Počet domácích tvůrců | 1 |
Tvůrce | Grác Marek (státní příslušnost: SK - Slovenská republika; A - domácí tvůrce; G - garant výsledku; vedidk: 8666865) |
Údaje blíže specifikující výsledek |
Popis v původním jazyce | In this paper, we present a low-cost approach of building a multi-purpose language resource for Czech, based on currently available results of previous work done by various teams. We focus on the first phase that consists of verifying validity of automatically discovered syntactic elements in 10 000 sentences by 47 human annotators. Due to the number of annotators and very limited time for training, existing heavy-weight techniques for building annotated corpora were not applicable. We have decided to avoid using experts when results between annotators differed. This means that our corpus does not offer ultimate answers, but raw data and models for obtaining ``correct'' answer tailored to user's application. Finally we discuss the currently achieved results and future plans. |
Klíčová slova | corpus annotation crowdsourcing |
Název sborníku | Natural Language Processing, Multilinguality |
Rozsah stran | 81-88 |
ISBN | 978-80-263-0049-6 |
Počet stran výsledku | 8 |
Název nakladatele | Slovak National Corpus |
Místo vydání | Bratislava, Slovensko |
Místo konání akce | 2011 |
Rok konání akce | 2011 |
Typ akce podle státní příslušnoti účastníků | EUR - Evropská |
Údaje o tomto záznamu o výsledku |
Předkladatel | Masarykova univerzita / Fakulta informatiky |
Dodavatel | MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT) |
Rok sběru | 2012 |
Systémové označení dodávky dat | RIV12-MSM-14330___/01:1 |
Specifikace | RIV/00216224:14330/11:00049482!RIV12-MSM-14330___ |
Kontrolní kód | [A624FB185991] |
Další výskyty tohoto výsledku od stejného předkladatele |
Dodáno AV ČR v roce 2012 | Záznam s identifikačním kódem RIV/00216224:14330/11:00049482 v dodávce dat RIV12-AV0-14330___/01:1 |
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl |
Projekt | LC536 - Centrum komputační lingvistiky (2005-2011, MSM/LC) |
Projekt | 1ET100300419 - Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu (2004-2008, AV0/1E) |
S - Specifický výzkum na vysokých školách |