Extrinsic Corpus Evaluation with a Collocation Dictionary Task (2014)výskyt výsledku
Identifikační kód | RIV/00216224:14330/14:00073227 |
---|---|
Název v anglickém jazyce | Extrinsic Corpus Evaluation with a Collocation Dictionary Task |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2014 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 2 |
Počet tvůrců celkem | 6 |
Počet domácích tvůrců | 5 |
Výčet všech uvedených jednotlivých tvůrců | Adam Kilgarriff (státní příslušnost: GB - Spojené království Velké Británie a Severního Irska) Pavel Rychlý (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6616844) Miloš Jakubíček (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 5837189) Vojtěch Kovář (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6217850) Vít Baisa (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 9652353) Lucia Kocincová (státní příslušnost: SK - Slovenská republika, domácí tvůrce: A, vedidk: 1216333) |
Popis výsledku v anglickém jazyce | The NLP researcher or application-builder often wonders ``what corpus should I use, or should I build one of my own? If I build one of my own, how will I know if I have done a good job?'' Currently there is very little help available for them. They are in need of a framework for evaluating corpora. We develop such a framework, in relation to corpora which aim for good coverage of `general language'. The task we set is automatic creation of a publication-quality collocations dictionary. For a sample of 100 headwords of Czech and 100 of English, we identify a gold standard dataset of (ideally) all the collocations that should appear for these headwords in such a dictionary. The datasets are being made available alongside this paper. We then use them to determine precision and recall for a range of corpora, with a range of parameters. |
Klíčová slova oddělená středníkem | corpus; evaluation; collocation |
Stránka www, na které se nachází výsledek | - |
Údaje o výsledku v závislosti na druhu výsledku
Název sborníku | Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14) |
---|---|
ISBN | 9782951740884 |
ISSN | - |
Počet stran výsledku | 8 |
Strana od-do | 1-8 |
Název nakladatele | European Language Resources Association (ELRA) |
Místo vydání | Reykjavik, Iceland |
Místo konání akce | Reykjavik, Iceland |
Datum konání akce | 2014 |
Typ akce podle státní příslušnosti účastníků | WRD - Celosvětová |
Kód UT WoS článku podle Web of Science | - |
Ostatní informace o výsledku
Předkladatel | Masarykova univerzita / Fakulta informatiky |
---|---|
Dodavatel | MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT) |
Rok sběru | 2015 |
Specifikace | RIV/00216224:14330/14:00073227!RIV15-MSM-14330___ |
Datum poslední aktualizace výsledku | 29.05.2015 |
Kontrolní číslo | 152393859 |
Informace o dalších výskytech výsledku dodaného stejným předkladatelem
Dodáno MV v roce 2015 | RIV/00216224:14330/14:00073227 v dodávce dat RIV15-MV0-14330___/01:1 |
---|
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
Projekt podporovaný MŠMT v programu LM | LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010 - 2015) |
---|---|
Projekt podporovaný MV v programu VF | VF20102014003 - Analýza přirozeného jazyka v prostředí internetu (2010 - 2014) |
Podpora / návaznosti | Specifický výzkum na vysokých školách, poskytovatel MŠMT |