RIV/00216224:14330/12:00060816 - Setting up for corpus lexicography (2012)

Údaje o výsledku

Identifikační kód

RIV/00216224:14330/12:00060816

Název v původním jazyce

Setting up for corpus lexicography

Druh

D - Článek ve sborníku

Jazyk

eng - angličtina

Obor

IN - Informatika

Rok uplatnění

2012

Kód důvěrnosti údajů

S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů

Počet výskytů výsledku

Údaje z Hodnocení výsledků výzkumných organizací 2014

Výsledek byl hodnocen v Pilíři I

Rozsah vyřazení výsledku

Tento výskyt výsledku není vyřazen

Zařazení výsledku v hodnocení

neu - Výsledky bez bodového hodnocení nebo vyřazené

Skupina oboru v hodnocení

04 - Technické a informatické vědy

Konkrétní způsob(y) hodnocení výsledku

Článek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.

Rozdělení výsledku mezi předkladatele

Organizace	Výzkumná organizace?	Podíl	Body	Body (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatiky	ano	66,7 %	0,000

Tvůrci výsledku

Počet tvůrců celkem

Počet domácích tvůrců

Tvůrce

Kilgarriff Adam (státní příslušnost: GB - Spojené království Velké Británie a Severního Irska)

Tvůrce

Pomikálek Jan (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 4980190)

Tvůrce

Jakubíček Miloš (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 5837189)

Tvůrce

Whitelock Pete (státní příslušnost: GB - Spojené království Velké Británie a Severního Irska)

Údaje blíže specifikující výsledek

Popis v původním jazyce

There are many benefits to using corpora. In order to reap those rewards, how should someone who is setting up a dictionary project proceed? We describe a practical experience of such "setting up" for a new Portuguese-English, English-Portuguese dictionary being written at Oxford University Press. We focus on the Portuguese side, as OUP did not have Portuguese resources prior to the project. We collected a very large (3.5 billion word) corpus from the web, including removing all unwanted material and duplicates. We then identified the best tools for Portuguese for lemmatizing and parsing, and undertook the very large task of parsing it. We then used the dependency parses, as output by the parser, to create word sketches (one page summaries of a word’s grammatical and collocational behavior). We plan to customize an existing system for automatically identifying good candidate dictionary examples, to Portuguese, and add salient information about regional words to the word sketches.

Klíčová slova

corpora; corpus lexicography; web crawling; dependency parsing

Název sborníku

Proceedings of the 15th EURALEX International Congress

Rozsah stran

606-612

Forma vydání

P - Tištěná verze „print“

Počet stran výsledku

ISBN

9788230322284

Název nakladatele

Department of Linguistics and Scandinavian Studies, University of Oslo

Místo vydání

Oslo, Norway

Místo konání akce

Oslo, Norway

Rok konání akce

2012

Typ akce podle státní příslušnoti účastníků

WRD - Světová

Adresa www stránky s výsledkem

http://trac.sketchengine.co.uk/attachment/wiki/AK/Papers/pt_31may2012.doc?format=raw

Údaje o tomto záznamu o výsledku

Předkladatel

Masarykova univerzita / Fakulta informatiky

Dodavatel

MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)

Rok sběru

2013

Systémové označení dodávky dat

RIV13-MSM-14330___/02:2

Specifikace

RIV/00216224:14330/12:00060816!RIV13-MSM-14330___

Kontrolní kód

[C50DD2441830]

Jiný výskyt tohoto výsledku se v RIV nenachází

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt

LA09016 - Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (2009-2012, MSM/LA)