RIV/00216224:14330/12:00060816 - Setting up for corpus lexicography (2012)

Údaje o výsledku
Identifikační kódRIV/00216224:14330/12:00060816
Název v původním jazyceSetting up for corpus lexicography
DruhD - Článek ve sborníku
Jazykeng - angličtina
OborIN - Informatika
Rok uplatnění2012
Kód důvěrnosti údajůS - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
Počet výskytů výsledku1
Údaje z Hodnocení výsledků výzkumných organizací 2014
Výsledek byl hodnocen v Pilíři I
Rozsah vyřazení výsledkuTento výskyt výsledku není vyřazen
Zařazení výsledku v hodnoceníneu - Výsledky bez bodového hodnocení nebo vyřazené
Skupina oboru v hodnocení04 - Technické a informatické vědy
Konkrétní způsob(y) hodnocení výsledkuČlánek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.
Rozdělení výsledku mezi předkladatele
OrganizaceVýzkumná organizace?PodílBodyBody (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatikyano66,7 %0,000
Tvůrci výsledku
Počet tvůrců celkem4
Počet domácích tvůrců2
TvůrceKilgarriff Adam (státní příslušnost: GB - Spojené království Velké Británie a Severního Irska)
TvůrcePomikálek Jan (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 4980190)
TvůrceJakubíček Miloš (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 5837189)
TvůrceWhitelock Pete (státní příslušnost: GB - Spojené království Velké Británie a Severního Irska)
Údaje blíže specifikující výsledek
Popis v původním jazyceThere are many benefits to using corpora. In order to reap those rewards, how should someone who is setting up a dictionary project proceed? We describe a practical experience of such "setting up" for a new Portuguese-English, English-Portuguese dictionary being written at Oxford University Press. We focus on the Portuguese side, as OUP did not have Portuguese resources prior to the project. We collected a very large (3.5 billion word) corpus from the web, including removing all unwanted material and duplicates. We then identified the best tools for Portuguese for lemmatizing and parsing, and undertook the very large task of parsing it. We then used the dependency parses, as output by the parser, to create word sketches (one page summaries of a word’s grammatical and collocational behavior). We plan to customize an existing system for automatically identifying good candidate dictionary examples, to Portuguese, and add salient information about regional words to the word sketches.
Klíčová slovacorpora; corpus lexicography; web crawling; dependency parsing
Název sborníkuProceedings of the 15th EURALEX International Congress
Rozsah stran606-612
Forma vydáníP - Tištěná verze „print“
Počet stran výsledku7
ISBN9788230322284
Název nakladateleDepartment of Linguistics and Scandinavian Studies, University of Oslo
Místo vydáníOslo, Norway
Místo konání akceOslo, Norway
Rok konání akce2012
Typ akce podle státní příslušnoti účastníkůWRD - Světová
Adresa www stránky s výsledkemhttp://trac.sketchengine.co.uk/attachment/wiki/AK/Papers/pt_31may2012.doc?format=raw
Údaje o tomto záznamu o výsledku
PředkladatelMasarykova univerzita / Fakulta informatiky
DodavatelMSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
Rok sběru2013
Systémové označení dodávky datRIV13-MSM-14330___/02:2
SpecifikaceRIV/00216224:14330/12:00060816!RIV13-MSM-14330___
Kontrolní kód[C50DD2441830]
Jiný výskyt tohoto výsledku se v RIV nenachází
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
ProjektLA09016 - Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (2009-2012, MSM/LA)