Údaje o výsledku |
Identifikační kód | RIV/00216224:14330/12:00060816 |
Název v původním jazyce | Setting up for corpus lexicography |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor | IN - Informatika |
Rok uplatnění | 2012 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů |
Počet výskytů výsledku | 1 |
Údaje z Hodnocení výsledků výzkumných organizací 2014 |
Výsledek byl hodnocen v Pilíři I |
Rozsah vyřazení výsledku | Tento výskyt výsledku není vyřazen |
Zařazení výsledku v hodnocení | neu - Výsledky bez bodového hodnocení nebo vyřazené |
Skupina oboru v hodnocení | 04 - Technické a informatické vědy |
Konkrétní způsob(y) hodnocení výsledku | Článek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus. |
Rozdělení výsledku mezi předkladatele |
Organizace | Výzkumná organizace? | Podíl | Body | Body (upravené podle přílohy č. 8 Metodiky) |
Masarykova univerzita / Fakulta informatiky | ano | 66,7 % | 0,000 | |
|
Tvůrci výsledku |
Počet tvůrců celkem | 4 |
Počet domácích tvůrců | 2 |
Tvůrce | Kilgarriff Adam (státní příslušnost: GB - Spojené království Velké Británie a Severního Irska) |
Tvůrce | Pomikálek Jan (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 4980190) |
Tvůrce | Jakubíček Miloš (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 5837189) |
Tvůrce | Whitelock Pete (státní příslušnost: GB - Spojené království Velké Británie a Severního Irska) |
Údaje blíže specifikující výsledek |
Popis v původním jazyce | There are many benefits to using corpora. In order to reap those rewards, how should someone who is setting up a dictionary project proceed? We describe a practical experience of such "setting up" for a new Portuguese-English, English-Portuguese dictionary being written at Oxford University Press. We focus on the Portuguese side, as OUP did not have Portuguese resources prior to the project. We collected a very large (3.5 billion word) corpus from the web, including removing all unwanted material and duplicates. We then identified the best tools for Portuguese for lemmatizing and parsing, and undertook the very large task of parsing it. We then used the dependency parses, as output by the parser, to create word sketches (one page summaries of a word’s grammatical and collocational behavior). We plan to customize an existing system for automatically identifying good candidate dictionary examples, to Portuguese, and add salient information about regional words to the word sketches. |
Klíčová slova | corpora; corpus lexicography; web crawling; dependency parsing |
Název sborníku | Proceedings of the 15th EURALEX International Congress |
Rozsah stran | 606-612 |
Forma vydání | P - Tištěná verze „print“ |
Počet stran výsledku | 7 |
ISBN | 9788230322284 |
Název nakladatele | Department of Linguistics and Scandinavian Studies, University of Oslo |
Místo vydání | Oslo, Norway |
Místo konání akce | Oslo, Norway |
Rok konání akce | 2012 |
Typ akce podle státní příslušnoti účastníků | WRD - Světová |
Adresa www stránky s výsledkem | http://trac.sketchengine.co.uk/attachment/wiki/AK/Papers/pt_31may2012.doc?format=raw |
Údaje o tomto záznamu o výsledku |
Předkladatel | Masarykova univerzita / Fakulta informatiky |
Dodavatel | MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT) |
Rok sběru | 2013 |
Systémové označení dodávky dat | RIV13-MSM-14330___/02:2 |
Specifikace | RIV/00216224:14330/12:00060816!RIV13-MSM-14330___ |
Kontrolní kód | [C50DD2441830] |
Jiný výskyt tohoto výsledku se v RIV nenachází |
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl |
Projekt | LA09016 - Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (2009-2012, MSM/LA) |