Finding Terms in Corpora for Many Languages with the Sketch Engine (2014)výskyt výsledku
Identifikační kód | RIV/00216224:14330/14:00075387 |
---|---|
Název v anglickém jazyce | Finding Terms in Corpora for Many Languages with the Sketch Engine |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2014 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 5 |
Počet domácích tvůrců | 4 |
Výčet všech uvedených jednotlivých tvůrců | Adam Kilgarriff (státní příslušnost: GB - Spojené království Velké Británie a Severního Irska) Miloš Jakubíček (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 5837189) Vojtěch Kovář (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6217850) Pavel Rychlý (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6616844) Vít Suchomel (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 8884439) |
Popis výsledku v anglickém jazyce | Term candidates for a domain, in a language, can be found by taking a corpus for the domain, and a refer- ence corpus for the language identifying the grammatical shape of a term in the language tokenising, lemmatising and POS-tagging both corpora identifying (and counting) the items in each corpus which match the grammatical shape for each item in the domain corpus, compar- ing its frequency with its frequency in the refence corpus. Then, the items with the highest frequency in the domain corpus in comparison to the reference cor- pus will be the top term candidates. None of the steps above are unusual or innova- tive for NLP (see, e. g., (Aker et al., 2013), (Go- jun et al., 2012)). However it is far from trivial to implement them all, for numerous languages, in an environment that makes it easy for non- programmers to find the terms in a domain. This is what we have done in the Sketch Engine (Kilgarriff et al., 2004), and will demonstrate. |
Klíčová slova oddělená středníkem | terminology; terms; corpora; sketch engine |
Stránka www, na které se nachází výsledek | http://aclweb.org/anthology/E/E14/E14-2014.pdf |
Údaje o výsledku v závislosti na druhu výsledku
Název sborníku | Proceedings of the Demonstrations at the 14th Conferencethe European Chapter of the Association for Computational Linguistics |
---|---|
ISBN | 9781937284756 |
ISSN | - |
Počet stran výsledku | 4 |
Strana od-do | 53-56 |
Název nakladatele | The Association for Computational Linguistics |
Místo vydání | Gothenburg, Sweden |
Místo konání akce | Gothenburg, Sweden |
Datum konání akce | 2014 |
Typ akce podle státní příslušnosti účastníků | WRD - Celosvětová |
Kód UT WoS článku podle Web of Science | - |
Ostatní informace o výsledku
Předkladatel | Masarykova univerzita / Fakulta informatiky |
---|---|
Dodavatel | MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT) |
Rok sběru | 2015 |
Specifikace | RIV/00216224:14330/14:00075387!RIV15-MSM-14330___ |
Datum poslední aktualizace výsledku | 29.05.2015 |
Kontrolní číslo | 152393757 |
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
Projekt podporovaný MŠMT v programu LM | LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010 - 2015) |
---|---|
Podpora / návaznosti | Specifický výzkum na vysokých školách, poskytovatel MŠMT |