Údaje o výsledku |
Identifikační kód | RIV/00216224:14330/11:00067069 |
Název v původním jazyce | Words’ Burstiness in Language Models |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor | AI - Jazykověda |
Rok uplatnění | 2011 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů |
Počet výskytů výsledku | 1 |
Údaje z Hodnocení výsledků výzkumných organizací 2014 |
Výsledek byl hodnocen v Pilíři I |
Rozsah vyřazení výsledku | Tento výskyt výsledku není vyřazen |
Zařazení výsledku v hodnocení | neu - Výsledky bez bodového hodnocení nebo vyřazené |
Skupina oboru v hodnocení | 01 - Společenské, humanitní a umělecké vědy - SHVa |
Konkrétní způsob(y) hodnocení výsledku | Článek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus. |
Rozdělení výsledku mezi předkladatele |
Organizace | Výzkumná organizace? | Podíl | Body | Body (upravené podle přílohy č. 8 Metodiky) |
Masarykova univerzita / Fakulta informatiky | ano | 100,0 % | 0,000 | |
|
Tvůrci výsledku |
Počet tvůrců celkem | 1 |
Počet domácích tvůrců | 1 |
Tvůrce | Rychlý Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 6616844) |
Údaje blíže specifikující výsledek |
Popis v původním jazyce | Good estimation of the probability of a single word is a crucial part of language modelling. It is based on raw frequency of the word in a training corpus. Such computation is a good estimation for functional words and most very frequent words, but it is a poor estimation for most content words because of words' tendency to occur in clusters. This paper provides an analysis of words' burstiness and propose a new unigram language model which handles bursty words much better. The evaluation of the model on two data sets shows consistently lower perplexity and cross-entropy in the new model. |
Klíčová slova | Burstiness; Language models; Words' probability |
Rozsah stran | 131-137 |
Název sborníku | Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011 |
Forma vydání | P - Tištěná verze „print“ |
ISBN | 9788026300779 |
Počet stran výsledku | 7 |
Název nakladatele | Tribun EU |
Místo vydání | Brno |
Místo konání akce | Karlova Studánka |
Datum zahájení akce | 2.12.2011 |
Typ akce podle státní příslušnoti účastníků | EUR - Evropská |
Údaje o tomto záznamu o výsledku |
Předkladatel | Masarykova univerzita / Fakulta informatiky |
Dodavatel | GA0 - Grantová agentura České republiky (GA ČR) |
Rok sběru | 2014 |
Systémové označení dodávky dat | RIV14-GA0-14330___/01:1 |
Specifikace | RIV/00216224:14330/11:00067069!RIV14-GA0-14330___ |
Kontrolní kód | [92F3376C90C6] |
Jiný výskyt tohoto výsledku se v RIV nenachází |
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl |
Projekt | GAP401/10/0792 - Temporální aspekty znalostí a informací (2010-2012, GA0/GA) |
Projekt | GA407/07/0679 - Právní e-slovník - PES (2007-2011, GA0/GA) |