RIV/00216224:14330/11:00067069 - Words’ Burstiness in Language Models (2011)

Údaje o výsledku
Identifikační kódRIV/00216224:14330/11:00067069
Název v původním jazyceWords’ Burstiness in Language Models
DruhD - Článek ve sborníku
Jazykeng - angličtina
OborAI - Jazykověda
Rok uplatnění2011
Kód důvěrnosti údajůS - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
Počet výskytů výsledku1
Údaje z Hodnocení výsledků výzkumných organizací 2014
Výsledek byl hodnocen v Pilíři I
Rozsah vyřazení výsledkuTento výskyt výsledku není vyřazen
Zařazení výsledku v hodnoceníneu - Výsledky bez bodového hodnocení nebo vyřazené
Skupina oboru v hodnocení01 - Společenské, humanitní a umělecké vědy - SHVa
Konkrétní způsob(y) hodnocení výsledkuČlánek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.
Rozdělení výsledku mezi předkladatele
OrganizaceVýzkumná organizace?PodílBodyBody (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatikyano100,0 %0,000
Tvůrci výsledku
Počet tvůrců celkem1
Počet domácích tvůrců1
TvůrceRychlý Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 6616844)
Údaje blíže specifikující výsledek
Popis v původním jazyceGood estimation of the probability of a single word is a crucial part of language modelling. It is based on raw frequency of the word in a training corpus. Such computation is a good estimation for functional words and most very frequent words, but it is a poor estimation for most content words because of words' tendency to occur in clusters. This paper provides an analysis of words' burstiness and propose a new unigram language model which handles bursty words much better. The evaluation of the model on two data sets shows consistently lower perplexity and cross-entropy in the new model.
Klíčová slovaBurstiness; Language models; Words' probability
Rozsah stran131-137
Název sborníkuProceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011
Forma vydáníP - Tištěná verze „print“
ISBN9788026300779
Počet stran výsledku7
Název nakladateleTribun EU
Místo vydáníBrno
Místo konání akceKarlova Studánka
Datum zahájení akce2.12.2011
Typ akce podle státní příslušnoti účastníkůEUR - Evropská
Údaje o tomto záznamu o výsledku
PředkladatelMasarykova univerzita / Fakulta informatiky
DodavatelGA0 - Grantová agentura České republiky (GA ČR)
Rok sběru2014
Systémové označení dodávky datRIV14-GA0-14330___/01:1
SpecifikaceRIV/00216224:14330/11:00067069!RIV14-GA0-14330___
Kontrolní kód[92F3376C90C6]
Jiný výskyt tohoto výsledku se v RIV nenachází
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
ProjektGAP401/10/0792 - Temporální aspekty znalostí a informací (2010-2012, GA0/GA)
ProjektGA407/07/0679 - Právní e-slovník - PES (2007-2011, GA0/GA)