RIV/00216224:14330/11:00067069 - Words’ Burstiness in Language Models (2011)

Údaje o výsledku

Identifikační kód

RIV/00216224:14330/11:00067069

Název v původním jazyce

Words’ Burstiness in Language Models

Druh

D - Článek ve sborníku

Jazyk

eng - angličtina

Obor

AI - Jazykověda

Rok uplatnění

2011

Kód důvěrnosti údajů

S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů

Počet výskytů výsledku

Údaje z Hodnocení výsledků výzkumných organizací 2014

Výsledek byl hodnocen v Pilíři I

Rozsah vyřazení výsledku

Tento výskyt výsledku není vyřazen

Zařazení výsledku v hodnocení

neu - Výsledky bez bodového hodnocení nebo vyřazené

Skupina oboru v hodnocení

01 - Společenské, humanitní a umělecké vědy - SHVa

Konkrétní způsob(y) hodnocení výsledku

Článek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.

Rozdělení výsledku mezi předkladatele

Organizace	Výzkumná organizace?	Podíl	Body	Body (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatiky	ano	100,0 %	0,000

Tvůrci výsledku

Počet tvůrců celkem

Počet domácích tvůrců

Tvůrce

Rychlý Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 6616844)

Údaje blíže specifikující výsledek

Popis v původním jazyce

Good estimation of the probability of a single word is a crucial part of language modelling. It is based on raw frequency of the word in a training corpus. Such computation is a good estimation for functional words and most very frequent words, but it is a poor estimation for most content words because of words' tendency to occur in clusters. This paper provides an analysis of words' burstiness and propose a new unigram language model which handles bursty words much better. The evaluation of the model on two data sets shows consistently lower perplexity and cross-entropy in the new model.

Klíčová slova

Burstiness; Language models; Words' probability

Rozsah stran

131-137

Název sborníku

Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011

Forma vydání

P - Tištěná verze „print“

ISBN

9788026300779

Počet stran výsledku

Název nakladatele

Tribun EU

Místo vydání

Brno

Místo konání akce

Karlova Studánka

Datum zahájení akce

2.12.2011

Typ akce podle státní příslušnoti účastníků

EUR - Evropská

Údaje o tomto záznamu o výsledku

Předkladatel

Masarykova univerzita / Fakulta informatiky

Dodavatel

GA0 - Grantová agentura České republiky (GA ČR)

Rok sběru

2014

Systémové označení dodávky dat

RIV14-GA0-14330___/01:1

Specifikace

RIV/00216224:14330/11:00067069!RIV14-GA0-14330___

Kontrolní kód

[92F3376C90C6]

Jiný výskyt tohoto výsledku se v RIV nenachází

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt

GAP401/10/0792 - Temporální aspekty znalostí a informací (2010-2012, GA0/GA)

Projekt

GA407/07/0679 - Právní e-slovník - PES (2007-2011, GA0/GA)