Identifikační kód | RIV/00216224:14330/14:00077506 |
Název v anglickém jazyce | Character-based Language Model |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | A - Společenské vědy |
Obor | AI - Jazykověda |
Rok uplatnění | 2014 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 1 |
Počet domácích tvůrců | 1 |
Výčet všech uvedených jednotlivých tvůrců | Vít Baisa (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 9652353) |
Popis výsledku v anglickém jazyce | Language modelling and also other natural language processing tasks are usually based on words. I present here a more general yet simpler approach to language modelling using much smaller units of text data: character-based language model (CBLM). In thispaper I describe the underlying data structure of the model, evaluate the model using standard measures (entropy, perplexity). As a proof-of-concept and an extrinsic evaluation I present also a random sentence generator based on this model. |
Klíčová slova oddělená středníkem | language model; suffix array; LCP; trie; character-based; random text generator; corpus |
Stránka www, na které se nachází výsledek | - |