RIV/00216224:14330/13:00070327 - Fast Construction of a Word-Number Index for Large Data (2013)

Údaje o výsledku
Identifikační kódRIV/00216224:14330/13:00070327
Název v původním jazyceFast Construction of a Word-Number Index for Large Data
DruhD - Článek ve sborníku
Jazykeng - angličtina
OborIN - Informatika
Rok uplatnění2013
Kód důvěrnosti údajůS - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
Počet výskytů výsledku1
Údaje z Hodnocení výsledků výzkumných organizací 2014
Výsledek byl hodnocen v Pilíři I
Rozsah vyřazení výsledkuTento výskyt výsledku není vyřazen
Zařazení výsledku v hodnoceníneu - Výsledky bez bodového hodnocení nebo vyřazené
Skupina oboru v hodnocení04 - Technické a informatické vědy
Konkrétní způsob(y) hodnocení výsledkuČlánek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus.
Rozdělení výsledku mezi předkladatele
OrganizaceVýzkumná organizace?PodílBodyBody (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatikyano100,0 %0,000
Tvůrci výsledku
Počet tvůrců celkem3
Počet domácích tvůrců3
TvůrceJakubíček Miloš (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 5837189)
TvůrceŠmerk Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 1322451)
TvůrceRychlý Pavel (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 6616844)
Údaje blíže specifikující výsledek
Popis v původním jazyceThe paper presents a work still in progress, but with promising results. We offer a new method of construction of word to number and number to word indices for very large corpus data (tens of billions of tokens), which is up to an order of magnitude faster than the current approach. We use HAT-trie for sorting the data and Daciuk’s algorithm for building a minimal deterministic finite state automaton from sorted data. The latter we reimplemented and our new implementation is roughly three times faster and with smaller memory footprint than the one of Daciuk. This is useful not only for building word-number indices, but also for many other applications, e.g. building data for morphological analysers.
Klíčová slovaword to number index; number to word index; finite state automata; hat-trie
Název sborníkuRASLAN 2013 Recent Advances in Slavonic Natural Language Processing
Rozsah stran63-67
Forma vydáníP - Tištěná verze „print“
ISBN9788026305200
Počet stran výsledku5
Název nakladateleTribun EU
Místo vydáníBrno
Místo konání akceBrno
Rok konání akce2013
Typ akce podle státní příslušnoti účastníkůCST - Celostátní
Údaje o tomto záznamu o výsledku
PředkladatelMasarykova univerzita / Fakulta informatiky
DodavatelMSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
Rok sběru2014
Systémové označení dodávky datRIV14-MSM-14330___/01:1
SpecifikaceRIV/00216224:14330/13:00070327!RIV14-MSM-14330___
Kontrolní kód[7EBD1E1A47FE]
Jiný výskyt tohoto výsledku se v RIV nenachází
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
ProjektLM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM)
S - Specifický výzkum na vysokých školách