RIV/00216224:14330/12:00062085 - Segmentation from 97% to 100%: Is It Time for Some Linguistics? (2012)
Údaje o výsledku | |||||||||||
Identifikační kód | RIV/00216224:14330/12:00062085 | ||||||||||
Název v původním jazyce | Segmentation from 97% to 100%: Is It Time for Some Linguistics? | ||||||||||
Druh | D - Článek ve sborníku | ||||||||||
Jazyk | eng - angličtina | ||||||||||
Obor | IN - Informatika | ||||||||||
Rok uplatnění | 2012 | ||||||||||
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů | ||||||||||
Počet výskytů výsledku | 1 | ||||||||||
Údaje z Hodnocení výsledků výzkumných organizací 2014 | |||||||||||
Výsledek byl hodnocen v Pilíři I | |||||||||||
Rozsah vyřazení výsledku | Tento výskyt výsledku není vyřazen | ||||||||||
Zařazení výsledku v hodnocení | neu - Výsledky bez bodového hodnocení nebo vyřazené | ||||||||||
Skupina oboru v hodnocení | 04 - Technické a informatické vědy | ||||||||||
Konkrétní způsob(y) hodnocení výsledku | Článek ve sborníku má uvedeno ISBN nebo ISSN, ale to není v databázi Conference Proceedings Citation Index ani v databázi Scopus. | ||||||||||
Rozdělení výsledku mezi předkladatele | |||||||||||
| |||||||||||
Tvůrci výsledku | |||||||||||
Počet tvůrců celkem | 1 | ||||||||||
Počet domácích tvůrců | 1 | ||||||||||
Tvůrce | Sojka Petr (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 7883927) | ||||||||||
Údaje blíže specifikující výsledek | |||||||||||
Popis v původním jazyce | Many tasks in natural language processing (NLP) require \emph{segmentation} algorithms: segmentation of paragraph into sentences, segmentation of sentences into words is needed in languages like Chinese or Thai, segmentation of words into syllables (\emph{hyphenation}) or into morphological parts (e.g.\ getting word stem for indexing), and many other tasks (e.g.\ tagging) could be formulated as segmentation problems. We evaluate methodology of using \emph{competing patterns} for these tasks and decide on the complexity of creation of space-optimal (minimal) patterns that completely (100\,\%) implement the segmentation task. We formally define this task and prove that it is in the class of \emph{non-polynomial} optimization problems. However, finding space-efficient competing patterns for real NLP tasks is feasible and gives efficient scalable solutions of segmentation task: segmentation is done in \emph{constant} time with respect to the size of segmented dictionary. | ||||||||||
Klíčová slova | competing patterns; segmentation; hyphenation; NP problems; pattern generation; patgen; context-sensitive patterns; machine learning; natural language engineering; EuDML | ||||||||||
Název sborníku | Sixth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2012 | ||||||||||
Rozsah stran | 121-131 | ||||||||||
Forma vydání | P - Tištěná verze „print“ | ||||||||||
Počet stran výsledku | 11 | ||||||||||
ISBN | 9788026303138 | ||||||||||
Název nakladatele | Tribun EU | ||||||||||
Místo vydání | Brno | ||||||||||
Místo konání akce | Karlova Studánka | ||||||||||
Datum zahájení akce | 7.12.2011 | ||||||||||
Typ akce podle státní příslušnoti účastníků | EUR - Evropská | ||||||||||
Adresa www stránky s výsledkem | http://www.fi.muni.cz/usr/sojka/papers/sojka-raslan2012.pdf | ||||||||||
Údaje o tomto záznamu o výsledku | |||||||||||
Předkladatel | Masarykova univerzita / Fakulta informatiky | ||||||||||
Dodavatel | MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT) | ||||||||||
Rok sběru | 2013 | ||||||||||
Systémové označení dodávky dat | RIV13-MSM-14330___/02:2 | ||||||||||
Specifikace | RIV/00216224:14330/12:00062085!RIV13-MSM-14330___ | ||||||||||
Kontrolní kód | [3BC9B785C470] | ||||||||||
Jiný výskyt tohoto výsledku se v RIV nenachází | |||||||||||
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl | |||||||||||
Projekt | LA09016 - Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (2009-2012, MSM/LA) | ||||||||||
S - Specifický výzkum na vysokých školách |