Identifikační kód | RIV/00216224:14330/12:00062085 |
Název v anglickém jazyce | Segmentation from 97% to 100%: Is It Time for Some Linguistics? |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2012 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 1 |
Počet domácích tvůrců | 1 |
Výčet všech uvedených jednotlivých tvůrců | Petr Sojka (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 7883927) |
Popis výsledku v anglickém jazyce | Many tasks in natural language processing (NLP) require emph{segmentation} algorithms: segmentation of paragraph into sentences, segmentation of sentences into words is needed in languages like Chinese or Thai, segmentation of words into syllables (emph{hyphenation}) or into morphological parts (e.g. getting word stem for indexing), and many other tasks (e.g. tagging) could be formulated as segmentation problems. We evaluate methodology of using emph{competing patterns} for these tasks and decide on the complexity of creation of space-optimal (minimal) patterns that completely (100,%) implement the segmentation task. We formally define this task and prove that it is in the class of emph{non-polynomial} optimization problems. However, finding space-efficient competing patterns for real NLP tasks is feasible and gives efficient scalable solutions of segmentation task: segmentation is done in emph{constant} time with respect to the size of segmented dictionary. |
Klíčová slova oddělená středníkem | competing patterns; segmentation; hyphenation; NP problems; pattern generation; patgen; context-sensitive patterns; machine learning; natural language engineering; EuDML |
Stránka www, na které se nachází výsledek | http://www.fi.muni.cz/usr/sojka/papers/sojka-raslan2012.pdf |