Syntaktická a sémantická analýza a reprezentace znalostí

Úvod

Počítače jsou velmi rychlé a výkonné stroje, lidmi napsaný text jsou ale schopny zpracovávat pouze jako nic neříkající posloupnost znaků. Cílem analýzy jazyka je získat vhodnou representaci struktury daného textu a tím umožnit jeho zpracování na základě jeho obsahu. Ten je třeba alespoň do jisté míry zohlednit ke správné funkčnosti různých aplikací jako jsou například korektory překlepů/gramatiky, inteligentní vyhledávání, sumarizace textů nebo dialogové systémy.

Text v přirozeném jazyce je možno v závislosti na konkrétnímu účelu analyzovat na různých rovinách. Z hlediska automatického zpracování jazykových dat pomocí počítačů se rozlišují zejména následující oblasti:

Morfologická analýza

Morfologická analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá se rozlišováním a generováním správných gramatických tvarů slovních výrazů, které vzniknou skloňováním a časováním. Výsledkem je sada značek, které popisují gramatické kategorie daného tvaru, zejména pak základní tvar (lemma) a slovní vzor. Automatické rozlišení tvaru slova ve volném textu lze využít při vývoji gramatického korektoru, jako pomůcka při značkování korpusů nebo při poloautomatickém vytváření slovníků. Největší problém v této oblasti je morfologická desambiguace (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit, zda slovo jedu označuje sloveso nebo podstatné jméno.

V laboratoři NLP byl vytvořen obecný morfologický analyzátor pro češtinu ajka pokrývající slovní zásobu s více než 6 milióny slovních tvarů. Díky němu vznikl podobný analyzátor pro slovenštinu, korektor pravopisu fispell, převodník ascii textu na text s diakritikou czaccent nebo interaktivní rozhraní pro IM protokol Jabber.

Syntaktická analýza

Úkolem syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy syntaktická struktura věty, například v podobě derivačního stromu. Cílem syntaktické analýzy je, aby počítač, například na základě gramatických pravidel, "porozuměl" vztahům mezi jednotlivými slovy (a nepřímo tedy i mezi zmiňovanými lidmi, věcmi a činnostmi). Toho lze využít např. při vývoji syntaktického korektoru na opravu interpunkce, dialogového systému pro komunikaci v přirozeném jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu. Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více pravidel gramatiky, než jiné jazyky.

V rámci projektů laboratoře NLP se vyvíjí syntaktický analyzátor synt. Při testování na rozsáhlých korpusových datech dosahuje synt pokrytí přes 92% a přesnosti 84%. Pro výukové účely existuje jednoduchý analyzátor Zuzana s podporou zobrazení několika druhů derivačních stromů.

Sémantická a pragmatická analýza

Sémantická a pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného jazyka, protože využívají výsledků všech výše zmíněných disciplín - tedy znalostí o struktuře slov a vět. Na jejich základě se zkoumají významy slov, slovních spojení, vět, textů a následně také jejich účel či důsledky. Tato oblast není zatím z hlediska automatického počítačového zpracování uspokojivě zvládnuta. Obsahuje mnoho otevřených teoretických problémů a překážkou v praktické realizaci jsou mimo jiné také nedokonalosti ve výsledcích morfologické a syntaktické analýzy. Prubířským kamenem je zde strojový překlad, který s uspokojivými výsledky pro češtinu zatím neexistuje.

Jedním z dlouhodobých projektů laboratoře NLP je využití transparentní intenzionální logiky (TIL) jako jazyka pro sémantickou reprezentaci znalostí a transformačního jazyka v procesu automatického překladu. V současné fázi je reálné zpracovávat omezené znalosti v jednodušší podobě - experimentuje se se strojovým překladem nad určitou doménou, např. úředních dokumentů nebo počasí, nebo s polomechanickým překladem mezi blízkými jazyky, což jsou problémy řádově snažší. Při tom se využívají korpusy, sémantické sítě a elektronické slovníky.

Reprezentace znalostí

Ne všechny informace, které jsou potřeba ke zpracování textu jsou zakódovány ve struktuře jazyka. Často jsou ke správnému porozumění obsahu textu nutné znalosti o světě - buď obecné (např. že ptáci umí létat nebo že k otevření zamčených dveří je zapotřebí klíč), nebo i velmi specifické či odborné, které lze u čtenáře daného textu předpokládat (např. v matematickém časopise, že sudé číslo větší než 2 nemůže být prvočíslem). Jak se ukazuje, největší výzvou v tomto směru není tyto znalosti nashromáždit, ale vhodně je representovat a strukturovat, efektivně v nich vyhledávat a používat je k vyvozování znalostí nových. Tyto cíle ve své podstatě odpovídají úkolu zkonstruovat umělou inteligenci, která jistě patří mezi největší a nejzajímavější témata moderní vědy.

V oblasti reprezentace významů a znalostí můžeme zmínit významnou spoluúčast členů laboratoře v evropských projektech EuroWordNet a Balkanet, které byly zaměřeny na budování vícejazyčné sémantické sítě typu WordNet. V laboratoři byla dále vyvinuta platforma DEB (Dictionary Editor and Browser), která zprostředkovává efektivní prohlížení a vyhledávání v sémantické síti WordNet, ale umožňuje také její pohodlnou editaci. Vzhledem k úspěchu této platformy se uvažuje o jejím širokém využití v rámci projektu WordNet Grid.


Pro zájemce o spolupráci

Nejlepším způsobem je patrně dohodnout si schůzku, na které se individuálně domluvíme na oboustranně nejvýhodnější formě spolupráce. Možnosti jsou velmi široké - v podstatě cokoliv od teoretického jazykovědného bádání až po ryzí programování.

Pro inspiraci je možno se seznámit se seznamem aktuálně nabízených témat BP a DP

Kontaktní osoby:

Členové laboratoře

Další informace: