II. ILP a český korpus. Dlouhodobým cílem této části projektu je vývoj systému pro podporu desambiguace českých vět, který bude využívat metod induktivního logického programování (ILP) [Mugg, PopILP]. Nalezení správných morfologických kategorií (značkování, tagging) je jednou z nejčastějších a nejúspěšnějších aplikací ILP. Cussens (1997) [Cuss] ukázal, že pro angličtinu metody založené na ILP dosahují výsledků srovnatelných s nejlepšími pravidlovými taggery. Podobně dobrých výsledků dosáhl Eisenborg(1998) [Ein] pro švédštinu. Naše práce je prvním pokusem o aplikaci ILP v rodině slovanských jazyků. Cílem první fáze v rámci projektu bylo tedy ověřit možnosti ILP při desambiguaci českého korpusu. Jako trénovací množinu jsme použili korpus DESAM, který byl ručně desambiguován na našem pracovišti. Kromě rozpoznání konce věty, rozpoznání jmenných frází a rozpoznání podmětné a přísudkové části věty (viz [Pop]) jsme se soustředili na ověření vhodnosti ILP v těchto oblastech: i) Desambiguace homonym ii) Desambiguace na úrovni morfologických kategorií iii) Zjemnění morfologických kategorií Jako doménová znalost byly použity predikáty testující výskyt určité značky (tagu) v levém a pravém kontextu a predikáty rp zjištění výskytu značky u daného slovního tvaru. Tato doménová znalost byla vytvořena automaticky a celkem obahovala 157 predikátů. Pro učení byly použity ILP systémy Progol a WiM. Úplný popis výsledků lze nalézt v [Pop]. Desambiguace na úrovni lemmatu Desambiguací na úrovni lemmatu se rozumí jednoznačné přiřazení lemmatu, tj. základního tvaru danému slovnímu tvaru. Pro potřebu experimentů jsme z korpusu DESAM nejprve vybrali všchny homonymní slovní tvary a věty, v nichž se tyto slovní tvary vyskytují. Z těchto homonymních slovních tvarů jsme vybrali tři takové, které nejlépe reprezentují tuto množinu. Celkem jsme pracovali s 263 úseky vět, s maximální délkou pravého a levého kontextu 5. (Kontext byl kratší, pokud by přesáhl hranici věty.) Výsledný desambiguátor se skládá celkem z 32 pravidel a jeho úspěšnost je 73.7%. Doba učení nepřesáhla 1 minutu. Kvalita výsledku je ovlivněna dvěma faktory. Úmyslně jsme použili nejjednodušší možnou doménovou znalost, tedy takovou, kterou je možno pro dannou množinu značek vygenerovat automaticky. Výsledky jsou pak srovnatelné s ostatními (např. statistickými) metodami. Čím bohatší doménová znalost bude, tím kvalitnějšího výsledku dosáhneme. Uvedená hodnota je tedy dolním prahem. Korpus DESAM v době provádění experimentů neobsahoval dostatečně reprezentativní množinu českých vět. To je druhým důvodem nižší úspěšnosti. Desambiguace na úrovni gramatických kategorií V této úloze jsme ověřovali vhodnost ILP pro další fázi desambiguace, určování morfologických kategorií, známe-li základní tvar danného slova. Zvolili jsme podstatná jména podle vzoru stroj, pro jejich dostatečný výskyt v korpusu a velkou variabilitu gramatických kategorií. Pro trénovací množinu obsahující 130 vět výpočet trval necelé půl minuty. Výsledný desambiguátor obsahoval 40 pravidel. Získaná množina pravidel byla testována na 120 příkladech se slovním tvarem olej a na 60 příkladech s tvarem zdroj. Pravidla akceptovala asi 75% správně označkovaných slov a neakceptovala přibližně stejně velký počet nesprávně označkovaných. Zjemnění gramatických kategorií Morfologická kategorizace slovních tvarů prováděná morfologickým analyzátorem LEMMA používaným standardně v LZPJ je občas příliš hrubá, a proto se pracuje na jejím zjemnění. Shledali jsme, že v češtině existují slovní tvary x,y s totožnou značkou a dále existuje takový rozlišující kontext (u,v), že uxv je správně utvořená česká věta, zatímco uyv není gramaticky správná věta. Tvary x,y by tedy neměly náležet do téže gramatické kategorie. V těchto případech žádná z automatických učících metod nemůže najít správné řešení. Např. Přinesl < metr > vysoký sloupec novin. * Přinesl < vzduch > vysoký sloupec novin. < Má > na peníze právo. * < Věří > na peníze právo. Kromě těchto případů, které vedou k zavedení zcela nových, "hybridních" kategorií, navíc existují slovní tvary, pro něž nedává morfologický analyzátor LEMMA všechny značky, které by daný tvar mohl mít už ve stávajícím systému, např. Potkal jsem ji < cestou >. kde slovo <cestou> je příslovcem. Pokusili jsme se využít ILP pro řešení tohoto problému, který se v současnosti řeší jinými metodami. Cílem bylo sestrojit predikát, který by umožnil rozpoznávat ony rozlišující kontexty od kontextů, ve kterých se obě daná slova chovají syntakticky totožně, tedy tak, že jejich vzájemná záměna je možná bez porušení gramatické správnosti věty. K řešení stanoveného cíle byl použit ILP systém Progol. Výpočetní doba potřebná k nalezení ideální teorie byla pro 20 zadaných příkladů (10 positivních, 10 negativních), s použitím omezujících podmínek na tvorbu klauzulí, zhruba 5 sekund. Nalezená teorie obsahovala pět klauzulí, z nichž každá měla v těle nejvýše dva literály. Závěr Základním cílem prováděných experimentů je nalezení vhodných technik, které budou moci sloužit k podpoře desambiguace českých korpusů. Dokázali jsme, že metody založené na ILP jsou použitelné stejně dobře jako jiné metody pro automatickou desambiguaci. Pokud jde o desambiguaci na úrovni gramatických kategorií, zdá se vhodné tuto metodu kombinovat se statistickými technikami; nebyla-li nalezena značka jednoznačně, nabídne se uživateli nejdříve ta, která je nejčastější. Srovnáme-li výsledky s výsledky dosaženými buď pomocí n-gramů nebo neuronových sítí, nejsou o mnoho horší, přihlédneme-li k tomu, že v našich experimentech byla použita automaticky generovaná doménová znalost, a tedy nebyly použity žádné hlubší lingvistické znalosti. Výhodou metod založených na ILP oproti ostatním je větší srozumitelnost výsledku - jedná se o pravidlové taggery. Další výhodou je snadné přidání doménové znalosti, kde jedinou podmínkou je její vyjádřitelnost v logice 1. řádu. Rozšíření doménové znalosti, např. o predikáty pro jmenné a slovesné fráze, pro shody v číslech a rodech, umožní nepochybně zvýšit úspěšnost desambiguace. Při využití této bohatší doménové znalosti, na níž se v současnosti v laboratoři pracuje, bude možno dosáhnout pomocí metod založených na ILP mnohem vyšší úspěšnosti. Odkazy [Cuss] Cussens J.: Part-of-Speech Tagging using Progol. In Proc. of ILP'97, LNAI 1297, Springer-Verlag 1997. [Ein] Eineborg M., Lindberg N.: Learning Constraint Grammar-style disambiguation rules using Inductive Logic Programming. In: Proceedings of COLING/ACL98 Conference, 1998. [Mugg] Muggleton S., De Raedt L.: Inductive Logic Programming: Theory And Methods. J. Logic Programming 1994:19,20:629-679. [PopILP] Popelínský L.: Induktivní logické programování In: Letní škola Informační systémy, Ruprechtov 1998, ISBN 80-214-1205-4 Popelínský L. et al: ILP Stepped into Desambiguation of Czech Corpus. TR Faculty of Informatics MU, (coming late 1998) [Pop] Popelínský L. a kol.: ILP a český korpus. První zpráva k tomuto grantu, 1998.