Obhajoby tezí dizertačních prací v roce 2002

Mgr. Miloslav Nepil

Název: Pravidlová morfologická desambiguace metodami ILP
Školitel: doc. PhDr. Karel Pala, CSc.
Oponenti: doc. Karel Oliva (Vídeň)
doc. PhDr. Ján Šefránek, CSc. (KU Bratislava)
Datum obhajoby: 17. května 2002

Záměr disertační práce:

Naším cílem je vybudovat nástroj pro automatizované získávání spolehlivých desambiguačních pravidel. Tato práce spadá do výzkumné oblasti učení jazyka v logice (LLL), jež leží na průniku mezi zpracováním přirozeného jazyka, výpočtovou logikou a strojovým učením. Používáme induktivní logické programování a jeho zvláštní techniku, nazývanou tříbení teorie, k induktivnímu odvození a tříbení množiny pravidel (teorie) pro morfologickou desambiguaci češtiny. U této úlohy je nákladné shromáždit dostatečné množství označkovaných příkladů potřebných k učení. Na druhou stranu jsou však neoznačkované texty volně dostupné. Metody aktivního učení (výběrového vzorkování) se snaží vybrat pro anotaci a učení jen příklady s velkou informační hodnotou, a proto jsou užitečné pro snižování anotačních nákladů. Vzhledem k tomu, že výběr příkladů se provádí krok za krokem, je možné postupně tříbit stávající teorii tak, abychom dosáhli její vysoké přesnosti i pokrytí. Jde nám tedy o novou kombinaci dvou zavedených technik: tříbení teorie a aktivního učení.

Teze disertační práce obhájeny.

Mgr. Petr Vydržal

Název: Použití strojového učení pro sémantickou desambiguaci
Školitel: doc. PhDr. Karel Pala, CSc.
Oponenti: prof. PhDr. Eva Hajičová, DrSc. (UK Praha)
doc. Ing. František Zbořil, CSc. (FIT VUT Brno)
Datum obhajoby: 17. května 2002

Záměr disertační práce:

Práce se zabývá porovnáním metod strojového učení vhodných pro řešení problému sémantické desambiguace. Jednak ukazuje srovnání metod a přístupů používaných v zahraničí, zejména se však zaměřuje na srovnání metod pro český jazyk, jejich implementaci a vhodná nastavení. Jako zdrojová data lze použít libovolný text, ale i strukturovaná data uložená v korpusech.

Mezi metody strojového učení vhodné pro český jazyk patří metoda Naivního Bayesova klasifikátoru pro jeho velmi dobré výsledky na zdrojových datech pro angličtinu i češtinu, zejména ve spojení s metodou winnow určenou pro selekci vhodných atributů. Také byly zvoleny metody rozhodovacích stromů a nejbližšího souseda vybrané pro úspěchy v angličtině.

Jako zdrojová data pro vybrané metody sloužily korpusy DESAM a ČNK 2.5. Byly vybrány pro možnost pracovat i s dalšími atributy dat než jen prostým textem. Výsledný systém má na testovacích slovech úspěšnost nyní přes 91% a ve více případech i přes 98%. Dá se použít jak pro samotné určování významů slov ve volném textu tak i k pomoci při vytváření učící množiny nutné pro dobré fungování jednotlivých metod.

Teze disertační práce nebyly obhájeny.

Mgr. Radek Czerný

Název: Automatická korekce interpunkčních chyb bez použití syntaktické analýzy
Školitel: doc. PhDr. Karel Pala, CSc.
Oponenti: RNDr. Jan Hajič, Dr. (UK Praha)
PhDr. Klára Osolsobě, Dr. (FF MU)
Datum obhajoby: 7. března 2002

Záměr disertační práce:

Disertační práce se věnuje chybám vyskytujícím se v českých psaných textech, zejména chybám interpunkčním. Interpunkční chyby tvoří přibližně jednu třetinu všech vyskytujících se chyb a zatím neexistuje nástroj, který by jejich detekci v textu úspěšně řešil. Interpunkční znaménka zejména oddělují věty v souvětích, proto by k úspěšnému odhalení všech chyb bylo nutné provést plnou syntaktickou analýzu celé věty (souvětí). To však současné syntaktické analyzátory zatím neumožňují. Proto se pokusíme detekovat co největší množství interpunkčních chyb systémem kontextových pravidel, který bude využívat výsledků morfologické analýzy jednotlivých slov ve větě a ostatních automaticky zjistitelných informací. Druhým cílem disertace bude popis, co jsou to chyby v psaných textech a zmapování a klasifikace chyb vyskytujících se v českých psaných textech. Za tímto účelem bude vybudován korpus textů, ve kterých budou chyby označeny a klasifikovány podle jejich typu.

Teze disertační práce nebyly obhájeny.

Mgr. Robert Král

Název: Sémantická desambiguace substantiv v českých textech
Školitel: doc. PhDr. Karel Pala, CSc.
Oponenti: prof. PhDr. Eva Hajičová, DrSc. (UK Praha)
prof. PhDr. Petr Sgall, DrSc. (UK Praha)
Datum obhajoby: 7. března 2002

Záměr disertační práce:

Uspokojivé vyřešení problému sémantické desambiguace (Word Sense Disambiguation, WSD) je jedním z předpokladů pro pokrok v mnoha oblastech zpracování přirozeného jazyka, zvláště strojového překladu a získávání znalostí. Cílem WSD je určit adekvátní význam víceznačného slova v textu. Úkol přitom obsahuje dvě fáze: určení všech významů pro každé slovo a přiřazení výskytu slova k jednomu z významů.

V disertační práci bychom rádi představili nejzajímavější výsledky této problematiky. Naší intencí je navrhnout metody pro sémantické značkování českých substantiv a poté tyto metody analyzovat, jelikož v češtině nebyla na WSD prozatím směřována velká pozornost. Hlavním cílem je vytvořit parciální WSD systém, s jehož pomocí hodláme sémanticky anotovat vybraná substantiva v korpusu. Takovýto korpus by měl být vhodným zdrojem pro další zkoumání možností WSD, tj. zdrojem externích znalostí a trénovacích dat pro sémantickou desambiguaci nových textů.

Teze disertační práce obhájeny.

Mgr. Lubomír Markovič

Název: Otevřené systémy v distribuovaném prostředí
Školitel: doc. Ing. Jiří Sochor, CSc.
Oponenti: prof. Ing. František Plášil, DrSc. (UK Praha)
RNDr. Tomáš Pitner, Ph.D. (FI MU)
Datum obhajoby: 7. března 2002

Záměr disertační práce:

Úvod

Cílem plánované disertační práce je studium existujících technik a postupů, které slouží k navrhování otevřených systémů, se zaměřením zejména na distribuované systémy. Práce se nebude omezovat pouze na výčet současně používaných, či již existujících technik, ale jedním z cílů je pokus o návrh nové techniky (technik), která by měla splňovat většinu požadavků potřebných pro tvorbu otevřených systému v distribuovaném prostředí.

Záměr

Záměrem disertační práce je formální specifikace modelu umožňujícího tvorbu objektů s dynamickým chováním založeného na rolích. Cílem je, aby model umožňoval bohatší typovou kontrolu (role, vícenásobná dědičnost) a bohatší způsoby definování vztahů (závislostí či jiných omezujících podmínek) mezi rolemi, než modely dosud publikované. Dalším z cílů je, aby model zajišťoval konzistenci objektů i v distribuovaném prostředí, kde jednotlivé role jednoho objektu mohou být umístěny v různých uzlech sítě. Implementace objektů s rolemi v distribuovaném prostředí je ve stávajících publikacích často zmiňována jakožto předmět dalšího studia, nicméně zkušenosti s konkrétní implementací zatím chybí. Současné implementace svoji pozornost směřují spíše do oblasti objektových databázových systémů.

Správnost modelu bude ověřena na konkrétní implementaci alespoň v jednom ze standardů pro tvorbu distribouvaných aplikací (CORBA, Enterprise Java Beans) v jazyce Java. Tato implementace modelu pak bude sloužit jako základ pro vytvoření demonstrační netriviální aplikace, na jejíž analýze (v jazyce UML) budou demonstrovány výhody tohoto přístupu oproti obvyklým způsobům řešení.

Výstupem disertační práce tak bude formální model objektů s rolemi spolu s jeho implementací a demonstrační aplikací.

Teze disertační práce obhájeny.

Mgr. Radek Ošlejšek

Název: Softwarové architektury v počítačové grafice
Školitel: doc. Ing. Jiří Sochor, CSc.
Oponenti: RNDr. Andrej Ferko, Ph.D. (KU Bratislava)
Prof. RNDr. Jaroslav Král, DrSc. (UK Praha)
Datum obhajoby: 7. března 2002

Záměr disertační práce:

V počítačové grafice zatím neexistuje ucelený softwarový model pro zpracování scén s globálním osvětlením, umožňující snadnou kombinaci různých metod výpočtu osvětlení a uspořádání scény. Většina současných knihoven určených pro práci s trojrozměrnými scénami je navržena pouze pro lokálním osvětlení. Pro realistické zobrazování se používají proprietární řešení vytvořená jen pro potřeby dané aplikace.

Nalezení vhodného modelu zahrnujícího většinu existujících grafických architektur má přitom velký význam. Umožňuje totiž jeho další zkoumání například z pohledu paralelního zpracování. Jeho existence by také mohla vést k hardwarové akceleraci některých společných vlastností podobně jako tomu bylo po nalezení softwarového modelu pro lokálního osvětlení.

Obtížnost návrhu tohoto obecného modelu je dána především extrémně vysokými nároky na vnitřní uspořádání virtuální scény a také velkou variabilitou používaných řešení realistického zobrazování. Je tedy zřejmé, že výsledný model bude mít poměrně složitou strukturu. Kromě samotného nalezení modelu je tedy žádoucí, aby byl navržen robustně ve smyslu možných úprav, rozšíření nebo záměny modulů.

Cílem disertační práce tedy je analyzovat v současnosti používané architektury globálního osvětlení a pokusit se vytvořit modely pokrývající velkou část těchto architektur. Výsledky porovnat z hlediska efektivity a vhodnosti použití v různých podmínkách. Model by měl být navržen s maximálním využitím existujících principů objektového programování, tzv. návrhových vzorů - design patterns. Výstupem by měla být rovněž grafická knihovna implementující nalezený model a program pro testování rozdílných konfigurací modelu.

Teze disertační práce obhájeny.

Mgr. Radek Sedláček

Název: Morfematický analyzátor češtiny
Školitel: doc. PhDr. Karel Pala, CSc.
Oponenti: RNDr. Jan Hajič, Dr. (UK Praha)
PhDr. Klára Osolsobě, Dr. (FF MU)
Datum obhajoby: 7. března 2002

Záměr disertační práce:

Hlavním cílem disertační práce je navrhnout a implementovat morfematický analyzátor češtiny založený na kombinaci tvarotvorné a slovotvorné analýzy. Protože tvarotvorná analýza již byla algoritmicky popsána, zbývá ke zvládnutí úplné morfematické analýzy jeden krok, a to algoritmizace analýzy slovotvorné. V práci hodnotíme možnosti automatického zpracování vybraných derivačních procesů a pokusíme se nalézt, respektive navrhnout, formalismus vhodný pro jejich popis. Formální specifikace umožní vyvinout program simulující derivaci v češtině. Taková simulace se ovšem neobejde bez znalosti významového vztahu mezi slovy. Formální aparát schopný postihnout fundaci se všemi jejími podstatnými vlastnostmi včetně významové stránky a implementace nástroje pro jednoduché pořízení, efektivní uložení a další zpracování této relace patří rovněž k záměrům disertace. Výsledkem morfematického rozboru je zjištění stavby analyzovaného slova a identifikace jednotlivých morfémů. Klademe si za cíl najít vhodnou reprezentaci morfémů a prostudovat též míru pravidelnosti ve stavbě některých vzájemně si podobných slov. Aplikací morfematického analyzátoru na korpusy českých textů získáme užitečná statistická data odrážející současný stav češtiny.

Teze disertační práce obhájeny.