Statistické zpracování velmi rozsáhlých textů

Úvod

Přirozený jazyk (jako je např. čeština nebo angličtina) patří nepochybně mezi věci, které používáme v životě nejčastěji ze všech. Přesto ale o něm víme poměrně málo. Již po staletí se snaží lingvisté zákonitosti jazyků zachytit pomocí pouček, pravidel a gramatik - navzdory tomu jsme ale úplnému pochopení jazyka ještě poměrně daleko.

Moderní počítačové technologie umožňují přistupovat ke zkoumání jazyka novými, zcela odlišnými způsoby, které tradiční jazykovědné metody dobře doplňují. Základní myšlenkou je, aby se počítač naučil jazyku obdobným způsobem jako malé dítě - hledáním analogií v promluvách lidí ve svém okolí. V případě počítače je možno vycházet z velkého množství nashromážděných textů a hledání analogií lze realizovat například pomocí metod strojového učení. Cílem je, aby si na základě velkého množství dat počítač odvodil významy a způsoby použití většiny slov a výrazů sám, aniž by mu je někdo musel vysvětlit (resp. je naprogramovat).

V současné době tvoří statistické metody a příprava dat pro jejich trénování převážnou část výzkumu v obasti počítačové lingvistiky,

Korpusy

Korpus je kolekce textových dat v elektronické podobě. Jako významný zdroj lingvistických dat slouží korpusy ke zkoumání různých jazykových jevů, ověřování jazykovědných hypotéz a v současnosti jsou již neodmyslitelným nástrojem v oblasti NLP. Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro zvláštní účely, např. značkované, doménové, mluvené nebo chybové.

Korpusy se používají při zkoumání a konstrukci gramatik přirozených jazyků. Dále mohou být užitečné při tvorbě gramatického korektoru, při výběru hesel do slovníků, nebo jako zdroj dat pro automatickou kategorizaci textů s použitím metod strojového učení. Paralelní korpusy jsou tvořeny obsahově totožnými a zarovnanými texty v různých jazycích. Uplatňují se zejména v oblastech zjednoznačňování významů a strojového překladu.

V laboratoři NLP byla vytvořena kompletní sada nástrojů pro tvorbu a správu korpusů Corpus Builder. Tyto korpusy mohou obsahovat až miliardy slovních pozic. Dále se vyvíjí metoda CPA (Corpus Pattern Analysis), která si klade za cíl na základě poloautomatického rozpoznávání vzorů v korpusových datech získat informace o různých významech jednotlivých slov a jejich použití. Tato metoda má velký potenciál s ohledem na efektivní tvorbu slovníků založených na reálných datech.


Pro zájemce o spolupráci

Nejlepším způsobem je patrně dohodnout si schůzku, na které se individuálně domluvíme na oboustranně nejvýhodnější formě spolupráce. Možnosti jsou velmi široké - v podstatě cokoliv od teoretického jazykovědného bádání až po ryzí programování.

Pro inspiraci je možno se seznámit se seznamem aktuálně nabízených témat BP a DP

Kontaktní osoby:

Členové laboratoře

Další informace: