Z jazykového nadšence expertem na zpracování přirozeného jazyka

Miloš Jakubíček

“ Korpusy pro lingvistiku znamenají velkou revoluci, jejich vývoj souvisel s rozvojem počítačů a výpočetní techniky, což umožnilo lingvistice stát se empirickou vědou…“


Klára Petrovičová a Radka Grace pro fi.muni.cz

Když se znalosti a zájmy z dětství spojí a na FI MUNI se znásobí, můžete se stát expertem, třeba v oblasti zpracování přirozeného jazyka. Přečtěte si, jak se vyvíjela profesní cesta Miloše Jakubíčka od dětství až po pracovní pozici ve společnosti Lexical Computing. Doktor Jakubíček nás seznamuje s korpusovou lingvistikou, nástrojem Sketch Engine, spoluprací s vysokými školami a s FI, a také radí studentům se zájmem o NLP.

Jaká byla Vaše cesta k informatice a konkrétně k FI MU?

Moje cesta byla úplně náhodná. Pocházím z Jihlavy, kde jsem studoval na gymnáziu a většinu té doby jsem nevěděl, co budu dělat potom. Matematika a jazyky mě bavily a zajímaly, což se paradoxně projevilo v tom, kde jsem nakonec skončil.

Když mi bylo 12 let, začal jsem se učit programovat. Ve čtvrtém ročníku jsem uvažoval, jestli jít na FI MU nebo na FIT VUT, ale tehdy mi náš učitel informatiky, absolvent Matfyzu, dal radu, že pokud nejsem vyhraněný, tak bych měl jít na FI MU, a za to jsem teď zpětně velmi rád.

Jak jste se tedy dostal k zpracování přirozeného jazyka (NLP - Natural Language Processing)?

To už souviselo s mým velkým zájmem o jazyky. Když jsem začal studovat, tak jsem si vybíral různé předměty a prozkoumával je. Ale už ve druhém ročníku jsem skončil v laboratoři NLP, kde jsem psal bakalářskou práci. Důvodem tedy byly předměty, ale i rodinné zázemí, protože maminka je překladatelka. Postupně jsem se začal i sám angažovat v Centru zpracování přirozeného jazyka.

Když říkáte, že máte zájem o jazyky, umíte vy sám více jazyků?

Ne, já umím jen německy a anglicky. Jde spíš o humanitně orientovaný zájem o jazyk ve smyslu jeho slovesnosti a rozmanitosti.

Miloš Jakubíček
Čemu jste se v NLP labu věnoval?

Spoustě věcem (smích). Co mě velmi bavilo, bylo poznávat jakým způsobem je možné a nutné zpracovávat jazyky na počítači. Kde to naráží, kde to drhne a podobně.

Jak jste si vybral firmu Lexical Computing?

Jeden z mých tehdejších kolegů tady na fakultě pro firmu dlouhodobě pracoval. Umožnilo mi to spojit můj osobní zájem s působením na fakultě a rozvinout a aplikovat jej ve firmě. Poté se to přirozeně přeměnilo od toho, kdy jsem stoprocentně působil na fakultě, až se postupem let můj úvazek snižoval na současných 5 procent. Podílela se na tom také nešťastná událost, kdy tehdejší zakladatel firmy v poměrně mladém věku zemřel v roce 2015. To vyústilo v moje větší zapojení ve firmě. Když se na to takhle zpětně podívám, tak se věci vyvíjely spíš přirozeně.

Jakými oblastmi NLP se v Lexical Computing zabýváte?

Hlavní oblastí je korpusová lingvistika. Což je obor, který se věnuje vytváření, zpracovávání a analýze velkých textových dat. Ty se používají ke všemu možnému, v lingvistice samotné pro účely výzkumu, aby se lingvistika měla o co opřít. Korpusy pro lingvistiku znamenají velkou revoluci, jejich vývoj souvisel s rozvojem počítačů a výpočetní techniky, což umožnilo lingvistice stát se empirickou vědou. To, co se do té doby opíralo o lingvistickou introspekci, tedy o to, co každý z nás má v hlavě, nějaký jazykový cit a zkušenosti, které jsou velmi subjektivní a individuální, závisí na tom, kde se člověk narodil a z jakého pochází sociálního zázemí, kde se pohybuje profesně, to vše se najednou opírá o existující data, kterým se říká textové korpusy.

Nicméně komerční využití je mnohem větší a širší. V rámci firmy byly korpusy od začátku používány především k tvorbě slovníků v oblasti počítačové lexikografie, ale používají se k dalším věcem, jako je třeba tvorba jazykových modelů. Například když mě teď nahráváte na diktafon, tak aby bylo možné vyvinout software, který mou řeč automaticky přepíše do textu. A používají se také na to, aby když píšete v mobilu SMS, tak jste měla k dispozici prediktivní psaní a navrhovalo vám to další slova.

Dále se používají například k vývoji strojového překladu. Komerční využití je poměrně široké.

Spolupracujete i s dalšími firmami?

Máme spoustu firemních zákazníků, což je to, na čem firma stojí. S některými z nich spolupracujeme i úžeji na výzkumných projektech. Ale mnohem častěji jsou v oblasti výzkumu naši partneři univerzity. Nejen Masarykova univerzita, ale i jiné univerzity. Data, která máme, zahrnují přes stovku jazyků, v řadě případů spolupracujeme s univerzitami po celém světě, kdy se snažíme nějakým způsobem převádět výsledky jejich výzkumu do aplikovatelné podoby tak, abychom z výsledků mohli těžit nejen my, ale i daná univerzita.

Jak probíhá spolupráce mezi Fakultou informatiky a Lexical Computing?

Spolupráce funguje velmi dobře, a to i dobře definovaně, v tom smyslu, že fakulta má výborně fungující sdružení průmyslových partnerů, jehož je Lexical Computing členem, a to již od počátku. V rámci toho je dané, jakým způsobem probíhá spolupráce ve smyslu vedení bakalářských nebo diplomových prací. Čeho si velmi vážím a co je podle mě významné i v celosvětovém měřítku (a myslím, že to srovnání jsem schopen učinit), je zapojení firmy do portfolia vedení doktorských studentů. Jsem velmi rád, že i my můžeme tímto způsobem podporovat studenty na FI a spolupracovat s nimi i v rámci studia.

I když to není vždycky tak, že by si firma studenta po doktorátu odchytla jako zaměstnance, vnímám spolupráci jako velmi úspěšnou.

Jak se inspirujete při tvorbě projektů v Lexical Computing?

Tak toto je snad jediný problém, který jsem nemusel nikdy řešit – že bychom neměli dost nápadů. Spíš je to naopak, že nápadů je spousta a je potřeba je tvrdě uspořádat a prioritizovat. Tím, že se pohybujeme ve výzkumné komunitě, zejména v rámci lexikografie, kde tvoříme mezinárodně její nezanedbatelnou část, tak nápady přichází samy. Jak výzkum pokračuje dopředu, tak člověk vždy jeden problém vyřeší a 3 další objeví.

K čemu se používá nástroj Sketch Engine?

Je to hlavní produkt firmy a je to nástroj, který umožňuje efektivně prohledávat velké textové korpusy a umožňuje je uživatelům i vytvářet a analyzovat. Je to webový software, ve kterém najdete textové korpusy pro více než sto jazyků, z nichž některé mají desítky miliard slov, a můžete tyto texty prohledávat a zkoumat.

Jakým směrem se podle Vás bude NLP posouvat do budoucna?

Doufám, že se bude posouvat tím směrem, že větší roli budou hrát data než algoritmy. Posledních 20-30 letech to probíhalo spíše opačně, ale začíná být jasné, že je mnohem větší potenciál posouvat se dopředu pomocí lepších dat. Jestli se to bude skutečně tímto směrem posouvat, to je těžké odhadnout.

Největším problémem NLP je vyhodnocování, dovedu si představit, že například v medicíně je to podobné. Jde o to, jakým způsobem měřit, jestli to, co jsme udělali, je dobře a jak moc je to dobře. V tomto ohledu je část akademické komunity tažena směrem, kde je technicky jednoduché něco vyhodnotit, poměřit se s ostatními a na základě toho něco publikovat, i když to často neodráží skutečnou kvalitu výsledků. Na druhou stranu zase komerční část pod hlavičkou Artificial intelligence je často obětí investorské propagandy, kdy se nezřídka člověk dočítá v populárně naučných periodicích o průlomových objevech, které často existují jen jako slidy a teoretické výsledky, ale mají za účel do firmy nalákat investory.

Co byste poradil studentovi, který by se chtěl začít věnovat NLP?

To je úplně jednoduché. Poradil bych mu, aby začal studovat předměty, které tady na fakultě jsou, protože poskytují velmi solidní základ pro všeobecný přehled. Také vím, že kolegové předměty stále obměňují, což je dobře.

Kde se vidíte za 5 let?

(smích) V určitém věku se člověk dostane do stavu, kdy si říká, že by vůbec nebylo špatné, kdyby to za 5 let bylo alespoň tak dobré, jak je to teď.

Děkujeme za rozhovor a přejeme, ať se Vám daří v profesním i osobním životě.

Galerie absolventů