Otázky N-DL Digitální lingvistika
- Aplikace zpracování přirozeného jazyka: Automatická morfologická a syntaktická analýza. Sémantická analýza věty. Zpracování řeči, dialogové systémy. Klasifikace textů, extrakce informací. Analýza sentimentu, rozpoznávání pojmenovaných entit, odpovídání na otázky, strojový překlad. (PA153, IA161, PA156, IV029, PLIN034, PLIN063)
- Strojové učení pro zpracování přirozeného jazyka: Korpusy, jazykové modely. Klasifikace textů (Naive Bayes, přístupy založené na neuronových sítích). Vektorové reprezentace slov, frází a dokumentů. Konvoluční sítě pro zpracování textu. Rekurentní neuronové sítě pro jazykové modelování, zpracování sekvencí, transformery, velké jazykové modely. (PA153, IA161, PA154)
- Lingvistická analýza: Přehled vývoje počítačové lingvistiky ve světě a v ČR. Počítačové zpracování jednotlivých rovin přirozeného jazyka z pohledu lingvistiky – morfologická, syntaktická, sémantická rovina. Morfologický slovník jakožto součást automatického analyzátoru – zachycení gramatických významů v morfologickém slovníku, zachycení standardních a substandardních tvarů v morfologickém slovníku. (PLIN041, PLIN032, PLIN037, PLIN077, PLIN078)
- Lingvistika v teorii: Slovní druhy – kritéria klasifikace (morfologická, syntaktická, sémantická). Větné členy – podmět, předmět, příslovečné určení, přísudek, doplněk, atribut (jak je lze poznat a jaké mají vlastnosti). Substantiva – gramatické kategorie substantiv; deklinační paradigmata. Adjektiva – typy deklinace (složená, jmenná, smíšená deklinace posesivních adjektiv). Slovesa – gramatické kategorie sloves; finitní a nefinitní tvary, syntetické a analytické formy; konjugační paradigmata/slovesné třídy. (PLIN063, PLIN065, PLIN034, PLIN078)
- Lexikografie: Slovní zásoba – strukturace; vývojové tendence, neologismy. Lexikografie – předmět zájmu; Počítačová lexikografie – systémy pro editaci slovníků, značkování slovníkového hesla; stavba slovníku, prezentace makrostruktury a mikrostruktury na vybraném slovníkovém díle; typologie slovníků. Teritoriální stratifikace národního jazyka – nástin českých dialektů; nivelizační procesy, interdialekty a obecná čeština. Norma, úzus, kodifikace – péče o spisovný jazyk; aktuální kodifikační příručky. (PLIN035, CJJ15, PLIN033)
- Korpusová lingvistika: Historie korpusové lingvistiky – raná korpusová lingvistika, Chomského kritika korpusové lingvistiky, budování prvních korpusů. Vývoj korpusové lingvistiky. Automatické nástroje pro studium gramatiky budované nad jazykovými korpusy – konkrétní aplikace, využití složitějších dotazů v jazyce CQL pro studium gramatického systému jazyka. Výběr vhodného korpusu pro řešení lingvistického problému – volně dostupné korpusy a jejich charakteristika, DIY korpusy, lingvistické příručky založené na korpusech. (CJBB105, IB047)
- Statistika: Metody analýzy dat. Parametrické modely - odhady parametrů, testování hypotéz, ANOVA, testování nezávislosti, neparametrické testy. Lineární regresní modely. (MV013)
- Základy informatiky: Matematická indukce. Binární relace, uzávěry, tranzitivita. Ekvivalence a uspořádané množiny. Skládání relací a funkcí. Pojem grafu, izomorfismus, souvislost, stromy, kostry. (IB000)