Otázky N-DL Digitální lingvistika

  1. Aplikace zpracování přirozeného jazyka: Automatická morfologická a syntaktická analýza. Sémantická analýza věty. Zpracování řeči, dialogové systémy. Klasifikace textů, extrakce informací. Analýza sentimentu, rozpoznávání pojmenovaných entit, odpovídání na otázky, strojový překlad. (PA153, IA161, PA156, IV029, PLIN034, PLIN063)
  2. Strojové učení pro zpracování přirozeného jazyka: Korpusy, jazykové modely. Klasifikace textů (Naive Bayes, přístupy založené na neuronových sítích). Vektorové reprezentace slov, frází a dokumentů. Konvoluční sítě pro zpracování textu. Rekurentní neuronové sítě pro jazykové modelování, zpracování sekvencí, transformery, velké jazykové modely. (PA153, IA161, PA154)
  3. Lingvistická analýza: Přehled vývoje počítačové lingvistiky ve světě a v ČR. Počítačové zpracování jednotlivých rovin přirozeného jazyka z pohledu lingvistiky – morfologická, syntaktická, sémantická rovina. Morfologický slovník jakožto součást automatického analyzátoru – zachycení gramatických významů v morfologickém slovníku, zachycení standardních a substandardních tvarů v morfologickém slovníku. (PLIN041, PLIN032, PLIN037, PLIN077, PLIN078)
  4. Lingvistika v teorii: Slovní druhy – kritéria klasifikace (morfologická, syntaktická, sémantická). Větné členy – podmět, předmět, příslovečné určení, přísudek, doplněk, atribut (jak je lze poznat a jaké mají vlastnosti). Substantiva – gramatické kategorie substantiv; deklinační paradigmata. Adjektiva – typy deklinace (složená, jmenná, smíšená deklinace posesivních adjektiv). Slovesa – gramatické kategorie sloves; finitní a nefinitní tvary, syntetické a analytické formy; konjugační paradigmata/slovesné třídy. (PLIN063, PLIN065, PLIN034, PLIN078)
  5. Lexikografie: Slovní zásoba – strukturace; vývojové tendence, neologismy. Lexikografie – předmět zájmu; Počítačová lexikografie – systémy pro editaci slovníků, značkování slovníkového hesla; stavba slovníku, prezentace makrostruktury a mikrostruktury na vybraném slovníkovém díle; typologie slovníků. Teritoriální stratifikace národního jazyka – nástin českých dialektů; nivelizační procesy, interdialekty a obecná čeština. Norma, úzus, kodifikace – péče o spisovný jazyk; aktuální kodifikační příručky. (PLIN035, CJJ15, PLIN033)
  6. Korpusová lingvistika: Historie korpusové lingvistiky – raná korpusová lingvistika, Chomského kritika korpusové lingvistiky, budování prvních korpusů. Vývoj korpusové lingvistiky. Automatické nástroje pro studium gramatiky budované nad jazykovými korpusy – konkrétní aplikace, využití složitějších dotazů v jazyce CQL pro studium gramatického systému jazyka. Výběr vhodného korpusu pro řešení lingvistického problému – volně dostupné korpusy a jejich charakteristika, DIY korpusy, lingvistické příručky založené na korpusech. (CJBB105, IB047)
  7. Statistika: Metody analýzy dat. Parametrické modely - odhady parametrů, testování hypotéz, ANOVA, testování nezávislosti, neparametrické testy. Lineární regresní modely. (MV013)
  8. Základy informatiky: Matematická indukce. Binární relace, uzávěry, tranzitivita. Ekvivalence a uspořádané množiny. Skládání relací a funkcí. Pojem grafu, izomorfismus, souvislost, stromy, kostry. (IB000)