Otázky N-UIZD Umělá inteligence a zpracování dat

Společný základ programu

Metody umělé inteligence: Prohledávání stavového prostoru, lokální prohledávání a metaheuristiky s jedním řešením, populační metaheuristiky (evoluční algoritmy, inteligence hejna). Plánování, reprezentace problému, plánování se stavovým prostorem. Práce s neurčitostí, Bayesovské sítě, exaktní a aproximační odvozování, čas a neurčitost, teorie užitku, Markovský rozhodovací proces, iterace hodnot, iterace strategie. Robotika, plánování pohybu robota (konfigurační prostor, kombinatorické a pravděpodobnostní přístupy). (IV126)
Statistika: Základní statististické metody (bodové odhady, intervaly spolehlivosti, testování statistických hypotéz). ANOVA. Neparametrické testy hypotéz. Mnohonásobná lineární regrese, autokorelace, multikolinearita. Analýza hlavních komponent (PCA). (MA012)
Výkonné počítače a intenzivní výpočty: Superskalární, multijádrové a mnohojádrové (GPU, MIC) procesory, MIMD a SIMD paralelismus. Organizace paměti, sdílená a distribuovaná, cache koherence. Optimalizace kódu, optimalizující překladače. Distribuované systémy, topologie síťového propojení. Programování paralelních a distribuovaných systémů. (PA039)
Databáze: Ukládání dat, adresování záznamů. Indexování a hašování více atributů, rastrové (bitmap) indexy, dynamické hašování. Vyhodnocování dotazu a algoritmy, statistiky a odhady nákladů. Optimalizace dotazů a schémat, pravidla pro transformaci dotazů, rozdělování dat. Ladění dotazů a schématu. Zpracování transakcí, výpadky a zotavení. Bezpečnost, přístupová oprávnění. (PA152)
Neuronové sítě: Vícevrstvé sítě a jejich výrazové schopnosti. Učení neuronových sítí: Gradientní sestup, zpětná propagace, praktické otázky učení (příprava dat, inicializace vah, volba a adaptace hyperparametrů). Regularizace. Konvoluční sítě. Rekurentní sítě. (PV021)
Strojové učení: Semi-supervised learning a aktivní učení. Ansámblové učení. Základy analýzy anomálií. Pokročilé metody vyhodnocování experimentů (křížová validace, ROC křivky, AUC, M učících algoritmů na N datových sadách, bootstrapping). Teoretické základy strojového učení (relace generalizace ve výrokové a predikátové logice, prostor hypotéz a verzí, bias-variance trade off) (PV056) pro absolventy předmětu do jara 2024 včetně
Dobývání znalostí: Předzpracování dat. Učení častých vzorů a asociačních pravidel. Nástroje pro strojové učení a dolování z dat (obecně + popis jednoho podrobně). Analýza temporálních dat. (PV056) pro absolventy předmětu do jara 2024 včetně
Strojové učení: Základy strojového učení (supervizované, semi-supervizované a nesupervizované učení; operace klasifikace, regrese, detekce anomálií). Učení metrik (kontrastivní učení, triplet-loss učení). Vektorová/produktová kvantizace s využitím pro aproximované hledání. Principy křížově-modálního (cross-modal) učení (CLIP). (PV056) pro absolventy předmětu od jara 2025 včetně
Dobývání znalostí: Asociační pravidla a algoritmy pro hledání frekventovaných vzorů (A-Priori, PCY). Principy shlukovacích algoritmů (k-means, hierarchické shlukování, DBSCAN, Chameleon). Analýza temporálních dat: vlastnosti a předzpracování časových řad, DTW, klouzavý průměr (MA). (PA212, PV056) pro absolventy předmětu PV056 od jara 2025 včetně
Vizualizace: Základní metriky pro hodnocení kvality vizualizace (efektivita a expresivita), osm základních vizuálních proměnných. Základní vizualizační techniky pro 1D, 2D, 3D (explicitní a implicitní reprezentace povrchu). Techniky pro vizualizaci multidimenzionálních dat (paralelní souřadnice, RadViz, scatterplot matrices, dimensional stacking) a hierarchických struktur (treemaps). Základní třídy interakčních technik (fisheye, perspektivní stěny), specifika aplikace interakčních technik v prostoru samotných dat a v prostoru jejich atributů. (PV251)

Specializace - Zpracování a analýza rozsáhlých dat

Analýza dat. Datové sklady a jejich životní cyklus, zúžené datové sklady (data marts), dimezionální model a jeho implementace (star schema, data cube). Proces extrakce, transformace a nahrávání dat (ETL), profilování dat, datová integrita, kvalita dat. (PA220)
Pokročilé techniky vyhledávání. Zpracování dat pomocí přístupu Map-Reduce. Vyhledávání pomocí technik Locality-Sensitive Hashing (LSH) a Min-Hashing. Zpracování proudů dat (DGIM, Bloom filtry). PageRank a jeho výpočet iterační metodou. (PA212) (povinné pro studium dle kontrolní šablony 2022/2023 nebo novější)
Podobnostní hledání. Principy podobnostního hledávání: metrický prostor, extrakce popisovačů a jejich vztah s člověkem vnímanou podobností, typy dotazů a jejich definice. Principy indexování: dělení dat, filtrování dat (pivoting). Srovnání s tradičními indexy (B+ trees). (PA128) (povinné pro studium dle kontrolní šablony 2022/2023 nebo novější)
Cloudové počítání a distribuované databáze. Cloudové počítání: základní principy, infrastruktura jako služba (IaaS), virtualizace a kontejnery, migrace na cloud, bezpečnost služeb, horizontální a vertikální škálovatelnost. Současné technologie a poskytovatelé cloudových služeb. Distribuované databáze: principy a výhody NoSQL přístupu, konzistence, distribuce dat. Úložiště párů klíč-hodnota, dokumentové databáze, grafové databáze, sloupcově orientované databáze. (PA200, PA195)
Softwarové inženýrství. Proces vývoje SW. Metodika Rational Unified Process. Agilní vývoj SW. Fáze testování a typy testů. Softwarové metriky, refaktoring kódu. Kvalita softwaru. Odhadování nákladů a času vývoje SW. Údržba a znovupoužitelnost. (PA017)
Aplikovaná kryptografie. Symetrická a asymetrická kryptografie, rozdíly a použití. Hašovací funkce a jejich aplikace. Digitální podpis: konstrukce, nepopiratelnost, správa veřejných klíčů, certifikační autority a infrastruktury veřejných klíčů. Autentizace, autorizace a kontrola přístupu. (PV079) (povinné pro studium dle kontrolní šablony 2021/2022 nebo starší)
Programování, organizace a administrace souborů. UNIX systém: architektura jádra, paměťový model jádra. Program: start a ukončení, argumenty, proměnné prostředí. Proces: atributy procesu, stavy procesu, komunikace mezi procesy (roura, signály, spolehlivé signály). Indexování a hašování: B+ stromy, lineární a rozšiřitelné hašování. Souborový systém: principy, organizace dat, rysy vnějších pamětí, I/O operace, pokročilé I/O operace (multiplexing pomocí select() a poll(), zamykání souborů, scatter-gather I/O, paměťově mapované I/O operace), speciální soubory, distribuované souborové systémy. (PV065, PA152) (povinné pro studium dle kontrolní šablony 2021/2022 nebo starší)

Specializace - Strojové učení a umělá inteligence

Pravděpodobnost v informatice: Definice pravděpodobnostního prostoru. Náhodná proměnná, definice a její použití, Markovova a Čebyševova nerovnost. Náhodné procesy, Markovovy řetězce (DTMC i CTMC), invariantní distribuce, ergodická věta pro DTMC. Teorie informace (entropie, vzájemná informace), teorie kódování (Kraftova a McMillanova věta, Huffmanovo kódování, věta o kapacitě chybových kanálů). (IV111)
Výpočetní logika: Složitost a vyčíslitelnost problému splnitelnosti. Rezoluční metoda ve výrokové a predikátové logice. Jazyk Prolog, relační algebra a Datalog. Tablové důkazy ve výrokové, predikátové a modální logice. Přirozená dedukce. Induktivní inference ve výrokové logice. Bisimulace a temporální logiky. (IA008)
Zpracování přirozeného jazyka: Korpusy, jazykové modely. Automatické morfologické a syntaktické značkování. Klasifikace textů, extrakce informací. Rekurentní neuronové sítě pro jazykové modelování, zpracování sekvencí, transformery. Odpovídání na otázky, strojový překlad. (PA153)
Programování s omezujícími podmínkami. Algoritmy a konzistence: hranová, po cestě, k-konzistence, obecná hranová konzistence, konzistence mezí, směrové varianty, šířka grafu podmínek. Stromové prohledávání, pohled dopředu, pohled zpět, neúplná stromová prohledávání. Modelování pomocí omezujících podmínek, globální podmínky, omezující podmínky pro rozvrhování, programování pomocí CPLEX Optimization Programming Language. (PA163)
Umělá inteligence ve zpracování obrazu: Formování obrazu (PSF, OTF, vzorkování). Klasifikace obrazu (VGGNet, GoogLeNet, ResNet, SENet). Detekce objektů (R-CNN, Fast R-CNN, Faster R-CNN, YOLO). Segmentace obrazu (FCN, UNet, Mask R-CNN). Podmíněné a nepodmíněné generativní modely (autoregresivní modely, VAEs, GANs). Modely založené na konvolučních sítích a transformerech (attention, CNN vs. ViT). (PA228) (povinné pro studium dle kontrolní šablony 2022/2023 nebo novější)
Strojové učení. Logika a strojové učení (multirelační učení). Metalearning a automatizované strojové učení (AutoML). Pokročilé metody analýzy anomálií. Kategorizace textu. Desambiguace metodami strojového učení. Extrakce informace z textu. (PV056, PA153) (povinné pro studium dle kontrolní šablony 2021/2022 nebo starší)

Specializace - Bioinformatika a systémová biologie

Základy bioinformatiky. Základy molekulární biologie: stavba prokaryotické a eukaryotické buňky, struktura a funkce nukleových kyselin a proteinů, replikace, transkripce a translace. Bioinformatika, definice, obor zájmu, bioinformatická data. Genomika, genom a metody jeho zkoumání, PCR, sekvenace DNA, organizace genomu. Proteomika, proteom a metody jeho zkoumání. Hmotnostní spektrometrie proteinů. Základy fylogenetiky, metody tvorby fylogenetických stromů. Podobnost sekvencí, zarovnávání sekvencí, související algoritmy. (IV107, IV108)
Pokročilé metody bioinformatiky. Výpočetní nástroje pro analýzu genomu, identifikace genů in silico, genomové prohlížeče. Biologické sekvence a teorie informace. Struktura DNA, RNA, odhad teploty topení a algoritmus Nussinové. Skryté Markovovy modely a jejich použití v bioinformatice. Pokročilé techniky práce s NGS daty, metagenomika. Vyhledávání sekvenčních motivů a anotace genomů. Analýza proteinových struktur a jejich předpovídání z aminokyselinové sekvence. (IV108, PV269)
Modelování a analýza biologických procesů. Specifikace biologického modelu: biologické sítě a dráhy, statická analýza biologických sítí. Modelování a simulace biologických procesů. Deterministický spojitý model: zákon o aktivním působení hmoty, kinetika enzymů a genových regulací. Stochastické modely: Markovův řetězec spojitého času, stochastické Petriho sítě, Gillespiho algoritmus (SSA). Rule-based jazyky pro specifikaci biologických modelů. Specifikace hypotéz pomocí temporálních logik, robustnost modelu vzhledem k temporální vlastnosti. Kvalitativní modely: Booleovské sítě a jejich analýza. (PB050, PA054)
Spojité a hybridní systémy: Definice systému, objekt, model, systém. Dynamický systém, přechodová funkce, rozměr systému, stavové rovnice. Spojitý, diskrétní, hybridní systém. Lineární a nelineární systémy, linearizace. Stabilita a charakterizace stability. Identifikovatelnost systému, estimace parametrů. Dosažitelnost v hybridním systému. Základní pojmy teorie řízení: řiditelnost, pozorovatelnost. (IV120)

Specializace - Zpracování přirozeného jazyka

Zpracování přirozeného jazyka: Korpusy, jejich značkování. Automatická morfologická a syntaktická analýza. Klasifikace textů, extrakce informací. Analýza sentimentu, rozpoznávání pojmenovaných entit. Rekurentní neuronové sítě pro jazykové modelování, zpracování sekvencí, transformery. Odpovídání na otázky, strojový překlad. (PA153, IA161)
Jazykové modelování: Jazykový model, metody Noisy Channel, Markovovy modely, skryté Markovovy modely (HMMs), vyhlazování. Neuronové modely typu GPT, velké jazykové modely, promptové inženýrství, modely vyladěné pro dialog. (PA154)
Výpočetní logika: Složitost a vyčíslitelnost problému splnitelnosti. Rezoluční metoda ve výrokové a predikátové logice. Jazyk Prolog, relační algebra a Datalog. Tablové důkazy ve výrokové, predikátové a modální logice. Přirozená dedukce. Induktivní inference ve výrokové a predikátové logice. Bisimulace a temporální logiky. (IA008)
Pravděpodobnost v informatice: Definice pravděpodobnostního prostoru. Náhodná proměnná, definice a její použití, Markovova a Čebyševova nerovnost. Náhodné procesy, Markovovy řetězce (DTMC i CTMC), invariantní distribuce, ergodická věta pro DTMC. Teorie informace (entropie, vzájemná informace), teorie kódování (Kraftova a McMillanova věta, Huffmanovo kódování, věta o kapacitě chybových kanálů). (IV111)