Okruh Zpracování dat

Podokruhy:

Podobnostní hledání

Anotace:
Vyhledávání na základě podobnosti se stává nedílnou součástí nástrojů pro zpracování dat, neboť více a více datových kolekcí nelze totálně uspořádat a jediným způsobem porovnání dvojic objektů je míra jejich podobnosti. Uchazeč se seznámí s modelováním podobnosti pomocí metrických prostorů, základními typy podobnostních dotazů, principy dělení metrických prostorů a podpůrnými teoretickými základy budování podobnostních vyhledávacích strojů. Součástí je i přehled existujících nástrojů.

Osnova:
Metrické funkce vzdálenosti, podobnostní dotazy, principy dělení metrických prostorů, strategie metrického vyhledávání, metrické transformace, aproximované vyhledávaní; Přehled existujících přístupů; Indexační struktury pro rozsáhlé datové kolekce; Aproximované techniky; Škálovatelné distribuované architektury.

Základní studijní materiál:
P. Zezula, G. Amato, V. Dohnal, and M. Batko, Similarity Search: The Metric Space Approach. Advances in Database Systems, Springer-Verlag, volume 32. Springer. 2006. Kapitoly 1, 2, a 3, plus kapitola 4 nebo 5.

Zkoušející: prof. Pavel Zezula, dr. Michal Batko, doc. Vlastislav Dohnal

Další doporučená literatura:
H. Samet, Foundations of Multimedia and Metric Data Structures, Morgan Kaufmann Publishers, 2006.

Vyhledávání informací

Anotace:
Vyhledávání je v současnosti považováno za nejrozšířenější aplikaci informatiky. Jeho úspěch je pak založen a dlouholetém vývoji technologie, která je stále revidovaná v důsledku exponenciálního růstu dat. Uchazeč se seznámí s moderními metodami vyhledávání dat používanými v soudobé praxi.

Osnova:
Datové modely vyhledávání; Metriky vyhodnocování vyhledávacích strojů; Dokumenty a dotazy; Indexování a vyhledávání; Paralelní a distribuované vyhledávání; Vyhledávání na webu; Multimediální vyhledávání; Digitální knihovny.

Základní studijní materiál:
Ricardo Baeza-Yates and Berthier Riberio-Neto, Modern Information Retrieval, Addison Wesley, 2011. Kapitoly 1, 3, 4, plus jedna z dalších kapitol dle vlastního výběru.

Zkoušející: prof. Pavel Zezula, dr. Michal Batko, doc. Vlastislav Dohnal

Další doporučená literatura:
C.D. Manning, P. Raghavan, and H. Schutze, Introduction to Information Retrieval, Cambridge University Press. 2008.

Soudobá témata výzkumu zpracování dat

Anotace:
Metody zpracování dat patří k prudce se rozvíjejícím oborů informatiky v důsledky rychle se rozvíjející škály rozmanitých datových typů, prudkého nárůstu objemu dat, a rozvoje hardwarové infrastruktury organizované v sítích. Témata jsou každoročně diskutována na stovkách odborných konferencí, kde mezi nejdůležitější především patří: VLDB, ACM SIGMOD, ACM SIGIR, IEEE ICDE, EDBT, a další.

Osnova:
Předmětem zkoušky je nastudovat čtyři články špičkových konferencí, společně vybraných s garantem tak, aby jejich obsah co nejlépe reflektoval potřeby studenta v rámci jeho PhD studia. Sborníky by měly patřit k nejnovějším ročníkům konferencí. Specifikace obsahu bude součástí přihlášky ke zkoušce.

Základní studijní materiál:
Sborníky konferencí
VLDB - Very Large Data Bases
ACM SIGMOD - Management of Data
ACM SIGIR - Information Retrieval
IEEE ICDE - International Conference on Data Engeneering
EDBT - Extending Data Base Technology

Zkoušející: prof. Pavel Zezula, dr. Michal Batko, doc. Vlastislav Dohnal

Strojové učení

Anotace:
Uchazeč se seznámí se základy induktivního odvozování a základními metodami strojového učení (kapitoly 2 -5 z Mitchellovy monografie) a poté se soustředí na vybrané partie zpravidla odpovídající zaměření doktorské práce (další tři kapitoly z Mitchellovy monografie nebo z další studijní literatury na základě dohody se zkoušejícím).

Osnova:
Induktivní odvozování. Metody strojového učení. Klasifikační a regresní úlohy. Síťové modely učení a genetické algoritmy. Metody více klasifikátorů (ensemble methods). Vyhodnocování výsledků. Shlukování. Detekce odlehlých bodů. Induktivní logické programování.

Základní studijní materiál:
Machine learning / Tom M. Mitchell.. -- Boston : McGraw-Hill, c1997

Zkoušející: doc. Tomáš Brázdil, doc. Lubomír Popelínský

Další doporučená literatura:
Pattern Recognition and Machine Learning. Chris. M. Bishop. Springer 2006.
Data mining : concepts and techniques. Jiawei Han et al. 3rd ed. Morgan Kaufmann 2011.
Foundation of Inductive logic programming. Nienhuys-Cheng, Shan-Hwei. Springer, 1997.
přehledové články z Machine Learning Journal (Springer) a dalších srovnatelných periodik (především ACM, IEEE, Springer)

Dobývání znalostí

Anotace:
Uchazeč se seznámí s procesem dobývání znalostí z dat, metodami předzpracování a dolování z dat (kapitoly 3, 6, 8, 10 z Hanovy monografie, 3. vydání). Poté se soustředí na vybrané partie zpravidla odpovídající zaměření doktorské práce (další tři kapitoly z Hanovy monografie nebo z další studijní literatury na základě dohody se zkoušejícím).

Osnova:
Proces dobývání znalostí. Modely. Metody předzpracování dat včetně textových. Dolování z dat (včetně multirelačních, síťových a grafových a časově prostorových). Učení častých vzorů a asociačních pravidel. Dolování z textu a webu (text a web mining). Metody pro vizuální analýzu dat (visual analytics).

Základní studijní materiál:
Data mining : concepts and techniques / Jiawei Han, Micheline Kamber, Jian Pei. -- 3rd ed. Morgan Kaufmann 2011.

Zkoušející: doc. Lubomír Popelínský

Další doporučená literatura:
Handbook of data visualization / Chun-houh Chen, Wolfgang Härdle, Antony Unwin, editors.. -- Berlin : Springer, c2008
Web data mining : exploring hyperlinks, contents, and usage data / Bing Liu.. -- Berlin : Springer, c2007
přehledové články z Data Mining and Knowledge Discovery (Springer) a dalších srovnatelných periodik (především ACM, IEEE, Springer)