Okruh Zpracování dat
Podokruhy:Podobnostní hledání
Anotace:Vyhledávání na základě podobnosti se stává nedílnou součástí nástrojů pro zpracování dat, neboť více a více datových kolekcí nelze totálně uspořádat a jediným způsobem porovnání dvojic objektů je míra jejich podobnosti. Uchazeč se seznámí s modelováním podobnosti pomocí metrických prostorů, základními typy podobnostních dotazů, principy dělení metrických prostorů a podpůrnými teoretickými základy budování podobnostních vyhledávacích strojů. Součástí je i přehled existujících nástrojů.
Osnova:
Metrické funkce vzdálenosti, podobnostní dotazy, principy dělení metrických prostorů, strategie metrického vyhledávání, metrické transformace, aproximované vyhledávaní; Přehled existujících přístupů; Indexační struktury pro rozsáhlé datové kolekce; Aproximované techniky; Škálovatelné distribuované architektury.
Základní studijní materiál:
P. Zezula, G. Amato, V. Dohnal, and M. Batko, Similarity Search: The Metric Space Approach. Advances in Database Systems, Springer-Verlag, volume 32. Springer. 2006. Kapitoly 1, 2, a 3, plus kapitola 4 nebo 5.
Zkoušející: prof. Ing. Pavel Zezula, CSc., RNDr. Michal Batko, Ph.D., doc. RNDr. Vlastislav Dohnal, Ph.D.
Další doporučená literatura:
H. Samet, Foundations of Multimedia and Metric Data Structures, Morgan Kaufmann Publishers, 2006.
Vyhledávání informací
Anotace:Vyhledávání je v současnosti považováno za nejrozšířenější aplikaci informatiky. Jeho úspěch je pak založen a dlouholetém vývoji technologie, která je stále revidovaná v důsledku exponenciálního růstu dat. Uchazeč se seznámí s moderními metodami vyhledávání dat používanými v soudobé praxi.
Osnova:
Datové modely vyhledávání; Metriky vyhodnocování vyhledávacích strojů; Dokumenty a dotazy; Indexování a vyhledávání; Paralelní a distribuované vyhledávání; Vyhledávání na webu; Multimediální vyhledávání; Digitální knihovny.
Základní studijní materiál:
Ricardo Baeza-Yates and Berthier Riberio-Neto, Modern Information Retrieval, Addison Wesley, 2011. Kapitoly 1, 3, 4, plus jedna z dalších kapitol dle vlastního výběru.
Zkoušející: prof. Ing. Pavel Zezula, CSc., RNDr. Michal Batko, Ph.D., doc. RNDr. Vlastislav Dohnal, Ph.D.
Další doporučená literatura:
C.D. Manning, P. Raghavan, and H. Schutze, Introduction to Information Retrieval, Cambridge University Press. 2008.
Soudobá témata výzkumu zpracování dat
Anotace:Metody zpracování dat patří k prudce se rozvíjejícím oborů informatiky v důsledky rychle se rozvíjející škály rozmanitých datových typů, prudkého nárůstu objemu dat, a rozvoje hardwarové infrastruktury organizované v sítích. Témata jsou každoročně diskutována na stovkách odborných konferencí, kde mezi nejdůležitější především patří: VLDB, ACM SIGMOD, ACM SIGIR, IEEE ICDE, EDBT, a další.
Osnova:
Předmětem zkoušky je nastudovat čtyři články špičkových konferencí, společně vybraných s garantem tak, aby jejich obsah co nejlépe reflektoval potřeby studenta v rámci jeho PhD studia. Sborníky by měly patřit k nejnovějším ročníkům konferencí. Specifikace obsahu bude součástí přihlášky ke zkoušce.
Základní studijní materiál:
Sborníky konferencí
VLDB - Very Large Data Bases
ACM SIGMOD - Management of Data
ACM SIGIR - Information Retrieval
IEEE ICDE - International Conference on Data Engeneering
EDBT - Extending Data Base Technology
Zkoušející: prof. Ing. Pavel Zezula, CSc., RNDr. Michal Batko, Ph.D., doc. RNDr. Vlastislav Dohnal, Ph.D.