Pokročilé metody vyhledávání v digitálních datech

Nejdynamičtěji se rozvíjející oblastí počítačového zpracování dat jsou dnes bezesporu multimédia. Odhaduje se, že 93% informací je produkováno v digitální podobě a objem digitálních dat vytvořených během jednoho roku předkročí 1 exabajt, tj. 10¹⁸ bajtů, a očekává se další exponenciální růst. Navíc pouze 1% objemu dat na Internetu je v textové podobě, zbytek je tvořený multimédii i v rámci přenosů hlasových nebo televizních služeb. Informační systémy se musí s takovým náporem vyrovnat a zásadní je schopnost vyhledávání. Tradiční způsob vyhledávání založený na konceptu přesné shody není pro multimédia použitelný. Vhodné řešení používá koncept podobnosti, které podle zadaných požadavků vybírá data jistým způsobem blízká, též podobná.

Zabýváme se problematikou rychlého vyhledávání v rozsáhlých kolekcích multimediálních dat. Většina našich aktivit se soustřeďuje okolo projektu MUFIN Project, jehož součástí je i demo pro vyhledávání podobných obrázků. Standardní přístupy založené na centralizovaném adresáři přestávají být dostatečné z pohledu škálovatelnosti. Oproti tomu distribuované systémy (např. GRID nebo populární peer-to-peer sítě) nabízejí potřebné vlastnosti. Soustředíme se jak na tzv. strukturované distribuované systémy, které podle daných pravidel ukládají data na uzlech sítě, tak i na tzv. nestrukturované systémy, jejichž výhoda spočívá v samo-organizování – pravidla pro vyhledávání jsou automaticky vytvářena sítí a předem nejsou známa.

Samostatnou a neméně důležitou oblastí je problematika specifikace podobnosti, tj. způsobu určení blízkosti dat. Volba podobnostní funkce ovlivňuje nejenom kvalitu výsledků hledání, ale také rychlost hledání. S nevhodně definovanou podobností nemusí být možné vytvořit technologii, které prohledá obrovskou kolekci dat v rozumném čase.

Hlavní výzkumné priority

Problématika uspořádání výsledků hledání a zpětné vazby v obrazových datech
Ranking and Relevance Feedback in Image Retrieval
Architektury pro podobnostní hledání pro databáze rozměru WEBu
Similarity Searching Architectures for WEB Databases
Techniky aproximace v podobnostním hledání
Approximation Techniques for Similarity Searching
Samo-organizující se vyhledávací sítě
Self-Organized Search Networks
Reklama v elektronických médiích
Computational Advertising
Shlukování a kategorizace v metrických prostorech
Clustering and Categorization in Metric Spaces
Aplikace podobnostního hledání pro video, audio a hudbu
Applications of Similarity Searching: video, audio, music
Podobnostní hledání: za hranice metrického prostoru
Similarity Searching: Beyond the Metric Space
Integrace dat z různých zdrojů a jejich čistění
Data Cleaning and Integration
Filtrování informací spoluprácí více zdrojů (účastníků v síti)
Collaborative Filtering

Informace pro studenty

Vyhledávání v digitálních datech je velmi živým a atraktivním tématem pro výzkum, do kterého se mohou zapojit i studenti magisterského nebo bakalářského studia. Pokročilé metody vyhledávání v digitálních datech, jakými jsou například technologie podobnostního vyhledávání použité v projektu MUFIN, se vyučují v předmětu PA128 Similarity Searching in Multimedia Data. Bližší informace je možné získat od kteréhokoliv člena našeho výzkumného týmu.

Laboratoř DISA - Data Intensive Systems and Applications

Laboratoř se zabývá indexovými strukturami pro podobnostní hledání v centralizovaném i distribuovaném prostředí. Systémy s podporou podobnostního hledání tvoří moderní a perspektivní obor s klíčovým významem pro budoucí informační technologie. Laboratoř je otevřena všem zájemcům z řad studentů a nabízí začlenění do činností laboratoře – teoretickým výzkumem počínaje a programováním konče.

Kontakt

prof. Ing. Pavel Zezula, CSc.
Telefon: +420-549 49 7992
Email: zezulaIH=uOU-hC@fi29HRQ2Ll_.muninaE4sqgC9.cz