Pokročilé metody vyhledávání v digitálních datech

Screen shot

Nejdynamičtěji se rozvíjející oblastí počítačového zpracování dat jsou dnes bezesporu multimédia. Odhaduje se, že 93% informací je produkováno v digitální podobě a objem digitálních dat vytvořených během jednoho roku předkročí 1 exabajt, tj. 1018 bajtů, a očekává se další exponenciální růst. Navíc pouze 1% objemu dat na Internetu je v textové podobě, zbytek je tvořený multimédii i v rámci přenosů hlasových nebo televizních služeb. Informační systémy se musí s takovým náporem vyrovnat a zásadní je schopnost vyhledávání. Tradiční způsob vyhledávání založený na konceptu přesné shody není pro multimédia použitelný. Vhodné řešení používá koncept podobnosti, které podle zadaných požadavků vybírá data jistým způsobem blízká, též podobná.

Zabýváme se problematikou rychlého vyhledávání v rozsáhlých kolekcích multimediálních dat. Většina našich aktivit se soustřeďuje okolo projektu MUFIN Project, jehož součástí je i demo pro vyhledávání podobných obrázků. Standardní přístupy založené na centralizovaném adresáři přestávají být dostatečné z pohledu škálovatelnosti. Oproti tomu distribuované systémy (např. GRID nebo populární peer-to-peer sítě) nabízejí potřebné vlastnosti. Soustředíme se jak na tzv. strukturované distribuované systémy, které podle daných pravidel ukládají data na uzlech sítě, tak i na tzv. nestrukturované systémy, jejichž výhoda spočívá v samo-organizování – pravidla pro vyhledávání jsou automaticky vytvářena sítí a předem nejsou známa.

Samostatnou a neméně důležitou oblastí je problematika specifikace podobnosti, tj. způsobu určení blízkosti dat. Volba podobnostní funkce ovlivňuje nejenom kvalitu výsledků hledání, ale také rychlost hledání. S nevhodně definovanou podobností nemusí být možné vytvořit technologii, které prohledá obrovskou kolekci dat v rozumném čase.


Hlavní výzkumné priority

  • Problématika uspořádání výsledků hledání a zpětné vazby v obrazových datech
    Ranking and Relevance Feedback in Image Retrieval
  • Architektury pro podobnostní hledání pro databáze rozměru WEBu
    Similarity Searching Architectures for WEB Databases
  • Techniky aproximace v podobnostním hledání
    Approximation Techniques for Similarity Searching
  • Samo-organizující se vyhledávací sítě
    Self-Organized Search Networks
  • Reklama v elektronických médiích
    Computational Advertising
  • Shlukování a kategorizace v metrických prostorech
    Clustering and Categorization in Metric Spaces
  • Aplikace podobnostního hledání pro video, audio a hudbu
    Applications of Similarity Searching: video, audio, music
  • Podobnostní hledání: za hranice metrického prostoru
    Similarity Searching: Beyond the Metric Space
  • Integrace dat z různých zdrojů a jejich čistění
    Data Cleaning and Integration
  • Filtrování informací spoluprácí více zdrojů (účastníků v síti)
    Collaborative Filtering

Informace pro studenty

Vyhledávání v digitálních datech je velmi živým a atraktivním tématem pro výzkum, do kterého se mohou zapojit i studenti magisterského nebo bakalářského studia. Pokročilé metody vyhledávání v digitálních datech, jakými jsou například technologie podobnostního vyhledávání použité v projektu MUFIN, se vyučují v předmětu PA128 Similarity Searching in Multimedia Data. Bližší informace je možné získat od kteréhokoliv člena našeho výzkumného týmu.


Laboratoř DISA - Data Intensive Systems and Applications

Laboratoř se zabývá indexovými strukturami pro podobnostní hledání v centralizovaném i distribuovaném prostředí. Systémy s podporou podobnostního hledání tvoří moderní a perspektivní obor s klíčovým významem pro budoucí informační technologie. Laboratoř je otevřena všem zájemcům z řad studentů a nabízí začlenění do činností laboratoře – teoretickým výzkumem počínaje a programováním konče.


Kontakt

kontakt
prof. Ing. Pavel Zezula, CSc.
Telefon: +420-549 49 7992
Email: zezula(atsign)fi(dot)muni(dot)cz