Pokročilé metody vyhledávání v digitálních datech

Screen shot

Nejdynamičtěji se rozvíjející oblastí počítačového zpracování dat jsou dnes bezesporu multimédia. Odhaduje se, že 93% informací je produkováno v digitální podobě a objem digitálních dat vytvořených během jednoho roku předkročí 1 exabajt, tj. 1018 bajtů, a očekává se další exponenciální růst. Navíc pouze 1% objemu dat na Internetu je v textové podobě, zbytek je tvořený multimédii i v rámci přenosů hlasových nebo televizních služeb. Informační systémy se musí s takovým náporem vyrovnat a zásadní je schopnost vyhledávání. Tradiční způsob vyhledávání založený na konceptu přesné shody není pro multimédia použitelný. Vhodné řešení používá koncept podobnosti, které podle zadaných požadavků vybírá data jistým způsobem blízká, též podobná.

Zabýváme se problematikou rychlého vyhledávání v rozsáhlých kolekcích multimediálních dat. Většina našich aktivit se soustřeďuje okolo projektu MUFIN Project, jehož součástí je i demo pro vyhledávání podobných obrázků. Standardní přístupy založené na centralizovaném adresáři přestávají být dostatečné z pohledu škálovatelnosti. Oproti tomu distribuované systémy (např. GRID nebo populární peer-to-peer sítě) nabízejí potřebné vlastnosti. Soustředíme se jak na tzv. strukturované distribuované systémy, které podle daných pravidel ukládají data na uzlech sítě, tak i na tzv. nestrukturované systémy, jejichž výhoda spočívá v samo-organizování – pravidla pro vyhledávání jsou automaticky vytvářena sítí a předem nejsou známa.

Samostatnou a neméně důležitou oblastí je problematika specifikace podobnosti, tj. způsobu určení blízkosti dat. Volba podobnostní funkce ovlivňuje nejenom kvalitu výsledků hledání, ale také rychlost hledání. S nevhodně definovanou podobností nemusí být možné vytvořit technologii, které prohledá obrovskou kolekci dat v rozumném čase.


Hlavní výzkumné priority

  • Problématika uspořádání výsledků hledání a zpětné vazby v obrazových datech
    Ranking and Relevance Feedback in Image Retrieval
  • Architektury pro podobnostní hledání pro databáze rozměru WEBu
    Similarity Searching Architectures for WEB Databases
  • Techniky aproximace v podobnostním hledání
    Approximation Techniques for Similarity Searching
  • Samo-organizující se vyhledávací sítě
    Self-Organized Search Networks
  • Reklama v elektronických médiích
    Computational Advertising
  • Shlukování a kategorizace v metrických prostorech
    Clustering and Categorization in Metric Spaces
  • Aplikace podobnostního hledání pro video, audio a hudbu
    Applications of Similarity Searching: video, audio, music
  • Podobnostní hledání: za hranice metrického prostoru
    Similarity Searching: Beyond the Metric Space
  • Integrace dat z různých zdrojů a jejich čistění
    Data Cleaning and Integration
  • Filtrování informací spoluprácí více zdrojů (účastníků v síti)
    Collaborative Filtering

Informace pro studenty

Vyhledávání v digitálních datech je velmi živým a atraktivním tématem pro výzkum, do kterého se mohou zapojit i studenti magisterského nebo bakalářského studia. Pokročilé metody vyhledávání v digitálních datech, jakými jsou například technologie podobnostního vyhledávání použité v projektu MUFIN, se vyučují v předmětu PA128 Similarity Searching in Multimedia Data. Bližší informace je možné získat od kteréhokoliv člena našeho výzkumného týmu.


Laboratoř vyhledávání a dialogu

LSD

Laboratoř se zabývá dialogovými systémy a indexovými strukturami pro podobnostní hledání v centralizovaném i distribuovaném prostředí. Dialogové systémy s podporou podobnostního hledání tvoří moderní a perspektivní obor s klíčovým významem pro budoucí informační technologie. Laboratoř je otevřena všem zájemcům z řad studentů a nabízí začlenění do činností laboratoře – teoretickým výzkumem počínaje a programováním konče.


Složení výzkumného týmu


Mezinárodní a národní spolupráce

Naše skupina spolupracuje s celou řadou mezinárodních institucí. Mezi nejvyznamnější patří: Také na národní úrovni pracujeme s dalšími týmy na společných výzkumných projektech:

Významné publikace

Similarity Search: The Metric Space Approach
  • Zezula, Pavel - Amato, Giuseppe - Dohnal, Vlastislav - Batko, Michal. Similarity Search: The Metric Space Approach. 2005. New York, NY 10013, USA : Springer, 2005. 220 pages. Advances in Database Systems, Vol. 32. ISBN 0-387-29146-6.
  • V roce 2006 byla za tuto knihu autorům P. Zezulovi, V. Dohnalovi a M. Batkovi udělena cena rektora za významný tvůrčí čin.

Ocenění

IBM Shared University Research (SUR) Award
  • V září 2008 bylo této skupině uděleno významné ocenění IBM Shared University Research (SUR) Award od společnosti IBM za výzkumnou činnost.
  • IBM Shared University Research (SUR) Awards je celosvětový program pro prosazování vzájemné spolupráce mezi IBM a univerzitami.

Napsali o nás


Významné grantové projekty

  • SAPIR - Search In Audio Visual Content Using Peer-to-peer Information Retrieval
    6th FP European Union IST project
  • SemWeb - Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu
    Projekt programu Informační společnost tématického programu II Národního programu výzkumu v České republice

Kontakt

kontakt
prof. Ing. Pavel Zezula, CSc.
Telefon: +420-549 49 7992
Email: zezula(atsign)fi(dot)muni(dot)cz