Pokročilé metody vyhledávání v digitálních datech
Nejdynamičtěji se rozvíjející oblastí počítačového zpracování dat jsou dnes bezesporu multimédia. Odhaduje se, že 93% informací je produkováno v digitální podobě a objem digitálních dat vytvořených během jednoho roku předkročí 1 exabajt, tj. 1018 bajtů, a očekává se další exponenciální růst. Navíc pouze 1% objemu dat na Internetu je v textové podobě, zbytek je tvořený multimédii i v rámci přenosů hlasových nebo televizních služeb. Informační systémy se musí s takovým náporem vyrovnat a zásadní je schopnost vyhledávání. Tradiční způsob vyhledávání založený na konceptu přesné shody není pro multimédia použitelný. Vhodné řešení používá koncept podobnosti, které podle zadaných požadavků vybírá data jistým způsobem blízká, též podobná.
Zabýváme se problematikou rychlého vyhledávání v rozsáhlých kolekcích multimediálních dat. Většina našich aktivit se soustřeďuje okolo projektu MUFIN Project, jehož součástí je i demo pro vyhledávání podobných obrázků. Standardní přístupy založené na centralizovaném adresáři přestávají být dostatečné z pohledu škálovatelnosti. Oproti tomu distribuované systémy (např. GRID nebo populární peer-to-peer sítě) nabízejí potřebné vlastnosti. Soustředíme se jak na tzv. strukturované distribuované systémy, které podle daných pravidel ukládají data na uzlech sítě, tak i na tzv. nestrukturované systémy, jejichž výhoda spočívá v samo-organizování – pravidla pro vyhledávání jsou automaticky vytvářena sítí a předem nejsou známa.
Samostatnou a neméně důležitou oblastí je problematika specifikace podobnosti, tj. způsobu určení blízkosti dat. Volba podobnostní funkce ovlivňuje nejenom kvalitu výsledků hledání, ale také rychlost hledání. S nevhodně definovanou podobností nemusí být možné vytvořit technologii, které prohledá obrovskou kolekci dat v rozumném čase.
Hlavní výzkumné priority
- Problématika uspořádání výsledků hledání a zpětné vazby v obrazových datech
Ranking and Relevance Feedback in Image Retrieval - Architektury pro podobnostní hledání pro databáze rozměru WEBu
Similarity Searching Architectures for WEB Databases - Techniky aproximace v podobnostním hledání
Approximation Techniques for Similarity Searching - Samo-organizující se vyhledávací sítě
Self-Organized Search Networks - Reklama v elektronických médiích
Computational Advertising - Shlukování a kategorizace v metrických prostorech
Clustering and Categorization in Metric Spaces - Aplikace podobnostního hledání pro video, audio a hudbu
Applications of Similarity Searching: video, audio, music - Podobnostní hledání: za hranice metrického prostoru
Similarity Searching: Beyond the Metric Space - Integrace dat z různých zdrojů a jejich čistění
Data Cleaning and Integration - Filtrování informací spoluprácí více zdrojů (účastníků v síti)
Collaborative Filtering
Informace pro studenty
Vyhledávání v digitálních datech je velmi živým a atraktivním tématem pro výzkum, do kterého se mohou zapojit i studenti magisterského nebo bakalářského studia. Pokročilé metody vyhledávání v digitálních datech, jakými jsou například technologie podobnostního vyhledávání použité v projektu MUFIN, se vyučují v předmětu PA128 Similarity Searching in Multimedia Data. Bližší informace je možné získat od kteréhokoliv člena našeho výzkumného týmu.
Laboratoř vyhledávání a dialogu
Laboratoř se zabývá dialogovými systémy a indexovými strukturami pro podobnostní hledání v centralizovaném i distribuovaném prostředí. Dialogové systémy s podporou podobnostního hledání tvoří moderní a perspektivní obor s klíčovým významem pro budoucí informační technologie. Laboratoř je otevřena všem zájemcům z řad studentů a nabízí začlenění do činností laboratoře – teoretickým výzkumem počínaje a programováním konče.
Složení výzkumného týmu
Vedoucí skupiny:
prof. Ing. Pavel Zezula, CSc.
Zaměstnanci:
RNDr. Stanislav Bartoň, Ph.D.
RNDr. Michal Batko, Ph.D.
RNDr. Vlastislav Dohnal, Ph.D.
Mezinárodní a národní spolupráce
Naše skupina spolupracuje s celou řadou mezinárodních institucí. Mezi nejvyznamnější patří:- Institute of Information Science and Technologies of the Italian National Research Council
- IBM Research and Development Labs in Israel
- Max Planck Institut für Informatik
- Ústav informatiky, Akademie věd České republiky
- Matematickofyzikální fakulta, Karlova universita Praha
Významné publikace
- Zezula, Pavel - Amato, Giuseppe - Dohnal, Vlastislav - Batko, Michal. Similarity Search: The Metric Space Approach. 2005. New York, NY 10013, USA : Springer, 2005. 220 pages. Advances in Database Systems, Vol. 32. ISBN 0-387-29146-6.
- V roce 2006 byla za tuto knihu autorům P. Zezulovi, V. Dohnalovi a M. Batkovi udělena cena rektora za významný tvůrčí čin.
Ocenění
- V září 2008 bylo této skupině uděleno významné ocenění IBM Shared University Research (SUR) Award od společnosti IBM za výzkumnou činnost.
- IBM Shared University Research (SUR) Awards je celosvětový program pro prosazování vzájemné spolupráce mezi IBM a univerzitami.
Napsali o nás
- RADIOŽURNÁL (10.10. 2008): projekt na netextové vyhledávání (audio, začátek 23:17)
- LUPA: Netextové vyhledávání je na Internetu stále problém
- MSearchGroove: Mobile Search Segmentation, Telcom Italia Focuses On Context & Make Way for MUFIN
Významné grantové projekty
-
SAPIR - Search In Audio Visual Content Using Peer-to-peer Information Retrieval
6th FP European Union IST project -
SemWeb - Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu
Projekt programu Informační společnost tématického programu II Národního programu výzkumu v České republice
Kontakt
Telefon: +420-549 49 7992
Email: zezula
fi
muni
cz




