Zpět

Anotovaná literatura k PHD studiu

Content-Based Information Retrieval in general

Existing image search systems

Descriptors

Modalities, similarity measures

Indexing

Hashing, LSH

Query expansion

Ranking, combining metric spaces

Relevance feedback

Image annotation

Summarization of image collections

Ontologies

Evaluation

Query Language

Other interesting papers and ideas


Datta, Li, Wang: Content-Based Image Retrieval - Approaches and Trends of the New Age. MIR’05 nahoru

plný text článku, bibtex

Pěkný úvod do CBIR (co je obtížnější ve strovnání s text retrieval), že je to důležité zkoumat (dokumentováno nárustem publikací v této oblasti za poslední roky; 120 užitečných citací!). Obsahuje stručnou diskuzi o používaných deskriptorech, shrnutí základních přístupů k CBIR (semantics-sensitive approach, use of hierarchical perceptual grouping of primitive image features and their inter-relationships to characterize structure; Clustering has been applied to image retrieval to help improve interface design, visualization, and result pre-processing). Annotation and Concept Detection - velmi přínosné, pokud se podaří anotaci udělat, to je ale velmi obtížné, zatím se to zvládá jen pro hrubé zařazení do kategorií; pomoci může učení z předchozích výsledků. Velmi dobré zmapování základních přístupů Relevance feedback. Diskuze o HW urychlení a vhodných uživatelských rozhraních.


Datta, Joshi, Li, Wang: Image retrieval: Ideas, influences, and trends of the new age. ACM Computation Surveys, 2008. nahoru

plný text článku, bibtex

Rozšířená verze předchozího. V úvodu stručné shrnutí survey Smeulders00.


Kherfi, Ziou, Bernardi: Image Retrieval From the World Wide Web: Issues, Techniques, and Systems. ACM computing surveys, 2004. nahoru

plný text článku, bibtex

Proč potřeba web image search. Applications - různé kategorie, hezky rozebrané. Jaké služby by lidé od web search engine očekávali: query-based retrieval, browsing, summary of a set of images. Dále popis několika existujících image search systémů, které většinou kombinují text a visual search. Dobrý přehled zdrojů a funkčnosti (charakteristika, které deskriptory, jaké dotazy podporuje).
V další sekci se řeší návrh Web image search engine, a to konkrétně tyto části: data gathering, the identification and the estimation of image descriptors, similarity and matching, indexing, query specification, retrieval and refinement, Web coverage, and performance evaluation. Ohledně text search pěkný přehled toho, které kusy stránky který systém využívá. Odkaz na článek, který řeší, jak poznat relevantní slova ve stránce. Dále dobrý přehled možností query formulation. Doporučení používat text i image. V další části zadefinován evaluation test-bed a metriky porovnávání systémů včetně netradičních jako ease of use, numer of iterations. Nakonec různé open issues - např. pochopení potřeb uživatele, jsou tam nějaké citace, i když starších článků.


Alemu, Koh, Ikram, Kim: Image Retrieval in Multimedia Databases: A Survey. Int. Conf. on Intelligent Information Hiding and Multimedia Signal Processing nahoru

plný text článku, bibtex

Přehled přístupů - text search, CBIR, ontology-based image retrieval. Nejde to moc do hloubky, ale pro rychlý přehled dobré, dá se citovat pro úvod do text-based a content-based image search.


Mueller, Deselaers: Image Retrieval. Tutorial TrebleCLEF Summer School 2009. nahoru

web s prezentacemi tutorialu

Hare, Lewis, Enser, Sandom: Mind the Gap: Another look at the problem of the semantic gap in image retrieval. 2006 nahoru

plný text článku, bibtex

Uvažuje sémantické dotazy "Najdi obrázek, kde je vlk ve sněhu na silnici v Atlantě z roku 2000". Semantic gap rozdělen na několik částí: obrázek => reprezentace => objekty => klíčová slova => sémantika. Popsány existující přístupy k automatické anotaci klíčovými slovy - to označují jako přístup zdola. Přístup shora je přes ontologie.


Guan, Antani, Long, Thoma: Bridging the semantic gap using ranking svm for image retrieval. 2009 nahoru

plný text článku, bibtex

Pro kolekci rentgenových obrázků páteře aplikují učící algoritmus založený na SVM, inovací je, že se nehledají kategorie, ale optimální ranking. Stručný, jasný a výstižný článek, pro specializované kolekce je to asi dobré řešení.


Liu, Zhang, Lu, Ma: A survey of content-based image retrieval with high-level semantics. 2006. nahoru

plný text článku, bibtex

Survey přístupů k řešení Semantic gap. Identifikují pět hlavních přístupů: (1) using object ontology to define high-level concepts; (2) using machine learning methods to associate low-level features with query concepts; (3) using relevance feedback to learn users’ intention; (4) generating semantic template to support high-level image retrieval; (5) fusing the evidences from HTML text and the visual content of images for WWW image retrieval.
V úvodní části velmi srozumitelně popsány metody segmentace a extrakce deskriptorů.
Object ontology: nasegmentované úseky se popíší pomocí vlastností deskriptorů, třeba světle modrý, jednolitý, umístěný nahoře. Na další úrovni se těmto vlastnostem přiřadí pojem obloha. Způsoby pojmenování barev, asi se to zvlášť hodí na vyhledávání v uměleckých kolekcích.
Machine learning: supervised - účelem je naučit systém správně kategorizovat či pojmenovávat; unsuperised - snaží se podchytit, jak jsou data organizována/clusterována. Supervised přístupy: SVM, Bayesian classification, neuronové sítě, rozhodovací stromy, bootstrapping. Rozhodovací stromy někdo používá pro relevance feedback (rozhodování relevantní/nerelevantní). Typickým příkladem unsupervised learning je image clustering (metody k-means clustering, Normalized cut, CLUE; locality preserving clustering). Učení se může používat pro object recognition.
Relevance feedback: online metoda, hlavní přístupy: změna vah, posouvání query point (často využívá Rocchio vzorec). Obě tyto metody používají nearest-neighbor sampling. Při určování změněného dotazu se často používají machine learning techniques.
Semantic templates: mapování mezi sémantickými koncepty a nízkoúrovňovými deskriptory. Semantic template obvykle definována jako reprezentativní vlastnost pro daný koncept odvozená ze vzorových objektů. Může se vytvářet během relevance feedback.
Web image retrieval: má specifické vlastnosti, může využívat další informace získané z webové stránky (URL, title, alt, description, hyperlinks).
Článek dále obsahuje obsáhlou diskuzi o testovacích datech, zejména o výhodách a nevýhodách nejpoužívanější kolekce Corel. Dále se řeší vhodné slovníky pro sémantické koncepty. Nakonec řeší evaluační metody: precision, recall, jejich poměry, poměr ku scope, rank.
V další sekci zmiňují potřebu dotazovacího jazyka, popisují několik existujících návrhů, které jsou ale všechny sémantické. Také se stručně věnují indexovacím strukturám a upozorňují, že často nejsou specializované na vlastnosti obrázků (existují i některé, které se o to snaží).


Jain, Sinha: Content Without Context is Meaningless. MM 2010. nahoru

plný text článku, bibtex

Kritika současného trendu výzkumu - děláme content-based, kašleme na context, přitom v praxi se používá zrovna context a to naše ne. Příliš mnoho problémů se snažíme řešit strojovým učením ("Machine Learning Hammer"). Zmiňují otázku, jestli současný výzkum vůbec řeší ten správný problém (k čemu se používá které medium, jaké informace z něj jsou podstatné...). Multimedia content problem má být "perception problem", kde je nutno vzít do úvahy prostředí, medium a příjemce. Hezké shrnutí problematiky Image understanding, proč je to složité a proč to jde se současným přístupem dělat jen pro omezené domény.

Lidské vnímání je hodně založeno na context - naší znalosti prostředí a zkušenosti. V počítačovém zpracování může context pomoci ke zúžení prohledávaného prostoru, což je zásadní, protože jinak je ten prostor příliš velký a různorodý. To je problém možná ani ne výkonnostní, ale zejména je tam příliš mnoho šumu.

Tipy na konkrétní využití context: EXIF metadata - z doby expozice se třeba dá odhadovat, zda je fotka denní/noční, venku/vevnitř apod., z ohniskové délky se dá odhadovat velikost.


Eickhoff, Li, de Vries: Exploiting User Comments for Audio-Visual Content Indexing and Retrieval. ECIR 2013 nahoru

plný text článku, bibtex

Didn't read in detail, but the main idea is pretty simple and interesting at the same time: use a new modality for video search - tags extracted from YouTube comments. Some time series analysis and filtering by Wikipedia are used.


Noel, Peterson: Context-Driven Image Annotation Using ImageNet. 26th International Florida Artificial Intelligence Research Society Conference, 2013 nahoru

plný text článku, bibtex

Annotate images using visual content and context = keywords from title/surrounding page/whatever. Use the keywords to determine synsets from WordNet, then use appropriate ImageNet data to compare with the image to be annotated, select the most probable synsets. Face classifier used to verify people-related concepts.


Lew, Sebe, Djeraba, Jain: Content-Based Multimedia Information Retrieval: State of the Art and Challenges. ACM 06. nahoru

plný text článku, bibtex

Jednou z hlavních výzev je Semantic gap - vyhledávání pomocí low-level deskriptorů je vhodné jen pro některé aplikace a znalé uživatele, pro běžného uživatele je potřeba "přeložit" deskriptory do srozumitelných pojmů. Opět zmiňuje problém objektivních benchmarků pro srovnávání. Odkazy na různé studie, co uživatelé potřebují.


Bozzon, Fraternali: Multimedia and Multimodal Information Retrieval. Search Computing, Chapter 8, Springer 2010. nahoru

plný text článku, bibtex

Survey k multimodal information retrieval, obsahuje hezké formulace základních problémů MIR, jednodlivé části procesu od data acquisition po presentation. Je tam také kapitolka ke query languages.


Rui, Huang, Chang: Image Retrieval: Current Techniques, Promising Directions, and Open Issues. Journal of Visual Communication and Image Representation, Volume 10, Issue 1, 1999. nahoru

plný text článku, bibtex

Úvod do Content-Based Image Retrieval - historie, hlavní problémy. Hlavní problémy jsou detailně rozebrány:

Dále navrhují směry budoucího výzkumu: human in the loop, relevance feedback, web-oriented systems, high-dimensional indexing, performance evaluation criterion a testbed.


Veltkamp, Tanase: Content-Based Image Retrieval Systems: A Survey. 2000. nahoru

plný text článku bibtex

Popis několika desítek CBIR systémů. Jak jsou objekty popsány, jak se zadává a vyhodnocuje dotaz, jak jsou prezentovány výsledky. U některých zmíněn a stručně popsán relevance feedback.


Smeulders, Worring, Santini, Gupta, Jain: Content-Based Image Retrieval at the End of the Early Years. 2000. nahoru

plný text článku, bibtex


Ashley, Flickner, Hafner, Lee, Niblack, Petkovic: The Query By Image Content (QBIC) System. SIGMOD 1995. nahoru

plný text článku, bibtex


Wang, Li, Wiederhold: SIMPLIcity: Semantics-Sensitive Integrated Matching for Picture LIbraries. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 23, no. 9, pp. 947-963, 2001. nahoru

plný text článku, bibtex

Mají databázi oztříděnou do několika kategorií - textured/nontextured, graph/photograph. Několik vlastních deskriptorů - region-based, ale pak se to spojí do jednoho globálního. Zkoušeno na 200K obrázcích.


Wei, Li, Sethi: Web-WISE: compressed image retrieval over the web . Multimedia Information Analysis and Retrieval, 1998. nahoru

plný text článku, bibtex

Systém má tři části: stahování obrázků z webu, extrakce deskriptorů a zpracování dotazu. Color a texture global descriptors (vlastní).


Quack, Monich, Thiele, Manjunath: Cortina: A System for Large-scale, Content-based Web Image Retrieval. ACM Multimedia 2004. nahoru

plný text článku, bibtex

3 million images. Visual features and collateral text. Search process consists of an initial query-by-keyword or query-by-image and followed by relevance feedback on the visual appearance of the results. Semantic relationships in the data are explored and exploited by data mining, and multiple feature spaces are included in the search process. Uses four global MPEG7 feature descriptors for color and texture.


Batko, Falchi, Lucchese, Novak, Perego, Rabitti, Sedmidubsky, Zezula: Building a web-scale image similarity search system. Multimedia Tools and Applications 2010. nahoru

plný text článku, bibtex

Velký tučný článek o MUFINu. Na začátku dobré počítání exploze dat. Článek má dvě hlavní témata - budování CoPhIR kolekce a vytvoření scalable search system. Porovnání centralized a distributed implementace, použití různých indexů.


Zagoris, Arampatzis, Chatzichristofis: www.MMRetrieval.net: A Multimodal Search Engine. SISAP 2010. nahoru

plný text článku, bibtex

Dvoustránkový paper o systému, používá distribuované indexy a paralelní vyhledávání (detaily neznámé), modality kombinuje pomocí late fusion, uživatel si volí způsob kombinace a váhy.


Kludas, Bruno, Marchand-Maillet: Information Fusion in Multimedia Information Retrieval. 2008 nahoru

plný text článku, bibtex

Hezký přehled přístupů k information fusion, kategorizace, odkazy. V praktické části porovnání několika přístupů - používají SVM klasifikátory, malé testovací datasety. Kategorizace podle počtu modalit a zdrojů. Multi-modal fusion může být sériová, paralelní a hierarchická. Jiné dělené - complementary, cooperative a competitive fusion (podle toho, jestli zdroje informace doplňují, nebo upřesňují výběr). Fusion může probíhat na různých úrovních - data/feature, classifier/score, decision level. Performance improvement boundaries.


Zhou, Depeursinge, Muller: Information Fusion for Combining Visual and Textual Image Retrieval. Pattern Recognition 2010 nahoru

plný text článku, bibtex

Zkouší různé metody kombinování výsledků s late fusion strategií, porovnávají vliv na fusion efekty - chorus, dark horse. maximum combinations, sum combinations, product of maximum and a non-zero number. Various normalization strategies tried.


Moulin, Largeron, Gery: Impact of Visual Information on Text and Content Based Image Retrieval. 2010 nahoru

plný text článku, bibtex

Late fusion of visual and text, weighted sum, zkoumají vliv vah. Součást ImageCLEF multimedia. SIFT, bag of words. Z query objektu i db objektů extrahují text a visual deskriptory, obojí počítají podle tf-idf.


Clinchant, Ah-Pine, Csurka: Semantic Combination of Textual and Visual Information in Multimedia Retrieval. ICMR 2011 nahoru

plný text článku, bibtex

"Image and textual queries are expressed at different semantic levels" - one should not combine them independently as most information fusion techniques do. Ví se, že samotný text search funguje líp než samotný visual, taky se ví, že kombinace pomáhá. Takže, jak je zkombinovat co nejlíp - manage the complementarities between image and text search? Hezky vysvětlují rozdíl mezi early a late fusion. Dále uvádějí transmedia fusion: first use one of the modalities to gather relevant documents and the swith to the other modality. In many experiments reported in the literature, it has been shown that either late fusion or transmedia fusion approaches have been performing better than early fusion techniques. Na druhou stranu, image reranking podle nějakého článku z ImageCLEF horší než čistě text search. Nebude to tím, že se v ranking ignoruje text distance? Proto oni navrhují combine image reranking with late fusion, tedy nejprve text searchem vybrat kandidáty, pak rankovat podle text+visual. Pro předvýběr používají K=1000.


Park, Nang: Content Based Web Image Retrieval System Using Both MPEG-7 Visual Descriptors and Textual Information. MMM 2007 nahoru

plný text článku, bibtex

Web search system komplet - stahování obrázků, indexace, hledání. Hledá podle text and visual, early fusion. Text deskriptory získány ze stránky, potom přefiltrovány pomocí naučených asociací mezi visual concepts a keywords (propojení pomocí WordNetu). Text&visual index - hierarchical bitmap index.


He, Xiong, Yang, Park: Using Multi-Modal Semantic Association Rules to fuse keywords and visual features automatically for Web image retrieval. Information Fusion 2011 nahoru

plný text článku, bibtex

Vyvíjejí VAST web image retrieval system. Hledají asociace mezi visual features a text. Information fusion dělí na automatic a non-automatic, v automatic tyto kategorie: pseudo-relevance feedback, online clustering, long-term RF learning. Odkazují nějaké analýzy chování uživatele - lazy user. Jejich technologie - automatically fuse image and text using Multi-Modal Semantic Association Rule - dává dohromady single keyword a několik visual features. Dost detailní popis tvorby asociací. Pomocí získaných asociací se přerankují výsledky prvotního text-based vyhledávání.


Depeursinge, Müller: Fusion Techniques for Combining Textual and Visual Information Retrieval. Chapter 6 of ImageCLEF Experimental Evaluation in Visual Information Retrieval, Springer 2010 nahoru

plný text článku, bibtex

Kategorizace přístupů k data fusion z článků na ImageCLEF za posledních 7 let. Identifikují tři základní přístupy - inter-media query expansion, early fusion, late fusion (by far the most widely used). V early fusion uvažují jednoduše concatenation, jako problém uvádějí curse of dimensionality. V late fusion se rozlišuje rank-based fusion a score-based fusion, druhá varianta častější, vyžaduje normalizaci. Jedna možná implementace late fusion je intersection - uvedeno několik variant, jak zadefinovat. Jiná varianta - reordering; odkazy na publikace o text search + visual reordering a naopak. Detailně se popisuje několik metod kombinování - SUM a spol. Dále popisují text a visual query expansion.


Arampatzis, Zagoris, Chatzichristofis: Fusion vs. Two-Stage for Multimodal Retrieval. ECIR 2011 nahoru

plný text článku, bibtex

Porovnávají late fusion text a visual search results s visual reordering z hlediska kvality, vyjde jim to celkem stejně. Čas neměřili, ale v diskuzi uvádějí, že rankování je rychlejší, tudíž lepší. Porovnávali to na zhruba 200 000 objektech z Wikipedie.


Kokar, Tomasik, Weyman: Formalizing classes of information fusion systems. Information Fusion 2004 nahoru

plný text článku, bibtex

Snaha o formální uchopení information fusion. Věnují se early a late fusion, ukazují, že decision fusion je podtřídou data fusion. Formalismus zajímavý, používají pěkná schémata, asi by stálo za to někdy na to víc kouknout.


Fagin: Combining Fuzzy Information: an Overview. SIGMOD 2002 nahoru

plný text článku, bibtex

Naive algorithm, Fagin algorithm a Threshold algorithm pro vyhodnocování kombinovaných dotazů nad systémem, který umí vracet uspořádané seznamy podle jednotlivých deskriptorů (dva druhy přístupu k datům - sorted a random access, random dražší). Dokáže se, že Threshol algorithm je optimální přesný algoritmus pro tento problém. Dále se diskutuje aproximativní algoritmus, který skončí předčasně, když je dosaženo dané míry přesnosti.


Fagin: Combining Fuzzy Information from Multiple Systems. 1999nahoru

(plný text článku)

Jak kombinovat víc deskriptorů. Definují se potřebné vlastnosti agregační funkce, navržen Fagin algorithm.


Tung, Zhang, Koudas, Ooi: Similarity Search: A Matching Based Approach. VLDB 06.nahoru

(plný text článku)

Kombinované dotazy: zatímco obvykle se podobnost objektů určuje na základě kombinace fixní sady deskriptorů, článek navrhuje používat proměnlivou podmnožinu deskriptorů, a to ty, které jsou nejpodobnější (důvod - hlavně u vyšších dimenzí velká šance, že některý deskriptor "ustřelí", i když je objekt jinak velmi dobrý).

Nápady: mohlo by se použít pro přerankování výsledků Combined Query, ale problémy: ignoruje se agregační funkce - pro sumu to asi jde vyřešit normováním jednotlivých sčítanců?


Manning, Raghavan, Schutze: Introduction to Information Retrieval. Cambridge University Press. 2008. nahoru

HTML version, bibtex

Obsahuje dobrou kapitolu o evaluačních metodách - co je vhodné pro rankované výsledky, neúplnou ground truth.


Järvelin, Kekäläinen: Cumulated gain-based evaluation of IR techniques. ACM Trans. Inf. Syst., 2002 nahoru

plný text článku, bibtex

Popisuje metrik Cumulated Gain, Discounted Cumulated Gain, Normalized DCG. Vhodné pro rankované výsledky, poradí si i s neúplnou GT.


Nowak, Lukashevich, Dunker, Rueger: Performance Measures for Multilabel Evaluation. MIR 2010 nahoru

plný text článku

Popis a porovnání různých performance measures - Precision, Recall, Mean Average Precision a další. Concept-based comparison, example-based, hierarchical, ontology-based. Srovnávají to na datech z ImageCLEF, doporučení co používat (používá se teď pro ImageCLEF) - MAP, F-measure.


Fagin, Kumar, Sivakumar: Comparing Top k Lists. 2003nahoru

(plný text článku)

Rozebírá standardní možnosti porovnávání uspořádaných seznamů, navrhuje nové pro potřeby porovnávání top-k výsledků (tady se musí uvažovat, že neznáme uspořádání celé domény). Hodně teoreticky rozebrané, řazení měřicích funkcí do tříd, zkoumání metrických vlastností.


Bustos, Skopal: Dynamic Similarity Search in MultiMetric Spaces. MIR 2006.nahoru

(plný text článku)

Článek popisuje strukturu M3-tree, která má umožňovat dotazy nad více metrikami s dynamickým určováním koeficientů do váženého součtu subdistancí. Vychází se z toho, že koeficienty jsou z intervalu [0,1] a tudíž existuje horní mez součtu. Strom ukládá parciální vzdálenosti a dynamicky odhaduje horní mez pro covering radius uzlu.
Dynamické koeficienty se určují na základě podobnosti objektu k malé množině předem klasifikovaných objektů.
Článek je zaměřen na rychlost výpočtu, nikoli kvalitu výsledků.


Bustos, Keim, Saupe, Schreck, Vranic: Using Entropy Impurity for Improved 3D Object Similarity Search. ICME 2004nahoru

(plný text článku)

Snaží se zefektivnit vyhledávání v 3D objektech. Využívá se několik deskriptorů, pro každý query objekt se zjistí, které jsou pro něj nejdůležitější, a to pomocí entropy impurity measure. Při pokusech se používá trénovací množina, v níž jsou objekty předem klasifikovány do kategorií. Kategorie jsou dány předem, pro každou z nich známe několik reprezentantů (trénovací objekty). Pro daný query objekt a deskriptor seřadíme objekty z trénovací množiny podle vzdálenosti dané tímto deskriptorem. Čím více objektů, které jsou na prvních místech, patří do stejné kategorie, tím vhodnější je tento deskriptor pro popis daného query objektu. Zajímavý pro distinct kNN na tom může být princip Entropy Impurity measure – pokud všechny blízké objekty ze stejné kategorie, EI=0, naopak pokud blízké objekty rovnoměrně ze všech kategorií, EI=1.


Bustos, Keim, Saupe, Schreck, Vranic: Automatic Selection and Combination of Descriptors for Effective 3D Similarity Search. ISMSE 04nahoru

(plný text článku)

Další článek na stejné téma jako předchozí. Pomocí trénovací sady objektů, které jsou rozčleněny do kategorií, se zjistí, které deskriptory jsou pro daný objekt podstatné. Pak se hledá podle nejdůležitějšího deskriptoru nebo lépe podle lineární kombinace, kde váhy jsou určeny na základě důležitosti deskriptoru pro daný objekt.


Amato, Falchi, Gennaro, Rabitti, Savino, Stanchev:: Improving Image Similarity Search Effectiveness in a Multimedia Content Management System. MIS 2004nahoru

(plný text článku)

Autoři pro danou kolekci obrázků a množinu šesti MPEG-7 deskriptorů zkoumají, jaké váhy přiřadit deskriptorům, aby se získal co nejlepší výsledek. Váhy mají být univerzální pro celou kolekci. Zkoumají to tak, že dělají experimenty s uživateli, kteří označují nejlepší výsledky (číselně, od 0 do 1), pak porovnávají, pro které deskriptory to počítač seřadil podobně a pro které ne. Podle míry podobnosti se pak odvodí koeficienty agregační funkce.


Falchi, Lucchese, Perego, Rabitti: CoPhIR: COntent-based Photo Image Retrieval. 2008.nahoru

(plný text článku)

Popisuje, proč a jak byla vytvářena kolekce CoPhIR (výběr zdroje, výběr sbíraných metadat, způsob crawlování a indexování - velmi náročné, používají se gridy).


Skala: Measuring the Diffculty of Distance-Based Indexing. SPIRE 2005.nahoru

(plný text článku)

Počítá se intrinsic dimensionality daného metrického prostoru a zvolené distanční funkce. Tato veličina se určuje ze střední hodnoty a rozptylu rozložení vzdáleností pro množinu náhodných dvojic objektů a měla by umožnit porovnávat, jak náročné je indexování daného prostoru ve srovnání s n-dimenzionálním vektorovým prostorem. Podle hodnoty intrinsic dimensionality se dá rozhodnout, která distanční funkce je vhodnější pro indexování daného prostoru.
K intrinsic dimensionality viz také Chavez, Navarro: Measuring the dimensionality of general metric spaces.
V článku se na základě této veličiny provádí výpočty pro několik zvolených množin objektů a několik variant distančních funkcí. Vyhodnocuje se dimenzionalita a nejvhodnější funkce. Hodně teoretické, důkazy, pravděpodobnosti.


Chavez, Navarro: Measuring the dimensionality of general metric spaces. Technical Report TR/DCC-00-1, 2000.nahoru

(plný text článku)

Složitost vyhledávání závisí na dimenzionalitě prohledávaného prostoru. Autoři zdůvodňují, že z pohledu vyhledávání je dimensionalita u vektorového prostoru často jiná než skutečný počet dimenzí. Vyhledávací dimensionalita by měla také být měřitelná u obecných metrických prostorů, které běžné dimenze nemají. Autoři proto definují tzv. intrinsic dimensionality, která se počítá ze statistických vlastností histogramu vzdáleností. Autoři dále ukazují, že známe-li intrinsic dimensionality, můžeme určit meze pro složitost vyhledávání.
Velkou výhodou navržené míry pro intrinsic dimension (existují i jiné) je její jednoduchost a levné spočítání pro libovolný metrický prostor.


Skala: Counting Distance Permutations. SISAP 2008.nahoru

(plný text článku), (rozšířený text článku)

Pro indexování metrických dat existují různé přístupy, které se liší v tom, kolik a jakých údajů (vzdáleností) je uloženo v indexu. Zde se uvažuje index, který pro každý datový objekt má uložený seznam k referenčních bodů uspořádaných podle vzdálenosti k danému objektu. Diskutuje se, že takovýchto seznamů, tj. permutací referenčních bodů, může být podstatně méně než k!, což má vliv na velikost indexu a rychlost prohledávání.


Indyk, Motwani: Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality. Proceedings of the Symposium on Theory of Computing, 1998.nahoru

(plný text článku)

Základní článek o LSH, které je prezentováno jako jedna z metod pro řešení problému PLEB, o kterém se ukazuje, že je "ekvivalentní" (oboustranně redukovatelný na/z) problému NNSearch. Rozebrány jsou především principy a složitost.


Andoni, Indyk: Near-Optimal Hashing Algorithms for Approximate Nearest Neighbor in High Dimensions. COMMUNICATIONS OF THE ACM January 2008/Vol. 51, No. 1.nahoru

(plný text článku, prezentace)

Přehledné zopakování principů a definic LSH (k-NN, curse of dimensionality, approximate k-NN, probabilistic approach). Algoritmus - kombinace několika LSH rodin, buď rovnou při hashování, nebo použití více hashovacích tabulek - experimentální porovnání různých nastavení. Několik základních funkcí - pro Hamming distance, l1, l2, vektory, množiny. Nová funkce pro Euklidovskou vzdálenost - mapování do vícedimenzionálního prostoru.


Charikar: Similarity Estimation Techniques from Rounding Algorithms. STOC'02.nahoru

(plný text článku)

Definuje si LSH jako rozložení, dokazuje některé vlastnosti, které má podobnostní funkce a příslušná LSH rodina. Navrhuje LSH rodiny pro vektory (kosinová míra) a Earth Mover Distance.


Gionis, Indyk, Motwani: Similarity Search In High Dimensions via Hashing. VLDB'99.nahoru

(plný text článku)

Lv, Josephson, Wang, Charikar, Li: Multi-Probe LSH: Efficient Indexing for High-Dimensional Similarity Search. VLDB'07.nahoru

(plný text článku)

Slabinou klasických LSH přístupů je, že pro dosažení rozumné přesnosti potřebují pro velké objemy dat hodně hashovacích tabulek. Multi-Probe LSH navrhuje lépe využít tabulky (přistupovat do více než jednoho bucketu) a tím snížit potřebný počet tabulek. Pro konkrétní metriku (d-dimenzionální vektory, projekce do přímky) se navrhuje postup procházení bucketů.


Novak, Batko, Zezula: Web-Scale System for Image Similarity Search: When The Dreams Are Coming True. 2008.nahoru

(plný text článku)

Škálovatelný systém pro webové vyhledávání založený na obecné metrice, využití aproximace pro získání použitelných časů. Představení M-Chordu, zkoumání parametrů aproximace.


Dong, Wang, Josephson, Charikar, Li: Modeling LSH for Performance Tuning. CIKM'08.nahoru

(plný text článku)

Statistický model pro Multi-probe LSH, který má bý adaptovatelný pro libovolnou datovou množinu a pomoci při nastavování parametrů LSH. Uvažuje se i ladění LSH pro konkrétní dotaz. Počítá se ale pouze s euklidovskou vzdáleností, pro kterou autoři vycházejí z (empirického) předpokladu, že rozložení objektů je možno popsat pomocí gama-rozložení. Model také předpokládá použití základní LSH funkce - vynásobení náhodným vektorem, přičtení náhodného skaláru a rozdělení na úsečky.


Panigrahy: Entropy based Nearest Neighbor Search in High Dimensions. 2005.nahoru

(plný text článku)

Comments by Charikar et al. (in Multi-Probe LSH: Efficient Indexing for High-Dimensional Similarity Search): Recent theoretical work by Panigrahy [22] proposed an entropy-based LSH scheme, which constructs its indices in a similar manner as the basic scheme, but uses a different query procedure. This scheme works as follows. Assuming we know the distance Rp from the nearest neighbor p to the query q. In principle, for every hash bucket, we can compute the probability that p lies in that hash bucket (call this the success probability of the hash bucket). Note that this distribution depends only on the distance Rp. Given this information, it would make sense to query the hash buckets which have the highest success probabilities. However, performing this calculation is cumbersome. Instead, Panigrahy proposes a clever way to sample buckets from the distribution given by these probabilities. Each time, a random point p0 at distance Rp from q is generated and the bucket that p0 is hashed to is checked. This ensures that buckets are sampled with exactly the right probabilities. Performing this sampling multiple times will ensure that all the buckets with high success probabilities are probed. However, this approach has some drawbacks: the sampling process is ineffcient because perturbing points and computing their hash values are slow, and it will inevitably generate duplicate buckets. In particular, buckets with high success probability will be generated multiple times and much of the computation is wasteful. Although it is possible to remember all buckets that have been checked previously, the overhead is high when there are many concurrent queries. Further, buckets with small success probabilities will also be generated and this is undesirable. Another drawback is that the sampling process requires knowledge of the nearest neighbor distance Rp, which is diffcult to choose in a data-dependent way. If Rp is too small, perturbed queries may not produce the desired number of objects in the candidate set. If Rp is too large, it would require many perturbed queries to achieve good search quality.


Moshfeghi, Pinto, Pollick, Jose: Understanding Relevance: An fMRI Study. ECIR 2013. nahoru

plný text článku, bibtex

Brief but wide survey of approaches to relevance feedback. They are studying the "nature of relevance" - what happens in the brain when looking at relevant and irrelevant results.


Drucker, Shahrary, Gibbon: Support vector machines: relevance feedback and information retrieval. 2001.nahoru

(plný text článku)

Vysvětlení použití relevance feedback (iterativní vylepšování množiny vrácených dokumentů), popis a porovnání základních algoritmů využívajících vektory (existují i jiné přístupy, např. pravděpodobnostní model). Uživatel vždy označí nějaké dobré a špatné dokumenty ve výsledku (ohodnotí výsledky zobrazené na první stránce, příp. několika prvních stránkách, pokud na první stránce jsou samé špatné), podle toho se přepočítávají vyhledávací vektory.
Základní algoritmy:

Dále rozebírají možnosti ohodnocení kvality. Zavrhnuty jsou precission a recall, protože to uživatel nemůže v průběhu vyhledávání poznat a nic moc mu to neřekne. Navrhují proto "coverage ratio", což je poměr mezi počtem zatím získaných relevantních dokumentů a počtem relevantních dokumentů, které by byly získány pči ideálním vyhledávání. Nejlepší hodnota této metriky je 1 pro každou iteraci.


Ishikawa, Subramanya, Faloutsos: MindReader: Querying databases through multiple examples. VLDB 98.nahoru

(plný text článku)

V podstatě ani nemluví o relevance feedback, ale o multi-object dotazech, ovšem z více vzorů se určí jeden ("ten, který uživatel chtěl") + správná distance function a podle toho se pak vyhledává. Často citovaný článek, ovšem uvažuje jen vektory. Ideální q.o. je pak vážený průměr vzorových objektů a distanční funkce se počítá podle toho, ve kterých deskriptorech jsou všechny vzory blízké ideálu (ty jsou důležité, takže mají vyšší váhu) a ve kterých ne. Autoři zdůrazňují, že jejich přístup umí podchytit i korelace mezi deskriptory.


Rui, Huang, Ortega, Mehrotra: Relevance Feedback: A Power Tool in Interactive Content-Based Image Retrieval. IEEE Trans. Circuits and Systems for Video Technology, 8(5):644–655, 1998.nahoru

(plný text článku)

Computer centric system, semantic gap, subjectivity of human perception. První návrh zavedeni relevance feedback do podobnostního vyhledávání. Objekt modelován jako trojice (data, vlastnosti, deskriptory), daná vlastnost může být popsána více deskriptory (histogram, color layout pro barvy), deskriptor může být vektor. Relevance feedback má umožnit přiřadit jednotlivým vlastnostem/deskriptorům/prvkům deskriptoru váhy podle potřeb uživatele (naopak tzv. computer centric přístup pracuje se zafixovanými vahami). Každý z objektů v odpovědi uživatel označí jako velmi dobrý/dobrý/neutrál/špatný/velmi špatný. Na základě toho se vyladí váhy. Na začátku musí být váhy normalizované. Pak podle toho, jak by dopadl top-k dotaz podle dané vlastnosti, jak by se překrýval s výsledkem combined query a které objekty uživatel označil, se přepočítají nové váhy. Uvažuje se také to, zda se pro označené objekty daný deskriptor chová konzistentně - pokud ano, je určující a dostane vyšší váhu. Podle všeho se při každé iteraci začíná znova od nuly - neuvažuje se, co jsme se dověděli v minulé iteraci.
Experimenty: efficiency (rychlost konvergence algoritmu) a effectiveness (jak jsou uživatelé spokojeni). Předpoklad pro experimenty - uživatel označuje objekty konzistentně (to by vysvětlovalo, že ve výpočtu koeficientů nezohledňují předchozí kroky; dá se toto ale předpokládat?). Pro efficiency používají ground truth a zkoumají, jak rychle se k ní v jednotlivých iteracích výsledek přibližuje (zjištění: nejvíc v první). Zkoušejí dvě skupiny objektů - jedny mají ideální nastavení vah blíž počátečním hodnotám, druhé dál. Dále se dívají na závislost konvergence na počtu vracených objektů - přirozeně čím víc, tím líp (víc uživatelem ohodnocených objektů). Effectiveness - user satisfaction, ale žádné číselné vyhodnocení, pouze konstatují, že uživatelé z různých oblastí byli velmi spokojeni.
Navrhovaná future work: zapojení textu, vylepšení výpočtu nových vah pomocí pokročilejších technik.


Zhou, Huang: Relevance feedback in image retrieval: A comprehensive review. Multimedia Systems, 2003.nahoru

(plný text článku)

Přehled různých feedback mechanismů používaných v image retrieval. Obsahuje obecná pozorování o tom, co je potřeba řešit, a popis, jaké přístupy existují.


Shen, Jiang, Tan, Huang, Zhou: Speed up interactive image retrieval. 2008.nahoru

(plný text článku)

Autoři se snaží co nejvíce urychlit feedback loop. Zatímco ostatní se zajímají hlavně o přesnost výsledků, jim jde i o efektivitu. Zvažují dvojí urychlení - urychlení jednotlivých iterací a snížení celkového počtu potřebných iterací. Postupují tak, že si uchovávají informace o provedených iteracích, na základě toho odhadují průběh dalších iterací a když jsou odhady dostatečně podobné skutečnosti, použijí je pro odhad poslední iterace. Urychlení jednotlivých iterací vznikne tak, že si spočítají překryv nové iterace se dřívějšími a nepřistupují zbytečně již dříve přistoupené objekty.


Huiskes, Lew: Performance Evaluation of Relevance Feedback Methods. CIVR’08.nahoru

(plný text článku)

Diskuze o tom, jak objektivně porovnávat RF metody. Jaké chyby se často dělají, co je naopak vhodné.


Wu, Faloutsos, Sycara, Payne: FALCON: Feedback Adaptive Loop for Content-Based Retrieval. VLDB 2000. nahoru

(plný text článku)

Relevance feedback pro metrické prostory. Zmíněno několik metod, jak se implementuje RF, ale vždy jen pro vektorové prostory. Oni navrhují postup pro obecné metrické prostory, kde může být zadáno několik vzorů pro dotaz. Hledá se vhodná funkce, která bude pro každý objekt vracet vzdálenost od množiny vzorů - "Aggregate Dissimilarity Function":


Využívá se parametr α experimentálně vyladěný pro danou datovou množinu, funkce pak sečte vážené α-mocniny jednotlivých vzdáleností, určí průměr a ten odmocní.
Implementace je řešena pomocí více range dotazů pro jednotlivé vybrané objekty, používá se základní vzdálenost. Je ukázáno, že nedojde k zanedbání žádného objektu. Problém je vybrat správně range. Zmiňují možnost nechat uživatele zadat příklady, jaké nejhorší objekty by ještě snesl, a z toho odvodit range.
Autoři v experimentech ukazují, že jejich postup vrací výsledky s vysokým precision i recall. Zdůrazňují, že to funguje i pro výsledky, kde chceme disjunktní nebo konkávní množiny objektů, což jiné přístupy neumí (disjunktní: několik různých množin objektů, které mají být ve výsledku; např. fotografie prezidentů USA).


Razente, Barioni, Traina, Traina: Aggregate Similarity Queries in Relevance Feedback Methods for Content-based Image Retrieval. SAC’08. nahoru

(plný text článku)

V rámci Related work jsou dobře popsány běžné přístupy k relevance feedback, zejména lidsky vysvětlen Rocchio algoritmus. Rozlišují single point movement přístup a multiple point movement.
Autoři navrhují nový typ dotazu, Aggregate Similarity Query, který může mít víc než jeden query object. Druhým parametrem je buď range, nebo k. Oba dotazy jsou formálně definovány pomocí predikátů a podobnostní selekce (používají i zápis v relační algebře). Similarity aggregation function převzata z Wu, Faloutsos, Sycara, Payne: FALCON: Feedback Adaptive Loop for Content-Based Retrieval.
V pokusech uvažují positive i negative feedback. Vůbec neřeší implementaci.


Hua, Yu, Liu: Query Decomposition: A Multiple Neighborhood Approach to Relevance Feedback Processing in Content-based Image Retrieva. ICDE’06 nahoru

(plný text článku)

Celkem přehledně popsány Query Point Movement a Multipoint Query strategie pro RF. Faginův algoritmus pro kombinované dotazy je zmíněn jako jedna z cest k vylepšení k-nn query.
Jejich vylepšení spočívá v tom, že vytvoří R*-strom, v němž jsou objekty sdruženy do clusterů podle podobnosti. Tento strom se tvoří zezdola. V tom pak dělají efektivní k-nn podle více vzorů. Takové shlukování ale myslím může fungovat jen pro vektorové prostory. Základní dotaz se vytváří tak, že se uživateli náhodně zobrazí objekty, on vybere relevantní, podle toho se najdou příslušné clustery a v nich se hledá.


Vu, Cheng, Hua: Image Retrieval in Multipoint Queries. 2008. nahoru

(plný text článku)

Celkem dobře popisuje jiné přístupy k multipoint query, oni ale pracují výhradně s vektorovým prostorem, navrhují systém rovnic pro popis vlastností, které musí být splněny pro objekty ve výsledku (podle query objektů a hodnot jednotlivých složek jejich vektorů).


Yiu, Mamoulis: Multi-dimensional top-k dominating queries. VLDB Journal 2009.nahoru

(plný text článku)

Kombinací dvou existujících přístupů, kNN a skyline query, vznikne top-k dominating query. Je to kNN, ale pořadí není dáno vzdáleností, kterou by uživatel musel nějak určit a která je závislá na tom, jaké hotnoty jsou v datasetu. Každý objekt je ohodnocen podle toho, kolika jiným "dominuje", tj. v alespoň jedné vlastnosti je lepší a v ostatních stejně dobrý nebo lepší.


Olivares, Ciaramita, Zwol. Boosting Image Retrieval through Aggregating Search Results based on Visual Annotations. ACM Multimedia 2008. nahoru

(plný text článku)

V úvodu celkem obsáhle řeší textové popisy Flickr a odkazují na další výzkum. Pro podobnostní vyhledávání využívají "bag-of-words" přístup, kdy vektory jednotlivých deskriptorů převedou na slova a nad těmi pak hledají jakoby textově. Hlavní myšlenka - uživatelé Flickru mohou přidávat tagy ke konkrétním částem obrázku, toto autoři nazývají visual annotations - ke slovu/tagu můžu mít několik (pravděpodobně dost relevantních) ukázek. Ty používají k content-based hledání. Spíš je to content-based search než kombinace text and visual, protože text používají jen ke získání visual deskriptorů.


Ji, Yao, Liu, Wang, Xu. A Novel Retrieval Refinement and Interaction Pattern by Exploring Result Correlations for Image Retrieval. 2008. nahoru

(plný text článku)

Postprocessing výsledků – shlukování podle kategorií. Používá předem kategorizované obrázky, použitelné tedy pro databáze, kde je fixní kategorizace možná – např. medicínské obrázky. Podle nich se určí kategorie obrázků z výsledku kNN (tzv. Pairwise-Coupling), uživateli vrátí top-k obrázků a top-m kategorií.
Pairwise-Coupling: pro každou kategorii n klasifikátorů, ty se vyjadřují (0,1), jestli objekt patří do kategorie (asi jestli je vzdálenost dost nízká – není přesně specifikováno). Objekt je zařazen do té kategorie, kde získal nejvíc hlasů.


Chen, Wang, Krovetz. CLUE: Cluster-Based Retrieval of Images by Unsupervised Learning. IEEE Transactions on Image Processing, vol. 14, no. 8, August 2005. nahoru

(plný text článku)

Postprocessing výsledků, shlukování podobných do clusterů. Funguje to tak, že vezme množinu kandidátů (buď objekty do určitého poloměru od query, nebo top-k objektů od query a ke každému z nich ještě top-r; u metrického prostoru to není potřeba, oni řeší i ne-metriky). Tuto množinu si reprezentuje jako graf – objekty jsou uzly, mezi uzly hrany s ohodnocením podle vzdálenosti (ne přímo vzdálenost, ale funkce vzdálenosti, používají ).
Potom použijí grafový algoritmus na rozdělení do clusterů (normalized Cut method, variace na minimální řez). Algoritmus dělí graf rekurzivně na dvě části, dokud není dosažen buď maximální povolený počet clusterů, nebo je překročena nějaká hranice pro velikost řezu.


Jia, Wang, Zhang, Hua. Finding Image Exemplars Using Fast Sparse Affinity Propagation. Proceeding of the 16th ACM international conference on Multimedia, 2008. nahoru

(plný text článku)

Postprocessing výsledků, snaha najít reprezentativní obrázky a ostatní shlukovat do clusterů, které jsou charakterizovány reprezentativními objekty. Používají Sparse Affinity Propagation – opět se pracuje s grafem, ohodnocené hrany, maximalizace podobnosti v clusteru. Zajímavé je, že pro urychlení nepracují se všemi hranami, ale některé vynechají (proto Sparse). Hrana mezi x a y se do grafu zanese jen tehdy, pokud y patří mezi K nejbližších sousedů x. (K se volí mnohem menší, než je počet uzlů.)


Li, Dai, Xu, Er. Multilabel Neighborhood Propagation for Region-Based Image Retrieval. IEEE Transactions on Image Processing, 2007. nahoru

(plný text článku)

Zabývají se modelováním množiny obrázků pomocí grafu. Ohodnocení hran na základě lokálních podobností, využívají Earth mover distance a lineární programování. Každý obrázek může mít několik labels, řeší se šíření informací grafem.


Arampatzis, Zagoris, Chatzichristofos. Dynamic Two-Stage Image Retrieval from Large Multimodal Databases. ECIR 2011 nahoru

(plný text článku)

Overview různých přístupů k rankování, valná většina používá fixní velikost initial result. Oni navrhují jiný přístup - dynamicky měnit počet objektů podle nějakých kritérií, zejména pravděpodobnosti, že objekt bude relevantní. Není moc jasné, jak to určují - odkazy na jiné články. Experimenty na text search a visual rank, vyšlo jim, že dynamické prahování initial result pomáhá, uvádějí optimální nastavení parametrů.


Ambai, Yoshida. Multiclass VisualRank: Image Ranking Method in Clustered Subsets Based on Visual Features. SIGIR 09 nahoru

(plný text článku)

Rozšíření VisualRanku, který často vrací příliš podobné výsledky. Multiclass VR rozdělí výsledky dotazu do několika kategorií podle nějakých vzorů ve vizuálních deskriptorech, v rámci kategorií se pak počítá ranking. Navrženo jako post-filtering existujích obrázkových vyhledávání. Opět se používají SIFTy a PageRank, přidané je dělení do clusterů. Z VR se bere podobnostní funkce, ale upraví se tak, aby se příliš vysoké hodnoty snížily (jinak by kazily clusterování). Clustery se určují z grafu podobností pomocí normalizovaných řezů ("normalized cuts"). Při počítání VR se pak uvažují jen hrany uvnitř clusterů.


Jing, Baluja. VisualRank: Applying PageRank to Large-Scale Image Search. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, November 2008 nahoru

(plný text článku)

Detailní zdůvodnění, proč Google postupuje cestou nejdřív textové vyhledávání, na výsledcích similarity ranking. Jednak je textové vyhledávání často používané a dobře fungující, někdy také není jiný způsob, jak zadat dotaz, a konečně získá se tak různorodá množina možných výsledků, které mohou být vstupem čistě CBIR algoritmu. Dobré porovnání s jinými přístupy. Vysvětlení principu Eigenvector ("charakteristický vektor", pomocí kterého se počítá VisualRank. Podobnost určují pomocí SIFTů, obecně jsou pro lokální deskriptory.
Dále autoři ukazují, jak použití VisualRank vylepší výsledek v případě a) "queries with homogeneous visual concepts" a b) "queries with heterogeneous visual concepts". Také stručně zmiňují problematiku možné manipulace výsledků (duplikování obrázků na stránkách).
Efektivní implementace pro web-scale search: textové vyhledávání, nad výsledkem (prvních 1000 obrázků) VisualRank. Takový přístup je query dependent - ten samý obrázek může mít v jiné výsledkové množině jiné hodnocení. Zmíněny přístupy k rychlému porovnávání lokálních deskriptorů (+ odkazy na literaturu), používají LSH (aproximace jim stačí) - základní vzorec pro vektory (a.V + b)/W, pro větší přesnost zřetězí výsledky několika hashování a používají víc tabulek. Za stejné se považují deskriptory, které mají stejný hash v alespoň C tabulkách (používají 40 tabulek, C = 3). Pak se provázané deskriptory seřadí podle obrázků, ke kterým patří, použijí se nějaké další úpravy a získá se výsledná podobnost obrázků.
Počítání podobnosti je výpočetně náročné, takže to nedělají online, ale předpočítávají si výsledky pro časté dotazy! VisualRank se také využívá jen tehdy, kdy je graf podobností dostatečně hustý.
Experimenty: a) 10 výsledků VisualRank + 10 výsledků Google search, odstranit duplikáty, nechat uživatele označit špatné. Bez ranking, aby to uživatel neřešil. Potom se vyhodnocoval počet nerelevantních obrázků mezi top-10, top-5 a top-3, které by vrátilo jedno a druhé vyhledávání. b) "click measurement": předpokládá se, že uživatelé klikají na obrázky, které je zajímají. Tohle jde ale vyhodnocovat jen díky tomu, že Google má statistiky klikání.


Jing, Baluja. PageRank for Product Image Search. WWW 2008, Beijing, China. nahoru

(plný text článku)

Vychází se z Google Image search, který vrátí počáteční množinu výsledků. Na té se pak počítá Image Rank, a to tak, že mezi obrázky se vytváří virtuální „linky“ na základě jejich podobnosti. Podobnost určují pomocí SIFTů. Image Rank se počítá jako Page Rank (pomocí Eigenvector), tj. hodnocení obrázků roste tím, že ne ně odkazují (tedy jsou podobné) jiné obrázky, pokud možno také dobře hodnocené.
V tomto článku se nevažuje shlukování výsledků, ale je to zmíněno jako potřebné pro future work. Nic novějšího o Image Rank jsem nenašla.
Při testování používají zajímavou metodu - označování výsledků, které nejsou relevantní.


Park, Baek, Lee: A Ranking Algorithm Using Dynamic Clustering for Content-Based Image Retrieval, 2002. nahoru

(plný text článku)

Výsledky vyhledávání se shlukují do clusterů, provede se analýza podobnosti clusteru a query objectu, podle toho se přehodnotí uspořádání výsledků. Uvažuje se vektorový model. Článek se dále zabývá vlivem hodnot několika parametrů clusterování na kvalitu výsledku.
Pro vyhodnocení experimentů používají ANMMMR.


Park, Baek, Lee: Majority Based Ranking Approach in Web Image Retrieval, CIVR 2003. nahoru

(plný text článku)

Vylepšování výsledků získaných textovým hledáním v obrázcích. Říká se, že webové vyhledávání v obrázcích je jiné než běžné CBIR, protože na webu jsou s obrázky spojené textové anotace. Výsledek se tedy získá pomocí textového hledání a pak se přerankuje podle vizuální podobnosti. Navrhují 4 metody rankování založené na clusterování prvních N výsledků textového hledání (clusterování samozřejmě na základě vizuální podobnosti):
1) majority-first method: clustery se uspořádají podle velikosti (největší je první), v rámci clusteru se objekty pořádají podle vzdálenosti od centroidu (průměru)
2) centroid-of-all method: ze všech objektů se spočítá centroid, objekty se řadí podle vzdálenosti k němu
3) centroid-of-top-k method: centroid se počítá jen z prvních k prvků, pak se použije jako query object pro rankování
4) centroid-of-largest-cluster method: v tomto případě se narozdíl od 2) a 3) ignoruje původní uspořádání.
Pokusy nad webovými vyhledávači Google a Naver autoři zjišťují, že lépe fungují metody 1) a 4).


Brisaboa, Pedreira, Seco, Solar, Uribe: Clustering-based similarity search in metric spaces with sparse spatial centers. SOFSEM 2008. nahoru

(plný text článku)

Nieves R. Brisaboa, Oscar Pedreira, Diego Seco, Roberto Solar, and Roberto Uribe. Clustering-based similarity search in metric spaces with sparse spatial centers. In In 34th International Conference on Current Trends in Theory and Practice of Com- puter Science, SOFSEM, pages 186–197, Slovakia, January 19-25, 2008.

Článek o výbírání center clusterů pro indexování metrických prostorů. Obsahuje přehledné shrnutí metrických prostorů a přístupů k indexování.


Deselaers, Keysers, Ney: Features for image retrieval: an experimental comparison. Information Retrieval, 2008. nahoru

plný text článku, bibtex

Kampel, Zaharieva: Recognizing Ancient Coins Based on Local Features. ISVC 2008. nahoru

(plný text článku)

Využití lokálních deskriptorů pro identifikaci mincí. Přehled základních lokálních deskriptorů, odkazy na literaturu, srovnání výsledků různých deskriptorů pro mince (vede SIFT, problémem je rychlost).


Wu, Ke, Isard, Sun: Bundling Features for Large Scale Partial-Duplicate Web Image Search. 2009. nahoru

(plný text článku)

Vyhledávání pomocí lokálních deskriptorů, využívají shlukování několika SIFTů do tzv. "bundles", což je víc diskriminativní a zachovává některé geometrické závislosti mezi SIFTy. Popisuje se porovnávání shluků, které používá jednak počet stejných SIFTů, jednak jejich pozice (zhruba, na základě jejich pořadí).


Amato, Mainetto, Savino: A Query Language for Similarity-based Retrievla of Multimedia Data. Advances in Databases and Information Systems 1997. nahoru

plný text článku, bibtex

Uvažují jednak raw data content, jednak concept level – objekty na obrázku, které se nějak rozpoznají (realizovatelný příklad – koncept person, v obrázku je/není přítomen, což určí nějaký klasifikátor). Navrhují celkem formálně obecnou strukturu dotazu, založenou na select-from-where. Mají operátor sim pro podobnost, ale v dotazu se nedá určit podobnostní funkce. Mají konstanty pro vzory (red, circle).


Adali, Bonatti, Sapino, Subrahmanian: A multi-similarity algebra. SIGMOD 98. nahoru

plný text článku, bibtex

Universal multimedia database – various index structures, algorithms. Authors propose universal abstraction that enables to model any (combination of any) search methods. Multi-similarity algebra MSA, relational multi-similarity algebra rMSA. The first defines operations over similarity measures, rMSA encapsulates this into relational algebra (new operators RSO = Relational Similarity Operator, and Best). Very formal definitions. Furthermore, equivalences in MSA and rMSA are studied to allow query reformulation and optimization. Cost model.


Town, Sinclair: Ontological Query Language for Content Based Image Retrieval. ANSS’03. nahoru

(plný text článku)

Jejich cílem je získat snadno použitelný vyhledávací dotaz používající přirozené textové zadání. Vyhledávání v textových popisech + trochu CBIR (barvy, tvary v daných regionech). Formálně popsaná bezkontextová gramatika pro popis toho, jak má vypadat výsledek (slova, obsah obrázku, podmínky). Pro každý obrázek se na základě dotazu počítá pravděpodobnost, že je relevantní.

some sky which is close to trees in upper corner, size at least 20%

[indoors] or [outdoors] & [people]

[some green or vividly coloured vegetation in the centre] which is of similar size as [clouds or blue sky at the top]

Döller, Kosch, Wolf, Gruhne: Towards an MPEG-7 Query Language. SITIS 2006 nahoru

(plný text článku)

Přehledný popis požadavků na QL - požadavky na systém, na jazyk.

Dobrý, snadno srozumitelný popis základních XML dotazovacích jazyků, proč nejsou vhodné. Jejich návrh jazyka a implementace: implementace musí podporovat sessions, které si udržují info o uživateli a výsledcích minulých dotazů pro možnost relevance feedback a vyhledávání v minulých výsledcích. Popis několika částí systému, jak spolu mají komunikovat, něco jako use cases. Jazyk zde nepopisují.


Döller, Tous, Gruhne, Yoon, Sano, Burnett: The MPEG Query Format: Unifying Access to Multimedia Retrieval Systems. IEEE MultiMedia, 2008. nahoru

plný text článku, bibtex

Dobře napsaný shrnující článek o MPEG7 Query Format.


Barioni, Razente, Traina, Traina: Seamlessly integrating similarity queries in SQL. Software - Practice and Experience, 2009 nahoru

plný text článku, bibtex

Discussion of the need for integrating similarity queries into SQL, why user-defined functions are not sufficient (optimization issues). Fundamental concepts: two types of objects - "particulate" (GPS, color descriptor etc; can be compared by similarity using a distance function defined over their constituting attributes) and "monolitic" (binary image; require extracting predefined features that are used in place of each object to define the distance function). The consider unary predicates (Range query, KNN query, multi-object queries) and binary predicates (Range join, k-nearest-neighbors join, k-closest-neighbors join). Their similarity retrieval engine is called SIREN. Contains a command interpreter that identifies similarity-based constructs and forwards them to special processing, other parts of the query evaluated by standard RDMS. Extensions of the SELECT command: NEAR, STOP AFTER [k], RANGE [r]. Their syntax is tailored to the query types they consider. Further on, they describe how a new metric is defined and attached to an attribute. User-defined parameters of searching not supported (weights, approximation), late fusion not supported.

SELECT * FROM Employee
WHERE HomeCoordinate NEAR (
SELECT HomeLat AS Latitude, HomeLongit AS Longitude
FROM Employee WHERE name=‘John Doe’) STOP AFTER 5;

SELECT Name, FrontalMugShot FROM Employee
WHERE HomeCoordinate NEAR ALL (
SELECT HomeCoordinate FROM Employee
WHERE name like ‘% Doe’) STOP AFTER 3;

CREATE METRIC CostBenefit USING LP2 FOR PARTICULATE
  (hp FLOAT 5.0, mpg FLOAT, sec FLOAT 10.0);

CREATE TABLE Cars (
CarName CHAR(35),
Horsepower FLOAT,
Consumption FLOAT,
Acceleration FLOAT,
Origin CHAR(8),
Car PARTICULATE,
METRIC REFERENCES (Horsepower AS hp,
                   Consumption AS mpg,
                   Acceleration AS sec)
       USING (CostBenefit DEFAULT));

Mamou, Mass, Shmueli-Scheuer, Sznajder: A Query Language for Multimedia Content. Sigir’07. nahoru

(plný text článku)

V related work popis existujících pokusů o QL, zajímavé by mohlo být MMDOC-QL a VexQuery. Autoři se snaží o vytvoření QL pro MPEG7 standard podporující Query-by-example. Protože MPEG7 je reprezentováno XML, také jejich jazyk používá XML. Vychází z jazyka XML Fragments, který rozšiřuje. Přidávají možnost ptát se na jednotlivé deskriptory, zadat jejich parametry a váhy. Jazyk podporuje k-nn a range query.
V podstatě jde jen o podchycení toho, na co všechno se může uživatel chtít ptát. Neuvažují multi-point query, uvažují combined. Umožňují kombinaci s textovými popisy, podmínky na místo a čas. Nenavrhují efektivní implementaci.

<title>Twilight</Title> 
<Mpeg7Query weight=”0.5”> 
       <VisualDescriptor type="ScalableColorType" numOfBitplanesDiscarded="0" numOfCoeff="64"> 
             <Coeff>11 92 -3 87 … -3 -6</Coeff> 
       </VisualDescriptor> 
 </Mpeg7Query>
 <Mpeg7Query weight=”2”>
         <GeographicPosition> 
                <Point longitude="-34.7" latitude="19.75"/> 
         </GeographicPosition> 
</Mpeg7Query>  

Gruhne, Tous, Delgado, Doeller, Kosch: MP7QF: An MPEG-7 Query Format. 2007. nahoru

(plný text článku)

Jak to vypadá s QL pro MPEG7. Popis existujících snah. Prezentují committee draft pro QL, tedy v podstatě odsouhlasený základ jazyka. Tři části - vstup (jaký typ hledání, jak má vypadat výstup, jaké podmínky), výstup (hlášení systému, vlastní výsledek), podmínky.

<Mpeg7Query>
    <Input>
        <OutputDescription outputNameSpace="urn:mpeg:mpeg7:schema:2004">
            <Field typeName="CreationType">/Title</Field>
        </OutputDescription>
        <QueryCondition>
            <Condition xsi:type="QueryByFreeText">
                <FreeText>Ry Cooder</FreeText>
            </Condition>
        </QueryCondition>
    </Input>
</Mpeg7Query>

Guliato, de Melo, Rangayyan, Soares: POSTGRESQL-IE: An Image-handling Extension for PostgreSQL. Journal of Digital Imaging, Vol 22, No 2, 2009. nahoru

(plný text článku)

Některé SQL DBMS se snaží podporovat obsahové vyhledávání v obrázcích, mají sadu podporovaných deskriptorů (každý jinou), k nim extraktory. POSTGRESQL-IE nabízí možnost definovat si vlastní deskriptory a extraktory, vlastní kombinace apod. Článek pojat velmi prakticky, ukazuje jejich implementaci (konkrétní používané tabulky, jak se do nich dají ukládat potřebné informace). V podstatě ukazují velmi obecný datový model, do kterého se to dá všechno uložit. Pracují jen s dekriptory, funcemi na jejich porovnávání a příkazy RANGE a KNN.



Pein, Lu, Renz: An Extensible Query Language for Content Based Image Retrieval based on Lucene. 2008. nahoru

(plný text článku)

Hybridní dotazovací jazyk pro text a obrázky. XML považují za zbytečně složité, jsou pro textové dotazy založené na textovém dotazovacím jazyku Lucene. Nic moc zajímavého, snad dvouúrovňová struktura, kde ve druhé úrovni jsou "nadstavbové" deskriptory, které se předají k vyhodnocení příslušnému pluginu.


Natsev, Haubold, Tesic, Xie, Yan: Semantic concept-based query expansion and re-ranking for multimedia retrieval. ACM Multimedia 2007. nahoru

plný text článku, bibtex

Related work on query expansion is the most valuable part - good categorization, general explanation of principles.
In their application, autors aim at concept-based query expansion for video retrieval. They have set of concepts from the LSCOM-lite lexicon with manually added annotations and links to WordNet, try to find the relevant concepts. Then get relevant images from each concepts, join, rerank. Fusion of results from different search systems: weighted for concepts - e.g. for some concepts, text search is known to perform better.
They use fixed text ontology and fixed visual ontology. Manual rules to map one to another.


Eickhoff, Li, de Vries: Exploiting User Comments for Audio-Visual Content Indexing and Retrieval. ECIR 2013 nahoru

plný text článku, bibtex

They analyze user comments of YouTube videos to retrieve relevant tags. For this type of data, a high level of noise is typical, they suggest how to deal with that using time dimension. Related work on keyword mining techniques. Their main idea - identify "bursts" of informative comments (assumption: many comments in short time span contain more information that other random comments). Also a few comments before each burst are deemed interesting. The burst strategy aims at eliminating unrelated and uninformative comments. The second source of noise are misspellings, abbreviations, chatspeak and foreign language utterances. They use Wikipedia to deal with these: terms that do not have a dedicated article in the English version of Wikipedia are assumed to be noise. Large-scale experiments, relevance judgements via crowdsourcing (Amazon Mechanical Turk), majority vote.


Jegou, Schmid, Harzallah, Verbeek: Accurate image search using the contextual dissimilarity measure. Pattern Analysis and Machine Intelligence, 2010. nahoru

(plný text článku)

Článek se zabývá lokálními deskriptory, ale definuje zajímavou míru nepodobnosti, která je založena na myšlence reverse kNN - dobrý výsledek je ten, který má QO také mezi svými blízkými. Počítají vzájemnou podobnost dvou bodů pomocí průměrné vzdálenosti ke k-tému nejbližšímu. Plus to nějak iterativně vylepšují.


Hanbury: A survey of methods for image annotation. Journal of Visual Languages & Computing, 2008. nahoru

(plný text článku), bibtex

Types of information that can be associated with images. Free-text descriptions - keywords from controlled vocabularies - classifications based on ontologies. Levels of specificity - whole image, segments. Annotation, categorization, recognition. Some discussion on the use of ontologies, the difficulties of creating a vocabulary for image annotation, discussion of some existing sources (incl. WordNet). Ground truth annotation collection methods. Review of annotated image datasets for computer vision research.


Tousch, Herbin, Audibert: Semantic hierarchies for image annotation: A survey. Pattern Recognition, 2012. nahoru

plný text článku, bibtex

Very good survey, wide range of approaches, well structured. Nature and use of semantics in image description - semantic levels, user and his context. Object recognition and controlled vocabularies - insights into psychological studies, links. Semantic image analysis using unstructured vocabularies: classification of approaches (direct, linguistic, compositional, structural, hierarchical compositional, communicating, hierarchical, multilabel). Semantic image analysis using structured vocabularies: classification of approaches (linguistic, compositional, communicating, hierarchical). Quite a lot of info about WordNet use. Brief section on Evaluation. Discussion of strong and weak sides of existing techniques, future research directions: full exploitation of semantic hierarchies, multi-level and multi-faceted image interpretation, evaluation protocols adapted to semantic hierarchy handling.


Zhang, Islam, Lu: A review on automatic image annotation techniques. Pattern Recognition 2012 nahoru

plný text článku, bibtex

Motivation for artificial image annotation (AIA): searching for images. Authors focus on two aspects of AIA - feature extraction and semantic learning/annotation. Feature extraction section: image segmentation (brief survey of methods), survey of features in use. AIA techniques: single labelling annotation using conventional classification methods (SVM, artificial neural network, decision tree); multi-labelling annotation, uses Bayesian methods; web-based image annotation which uses metadata to annotate images. Rich information about the variants of machine-learning techniques and their use for annotation. Good summary of principles and challenges of search-based annotation (here denoted as 'image annotation incorporating metadata'). Challenges identified: 1) high dimensional feature analysis, 2) building an effective annotation model (integrate low level visual information and high level textual information), 3) annotation and ranking problem - what to do online, what offline (with focus on keyword-based searching), 4) ranking of images within categories, 5) lack of standard vocabulary and taxonomy for annotation ("A hierarchical modelling of image semantics is needed to categorise images properly."), 6) training and evaluation.


Wang: A survey on automatic image annotation and trends of the new age. Procedia Engineering 2011 nahoru

plný text článku

Strange short survey. Seems rather like an unfinished paper, cannot be found in DBLP. However, there are some useful links to papers. Short discussion of three approaches to annotation: generative models, discriminative models, graph models.


Makadia, Pavlovic, Kumar: A New Baseline for Image Annotation. 10th European Conference on Computer Vision, 2008 nahoru

plný text článku, bibtex

Automatic image annotation is a known and interesting problem, it has been researched for more than a decade, interesting solutions exist. What is lacking is a comparison of the sophisticated techniques to a very simple solution. Goal of this work is to create a baseline solution. Visual similarity evaluated by global color and texture, two types of aggregation function tried. Having nearest visual neighbors, they apply greedy label transfer algorithm.
Datasets for comparison: Corel, IAPR TC-12, web dataset with 20K images from ESP game


Belém, Martins, Almeida, Gonçalves: Exploiting Novelty and Diversity in Tag Recommendation. ECIR 2013 nahoru

plný text článku, bibtex

They focus on tag recommendation from texts. Interesting ideas are the quality measures - apart from relevance, which is typically understood as the most desirable quality, they also consider novelty and diversity (related terms; diversity = novelty of each new term). They implement ranking function ("learning to rank" research field) using genetic programming. Some related work on "learning to rank". They exploit co-occurrence patterns by mining relations among tags assigned to the same object in an object collection. Metrics for novelty and diversity: novelty is assessed as inverted frequency of a given keyword within collection, diversity of a candidate term c with respect to a list C of candidates is estimated as the average semantic distance between c and each other term in C. The dissimilarity between terms t1 and t2 is measured by the relative difference between the sets of objects O1 and O2 in which they appear as tag, i.e., dist(t1,t2)= |O1-O2|/|O1∪O2|.


Xie, He: Picture tags and world knowledge: learning tag relations from visual semantic sources. ACM Multimedia 2013:967-976 nahoru

plný text článku, slidy, bibtex

Interconnecting information from Flickr (images, user tags), ImageNet and ConceptNet. They build an ImageNet/Flickr collection by filtering ImageNet records so that only Flickr images with tags remain. On top of this collection, they compute statistics of tag use and study relationships between tags and the relationships between tag co-occurence and semantic distance of concepts as measured by ConceptNet. They propose some new measures of semantic relatedness and show how their resource can be used to recommend relevant tags.


Deng, Dong, Socher, Li, Li, Fei-Fei: ImageNet: A large-scale hierarchical image database. IEEE Conference on Computer Vision and Pattern Recognition, 2009 nahoru

plný text článku, bibtex

Koncepce ImageNetu, postup tvorby (text-search pomocí slov ze synsetu + nějaké rozšíření o slova z nadřazených synsetů, verifikace lidmi přes Mechanical Turk), možnosti využití. Porovnání s jinými existujícími databázemi obrázků - dobré pro přehled, co existuje (Caltech, MSRC, PASCAL, TinyImage, ESP dataset, LabelMe, Lotus Hill).


Du, Rau, Huang, Chen: Improving the quality of tags using state transition on progressive image search and recommendation system. SMC 2012 nahoru

plný text článku, bibtex

Selecting relevant tags from Flickr-like galleries with user tagging. "Waking And Sleeping algorithm", uses number of clicks. Short survey of other tag cleaning methods.


Sun, Bhowmick, Chong: Social image tag recommendation by concept matching. ACM Multimedia 2011 nahoru

plný text článku, bibtex

Abstract: Tags associated with social images are valuable information source for superior image search and retrieval experiences. In this paper, we propose a novel tag recommendation technique that exploits the user-given tags associated with images. Each candidate tag to be recommended is described by a few tag concepts derived from the collective knowledge embedded in the tag co-occurrence pairs. Each concept, represented by a few tags with high co-occurrences among themselves, is indexed as a textual document. Then user-given tags of an image is represented as a text query and the matching concepts are retrieved from the index. The candidate tags associated with the matching concepts are then recommended. Leverages on the well studied Information Retrieval (IR) techniques, the proposed approach leads to superior tag recommendation accuracy and lower execution time compared to the state-of-the-art.


Lux, Pitman, Marques: Can Global Visual Features Improve Tag Recommendation for Image Annotation? Future Internet 2010 nahoru

plný text článku, bibtex

Content-aware tag recommendation, rich related work on tag recommendation. Some considerations about tagging habbits o users. Their own idea rather simple: start with some user-provided tags, evaluate a text search, take the result and reorder by visual similarity, take n best images, combine their tags, select the most relevant ones. For visual similarity, they use Color and Edge Directivity Descriptor, which is claimed to be better that the MPEG7 ones.


Deselaers, Ferrari: Visual and semantic similarity in ImageNet. Computer Vision and Pattern Recognition (CVPR), 2011. nahoru

plný text článku, bibtex

Na obrázcích ImageNetu zkoumají, jak moc je propojená sémantická a vizuální podobnost. Hloubka zanoření synsetu vs. vizuální variabilita objektů. Řeší se nějaké otázky z cognitive science - basic level categories. Navrhují nový vzoreček pro výpočet podobnosti obrázků, který kombinuje vizuální podobnosti a WordNet distance - najdou k obrázkům nejbližší z ImageNetu, podle toho počítají tu sémantickou vzdálenost. Testování na Caltech 101 datasetu.


Heesch, Yavlinsky, Rüger: NNk Networks and Automated Annotation for Browsing Large Image Collections from the World Wide Web. Multimedia 2006. nahoru

(plný text článku)

Short paper. Obrázky jsou organizovány v jakési sociální síti, každý objekt zná objekty, které jsou mu nějakým způsobem blízké. Dělají image annotation pomocí naučené pravděpodobnosti, že daný vizuální projev souvisí s daným pojmem. Učí se to na množině popsaných Corel obrázků.


Noah, Ali, Alhadi, Kassim: Going Beyond the Surrounding Text to Semantically Annotate and Search Digital Images. ACIIDS 2010. nahoru

(plný text článku)

Pracují s obrázky z novin. Snaží se (asi v rámci dané stránky, na které je obrázek) najít pojmenované entity, na zbytek použít WordNet, ConceptNet, hledání sémantických konceptů.


Nowak, Huiskes: New Strategies for Image Annotation: Overview of the Photo Annotation Task at ImageCLEF 2010. ImageCLEF 2011 nahoru

plný text článku, bibtex

Úkolem bylo přiřadit k obrázkům tagy z daného výběru obsahujícího 93 konceptů. Ground truth byla získána napůl ručně (z minulého ročníku) a napůl pomocí Amazon Mechanical Turk. Tři typy přístupů - visual, text, multimodal. Ovšem paper kromě velmi stručného popisu jednotlivých přístupů (kdo používá které deskriptory, víceméně) obsahuje jen číselné statistiky, žádnou rozumnou kategorizaci přístupů ani porovnání jejich vhodnosti.


Rudinac, Larson, Hanjalic: Learning Crowdsourced User Preferences for Visual Summarization of Image Collections. IEEE Transactions on Multimedia, 2013 nahoru

plný text článku, bibtex

Úvod: co jsou visual summaries, že kvalita záleží na uživateli; je tedy potřeba znát uživatele a účel sumarizace, aby mohla být úspěšná. Obvyklé parametry, které se uvažují, jsou relevance, representativeness, a diversity. Podle článku jsou to příliš obecné pojmy, nevíme, jak uživatelé uvažují. Toto se v článku zkoumá prostřednictvím crowdsourcingu - na základě sumarizací, které vytvoří uživatelé, se zjišťuje, co je pro ně důležité. Aplikace uvažovaná v článku - sumarizace geografických oblastí, používají proto geo-visual clustering.
Z pokusů s lidmi jim vyšlo, že uživatelé se často na fotkách neshodují, ale na některých je zas shoda nečekaně velká. Zdá se, že to závisí na aesthetic appeal, affect and sentiment, což jsou věci zkoumané i v jiných souvislostech (computer vision, social network analytics, natural language processing). Vyberou tedy sadu vlastností, do které zahrnou i tyto objekty, pak vezmou výsledky uživatelem poskytnutých sumarizací a trénují SVM, aby se naučili správně rankovat obrázky v clusterech. Clustery se vytvářejí jen pomocí geo-visual information, sentiment, líbivost a relativní kvalita obrázku vzhledem k ostatním obrázkům se berou do úvahy až při vybírání reprezentanta clusteru. Pro clusterování používají affinity propagation clustering, clusteruje se prvně podle geo-location, sekundárně pomocí SIFTů (Bag of words approach).
Image aspect ratio and colorfulness emerge as the most discriminative features.


Metze, Ding, Younessian, Hauptmann: Beyond audio and video retrieval: topic-oriented multimedia summarization. International Journal of Multimedia Information Retrieval, 2013 nahoru

plný text článku, bibtex

Transformation of videos into text summaries. Visual and audio features analyzed and classified, then templates used to construct sentences. Currently, they focus on 10 event concepts used in TRECVID 2011 Multimedia Event Detection (MED), for which training and test data are available. Detailed description of visual concept ranking (discard too frequent concepts, set probability thresholds). Example output: In this video, we detected 3 or more people meeting indoors. We probably heard the words "house", "half", "let", "happen", and "earn" in the video. We saw people sit down and we saw body parts in the video. We probably saw food, indoor, room and adult in the video. We possivly saw 3 or more people, joy and meeting in the video. But we also detected hand. They call the approach TOMS (topic-oriented multimedia summarization). Possible use: efficient browsing of videos (no need to watch to decide whether relevant), explanation why a given video was selected for a query. Evaluation: experiments with users, who performed various tasks with videos described either by TOMS or manually. Manual descriptions were better, but TOMS results promising. Another set of experiments tried to determine which features were most important for users.
Related work contains links to video and audio summarization papers.


Tan, Song, Liu, Xie: ImageHive: Interactive Content-Aware Image Summarization. IEEE Computer Graphics and Applications, 2012 nahoru

plný text článku, bibtex

Zaměřují se hlavně na vizuální zpracování koláže. V úvodu poměrně hezky rozebrané cíle: 1) The image summary should be compact and make the most salient regions in the collection visible. 2) The image layout should reflect pairwise content relationships. 3) The summarization tool should let users examine the image collection from multiple perspectives. Related work se týká jen zobrazování koláží. Jejich přístup - nejprve nějak vyberou reprezentanty, např. pomocí k-means, pak ve dvou etapách řeší to rozložení. Cíle - reprezentace vztahů (podobnosti) mezi obrázky, uspořádání obrázků tak, aby nebyly překryté dúležité části. Pro určení podobnosti používají, co je zrovna k dispozici, takže například vizuální deskiptory, ale i WordNet-based distance of tags and descriptions. Z každého clusteru se vybere několik reprezentantů. Pro prvotní rozložení se vybrané obrázky reprezentují uzly v grafu (hrany reprezentují podobnost) a použije se vhodný algoritmus pro reprezentaci grafu v 2D. Článek dále rozebírá technicky složitější a asi zajímavý problém zadefinování tvrdých a měkkých omezení, které zajistí, že důležité části obrázků budou vidět. Evaluation - časy a výsledné koláže pro ImageHive a tři další systémy. Zkoušeli to na obrázcích z IAPR TC-12.


Zheng, Herranz, Jiang: Flexible navigation in smartphones and tablets using scalable storyboards. ICMR 2013 nahoru

plný text článku, bibtex

Pro přehledné procházení kolekcí videí se často používají storyboards - sumarizace videa pomocí několika vybraných snímků. Autoři dema představují dynamic storyboards - umožňují uživateli dynamicky měnit délku a zaměření storyboard, aniž to stojí moc výpočetních kapacit. Dobře napsaný demo paper, chybí ale odkaz na samotné demo.


Liu, Wang, Sun, Zheng, Tang, Shum: Picture Collage. IEEE Transactions on Multimedia, 2009 nahoru

plný text článku, bibtex

Asi dobrá a důkladná publikace k vytváření image collages. Cílem je "Picture collage is a kind of visual image summary—to arrange all input images on a given canvas, allowing overlay, to maximize visible visual information." Řeší se tedy, jak obrázky co nejlépe naskládat na danou plochu.


Ekhtiyar, Sheida, Amintoosi: Picture Collage with Genetic Algorithm and Stereo vision. CoRR, 2012 nahoru

plný text článku, bibtex

Short paper o vytváření koláží pro stereo images. Nic převratného, zajímavé jsou jen screenshoty, které ujasňují rozdíly mezi "grid", "mosaic" a "collage".


Zhang, Huang: Hierarchical Narrative Collage For Digital Photo Album. Computer Graphics Foru, 2012 nahoru

plný text článku, bibtex

Clusterují obrázky podle místa (to odhadují podle vizuální podobnost) a času + identifikují lidi. Pak to prezentují ve struktuře "character - setting - plot", přičemž uživatel může volit úrovně detailnosti. Hezký článek, technické detaily jsem nestudovala. Výsledky mi nicméně na první pohled nijak skvělé nepřipadají (nezdá se mi, že by zvolená struktura byla moc pochopitelná).


Laparra, Rigau, Vossen: Mapping WordNet to the Kyoto ontology. LREC 2012 nahoru

plný text článku, bibtex

Kyoto is an event-mining system that tuilizes a rich knowledge model composed of wordnets and a generic ontology. This paper describes a method of obtaining a full mapping between the English WordNet and the ontology. The mapping was done semi-automatically. Intro to Kyoto ontology, WordNet-to-ontology relations, mapping methodology. The result "provides a powerful basis for semantic processing of full text in any domain".


Suchanek, Kasneci, Weikum: YAGO: A Large Ontology from Wikipedia and WordNet. Journal of Web Semantics, 2008 nahoru

plný text článku, bibtex

The article presents YAGO - a large ontology with high coverage and precision that has been automatically derived from Wikipedia and WordNet.


Griffiths, Steyvers, Firl: Google and the Mind: Predicting Fluency With PageRank. Psychological Science, 2007 nahoru

plný text článku

Psychological paper, they analyze whether human mind associates concepts in a manner similar to the Google PageRank idea. The paper nicely explains the PageRank idea in simple bud precise terms.