Dissim

Anotace

Vyhledávání významově podobných dokumentů je jedním z hlavních směrů vývoje informačních systémů, a jeho kvalitativní zlepšení závisí na zjednoznačnění významu slov a následně celých dokumentů. Cílem projektu je implementovat zjednoznačňující algoritmy a vyhodnotit jejich dopad na přesnost existujících vyhledávacích algoritmů. Software bude zveřejněn pod otevřenou licencí.

Současný stav projektu

Aktivní výzkum v oblasti vyhledávání informací (mir.fi.muni.cz), aplikovaný v projektech DML­CZ a EuDML vedl k vývoji nových metod reprezentace textu. Víceznačnost významu slov se ukázala jako jeden z limitujících faktorů. Máme k dispozici anotované databáze výsledků vyhledávání k zadaným dotazům (ground truth) ze soutěží na konferenci NTCIR (kde máme již nyní velmi dobré výsledky, viz [1, s. 97]. To umožňuje porovnávat různé přístupy k reprezentaci významů slov a jejich dopady na relevanci výsledků vyhledávání pomocí metrik MAP, bpref a dalších.

Výstupy projektu

V rámci projektu jsem navrhnul, implementoval a zdokumentoval algoritmy pro desambiguaci slov založené na dokumentových vektorech (document vectors) a náhodných procházkách (random walks). Pro evaluaci algoritmů jsem využil anotovaná data ze soutěže SemEval; soutěž se zaobírá problémem sémantické podobnosti dokumentů (semantic similarity). V rámci evaluace se mi podařilo nedesambiguovanými modely [37] dosáhnout kompetitivních výsledků v rámci příslušného ročníku soutěže SemEval. Naměřený pozitivní dopad desambiguace slov v trénovacích datech na výsledky modelů pro výpočet sémantické podobnosti na anotovaných datech byl statisticky nevýznamný. Popis algoritmů, jejich implementaci v jazyce Python 3 a výsledky evaluace jsem uveřejnil v repozitáři na fakultní službě GitLab. Implementaci jsem uvolnil pod permisivní licencí mit (Expat).

Reference

  1. Proceedings of the 11th NTCIR Conference, Tokyo, Japan, 2014. <http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings11/pdf/NTCIR/OVERVIEW/01-NTCIR11-OV-MATH-AizawaA.pdf>
  2. Petr Sojka, Aleš Horák (Eds.): Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2009, s. 127–133, 2009. © Masaryk University, Brno 2009. <https://nlp.fi.muni.cz/raslan/2009/papers/17.pdf>
  3. Le, Quoc V., and Tomas Mikolov: Distributed representations of sentences and documents, ICML, 2014.
  4. J. McAuley, C. Targett, J. Shi, A. van den Hengel: Image-based recommendations on styles and substitutes, SIGIR, 2015.
  5. J. McAuley, R. Pandey, J. Leskovec: Inferring networks of substitutable and complementary products, Knowledge Discovery and Data Mining, 2015.
  6. D. Greene and P. Cunningham: Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering, Proc. ICML, 2006.
  7. M. Chang and L. Ratinov and D. Roth and V. Srikumar: Importance of Semantic Representation: Dataless Classification, AAAI, 2008.