Vyhledávání významově podobných dokumentů je jedním z hlavních směrů vývoje informačních systémů, a jeho kvalitativní zlepšení závisí na zjednoznačnění významu slov a následně celých dokumentů. Cílem projektu je implementovat zjednoznačňující algoritmy a vyhodnotit jejich dopad na přesnost existujících vyhledávacích algoritmů. Software bude zveřejněn pod otevřenou licencí.
Aktivní výzkum v oblasti vyhledávání informací (mir.fi.muni.cz), aplikovaný v projektech DMLCZ a EuDML vedl k vývoji nových metod reprezentace textu. Víceznačnost významu slov se ukázala jako jeden z limitujících faktorů. Máme k dispozici anotované databáze výsledků vyhledávání k zadaným dotazům (ground truth) ze soutěží na konferenci NTCIR (kde máme již nyní velmi dobré výsledky, viz [1, s. 97]. To umožňuje porovnávat různé přístupy k reprezentaci významů slov a jejich dopady na relevanci výsledků vyhledávání pomocí metrik MAP, bpref a dalších.
V rámci projektu jsem navrhnul, implementoval a zdokumentoval algoritmy pro desambiguaci slov založené na dokumentových vektorech (document vectors) a náhodných procházkách (random walks). Pro evaluaci algoritmů jsem využil anotovaná data ze soutěže SemEval; soutěž se zaobírá problémem sémantické podobnosti dokumentů (semantic similarity). V rámci evaluace se mi podařilo nedesambiguovanými modely [3–7] dosáhnout kompetitivních výsledků v rámci příslušného ročníku soutěže SemEval. Naměřený pozitivní dopad desambiguace slov v trénovacích datech na výsledky modelů pro výpočet sémantické podobnosti na anotovaných datech byl statisticky nevýznamný. Popis algoritmů, jejich implementaci v jazyce Python 3 a výsledky evaluace jsem uveřejnil v repozitáři na fakultní službě GitLab. Implementaci jsem uvolnil pod permisivní licencí mit (Expat).