Identifikační kód | RIV/00216224:14330/11:00051858 |
Název v původním jazyce | Určení tematické konzistence dokumentu |
Název v anglickém jazyce | Determining topic consistency of a document |
Druh | D - Článek ve sborníku |
Jazyk | cze - čeština |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2011 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 1 |
Počet domácích tvůrců | 1 |
Výčet všech uvedených jednotlivých tvůrců | Jiří Materna (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 5438233) |
Popis výsledku v původním jazyce | Cílem této práce bylo navrhnout a implementovat nástroj, který pro libovolný textový dokument v českém jazyce určí, do jaké míry je jeho text tematicky (in)konzistentní a současně rozhodne, zda je vhodné použít jeho odkazy pro výpočet relevance ve fulltextovém vyhledávání (na základě tematické konzistence). Ukazuje se totiž, že by odkazy tematicky nesouroudé webové stránky měly mít menší váhu než odkazy stránky tematicky sourodé. Navržený nástroj je založen na statistických i heuristických metodách a natestovací množině 200 dokumentů dosahuje přesnosti 93,5 % |
Popis výsledku v anglickém jazyce | The aim of this work is to design and implement a tool, which should be able to assign a score reflecting topic consistency of any web document written in the Czech language. This score is dedicated to be used for deciding whether the document's hyperlinks are appropriate for computing relevancy of referenced documents. In fact, it turns out that inconsistent documents should not be used. The presented algorithm uses both statistical and heuristic methods and has the precision about 93.5 % on the set of200 test documents. |
Klíčová slova oddělená středníkem | fulltext search engine; topic consistency; backlinks |
Stránka www, na které se nachází výsledek | - |