Identifikační kód | RIV/00216224:14330/14:00076180 |
Název v anglickém jazyce | Rapid prototyping of a web categorization tool |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2014 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 2 |
Počet domácích tvůrců | 2 |
Výčet všech uvedených jednotlivých tvůrců | Jaromír Navrátil (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 5103029) Lubomír Popelínský (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 9343199) |
Popis výsledku v anglickém jazyce | This paper introduces a new method for fast prototyping of web page categorization tool based on Random Forests. The result of this work is three-fold. We describe a fast feature extraction method first. Afterwards, we introduce a system that enables a user to perform experiments manually and visualize the results via visual analytics module. The last part of this work concerns a way how to perform experiments efficiently. It is partially inspired by landmarking that allows limiting the number of experiments. This method has been used for building a new commercial system for web categorization that significantly outperforms the system already being used. |
Klíčová slova oddělená středníkem | web mining; categorization of web pages; machine learning; landmarking |
Stránka www, na které se nachází výsledek | - |
DOI výsledku | 10.1145/2628194.2628216 |