DŽEMUj - dobývání znalostí z odpovědníků IS MU

Mária Briatková, Zdeněk Kedaj a Luboš Popelínský
Laboratoř dobývání znalostí, Fakulta informatiky MU

DŽEMUj - dobývání znalostí z odpovědníků IS vod

DŽEMUj je nástroj, který s využitím metod dolování znalostí z dat [1] a vizualizace [2] usnadňuje analýzy odpovědníků. Systém byl vyvinut v Laboratoři dobývání znalostí za významné podpory CVT FI MU a ÚVT MU a od začátku března je ve zkušebním provozu. Zpracování je vázané na vybraný odpovědník v daném čase. Je proto možné analyzovat jeden odpovědník i vícekrát, např. během zasílání odpovědí a poté po ukončení.

Spuštění analýzy dat

Učitel přímo v IS MU cestou UČITEL – PŘEDMĚT – SPRÁVA ODPOVĚDNÍKU – ODPOVĚDNÍK – "analýza" zadá požadavek na zpracování vybraného odpovědníku, viz následující obrázek.

V prvním kroku IS MU vygeneruje odpovědník v XML a poté ho zašle externí službě k vlastnímu zpracování, tedy mimo vlastní IS MU. Po dokončení analýzy, která zpravidla trvá při nezatíženém stroji méně než minutu (550 studentů, 80 různých otázek), jsou výsledky k dispozici na zobrazené lince.

Všeobecná analýza dat a vizualizace

Výsledky v odpovědníku je možno zobrazit v různých pohledech, uspořádané podle počtu úspěšných, neúspěšných nebo počtu nezodopovězených otázek. Po kliknutí na některý z bodů v grafu se zobrazí text otázky a základní statistiky. Další možností je výběr (např. myší) části grafu a její vizualizace.

Je též možno zobrazit text všech otázek, které mají vyšší nebo nižší úspěšnost než je zadaný práh.

Rozložení podle správných, chybných a chybějících odpovědí

Druhým nástrojem je vizualizace shluků otázek. Je použita metoda RadViz [4], která dovoluje zobrazit v rovině vícedimensionální data. Jednotlivé atributy - v našem případě počet správných odpovědí (ok), počat chybných odpovědí (nok) a chybějících (null) jsou rovnoměrně rozloženy na kružnici a bod (otázka) je přitahován ke každému atributu podle velikosti hodnot tohoto atributu. Je opět možno si pouhým kliknutím myši zobrazit text otázky.

Analýza IP adres

Učitel si může v přehledné formě zobrazit počet seancí a symbolické jméno této adresy, ze které studenti na odpovědník odpovídali. Může též zadat požadavek na zobrazení jen těch adres se jmény studentů, kde interval mezi jednotlivými uloženími výsledku byl menší než zadaný práh. Výsledné zobrazení (beze jmen) je na obrázku dole. Pro každou adresu je zobrazen počet seancí a symbolické jméno této adresy.

Časté vzory

Časté vzory popisují skupiny dvojic otázka-odpověď, které se vyskytují v odpovědníku často. Parametry jsou jednak minimální výskyt takové kombinace a jednak minimální délka vzoru. Řádky obsahují všechny dvojice otázka-odpověď, které se v častých vzorech vyskytují. Sloupce představují jednotlivé vzory. Z obrázku pod tímto popisem vidíme, že často se vyskytuje např. první a druhá odpověď a třetí a čtvrtá.

Poděkování

Autoři velice děkují Michalu Brandejsovi a jeho týmu za podporu, především Mateji Čuhelovi, Mirce Misákové a Lucce Pekárkové a též Michalovi Procházkovi a Radimovi Pešovi, ÚVT MU za pomoc s autentizací uživatelů. Poděkování patří též Janu Blaťákovi a Martinu Večeřovi z Laboratoře dobývání znalostí FI MU.

Reference

[1] Berka P. Dobývání znalostí z databází. Academia Praha 2003.
[2] Murrell P. R Graphics. Chapman & Hall/CRC 2006
[3] Feldman R., Sanger J. The Text Mining Handbook. Cambridge University Press 2006
[4] Nováková L, Štěpánková O. Hledání shluků vizualizační metodou RadViz. Sborník konference Znalosti 2008, str. 85-96,Bratislava 2008