Identifikační kód | RIV/00216224:14330/13:00070032 |
Název v anglickém jazyce | Avoiding Anomalies in Data Stream Learning |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2013 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 3 |
Počet domácích tvůrců | 1 |
Výčet všech uvedených jednotlivých tvůrců | Joao Gama (státní příslušnost: PT - Portugalská republika) Petr Kosina (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 5283485) Ezilda Almeida (státní příslušnost: PT - Portugalská republika) |
Popis výsledku v anglickém jazyce | The presence of anomalies in data compromises data quality and can reduce the effectiveness of learning algorithms. Standard data mining methodologies refer to data cleaning as a pre-processing before the learning task. The problem of data cleaning is exacerbated when learning in the computational model of data streams. In this paper we present a streaming algorithm for learning classification rules able to detect contextual anomalies in the data. Contextual anomalies are surprising attribute values inthe context defined by the conditional part of the rule. For each example we compute the degree of anomaliness based on the probability of the attribute-values given the conditional part of the rule covering the example. The examples with high degree ofanomaliness are signaled to the user and not used to train the classifier. The experimental evaluation in real-world data sets shows the ability to discover anomalous examples in the data. |
Klíčová slova oddělená středníkem | Data Streams; Rule Learning; Anomaly Detection |
Stránka www, na které se nachází výsledek | http://link.springer.com/chapter/10.1007%2F978-3-642-40897-7_4 |
DOI výsledku | 10.1007/978-3-642-40897-7_4 |