RIV/00216224:14330/12:00060279 - Similarity Ranking as Attribute for Machine Learning Approach to Authorship Identification (2012)

Údaje o výsledku

Identifikační kód

RIV/00216224:14330/12:00060279

Název v původním jazyce

Similarity Ranking as Attribute for Machine Learning Approach to Authorship Identification

Druh

D - Článek ve sborníku

Jazyk

eng - angličtina

Obor

AI - Jazykověda

Rok uplatnění

2012

Kód důvěrnosti údajů

S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů

Počet výskytů výsledku

Údaje z Hodnocení výsledků výzkumných organizací 2014

Výsledek byl hodnocen v Pilíři I

Rozsah vyřazení výsledku

Tento výskyt výsledku není vyřazen

Zařazení výsledku v hodnocení

D - Článek ve sborníku

Skupina oboru v hodnocení

01 - Společenské, humanitní a umělecké vědy - SHVa

Konkrétní způsob(y) hodnocení výsledku

Článek ve sborníku evidovaném v databázi Conference Proceedings Citation Index

Bodové ohodnocení

8,000

Faktor korekce

100,3 %

Body (upravené podle přílohy č. 8 Metodiky)

8,020

Rozdělení výsledku mezi předkladatele

Organizace	Výzkumná organizace?	Podíl	Body	Body (upravené podle přílohy č. 8 Metodiky)
Masarykova univerzita / Fakulta informatiky	ano	100,0 %	8,000	8,020

Tvůrci výsledku

Počet tvůrců celkem

Počet domácích tvůrců

Tvůrce

Rygl Jan (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; vedidk: 6045111)

Tvůrce

Horák Aleš (státní příslušnost: CZ - Česká republika; A - domácí tvůrce; G - garant výsledku; vedidk: 3161870)

Údaje blíže specifikující výsledek

Popis v původním jazyce

In the authorship identification task, examples of short writings of N authors and an anonymous document written by one of these N authors are given. The task is to determine the authorship of the anonymous text. Practically all approaches solved this problem with machine learning methods. The input attributes for the machine learning process are usually formed by stylistic or grammatical properties of individual documents or a defined similarity between a document and an author. In this paper, we present the results of an experiment to extend the machine learning attributes by ranking the similarity between a document and an author: we transform the similarity between an unknown document and one of the N authors to the order in which the author is the most similar to the document in the set of N authors. The comparison of similarity probability and similarity ranking was made using the Support Vector Machines algorithm.

Klíčová slova

authorship identification; machine learning; similarity ranking

Název sborníku

Proceedings of the Eight International Conference on Language Resources and Evaluation

Forma vydání

P - Tištěná verze „print“

Počet stran výsledku

ISBN

9782951740877

Název nakladatele

European Language Resources Association

Místo vydání

Istanbul (Turkey)

Místo konání akce

Istanbul (Turkey)

Datum zahájení akce

23.5.2012

Typ akce podle státní příslušnoti účastníků

WRD - Světová

Údaje o tomto záznamu o výsledku

Předkladatel

Masarykova univerzita / Fakulta informatiky

Dodavatel

MV0 - Ministerstvo vnitra (MV)

Rok sběru

2013

Systémové označení dodávky dat

RIV13-MV0-14330___/01:1

Specifikace

RIV/00216224:14330/12:00060279!RIV13-MV0-14330___

Kontrolní kód

[D8249F592280]

Další výskyty tohoto výsledku od stejného předkladatele

Dodáno MŠMT v roce 2013

Záznam s identifikačním kódem RIV/00216224:14330/12:00060279 v dodávce dat RIV13-MSM-14330___/02:2

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt

VF20102014003 - Analýza přirozeného jazyka v prostředí internetu (2010-2014, MV0/VF)

S - Specifický výzkum na vysokých školách