Identifikační kód | RIV/00216224:14330/13:00070316 |
Název v anglickém jazyce | Intrinsic Methods for Comparison of Corpora |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2013 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 2 |
Počet domácích tvůrců | 2 |
Výčet všech uvedených jednotlivých tvůrců | Vít Baisa (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 9652353) Vít Suchomel (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 8884439) |
Popis výsledku v anglickém jazyce | Since there are only very few techniques for quantitative and systematic comparison of text corpora we proposed and implemented several novel methods. The procedures were applied to comparing two very large web based Czech text corpora: czTenTen12 and Hector with more than 4.47 and 2.65 billion words, respectively. All methods are fully automatic and some of them are even language independent. We released some of them so they can be used instantly for comparison of other corpora. |
Klíčová slova oddělená středníkem | text corpus; corpora comparison |
Stránka www, na které se nachází výsledek | - |