Identifikační kód | RIV/00216224:14330/11:00054039 |
Název v anglickém jazyce | Extracting Phrases from PDT 2.0 |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2011 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 1 |
Počet domácích tvůrců | 1 |
Výčet všech uvedených jednotlivých tvůrců | Václav Němčík (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 3534340) |
Popis výsledku v anglickém jazyce | The Prague Dependency Treebank (henceforth PDT) is a large collection of texts in Czech. It is renown for its respectable size and rich multi-layer annotation covering a wide range of complex phenomena. One the other hand, it can be argued that the complexity of the dataset may be a notable hindrance to using certain aspects of the data in a straightforward way. To overcome these problems, we present an export filter converting PDT into a more transparent data format, containing information about the most common phrase types. We believe that availability of the PDT data in this form will help encourage people unfamiliar with the underlying theory to use the corpus. |
Klíčová slova oddělená středníkem | PDT; corpus; treebank; export; format; complex annotation; phrase; clause |
Stránka www, na které se nachází výsledek | - |