Organizace U  S Kód
hodnocení
Skupina
oborů
Body
výsledku
Body
upravené
Podíl VOBody VOBody VO
upravené
H14
Masarykova univerzita / Fakulta informatiky1415 D 482.984182.984
Výsledky hodnocení dříve prezentovala speciální podoba stránek výskytů výsledků doplněná informacemi o hodnocení daného výskytu a výsledku. To zde supluji doplněním kopií stránek z rvvi.cz/riv z 18.12.2017 o relevantní údaje z dat H16. Najetí myší na kód či skupinu zobrazí vysvětlující text (u některých vyřazených není k dispozici). Čísla jsou oproti zdroji zaokrouhlena na 3 desetinná místa.

Text Tokenisation Using unitok (2014)výskyt výsledku

Identifikační kódRIV/00216224:14330/14:00077514
Název v anglickém jazyceText Tokenisation Using unitok
DruhD - Článek ve sborníku
Jazykeng - angličtina
Obor - skupinaI - Informatika
OborIN - Informatika
Rok uplatnění2014
Kód důvěrnosti údajůS - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů.
Počet výskytů výsledku1
Počet tvůrců celkem3
Počet domácích tvůrců3
Výčet všech uvedených jednotlivých tvůrcůVít Suchomel (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 8884439)
Jan Michelfeit (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 3393399)
Jan Pomikálek (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 4980190)
Popis výsledku v anglickém jazyceThis paper presents unitok, a tool for tokenisation of text in many languages. Although a simple idea ? exploiting spaces in the text to separate tokens ? works well most of the time, the rest of observed cases is quite complicated, language dependent and requires a special treatment. The paper covers the overall design of unitok as well as the way the tool deals with some language or web data specific tokenisation cases. The rule what to consider a token is briefly described. The tool is compared to two other tokenisers in terms of output token count and tokenising speed. unitok is publicly available under the GPL licence at http://corpus.tools.
Klíčová slova oddělená středníkemtokenisation; corpus tool
Stránka www, na které se nachází výsledek-

Údaje o výsledku v závislosti na druhu výsledku

Název sborníkuEighth Workshop on Recent Advances in Slavonic Natural Language Processing
ISBN-
ISSN2336-4289
Počet stran výsledku5
Strana od-do71-75
Název nakladateleTribun EU
Místo vydáníBrno
Místo konání akceBrno
Datum konání akce2014
Typ akce podle státní příslušnosti účastníkůCST - Celostátní
Kód UT WoS článku podle Web of Science-

Ostatní informace o výsledku

PředkladatelMasarykova univerzita / Fakulta informatiky
DodavatelMSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
Rok sběru2015
SpecifikaceRIV/00216224:14330/14:00077514!RIV15-MSM-14330___
Datum poslední aktualizace výsledku29.05.2015
Kontrolní číslo152394632

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt podporovaný MŠMT v programu 7F7F14047 - Harvesting big text data for under-resourced languages (2014 - 2017)
Projekt podporovaný MŠMT v programu LMLM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010 - 2015)
Podpora / návaznostiSpecifický výzkum na vysokých školách, poskytovatel MŠMT