Identifikační kód | RIV/00216224:14330/15:00080952 |
Název v anglickém jazyce | Longest-commonest Match |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2015 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 2 |
Počet tvůrců celkem | 4 |
Počet domácích tvůrců | 3 |
Výčet všech uvedených jednotlivých tvůrců | Adam Kilgarriff (státní příslušnost: GB - Spojené království Velké Británie a Severního Irska) Vít Baisa (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 9652353) Miloš Jakubíček (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 5837189) Pavel Rychlý (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6616844) |
Popis výsledku v anglickém jazyce | Finding two-word collocations is a well-studied task within natural language processing. The result of this task for a given headword is usually a list of collocations sorted by a salience score. In corpus manager Sketch Engine, these pairs are extractedfrom data using a word sketch grammar relation rules and log-dice statistics resulting in a sorted list of triples . The longest?commonest match is a straightforward extension of these two-word collocations into multiword expressions. The resulting expressions are also very useful for representing the most common realisation of the collocational pair and to facilitate the interpretation of the raw triplet because sometimes, for such a triple, it is not clear from what texts it comes. We present here analgorithm behind the longest?commonest match together with a simple evaluation. The longest?commonest match is already implemented in Sketch Engine. |
Klíčová slova oddělená středníkem | multiword expresion; collocation; word sketch; Sketch Engine |
Stránka www, na které se nachází výsledek | https://elex.link/elex2015/proceedings/eLex_2015_26_Kilgarriff+etal.pdf |