Úvod

Cílem úkolu je:

  1. vytvoření doménového korpusu (20 mil. slov) v prostředí Sketch Engine
  2. vytvoření automatického návrhu slovníku z doménového korpusu v prostředí Sketch Engine
  3. post-editace slovníku v prostředí Lexonomy (20 finálních hesel)

Technické aspekty

Pracovat budete v aplikacích Sketch Engine a Lexonomy. Do Sketch Engine se můžete hlásit pomocí hesla z MU: vyberete "Institutional login", potom "Masaryk University" a následně se přihlásíte pomocí steného hesla jako do ISu. Do Lexonomy můžete hlásit pomocí volby "Sign up or log in with Sketch Engine" a následně stejným postupem.

Pokud už ve Sketch Engine máte jiný účet, můžete ho použít.

Noví uživatelé z MU mají standardně kvótu 1 mil. slov na vlastní korpus. V úkolu budete potřebovat alespoň 20 milionů. Jakmile si zaregistrujete účet, pošlete email na support@sketchengine.eu a pary@fi.muni.cz, že potřebujete zvýšit kvótu pro předmět IB047, někdo ji zvýší.

Pokud vytvoření korpusu selže z důvodu nízké kvóty, požádejte o navýšení kvóty a zopakujte stené dotazy pro vytvoření/rozšíření korpusu znovu.

Postup

  1. Přihlaste se do systému Sketch Engine a vytvořte si korpus o velikosti alespoň 20 miliónů slov pro Vámi vybranou doménu. Doporučujeme vybrat spíše úžeji zaměřenou oblast (raději "florbal" než "sport"). Postup tvorby korpusu včetně využití automatické extrakce terminologie pro postupné rozšiřování korpusu naleznete zde.Začněte volbou několika (třeba 10) klíčových slov pro Vámi zvolenou doménu, další klíčová slova můžete už extrahovat z první verze korpusu a postupně korpus takto rozšiřovat.
  2. Přihlaste se do systému Lexonomy pomocí svého účtu ve Sketch Engine. Účty by se tímto měly spárovat, pokud k tomu nedojde, budete v následujícím kroku nejprve ručně zadat své uživatelské jméno a API klíč pro Lexonomy (oba tyto údaje naleznete v uživatelském profilu v Lexonomy).
  3. Ve Sketch Engine:
    1. otevřete pro Vámi vytvořený korpus funkci OneClick Dictionary
    2. nastavte počet hesel na 50 (Cílem je udělat alespoň 20 kvalitních hesel, některá při posteditaci smažete. Pokud jich smažete příliš mnoho, je potřeba generování zopakovat s vyšším počtem hesel.)
    3. zvolte Keywords jako zdroj hesel pro slovník a otevřete nastavení:
    4. otevřete záložku Advanced a zkontrolujte, že není zaškrtnuto omezení na alfanumerické řetězce:
    5. kliknutím na Go spustí proces tvorby návrhu slovníku
  4. Po dokončení návrhu slovníku ho otevřete prostřednictvím odkazu ze Sketch Engine v Lexonomy a proveďte post-editaci hesel podle Vašeho uvážení.
    Vygenerovaná hesla, která nepatří do zvolené domény (například jména či názvy), smažte.
  5. Nastavte u slovníku veřejný přístup:
    v editaci zvolte: Configure -- Public access -- Access level = Public + Save
  6. Odkaz na dokončený slovník (ve tvaru https://www.lexonomy.eu/xxxxxxxx/) pošlete emailem na pary@fi.muni.cz.

Hodnocení

Celkově je možné za úkol získat 20 bodů: po 10 bodech za korpus a slovník.

Plný počet bodů vyžaduje požadované velikosti (20 mil. slov pro korpus, 20 hesel pro slovník) a rozumnou kvalitu. Extra body můžete získat za podnětné připomínky či návrhy k editaci slovníku v prostředí Lexonomy.