Úkol: vyhodnocení kvality trénovacích dat pro strojový překlad

Systémy strojového překladu učíme na paralelních textech, kde máme páry vět ze dvou jazyků. Dále můžeme využít i jednojazyčné korpusy.

V obou případech potřebujeme texty maximálně kvalitní. Úkolem je pro vybrané datové soubory zjistit, jestli, případně jak, jsou použitelné pro učetní strojového překladu.

Možné problémy v datech:

Z následujích seznamů si vyberte soubory pro jazyk, kterému dobře rozumíte. Pro každý soubor samostatně:

  1. popište probémy, proč jsou některé věty pro učení překladu nevhodné
  2. napište program/skript, který problémové řádky detekuje, případně alespoň popište postup slovně
  3. napište program/skript, který problémové řádky opraví, aby byly použitelné (např. smaže nežádoucí část)

Za celý úkol můžete získat maximálně 20 bodů. Zhruba 5 bodů za jeden soubor (příp. pár souborů u paralelních). Jednotlivé soubory nemusíte zpracovat do stejné podrobnosti, u jednoho můžete jen popsat problémy, u jiného napsta skipty na detekci problémů či opravu. Hlavním kritériem bude množství "pozorování", co všechno a do jaké podrobnosti dokážete v textech najít.

Termín: do konce června 2023.

Texty jsou organizovány po řádcích, jeden řádek je jeden "učicí" příklad pro trénování. Paralelní sady mají vždy dva soubory, pro každý jazyk jeden, se stejným počtem řádků. Zarovnání řádků je dáno jejich pořadím. Do jednoho soboru si je můžete spojit např. příkazem paste xxx.ces.txt xxx.ukr.txt >xxx.ces-urk.txt

Jednojazyčné texty

Ukrajinština

  • LangUk-fiction-1-ukr.ukr
  • LangUk-laws-1-ukr.ukr
  • LangUk-ubercorpus-1-ukr.ukr
  • LangUk-wiki_dump-1-ukr.ukr
  • Leipzig-news-2022_1m-ukr.ukr
  • Leipzig-newscrawl-2018_1m-ukr.ukr
  • Leipzig-wikipedia-2021_1m-ukr.ukr
  • Statmt-news_crawl-2021-ukr.ukr
  • Leipzig-web-2019_1m-ukr_UA.ukr_UA
  • Čeština

  • Leipzig-news-2022_1m-ces.ces
  • Leipzig-newscrawl-2019_1m-ces.ces
  • Leipzig-wikipedia-2021_1m-ces.ces
  • Statmt-commoncrawl-wmt22-ces.ces
  • Statmt-europarl-10-ces.ces
  • Statmt-news_commentary-17-ces.ces
  • Statmt-news_crawl-2021-ces.ces
  • Paralelní texty

  • ELRC-acts_ukrainian-1-ces-ukr: ces ukr
  • Facebook-wikimatrix-1-ces-ukr: ces ukr
  • OPUS-ccmatrix-v1-ces-ukr: ces ukr
  • OPUS-elrc_wikipedia_health-v1-ces-ukr: ces ukr
  • OPUS-eubookshop-v2-ces-ukr: ces ukr
  • OPUS-kde4-v2-ces-ukr: ces ukr
  • OPUS-multiparacrawl-v9b-ces-ukr: ces ukr
  • OPUS-opensubtitles-v2018-ces-ukr: ces ukr
  • OPUS-qed-v2.0a-ces-ukr: ces ukr
  • OPUS-tatoeba-v20220303-ces-ukr: ces ukr
  • OPUS-ted2020-v1-ces-ukr: ces ukr
  • OPUS-ubuntu-v14.10-ces-ukr: ces ukr
  • OPUS-wikimedia-v20210402-ces-ukr: ces ukr
  • OPUS-xlent-v1.1-ces-ukr: ces ukr