Úkol: vyhodnocení kvality trénovacích dat pro strojový překlad

Systémy strojového překladu učíme na paralelních textech, kde máme páry vět ze dvou jazyků. Dále můžeme využít i jednojazyčné korpusy.

V obou případech potřebujeme texty maximálně kvalitní. Úkolem je pro vybrané datové soubory zjistit, jestli, případně jak, jsou použitelné pro učetní strojového překladu.

Možné problémy v datech:

Z následujích seznamů si vyberte soubory pro jazyk, kterému dobře rozumíte. Pro každý soubor samostatně:

  1. popište probémy, proč jsou některé věty pro učení překladu nevhodné
  2. napište program/skript, který problémové řádky detekuje, případně alespoň popište postup slovně
  3. napište program/skript, který problémové řádky opraví, aby byly použitelné (např. smaže nežádoucí část)

Za celý úkol můžete získat maximálně 20 bodů. Zhruba 5 bodů za jeden soubor (příp. pár souborů u paralelních). Jednotlivé soubory nemusíte zpracovat do stejné podrobnosti, u jednoho můžete jen popsat problémy, u jiného napsta skipty na detekci problémů či opravu. Hlavním kritériem bude množství "pozorování", co všechno a do jaké podrobnosti dokážete v textech najít.

Termín: do 9.7. 2025.

Texty jsou organizovány po řádcích, jeden řádek je jeden "učicí" příklad pro trénování. Paralelní sady mají vždy dva soubory, pro každý jazyk jeden, se stejným počtem řádků. Zarovnání řádků je dáno jejich pořadím. Do jednoho soboru si je můžete spojit např. příkazem paste xxx.ces.txt xxx.ukr.txt >xxx.ces-urk.txt

Jednojazyčné texty

Ukrajinština

  1. LangUk-fiction-1-ukr.ukr
  2. LangUk-laws-1-ukr.ukr
  3. LangUk-news-1-ukr.ukr
  4. LangUk-ubercorpus-1-ukr.ukr
  5. LangUk-wiki_dump-1-ukr.ukr
  6. Leipzig-news-2022_1m-ukr.ukr
  7. Leipzig-newscrawl-2018_1m-ukr.ukr
  8. Leipzig-wikipedia-2021_1m-ukr.ukr
  9. Statmt-news_crawl-2023-ukr.ukr

Čeština

  1. Leipzig-news-2022_1m-ces.ces
  2. Leipzig-newscrawl-2019_1m-ces.ces
  3. Leipzig-web_public-2019_1m-ces.ces
  4. Leipzig-wikipedia-2021_1m-ces.ces
  5. Statmt-commoncrawl-wmt22-ces.ces
  6. Statmt-europarl-10-ces.ces
  7. Statmt-news_commentary-18.1-ces.ces
  8. Statmt-news_crawl-2023-ces.ces

Paralelní texty

  1. ELRC-acts_ukrainian-1-ces-ukr: ces, ukr
  2. Facebook-wikimatrix-1-ces-ukr: ces, ukr
  3. OPUS-bible_uedin-v1-ces-ukr: ces, ukr
  4. OPUS-ccmatrix-v1-ces-ukr: ces, ukr
  5. OPUS-elrc_5179_acts_ukrainian-v1-ces-ukr: ces, ukr
  6. OPUS-eubookshop-v2-ces-ukr: ces, ukr
  7. OPUS-kde4-v2-ces-ukr: ces, ukr
  8. OPUS-multiccaligned-v1.1-ces-ukr: ces, ukr
  9. OPUS-multiparacrawl-v9b-ces-ukr: ces, ukr
  10. OPUS-opensubtitles-v2018-ces-ukr: ces, ukr
  11. OPUS-qed-v2.0a-ces-ukr: ces, ukr
  12. OPUS-tatoeba-v20220303-ces-ukr: ces, ukr
  13. OPUS-ted2020-v1-ces-ukr: ces, ukr
  14. OPUS-wikimedia-v20210402-ces-ukr: ces, ukr
  15. OPUS-xlent-v1.1-ces-ukr: ces, ukr