HW5: Huffmanovo Kódovanie | PB160 Programování v jazyce C

Odevzdávání částí A a B je ukončeno.

Autor zadání	Radoslav Sabol
Úprava	Radoslav Sabol
Odevzdávané soubory	src/*
Konec odevzdání části A	2026-04-21 24:00
Konec odevzdání části B	2026-05-21 24:00

Kostru k úkolu nelze stáhnout

Predstavenie úlohy

V kontexte kompresie v informačnej teórii uvažujme o konečnej, neprázdnej množine $\Sigma$ (alebo inač povedané, abecede) a pravdepodobnostnom rozdelení $P: \Sigma \rightarrow [0,1]$. Vašou úlohou je skonštruovať prefixové kódovanie $C: \Sigma \rightarrow \{0,1\}^*$. Kódovanie musí byť také, aby očakávaná dĺžka kódu $L(C) = \sum_{s \in \Sigma} P(s) \cdot\bigl|C(s)\bigr|$ bola asymptoticky minimalizovaná v súlade so Shannonovou entropiou $H(P) = −\sum_{s\in\Sigma} P(s) \log_2 P(s)$, pričom je rešpektovaná štandardizovaná forma kladená kanonickou verziou Huffmanového algoritmu.

Skvelé, nie? A teraz menej formálne. Vašou úlohou je implementovať Huffmanovo kódovanie, teda algoritmus pre bezstrátovú kompresiu dát, ktorý prevedie znaky vstupného súboru (odteraz "symboly") na postupnosti bitov (odteraz "kódové slová") také, že vo výsledku minimalizujete veľkosť výstupného súboru. Intuitívne – symbolom, ktoré sa vo vstupnom súbore vyskytujú najčastejšie, priradíte kratšie kódové slová, zatiaľ čo najviac zriedkavým symbolom priradíte tie najdlhšie.

Huffmanov kód má v praxi široké využitie ako súčasť moderných kompresných algoritmov. Konkrétne je kódovanie súčasťou komplexnejších algoritmov (DEFLATE) a má využitie v bežne používaných formátoch ako ZIP, gzip, a JPEG.

Prvá časť (A)

Vašou úlohou bude implementovať dve funkcie:

int huffman_encode(const char *input_path, const char *output_path);
int huffman_decode(const char *input_path, const char *output_path);

Parameter input_path obsahuje cestu ku vstupnému binárnemu súboru. V prípade, že je cesta nullptr, alebo operačný systém nedokáže otvoriť súbor z ľubovoľného dôvodu, vypíšte na štandardný chybový výstup vhodnú hlášku a program ukončite.

Podobné pravidlá platia pre cestu ku výstupnému súboru output_path s jednou výnimkou. V prípade, že je output_path nullptr, vypíšte výstup na stdout.

Obe funkcie vrátia 0 v prípade úspechu a ľubovoľné iné číslo v prípade chyby. Program tak isto skončí s chybou v prípade, že je vstupný súbor prázdny.

Algoritmus pre huffman_encode

Uvažujme, že symbol má dĺžku 1 bajt.

Postup je nasledovný:

Pre každý znak vo vstupnom súbore spočítame jeho absolútnu frekvenciu, t.j. jeho počet výskytov.
Vypočítajte optimálnu dĺžku kódu pre každý symbol vyskytujúci sa v súbore. Podľa algoritmu je potrebné vybudovať binárny strom odspodu nahor, kde listy obsahujú samotné symboly a ich frekvencie. Ku konštrukcii sa vám hodí vaša obľúbená implementácia prioritnej fronty, a mala by prebiehať nasledovne:
1. Do prioritnej fronty uložte všetky listy stromu (teda symboly a ich frekvencie)
2. Keď má prioritná fronta len jeden prvok, tak váš strom je hotový a onen prvok sa stáva koreňom stromu
3. Vyberte 2 najmenšie prvky z prioritnej fronty. Vytvorte nový uzol – jeho potomkovia budú práve vybrané prvky a jeho frekvencia bude súčet frekvencií potomkov. Vložte nový uzol do prioritnej fronty.
4. Vráťte sa na krok b.
  - Strom máte hotový. Dĺžka optimálneho kódovania pre daný symbol v bitoch je dĺžka cesty od koreňa stromu ku listu dotyčného symbolu. V momente, ako si tieto dĺžky uchováte, strom už nebudete naďalej potrebovať.
Priraďte symbolom konkrétne kódové slová podľa kanonického Huffmanovho kódovania:
1. Zoradte symboly vzostupne: primárne podľa dĺžky kódu, sekundárne podľa hodnoty symbolu (0–255). Pre multi-bajtové symboly (časť B) použite lexikografické zoradenie (porovnanie bajt po bajte, podobne ako memcmp).
2. Prvému symbolu v zoradenom zozname priraďte kód = 0
3. Pre každý ďalší symbol v zozname:
  - Ak má rovnakú dĺžku ako predchádzajúci symbol: kód = predchádzajúci_kód + 1
  - Ak je dlhší o k bitov: kód = (predchádzajúci_kód + 1) << k
Huffmanov kód je hotový, môžete ho použiť na zakódovanie vstupného súboru.

Ak sa vo vstupnom súbore nachádza práve jeden unikátny symbol, jeho dĺžka kódu musí byť vynútená na hodnotu 1 (nie 0) a jeho kód musí byť 0. Toto zabezpečí, že dekodér správne spracuje aj súbory obsahujúce iba jeden symbol.

Variant, ktorý v tejto úlohe implementujeme, je takzvaný "Kanonický Huffmanov kód". Od klasického algoritmu sa líši predovšetkým v kroku 3, ktorý nám zabezpečuje deterministickejšie správanie v prípadoch, že niektoré symboly majú identické frekvencie.

Vstupný súbor môže byť ľubovoľnej dĺžky – v žiadnom prípade ho nenačítajte do pamäte celý, aj keď to pre vás bude znamenať viacero priechodov

Požiadavky na výstup

V tejto sekcii popíšeme, ako by mal vyzerať obsah výstupného súboru pre huffman_encode. Bohužiaľ nestačí zapísať len zakódovaný bitový prúd – navyše potrebujeme aj určitú nápovedu, aby bol súbor deterministicky dekódovateľný. Preto bude výstupný súbor rozdelený na 3 časti:

+------------------+------------------+------------------+
| number_of_codes  |  code_lengths    |  encoded_input   |
|   (8 bytes)      |  (256 bytes)     |  (variable)      |
|   uint64_t LE    |  256× uint8_t    |  bitový prúd     |
+------------------+------------------+------------------+

number_of_codes – hodnota typu uint64_t v little-endian formáte, obsahuje počet zakódovaných symbolov. Tento parameter vám pri dekódovaní pomôže rozoznať rozdiel medzi validnými kódovými slovami a zarovnaním v poslednom bajte.
code_lengths – pole 256 hodnôt typu uint8_t, kde code_lengths[i] obsahuje dĺžku kódu pre symbol s hodnotou i (0–255). V prípade, že sa znak vo vstupe nevyskytuje, ponechajte túto hodnotu na nule.
encoded_input – sekvencia bitov zodpovedajúca kanonickému Huffmanovmu kódovaniu. V prípade, že posledný bajt nie je dokonale zarovnaný, doplníme ho nulami.

Príklad

Máme vstupný súbor s nasledujúcim obsahom: "eebbeecdebeeebecceeeddeb bbeceedebeeddeeeeccee eedeeedeeebeedeceedeb eeedeceeedebe"

Výsledné kódovanie máte v tabuľke nižšie. Pri výpočte kódov sa používa kanonické zoradenie: najprv podľa dĺžky kódu, potom podľa hodnoty symbolu.

Symbol	Frekvencia	Dĺžka kódu	Kódovanie
'e'	48	1	0
'd'	12	2	10
'b'	11	3	110
medzera	3	4	1110
'c'	8	4	1111

Pre lepšie pochopenie kroku 3 (priradenie kódov) uvádzame detailný výpočet:

Symbol	Dĺžka	Výpočet kódu	Kód (binárne)
'e'	1	0	0
'd'	2	(0 + 1) << 1 = 2	10
'b'	3	(2 + 1) << 1 = 6	110
medzera	4	(6 + 1) << 1 = 14	1110
'c'	4	14 + 1 = 15	1111

Dĺžky kódovaní boli odvodené zo stromu, ktorý nájdete nižšie:

        (82)
       /    \
    (34)     e(48)
   /    \
d(12)   (22)
       /    \
    (11)     b(11)
   /    \
space(3) c(8)

Po zakódovaní bude výstupný súbor v hexadecimálnom zápise vyzerať následovne:

00000000: 5200 0000 0000 0000 0000 0000 0000 0000  R...............
00000010: 0000 0000 0000 0000 0000 0000 0000 0000  ................
00000020: 0000 0000 0000 0000 0400 0000 0000 0000  ................
00000030: 0000 0000 0000 0000 0000 0000 0000 0000  ................
00000040: 0000 0000 0000 0000 0000 0000 0000 0000  ................
00000050: 0000 0000 0000 0000 0000 0000 0000 0000  ................
00000060: 0000 0000 0000 0000 0000 0304 0201 0000  ................
00000070: 0000 0000 0000 0000 0000 0000 0000 0000  ................
00000080: 0000 0000 0000 0000 0000 0000 0000 0000  ................
00000090: 0000 0000 0000 0000 0000 0000 0000 0000  ................
000000a0: 0000 0000 0000 0000 0000 0000 0000 0000  ................
000000b0: 0000 0000 0000 0000 0000 0000 0000 0000  ................
000000c0: 0000 0000 0000 0000 0000 0000 0000 0000  ................
000000d0: 0000 0000 0000 0000 0000 0000 0000 0000  ................
000000e0: 0000 0000 0000 0000 0000 0000 0000 0000  ................
000000f0: 0000 0000 0000 0000 0000 0000 0000 0000  ................
00000100: 0000 0000 0000 0000 363e 619f e29b b679  ........6>a....y
00000110: 3141 fe71 0862 7937 09e2 60              1A.q.by7..`

5200 0000 0000 0000 (little-endian) je number_of_codes, ktorý odpovedá číslu 82
Následuje dlhá séria núl, keďže valná väčšina znakov je nevyužitých. Každopádne, môžete vidieť, ako prvá 04 odpovedá dĺžke kódovania pre medzeru (ASCII 32), a 0304 0201 sú dĺžky kódovania pre znaky 'c', 'b', 'd', 'e'

od 363e ďalej je samotný obsah súboru. V binárnej podobe pre lepšie porovnanie s tabulkou vyzerá obsah následovne:

00000108: 00110110 00111110 01100001 10011111 11100010 10011011  6>a...
0000010e: 10110110 01111001 00110001 01000001 11111110 01110001  .y1A.q
00000114: 00001000 01100010 01111001 00110111 00001001 11100010  .by7..
0000011a: 01100000

Algoritmus pre huffman_decode

Dekódovanie vstupného súboru by malo prebiehať nasledovne:

Načítajte hlavičku súboru, ktorá obsahuje počet symbolov v kóde a dĺžky prefixových kódov pre každý symbol.
Keďže máte k dispozícii dĺžky kódov podobne ako pri zakódovaní, zopakujte 3. krok z algoritmu kódovania, aby ste získali konkrétne kódové slová.
Kódové slová použite pri dekódovaní súboru. Pre vyhľadávanie správneho symbolu použite vhodnú dátovú štruktúru.

Do výstupného súboru zapisujte už len samotný obsah dekódovaného súboru. Intuitívne, výstup pre encode a následný decode by mal byť totožný so vstupným súborom. Navyše, keď nájdete akýkoľvek problém s konzistenciou (počet symbolov v hlavičke nesúhlasí s počtom symbolov v obsahu, obsah obsahuje znaky, ktoré nie sú Huffmanovým kódom…), program okamžite ukončite s vhodnou chybovou hláškou.

Testovanie

V adresári test/ máte okrem základných testov dodanú malú vzorku súborov v test/test_files - členenie do podadresárov je následovné:

input/ - vstupné súbory
output/ - očakávané výstupy
test_outputs/ - adresár do ktorého sa zapisujú výstupy vášho riešenia - môžete ich použiť na ďalšie ladenie

Keďže testy majú cesty k súborom zadané na pevno, budete ich musieť spúšťať z adresára hw5, a to následovne:

./build/test/src-test

Druhá časť (B)

V minulej časti ste implementovali jednoduchú kompresiu pomocou Huffmanového kódovania nad slovníkom o velkosti 1 bajt. Dátovou analýzou vstupných súborov ste však prišli na to, že susedné bajty sú silno korelované. Využitie tejto vlastnosti by znamenalo, že výsledná kompresia by bola ešte efektívnejšia - avšak aktuálna implementácia nedokáže túto vlastnosť dostatočne využiť. Preto druhá časť rozširuje pôvodnú implementáciu o parametrizovatelnú velkosť slovníka.

Verejné rozhranie pre Huffmanovo kódovanie sa upraví následovne:

int huffman_encode(const char *input_path, const char *output_path, uint8_t symbol_bytes);
int huffman_decode(const char *input_path, const char *output_path);

Nový parameter symbol_bytes predstavuje velkosť slovníka v bajtoch. Intuitívne, hodnota 1 produkuje kódy ktoré sú identické s časťou A. Očakávané návratové hodnoty ostávajú rovnaké. Pre hodnotu symbol_bytes = 0 kód vypíše vhodnú chybovú hlášku a program ukončí.

huffman_encode

Algoritmus kódovania ostáva rovnaký ako v časti A s jednou zásadnou zmenou - frekvenčnú analýzu a následovný výpočet prefixového kódu vykonávame nad symbolmi ktoré majú velkosť určenú parametrom symbol_bytes. Vstupné bajty ukladajte v poradí, v ktorom prichádzajú. V prípade, že pri čítaní zistíme, že vstup nieje delitelný velkosťou slovníka, vyplníme vstup nulami. Tieto nulové bajty tvoria posledný kompletný symbol, ktorý sa započíta do frekvenčnej analýzy.

Formát hlavičky, ktorý bol definovaný v časti A je bohužial nepostačujúci. Počet možných symbolov rastie exponenciálne s počtom bajtov, a preto je udržiavanie všetkých znakov abecedy čoraz viac nepraktické. Preto upravte hlavičku tak, aby symboly reprezentovala v takzvanom "riedkom formáte", teda bude udržiavať len symboly ktoré sa vyskytujú vo vstupnom súbore.

[symbol_bytes: uint8_t]
[byte_count: uint64_t]
for each used_symbol:
    [symbol: symbol_bytes × uint8_t]
    [code_length: uint16_t]
[bitstream...]

symbol_bytes – hodnota typu uint8_t ktorá určuje velkosť slovníka v bajtoch (teda hodnota vstupného parametra pre huffman_encode)
byte_count – hodnota typu uint64_t, ktorá reprezentuje počet zakódovaných bajtov originálneho vstupu - toto je z dôvodu vyplnenia posledného znaku nulami
used_symbol – sekvencia všetkých unikátnych symbolov ktoré sa vyskytujú vo vstupnom súbore. Táto postupnosť bude zoradená kanonicky. Navyše bude vždy obsahovať symbol s hodnotou symbol_bytes x 0xff (teda najvyžšia možná hodnota v abecede) aj v prípadoch, že jeho výskyt bude nulový. Tento symbol navyše predstavuje separátor medzi hlavičkou a skutočnými dátami. Pri konštrukcii kódovania (priraďovaní kódových slov) sa symbol použije len vtedy, keď sa v súbore vážne nachádza.
- symbol a code_length: zoznam konkrétnych hodnôt symbolov a s nimi súvisiace dĺžky kódovania. Všimnite si, že code_length bol rozšírený na 16 bitov a to z dôvodou, aby mohol reprezentovať aj viac patologické prípady (frekvenčne velmi nevyvážené súbory).
bitstream: samotný zakódovaný prúd bajtov podobne ako v časti A

Príklad

Zoberme vstupný súbor podobný tomu z pôvodného zadania: "aaaabbbbbbbbccdddddd". Parameter symbol_bytes je rovný 2.

Symbol	Frekvencia	Dĺžka kódu	Kódovanie
'bb'	4	1	0
'dd'	3	2	10
'aa'	2	3	110
'cc'	1	3	111

Pre lepšie pochopenie kroku 3 (priradenie kódov) uvádzame detailný výpočet:

Symbol	Dĺžka	Výpočet kódu	Kód (binárne)
'bb'	1	0	0
'dd'	2	(0 + 1) << 1 = 2	10
'aa'	3	(2 + 1) << 1 = 6	110
'cc'	3	6 + 1 = 7	111

Dĺžky kódovaní boli odvodené zo stromu, ktorý nájdete nižšie:

    (10)
   /    \
bb(4)   (6)
       /   \
    (3)   dd(3)
   /   \
cc(1) aa(2)

Po zakódovaní bude výstupný súbor v hexadecimálnom zápise vyzerať následovne:

00000000: 0214 0000 0000 0000 0062 6201 0064 6402  .........bb..dd.
00000010: 0061 6103 0063 6303 00ff ff00 00d8 3d40  .aa..cc.......=@

02 hodnota symbol_bytes
1400 0000 0000 0000 (little-endian) je byte_count, ktorý odpovedá číslu 20
Symboly zoradené podľa kanonického usporiadania spolu s dĺžkami kódov, teda "bb" = 1, "dd" = 2, "aa" = 3, a "cc" = 4
Hodnota 0xffff s hodnotou 0, kedže sa vo vstupnom súbore neobjavuje
0xd83d40 je samotný obsah súboru

huffman_decode

Funkcia huffman_decode vyčíta parameter symbol_bytes z hlavičky vstupného súboru. Potom následuje správanie obdobné pôvodnému huffman_decode, akurát že uspôsobené na upravený formát hlavičky.

Poznámky

Dbajte na korektnú prácu so súbormi a dynamicky alokovanou pamäťou.
Ošetrite všetky chybové stavy a vypíšte zmysluplné chybové hlášky.