Historie VT: Historie, současnost a budoucnost určování frekvencí tónů v hudebním SW.


V následujícím článku se budeme zabývat matematickou reprezentací pojmu nota v hudebním programovém vybavení počítačů. Proto si nejprve něco řekneme o způsobu, jakým je hudební záznam v počítači vůbec uložen. Principielně jsou používány dvě metody.

První tzv. vzorkuje zvukový signál. Jde o to, že v určitých časových okamžicích je odečtena hodnota zvukového signálu (pochopitelně je stanovena jakási nula). Nahráváme-li například v CD kvalitě, vzorkuje se signál 44100 krát za sekundu. Takto získaný signál je možno v nějakém wave-editoru zpracovat a pak uložit třeba jako soubor typu *.wav, *.mp3, *.ra nebo nějaký takový podobný formát. A právě při úpravě daného signálu v editoru můžeme požadovat znalost konkrétní noty, kterou reprezentuje (v praxi je to typicky složitější, protože se nejedná o jednoduchou alikvontní notu, ale o celý akord). Tato funkce bývá dost často ve wave-editorech dostupná (GoldWave, Cool Edit, ...), nicméně přístupy, jakými je nota zjištěna, mohou být rozdílné. Nejjednodušší variantou je počítat průchody nulou, případně signál nějakým způsobem vyhlazovat (Fourierova transformace), ale lze použít třeba i umělou inteligenci. Tím zjistíme frekvenci tónu, z čehož ovšem vůbec není jednoduché usoudit, o jakou notu vlastně jde. Metody, jakými se frekvence převádějí na noty, budou objasněny v následujících odstavcích (jde o velmi zajímavé postupy, ale je třeba znát alespoň základy hudební teorie). Teoreticky se však u těchto typů souborů bez znalosti vazby nota-frekvence můžeme obejít.

O dost odlišná situace je u těch záznamů zvuku, kdy si v souboru pamatujeme jen noty a jejich délky a konkrétní frekvence dopočítáváme až při přehrávání (formáty *.mid, *.mod, *.nwc a podobně). Zde jde vlastně o opačný proces jako v předchozím případě (wave-editory).

Porovnávání frekvencí se v hudební akustice nazývá ladění. Tedy pokud se hudebníci před vlastní produkcí ladí (typicky je možno slyšet před začátkem hraní symfonického orchestru), porovnávají frekvence svých nástrojů na konkrétním tónu. Pro mechanické stroje je však nutno přesně popsat nějakou metodu, jak se tato činnost má dělat. Historicky se nejprve objevily ladičky. Zprvu jen pro daný tón, který vlastně jen udávaly a srovnání bylo necháno na člověku, později se objevily ladičky, které byly (a jsou, neboť se používají dodnes) schopny danou notu analyzovat a určit, o kolik se liší od ideálu. Z níže popsaných metod je jasné, že nejjednodušší je použít temperované ladění (a tak se to také ve všech ladičkách dělá).

Při řešení problému nota-frekvence se u počítačů okopíroval postup ladiček, ale ten nemá (kromě výpočetní jednoduchosti, která již není zásadním problémem) ty nejlepší vlastnosti vzhledem k reálným zvukům (člověk, který například zpívá, se nedrží temperovaného ladění, ale ladění čistého, což ovšem nemá nic společného s tím, zda zpívá čistě či falešně). V této fázi asi bude vhodné říci něco víc o typech ladění a pak se ještě na chvíli vrátit k použití a využití získaných výsledků v hudební akustice, resp. počítačovém SW.

Věnujme se tedy nyní té nejdůležitější a nejzajímavější části hudební teorie (co se týče ladění) použité při výpočtech typu nota-frekvence podrobněji (resp. do dost velkých detailů: ale alespoň bude vidět, že při programování hudebního SW zdaleka nevystačíme na profesionální úrovni se znalostí nějakého vhodného programovacího jazyka :-) ).





1. Temperované ladění


Každý výrobce hudebního SW stojí (dříve či později) před volbou matematického vyjádření pojmu nota. Z fyziky víme, že ji lze charakterizovat pomocí veličiny zvané frekvence, což je typicky reálné číslo. Jakým způsobem se však nota na toto číslo převede? O to právě jde. Možná, že spousta lidí ani netuší, že možností je více. A právě tomuto bych se chtěl v následujícím článku věnovat. Výpočetně nejjednodušší varianta je určitě temperované ladění, ale už z názvu čisté ladění vyplývá, že čisté ladění bude asi v něčem lepší (jako čisté či přirozené bývá označováno ladění "pýthagorejské"). A proč se tedy nepoužívá? Na to se právě budu snažit odpovědět (důvody jsou principielně dvojího druhu: enharmonická záměna (cis není des) a nutnost znát tóninu, ve které je věc nahrána (nota C v C-dur nemá stejnou frekvenci jako nota C v A-dur: 27/16 * 81/64 * 81/64 / (4/3) / 2 není 1, ale právě tzv. Pýthagorejské komma)).





2. Pýthagorejská teorie hudby


Výklad budeme provádět z hlediska dnešní terminologie na antické iónské stupnici, která je ekvivalentem současné stupnice durové: "intervaly obou těchto stupnic" jsou shodné, a to T-T-S-T-T-T-S, kde T značí celý tón (tone) a S půltón (semitone). "Opačná stupnice" ... místo Pýthagorova poměru 2:3 pro kvintu budeme uvažovat poměr 3:2. Pýthagorejci nezkoumali poměry na základě frekvencí (jako to budeme dělat my), ale na základě délek strun (stejných fyzikálních vlastností - např. napnutí) ... pak je vztah mezi déklou struny (l) a frekvencí "jejího základního tónu" (f) vyjádřen vzorcem f=kc/l, kde c je rychlost zvuku a k bezrozměrná konstanta vyjadřující fyzikální vlastnosti dané struny. Pýthagorejci hledali popis "libozvučných intervalů" pomocí poměrů čísel; vycházeli přitom ze "základních poměrů" 1:2 (dnes: oktáva) a 2:3 (dnes: přibližně kvinta).

Dospěli k tabulce, jejíž interpretace je následující:
    nota [c] má jednotkovou frekvenci,
    nota [d] má frekvenci rovnu 9/8 jednotkové frekvence
    nota [e] má frekvenci rovnu 81/64 jednotkové frakvence a tak dále:

Pyth: stupnice C-dur


Postup výpočtu hodnot v této tabulce:
    1.) hodnota 1 má význam jednotky, hodnoty 3/2 a 2 jsou "základní" - vychází se z nich a nijak se matematicky neodůvodňují
    2.) "pokud se posuneme o dvě kvinty nahoru od noty [c], dostaneme se na notu [d'] a pokud od této noty půjdeme o jednu oktávu dolů, dostaneme se na notu [d]" - tedy "poměr" noty [d] bude

Pyth: nota [d]


    3.) "stejně jako jsme přešli od noty [c] k notě [d], přejdeme od noty [d] k notě [e]" - tedy "poměr" noty [e] bude

Pyth: nota [e]


    4.) dále následuje půltón (S) - nelze použít opět poměr 9/8; ale od noty [g] "zpět" k notě [f] je celý tón (T) - proto "poměr" noty [f] bude

Pyth: nota [f]


    5.) analogicky jako jsme přešli od noty [c] k notě [d] a od noty [d] k notě [e] je nyní možno přejít od noty [g] k notě [a] a od noty [a] k notě [h] - tedy "poměry" not [a] a [h] budou

Pyth: noty [a] a [h]


    6.) ještě zkontrolujeme poměry obou půltónů ve stupnici; podíl frekvencí mezi notami [e] a [f] je

Pyth: půltón [e]-[f]


a mezi notami [h] a [c'] to je

Pyth: půltón [h]-[c']


proto by se mohlo zdát, že "základní" hodnoty 1:2 a 2:3 byly stanoveny dobře a výpočty 2.) - 5.) jsou v pořádku.

Ale skládejme "nad sebe" kvinty tak dlouho, až se dostaneme "na stejný tón, ze kterého jsme vyšli", a pak skládejme "zpět" oktávy, tedy:

Pyth: schéma kvinty x oktávy


mělo by tedy platit, že "12 kvint = 7 oktáv", ale

Pyth: poměr kvinty x oktávy


a přitom by toto číslo mělo být rovno 1, protože "jsme se vrátili" na stejný tón, "ze kterého jsme vyšli". Tato hodnota se nazývá Pýthagorejské komma a v současnosné terminologii (s použitím temperovaného ladění, které používají například ladičky) bychom ji mohli v jednotce cent vyjádřit jako

Pyth: Pýthagorejské komma v centech


což by byla zhruba osmina celého tónu (půltónu odpovídá 100 centů). Tuto situaci už Pýthagorejci nijak nedořešili (a vlastně ani nemohli dořešit - k uspokojivému vysvětlení je totiž potřeba pracovat s iracionálním číslem Pyth: \root12\of2).

Analogický problém se projevuje například při kombinování oktávy s libovolným jiným intervalem než právě s oktávou (resp. primou):

Pyth: sekundy x oktávy

Pyth: tercie x oktávy

Pyth: kvarty x oktávy

Pyth: sexty x oktávy

Pyth: septimy x oktávy


I když se tedy pýthagorejská teorie hudby zdá být špatná, bylo by asi vhodné její srovnání se v současnosti používaným temperovaným laděním (uvažme frekvenci noty [c] jako 262 Hz):

Pýthagorejci vs. Temperovaný systém






3. Ostatní modely


V historii teorie hudby byly různé pokusy o řešení této situace - jedním z nejznámějších modelů (dodnes zejména v teoretických úvahách používaný) je model Vincenza Galileie (1520 - 1591), otce slavného astronoma Galilea Galileie (1564 - 1642):

Galilei: stupnice C-dur


Postup výpočtu hodnot v této tabulce:
    1.) [c], [g], [c'], [d] a [f] stejně jako Pýthagorejci
    2.) poměr noty [e] stanovil jako 5/4
    3.) pomocí not [f] a [e] stanovil "poměr půltónu" takto:

Galilei: poměr půltónu


    4.) tento poměr aplikovat na výpočt "poměru" noty [h] pomocí noty [c'] - tedy "poměr" noty [h] je

Galilei: nota H


    5.) "mezi notami [a] a [h] je celý tón (poměr 9/8)" - tedy "poměr" noty [a] je

Galilei: nota A


Nyní srovnejme všechny tři zmiňované systémy (pýthagorejský, Galileiův a temperovaný):

Srovnávací tabulka tří systémů P,G,T


Všechny hodnoty z posledních dvou řádků této tabulky jsou v absolutní hodnotě menší jak 1, tedy "rozdíly" mezi těmito teoriemi hudby jsou přibližně v řádech pětin centů:

Pětina centu jako logaritmus podílu frekvencí


Je tedy vidět, že rozdíly jsou v podstatě jen teoretické, lidské ucho je prakticky není schopno zaznamenat (proto i drtivá většina ladiček a počítačových programů zabývajících se touto problematikou používá výpočetně nejjednodušší temperovaný systém).

Galileiho stupnice vypadá "hůř" ve srovnání s Pýthagorejskou pomocí temperovaného ladění. Proč (když byla zavedena jako "zlepšení")? Protože temperované ladění využívá enharmonické záměny (cis=des, dis=es, ...). Ale enharmonická záměna je "hloupost". Nota [g] nemá stejnou frakvenci v různých tóninách a také kvinta v jedné stupnici nemusí být "totožná" s kvintou ve stupnici jiné (nebo libovolný jiný interval). Odtud také tvrzení, že některé stupnice jsou "tvrdé/závažné" a jiné "měkké/lehké" (zde nemyslím rozdíl dur x moll, ale například rozdíly mezi dvěma stupnicemi durovými nebo 2 různými stupnicemi mollovými. A opravdu - naprostá většina řekněme "veselých lidových písní" je psána v "béčkových" stupnicích (v předznamenání mají béčka a ne křížky: F, Hes, Es, As, Des, Ges, Ces - dur, resp. d, g, c, f, hes, es, as - moll), zatímco s velkou pravděpodobností bude symfonie napsána "v křížkových tóninách" (G, D, A, E, H, Fis, Cis - dur, resp. e, h, fis, cis, gis, dis, ais - moll).

Ani v současnosti "není jasno", která teorie je správná - problém bych ilustroval na určení frekvence noty [c] v závislosti na nějaké jednotce (podle [6]):

Frekvence noty [c]





4. Hudební SW


Jak bylo již dříve zmíněno: pro přehrávání zvukových souborů na počítači není důvod používat jiný systém než temperovaný. Má několik výhod zejména vzhledem k případným manipulacím se záznamem (typu zvýšení frekvencí všech tónů na trojnásobek). Pokud bychom používali nějaký jiný systém (například některý ze dvou výše vysvětlených), museli bychom na tuto operaci znát tóninu, ve které byla originální nahrávka vyrobena. Její "pamatování" by asi nebyl problém, ale jak ji určit, nahráváme-li třeba "živě na mikrofon"? Chtít ji zadat uživatelem (potencionální zdroj významné chyby)? Automatická detekce je vyloučena. Na druhé straně: pokud bychom nějaký záznam "výrazně zvýšili" (řekněme řádově o desítky oktáv), provedli s ním nějakou transformaci a pak jej "snížili zpět", může se nám stát, že celkově změní charakter (viz výše rozdíl mezi lidovkou a symfonií). Proč ale dělat transformace tak oklikou (nejprve "drasticky" záznam zvyšovat a pak snižovat)? Důvod může být jednoduchý: čím vyšší frekvence tónu, tím větší absolutní hodnota rozdílu frekvencí jeho "sousedů". Pravdou je, že současné všeobecně používané počítačové programy tuto vlastnost nevyužívají, ale možná jednou ...




Zájemce (nebo spíše "neznalce") použitých hudebních termínů a zápisů bych odkázal na soubor pth.ps, kde se nachází malý hudební slovníček použitých pojmů, seznam literatury a také všechny odprezentované obrázky, které bylo podle mne vhodné sázet v TeXu (díky své "matematické nejednoduchosti"). Tímto bych se chtěl za kvalitu GIFů omluvit, po kliknutí na libovolný z nich by se měla jeho čitelnost zvýšit, případně je možno si je v pth.ps prohlédnout kvalitně. Velikost obrázků je odvozena od velikosti okna prohlížeče, "rozumná" je alespoň 800x600.


Literatura: veškerá použitá literatura je uvedena v souboru pth.ps, zde bych uvedl jen tu nejvíce využitou:
       Putna F., Vznik a podstata tónu u tenorového pozounu, Ediční sbor Sdružení rodičů a přátel konzervatoře v Brně, Brno, 1972.


Zbyněk Uher, 17. 4. 2001