Adancimea/numarul de biti si rata de esantionare – partea I

Mare parte din placile audio disponibile pe piata ofera posibiltatea de inregistrare/prelucrare a semnalului la mai multe adancimi de biti si rate de esantionare. Dar ce inseamna aceste marimi si care este influenta lor asupra inregistrarilor voastre? Pentru a raspunde la aceste intrebari (cu parantezele clasice de rigoare), va rugam cititi mai departe.

Formatul PCM

Dupa cum e posibil sa stiti, informatia audio de pe DAW-ul propriu se inregistreaza in general in format PCM, la o anume adancime de biti si la o anumita rata de esantionare.

Formatul PCM (pulse-code modulation) este folosit pentru encodarea informatiei analogice intr-o serie de esantioane achizitionate la o anumita perioada de timp distanta intre ele.

Cea mai simpla metoda pentru a intelege acest aspect este urmatoarea – avem o simpla unda sinusoidala, care in domeniul analogic arata asa:

1

Dupa cum vedeti, in lumea reala, analogica, ea este o curba “fluida”, fara intreruperi, salturi, samd – pe cat permite rezolutia reprezentatiei vizuale (a pozei), bineinteles. Pentru a o putea discretiza (converti in semnal digital), avem nevoie sa impartim perioada respectiva a sinusoidalei intr-un numar oarecare de “distante” in timp, pentru a putea esantiona:

2

Astfel, in momentul in care sinusoidala ajunge in dreptul fiecarei linii rosii, se va “nota” in calculator (prin intermediul convertorului analog-digital) ceva asemanator cu: “in momentul x, amplitudinea semnalului are valoarea z1; la momentul x+1, el are valoarea z2; samd”. Nu se acorda importanta valorilor dintre perioadele de esantionare, ele vor fi liniarizate in mod automat de catre conversie, rezultatul fiind urmatorul, in format digital:

3

Nu prea seamana a sinusoidala antementionata, nu-i asa?

Rata de esantionare

Ultima imagine nu seamana cu sinusoidala originala datorita faptului ca achizitia a fost facuta la o rata de esantionare prea mica pentru a putea “captura” intregul sau spectru. In locul sinusoidalei pure, care are un ton dulce si moale (asemanator cu un flaut, sa zicem), rezultatul digitizat, de fapt un semnal rectangular, va suna dur si tipator (oarecum asemanator cu un fierastrau taind o bucata de metal).

Pentru a putea captura mai bine semnalul dorit, va fi nevoie de o rata de esantionare mai mare:

4

Ducand la un rezultat mult mai apropiat de realitate:

5

Revenind la domeniul audio, care este rata de esantionare la care trebuie sa fie facuta achizitia pentru a putea captura toate nuantele unui semnal care sa fie reprodus de catre o boxa si sa nu poata fi deosebit de original (in limitele tehnice ale microfoanelor/difuzoarelor)?

Teorema Nyquist-Shannon (un link catre wikipedia pentru cei interesati) afirma urmatoarele, intr-un mod destul de complicat: pentru a putea reprezenta in mod digital un semnal analogic, este suficienta o frecventa de esantionare care sa fie dublul frecventei maxime a semnalului achizitionat.

Bun, mergem mai departe – care este frecventea maxima a unui sunet audibil de catre om? Luand in considerare ca frecventele superioare acesteia sunt in mod foarte justificat denumite ultrasonice si au tendinta sa fie auzite mai degraba de catre caini si alte animale cu simturile mai dezvoltate decat cele omenesti). Raspunsul (stiintific) general valabil este de 20.000Hz (20kHz). Desi nu exista un consens general, se pare ca totusi cifra de 16.000Hz este cea mai apropiata de realitate, de la varsta copilariei-adolescentei timpurii mai departe. Cu scaderi destul de rapide o data cu avansarea in varstei, datorate “uzurii” urechii datorate expunerii la zgomotele inconjuratoare – si, dupa cum afirma studii curente, cu deteriorari mult mai rapide datorate ascultatului de muzica la casti la volum prea ridicat (multumim, Apple! [si nu numai]).

Revenind – prin prisma teoriei respective si a celor antementionate, ar rezulta ca rata de esantionare minima acceptabila ar fi de 32kHz (intamplator, rata de esantionare a o serie larga de multi-efecte din anii ’80 care inca sunt schimbate pe eBay contra unor sume considerabile de bani – Lexicon-urile, in principiu). Dar tehnologia moderna este considerabil mai darnica, si a inzestrat orice dispozitiv analog/digital cu o rata de esantionare de 44kHz.

Cu toate acestea, mare parte din ele pun la dispozitie si rate de esantionare mai mari, de 48kHz (folosit in film), 96kHz, 192kHz, samd. Luand in considerare ca mediul de ascultare standard (in cazul fericit) este CD-ul audio la 44kHz, care ar fi motivele, avantajele si dezavantajele acestor rate de esantionare?

Intai, dezavantajele, mult mai simplu de pus in cuvinte:

spatiul ocupat pe hard disk considerabil mai mare

puterea de procesare necesara pentru a putea lucra cu datele respective creste cvasi-exponential

– nu toate pluginurile si efectele externe (in cazul in care acestea sunt conectate digital) au posibilitatea de a rula la acea frecventa de esantionare

Avantajele… Aici devine totul mai complicat. Primul punct de vedere ar fi faptul ca filtrul anti-aliasing este mutat cat mai departe in frecventa (descriere completa aici) – acesta este un filtru trece-jos pozitionat la jumatatea frecventei de esantionare necesar pentru a taia frecventele superioare, frecvente care prin aliasing ar introduce zgomot (in sensul de semnal nedorit) in spectrul de frecventa dorit (cel audio, in cazul nostru). Problema cu acest filtru este faptul ca, asemenea oricarui alt filtru (egalizator, etc.), introduce defazaje in semnal, cu efecte mai mici sau mai mari si asupra spectrului dorit. Cat de mult apare acest efect negativ, depinde strict de calitatea convertorului – la convertoarele de calitate, este aproape imposibil de deosebit un semnal esantionat la 44kHz fata de unul la192kHz (si mentionez “aproape” datorita presupunerii ca exista persoane cu urechi de o “calitate” considerabil mai ridicata decat cea a marii majoritati a persoanelor, majoritate in care tind sa ma includ si pe mine).

Un alt avantaj, mai clar, este in cazul in care exista sanse ca materialul inregistrat sa fie disponibil si pentru DVD-uri, SACD-uri, filme, samd. In acest caz, este foarte indicata folosirea din start a frecventelor de esantionare pe care le va avea mediul final de stocare.

Aici voi incheia aceasta prima parte – in urmatoarea voi reveni cu o prezentare mai amanuntita asupra adancimii de biti, precum si cu mai multe impresii personale legate de subiect, pe care aveti dreptul constitutional de a le comenta cu ajutorul casutei de mai jos. J

Mihai Toma

11 comentarii la „Adancimea/numarul de biti si rata de esantionare – partea I

  • 14 septembrie 2010 la 11:32 pm
    Permalink

    Ok.. si care e faza cu inregistrarea/prelucrarea in 32 bits(float), partea asta n-am inteles`o niciodata. Adica din cate stiu eu.. ocupa mai mult, dar am citit pe undeva ceva de genul ca totusi nu necesita o putere de procesare atat de mare, adica usureaza procesorul deoarece si procesorul si sistemul de operare ruleaza tot pe 32 de bits si nu necesita o oarecare conversie.(e vorba de sistemele cu O.S. x86 binenteles ) Dar repet, partea asta chiar nu am inteles niciodata. Merita inregistrarea pe 32 de biti, sau e deajuns si 24 ?

  • 16 septembrie 2010 la 10:31 am
    Permalink

    Multumesc pentru observatie. Voi aborda si acest subiect in partea a II-a, care va aparea in urmatoarele zile.

    Mihai Toma

  • 16 septembrie 2010 la 11:58 am
    Permalink

    SFAT: Inregistrati la o rata de 88.2 sau mai mare INTOTDEAUNA!

    Chiar daca tinta voastra e de 44.1 (cd audio sau mp3)… ce e inregistrat la 88.2 sau mai mare va suna mai bine convertit la 44.1 decat daca ar fi fost inregistrat din start la 44.1.

    Plug-in-urile au un randament mult mai bun, aliasing mult mai putin, la 88.2 sau mai mare.

    Latenta este mai mica la sample rate de 88.2 sau mai mare.

    Personal, nu cred ca este nevoie sa mergeti mai sus de 88.2, important este sa nu mergeti mai jos.

    Numai bine,
    Alex Muntean.

  • 16 septembrie 2010 la 12:12 pm
    Permalink

    Cunosc si eu teoria/forumurile din spatele a ceea ce zice Alex mai sus. Si multumesc pentru mentiunea plug-in-urilor – am uitat intr-adevar ca unele din ele au posibilitatea de a suna mai bine la un sample rate mai ridicat.

    Sugestia mea este urmatoarea: nu luati acesta teorie „pe de-a gata”, faceti niste teste proprii in acesta directie, specifice muzicii pe care o inregistrati. Eu le-am facut – diferenta nu mi s-a parut sesizabila in mod semnificativ, nici la un track, nici la un mix cu mai multe track-uri. Neavand un calculator cu resurse infinite si utilizand o serie de placi DSP a caror resurse sunt foarte rapid mancate de catre utilizarea sample-rate-urilor ridicate, dezavantajele utilizarii lor (si a unei conversii ulterioare la 44kHz pentru CD, care influenteaza in mod obiectiv rezultatul) mi s-au parut mult mai importante decat posibilele imbunatatiri pe care le simteam doar eu (la un nivel foarte apropiat de cel care e mai simplu denumit „placebo”) intr-un test A/B orb.

    Un microfon de ambianta suplimentar, cateva baffle-uri acustice din burete/vata sau mutatul unui microfon cu 2cm mai la dreapta vor influenta in mod simtitor (poate chiar pozitiv) calitatea inregistrarii, fara sa fie necesare. Voi prefera oricand pe oricare de mai sus incomoditatii puse de lucrul cu sample rate-uri ridicate, pentru un avantaj pe care nu-l simt decat uneori, si doar in conditii optime.

    Legat de latenta – acesta se aproximativ injumateste la 88kHz fata de 44kHz. Cu mentiunea faptului ca daca obtii o latenta de 2ms la 88kHz la buffer de 256 sample-uri fara „snap-cracke-and-pop”, o vei obtine si la 44kHz, la 128 sample-uri buffer.

    Fiecare cu a’ lui, dupa cum e vorba.

  • 21 septembrie 2010 la 6:49 am
    Permalink

    Sigur, înregistrarea la frecvente de sampling duble nu cred că aduce ceva semnificativ dpdv al calitătii. Pluginurile însă vor opera în mod sigur mai bine, datorită lipsei (sau diminuării radicale) a artifactelor gen aliasing, care apar datorită designului multor pluginuri din ziua de azi. Cu alte cuvinte, la frecventele duble procesoarele virtuale vor da senzatia de sunet mai clar, mai calitativ, chiar si dacă vorbim de banalul eq din Cubase. Am constatat cu surprindere că la 96kHz sună chiar utilizabil.

    Totusi, ai nevoie de un i7 ager ca să poti mixa la frecventele astea de sampling, altminteri te cam chinui.

    În cazurile în care se mixează la aceste frecvente se recomandă folosirea frecventei duble fată de frecventa de sampling tzintă (88.2 pentru 44.1, adică muzică si 96 pentru 48, adică sunet pt productii video). Altminteri e posibil să pierdeti acel plus de calitate a procesării si să ajungeti de unde ati plecat.

    Majoritatea daw-urilor au algoritmi prosti de conversie, de aceea este mai sigur să procedăm asa (cu exceptia faptului când stim bine ce facem si stim unde găsim si cum să folosim algoritmi de conversie în 64 biti, fără aliasing etc).

  • 23 septembrie 2010 la 9:27 am
    Permalink

    Daca vreti un test comparativ de SRC-uri – algoritmi de resampling, va urez distractie placuta… Cu mentiunea ca ce se vede „la ochi” tinde sa fie mult mai putin audibil:
    http://src.infinitewave.ca/

    Legat afirmatia lui Omu referitoare la folosirea frecventei duble de sampling fata de cea finala (88.2 pentru 44.1, samd), si eu aveam aceeasi parere. Pana intr-o zi in care m-am pus (interesat la modul cel mai teoretic, eu fiind un evident fan al teoremei „KISS” [keep it simple, stupid – cu cat mai simplu, cu atat mai bine, in traducere aproximativa]) sa investighez problema, si pe baza unor analize de incredere (cred ca era vorba si de Dan Lavry, un guru aproximativ al domeniului audio digital si al conversiei) afirmau ca de fapt acest aspect nu conteaza. Subiectul nu m-a interesat mai departe, preferand oricand un workflow imbunatatit sau mutarea unui microfon cu 1.5 cm unei imbunatatiri posibile de 0.5%… In continuare, recomand tuturora studiul (la nivel teoretic, nu parerile personale si subiective ale persoanelor intalnite pe forumuri [chiar daca le cheama Mihai Toma!]), precum si efectuarea de teste proprii.

    Mihai Toma

  • 23 septembrie 2010 la 9:36 am
    Permalink

    O ultima paranteza, pentru cei mai lenesi: dintre algoritmii de SRC disponibili in mod direct, actualmente, cel mai apreciat (inclusiv prin testele din postul anterior) ar fi R8Brain Pro de la Voxengo. SRC-ul disponibil de la Ozone ar fi (posibil) superior, dar nu este disponibil decat la pachet cu Audiophile Engineering WaveEditor.

    Tom

  • 31 octombrie 2013 la 3:58 pm
    Permalink

    Am si eu o intrebare, ce player deschide fisiere wave incodate in format wave la 88.2 KHZ? Vad ca mp3 nu pot da render din FL Studio la 88.3 KHZ. Sper sa primesc vreo lamurire. Multumesc, foarte folositor articolul. 😀

  • 5 noiembrie 2013 la 12:05 am
    Permalink

    Nu există mp3 la 88.2. Pentru codare la rezoluție mare se folosește formatul FLAC. Pentru asta sînt o grămadă de playere și encodere.

  • 4 septembrie 2017 la 12:01 pm
    Permalink

    Ziau buna,

    Am si eu nevoie de un sfat, cu ce program (preferabil free) as putea face un downsample de la 192kHz la 96kHz, cei 24 biti raminind neschimbati ?
    Am mai multe albume in formatul 24/196 dar din nefericire convertorul meu usb la spdif nu ‘stie’ decit : 16Bit 44.1K 48K 96K 192K / 24Bit 44.1K 96K adica ii lipseste exact partea care ma doare pe mine, respectiv 24/192.

    Multumesc anticipat,
    Costin Draghia

  • 6 ianuarie 2024 la 10:04 pm
    Permalink

    Am si eu o nedumerire (poate pt unii pare puerila, dar vreau sa inteleg, nu radeti). Am setat placa externa la „maxim”, aduca 64b/192 si frecventa 96.000. Am dat un play la niste piese (nu am simtit nici o diferenta fata de setarile „low”) si am si facut rec la piesele play-ate…rezultatul la rec ma bagat in incurcatura. Sunetul de pe integistrare era ‘mai rapid’ parca ar fi bagat un plus de „bpm” , si nu inteleg dece sa intamplat fenomenul.

    Precizez ca si siftul de inregistrare/editare l-am setat la aceleasi valori ca si interfata audio .

Lasă un răspuns

Adresa ta de email nu va fi publicată.

Acest site folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.