Strumentazione per Rumore & Vibrazioni  

La registrazione audio digitale (concetti base)

 

1.Elementi di teoria sulla musica digitale

Dobbiamo innanzi tutto considerare che tutti i fenomeni fisici naturali sono di natura analogica, cioè possono assumere infiniti valori in un campo continuo, e che il mondo dei PC o il mondo dei binario dei numeri invece è fatto di I e 0 (uno e zero) di grandezze "discrete". Quindi se considerassimo un una conversione audio da ANALOGICA a DIGITALE dovremmo prima effettuare una "discretizzazione" del segnale. Tale processo avviene in due distinti processi: il primo si chiama campionamento  (o sampling), il secondo quantizzazione e riguarda l'ampiezza del segnale campionato. Effettuare un campionamento quindi, vuol dire considerare solo i valori che il segnale analogico assume in determinati intervalli di tempo, ossia rilevare un certo numero di campioni nell'unità di tempo. Il numero di campioni considerati nell'unità di tempo si chiama frequenza di campionamento e si esprime (come ben saprete ...spero..) in Hz. Pensiamo ora che con il PC, se volessimo registrare dei suoni ad esempio la Voce dobbiamo campionare a 11025Hz, mentre se volessimo la qualità CD dobbiamo campionare a 44100 Hz.. Perchè tutto ciò? vi chiederete? Perchè allora non usiamo sempre frequenze elevate di campionamento? A tutto ciò esiste una spiegazione scientifica che in poche parole...dice che un segnale limitato in banda è ricostruibile in modo perfetto dai suoi campioni, purchè siano acquisiti con una frequenza almeno doppia di quella massima riproducibile di segnale (Teorema di Nyquist). Ecco spiegato perchè per fare dei CD audio è necessario campionare a 44100 Hz in modo da avere una frequenza massima di 20000 Hz. E' necessario però ancora un passaggio: la quantizzazione. La quantizzazione è direttamente dipendente dalla risoluzione che viene espressa in bit. In pratica i dati vengono raggruppati in fasce analogiche a cui ciascuna corrrisponde un valore discreto digitale, quindi maggiore è il numero di bit impiegato, maggiore è l'approssimazione e quindi diciamo che la risoluzione è maggiore. Esempio se abbiamo 8 bit si avranno 256 combinazioni, con 16 bit 65536, con 24 bit  16milioni777mila216 combinazioni (2 elevato al numero di bit). Diciamo pure che il 24bit garantisce un'elevatissima approssimazione. I vantaggi principali del digitale..beh credo li conosciamo tutti: assenza di fruscii, annullati fenomeni di usura del nastro e riproducibilità infinita cioè ogni copia può essere un master. Proviamo invece a fare la copia della copia della copia con una registrazione analogica...alla fine di tutti i passaggi avremo un rapporto segnale disturbo(S/N) tale da avere sul nastro solo rumore..e niente segnale (esagerando..) Per finire ..ritornando ancora sui bit..possiamo dire che i raggruppamenti di cui sopra determinano in un certo modo la dinamica....eh già...la dinamica....vale a dire il campo in ampiezza espresso in Decibel ...diciamo da...a...  di misura...  passiamo oltre per non scrivere un libro...anche perchè diversi libri sull'argomento li ho gia scritti.

 

2.I formati audio

Vengo ad elencare sommariamente la tipologia dei formati principali audio/video esistenti oggi sul mercato, e per ciascuno di essi cercherò di spiegarne le caratteristiche salienti:

PCM e WAV

PCM (pulse code modulation) con frequenza di campionamento di 44100Hz a 16bit stereo è il primo esempio di musica digitale utilizzato nei CD AUDIO, lo standard PCM definisce appunto la qualità CD. In pratica è un segnale audio digitale in formato non compresso. Il più conosciuto formato che utilizza tale codifica è il WAV. Essendo non compresso occupa moltissimo spazio..es. 1 minuto di registrazione a 44,1 KHz a 16bit stereo occupa circa 10MByte. Il formato Wave gestisce frequenze di campionamento che arrivano sino a 192KHz con una risoluzione fino a 32 bit lineari. Altri formati non compressi sono: AIFF (Apple), AU (Unix, Sun).

DVD AUDIO il dvd audio è sicuramente superiore al cd audio, anche se solo nel 1999  sono stati definiti gli standard SDMI (Secure Digital Music Initative). In pratica  utilizza lo standard PCM, portando la frequenza di campionamento a 192KHz a 24 bit (f.s.96KHz), ma tutto ciò non tragga in inganno in quanto la risorsa principale di tale sistema è quello di avere un sistema audio multicanale ovvero diviso  su più dei due canali stereo tradizionali (applicazioni: Cinema ...Video).

Super AUDIO CD è un concorrente diretto del DVD audio che utilizza la codifica DSD (Digital Stream Digital) anzichè PCM. La codifica è monobit ed il campionamento è fino a 64 volte a quello CD. Supporta anch'esso il sistema multicanale.

MP3 E finalmente approdiamo all'MP3 (Mpeg-1 Layer 3) dopo le specifiche ISO del 1993, è un formato compresso con un Layer (algoritmo di compressione/decompressione ) compreso tra 12:1 e 14:1. Attenzione però MP3 non è un metodo di registrazione digitale, ma semplicemente un processo in cui si eliminano comunque dei dati

Streaming ed altri formati- Streaming è un termine che nasce da internet, la possibilità di ascoltare files audio senza dover scaricare preventivamente il file e ne è un esempio Real Audio Player. Come sempre esiste un'alternativa che è la stessa Microsoft a fornire: Windows Media Player (WMA) oppure ASF (advanced streaming format)

 

3.Tecnologie di compressione e formati compressi

Per ridurre lo spazio occupato ad esempio su un CD o su un dico fisso si opera una compressione, che abbiamo visto essere un processo. Ma tutte le compressioni non sono uguali. Vediamone le tre principali differenze:

lossless - compressione senza perdita di informazione (un esempio è rappresentato da un file zippato che per poter essere eseguito deve subire un processo inverso di decompressione;

transparent- comprime molto di più del lossless, ma sacrifica una piccola parte delle informazioni, difficilmente percepibili (un esempio è rappresentato da un file JPEG)

lossy- compressione con perdita sensibile di informazioni (es. si riduce fino ad un centinaio di volte la dimensione)

Altri due importanti concetti per la codifica percettiva dell'audio digitale sono la ridondanza e l'irrilevanza. Entrambi descrivono i motivi i base ai quali una certa quantità di informazione audio può essere scartata senza causare scadimenti "percettibili" sulla qualità audio. L'irrilevanza è infatti una particolare caratteristica della psicoacustica  attraverso la quale si possono eliminare particolari di una forma d'onda irrilevanti intesa come percettività sonora. La ridondanza invece appartiene all'informazione digitale legata al campionamento e si basa sia sul teorema di Nyquist che sull'effetto di Mascheramento (a parità di frequenza un suono minore è mascherato da uno di maggiore intensità (bisogna però stare attenti alle distorsioni armoniche).

Il formato più conosciuto e diffuso di formato compresso è senz'altro l'MP3, codificato a 16bit e campionato a 44,1 KHz.  Il flusso originale PCM viene filtrato e diviso da 32 sottobande. Per ognuna delle sottobande viene calcolata l'entità del mascheramento causata da bande adiacenti...quindi nel caso in cui la potenza di una sottobanda sia inferiore alla soglia di mascheramento, i dati..(che non sarebbero percepiti) non vengono codificati...ed alla fine del processo si crea il flusso dei dati in uscita rappresentato da un certo numero di bit codificati.

4.La codifica MP3 (approfondimento)

Mentre la PCM tenta catturare una forma d'onda così com'è, MP3 tenta di catturare una forma d'onda per come potrebbe suonare (la scelta del verbo "potere" piuttosto che "dovere" non è indifferente: un'onda non deve suonare nel modo che pensiamo, un'onda può suonare come ci aspettiamo... ma può anche non farlo). Per raggiungere questo obiettivo, e'  determinante un certo insieme di valutazioni circa ciò che è o non è significativo per un ascoltatore umano. Questo insieme di valutazioni è generalmente riassunto in un "modello psicoacustico". Per capire come lavora il modello psicoacustico, dobbiamo considerare due concetti importanti per l'audio digitale e la codifica percettiva: la ridondanza e l'irrilevanza. Entrambi i termini descrivono le ragioni per cui una certa quantità di dati audio e' ritenuta non necessaria, in modo da considerare ragionevolmente ininfluente ciò che può essere scartato o ignorato senza una degradazione inaccettabile nella qualità del suono. Ad esempio la frequenza di campionamento dei 44.1 kHz è stata scelta perchè  frequenze di 22.05 kHz sono state ritenute oltre la soglia udibile, e perciò  ridondanti. Naturalmente, se dovessimo decidere (come alcuni audiofili o acustici con orecchio particolarmente esercitato) che le frequenze sopra i 22.05 kHz restituiscono comunque (all'interno della banda udibile) importanti informazioni sul timbro e tono di suoni e musica, potremmo scegliere di usare una frequenza di campionamento maggiore.
Con ciò cattureremmo alcune delle frequenze che un sistema "CD-quality" avrebbe trattato come ridondante. D'altra parte, così  facendo, avremmo semplicemente spostato gli obiettivi (o, più precisamente, il "Limite di Nyquist"), in modo che la ridondanza si presentati a frequenze più alte di prima. La ridondanza, in altre parole, e' una presenza inevitabile dell'informazione digitale. L'irrilevanza, invece, e' un concetto più radicale. La teoria alla base della codifica psicoacustica ammette che, date le particolarità della percezione umana, certe proprietà di una data forma d'onda saranno effettivamente insignificanti per un ascoltatore umano: non sarà percepito tutto il segnale. D'altra parte, un sistema PCM, a motivo della sua caratteristica volta a catturare l'intera forma d'onda, richiederà  la registrazione e la memorizzazione di una grande quantità di dati irrilevanti, a dispetto di un vantaggio impercepibile sull'ascolto successivo. La codificazione percettiva prevede ( in riferimento ad un modello psicoacustico ) di memorizzare solo quei dati percepibili dall'orecchio umano. In questo modo, è possibile ottenere drastiche riduzioni delle dimensioni dei file, semplicemente scartando l'impercepibile, ossia i dati irrilevanti catturati in una registrazione PCM. La codifica percettiva, come abbiamo detto, elimina dai file audio determinate informazioni che non sono necessarie. Per far questo si basa sui risultati del "modello psicoacustico", i cui studi hanno dimostrato che l'orecchio umano non e' in grado di percepire frequenze deboli adiacenti a frequenze forti, in quanto queste ultime coprono le prime. In termini tecnici si tratta di effetto mascheramento. Il mascheramento può essere descritto come la tendenza di un ascoltatore a privilegiare certi suoni piuttosto che altri, a seconda del contesto nel quale si presentano. Il mascheramento si verifica perchè l'udito umano e' capace di adattarsi ai livelli di suono e rumore di un dato contesto. Quando due suoni si presentano simultaneamente o quasi, uno può essere parzialmente mascherato dall'altro, in funzione di fattori quali: la contemporaneità, i loro livelli acustici relativi ed il contenuto di frequenze. Il mascheramento permette quindi alla codifica percettiva di eliminare una buona parte dei dati che richiederebbe la convenzionale codifica PCM della forma d'onda. Questo non comporta che vengano scartati tutti i dati descriventi gli elementi mascherati in una registrazione del suono: così probabilmente si otterrebbe un suono artefatto e sgradevole. Invece, la codifica percettiva lavora per assegnare meno bit di dati agli elementi mascherati di una registrazione piuttosto che agli altri. Questo ha l'effetto di introdurre alcuni distorsioni delle immagini sonore, ma poichè questa distorsione è presumibilmente confinata all'interno degli elementi mascherati, di fatto è  impercepibile all'ascolto. Usare meno bit per rappresentare gli elementi mascherati in una registrazione, comporta che nell'insieme siano richiesti meno bit. Questa e' la ragione per cui la codifica MP3 riesce a ridurre file audio intorno a 1/12 della loro dimensione originale, con piccola o nessuna degradazione evidente nella qualità del suono. Come abbiamo accennato, MP3 ha bisogno di separare suoni irrelevanti da suoni rilevanti, trattandoli in modo differente. Per far questo, il suono in ingresso, viene diviso in 32 sottobande uguali. 
Dividendo l'insieme di segnali in sottobande, è possibile per la codifica MP3 ordinare generi diversi di suoni secondo la frequenza in esse contenuta e così dare la precedenza ad alcuni suoni rispetto ad altri, secondo le specifiche del modello psicoacustico.
Ad esempio per suoni a bassa-frequenza di un  tamburo da ritenersi irrilevanti, la codifica potrebbe usare meno bit di dati per codificare le sottobande che contengono quelle frequenze e con questo lasciare più bit disponibili per codificare le sottobande che portano alcune delle frequenze vocali che potrebbero essere più rilevanti per un ascoltatore, e così si riduce  la distorsione ed il rumore degli elementi con codificazione maggiore. Il passo successivo del processo comporta che le sottobande siano raggruppate in sezioni (frames). Il codificatore esamina i contenuti di queste sezioni, e cerca di determinare dove il mascheramento si presenterà in entrambi i domini del tempo e delle frequenze, e così  per quali sezioni possono essere accettate le distorsioni. 
Il codificatore calcola quello che e' conosciuto come come un rapporto Mascheramento/Disturbo (Mask/Noise) per ciascuna sezione, ed usa questa informazione nella fase finale del processo: assegnazione dei bit. Durante l'assegnazione dei bit, il codificatore decide quanti bit di dati dovranno essere usati per codificare ciascuna sezione. Maggiore e' il numero di bit richiesti, più complessa è la codifica.
Il codificatore, quindi necessita di assegnare più  bit a sezioni dove il possibile mascheramento e' piccolo o nullo, ma può permettere l'assegnazione di meno bit a sezioni dove e' possibile/ probabile il verificarsi del mascheramento. Il numero totale di bit disponibili varia secondo il flusso di bit per la trasmissione e tipicamente 128 kilobits per secondo (kbps).(NON DIMENTICHIAMOCI CHE L'MP3 E' UN PROCESSO E NON UN FORMATO) Quando la codifica e' finita, tutte le sezioni sono organizzate ciascuna con alcune byte di dati d'intestazione, e l'insieme può essere memorizzato come file MP3. Il file che risulta può essere letto da un decodificatore MP3, e suonato come audio. Un decodificatore MP3 compie un semplice processo inverso alla codifica. 
Le sottobande contenute nelle sezioni sono risintetizzate nel dominio del tempo (usando una forma inversa del filtro analizzatore), e unite in modo da ricreare il flusso audio. D'altra parte, mentre il codificatore gestisce l'assegnazione di allocazione dei bit nelle sezioni da trattare, il decodificatore non deve farlo, e di conseguenza ha molto meno lavoro da compiere.
Sebbene un decodificatore possa essere implementato in un programma comprendente un codificatore, ciò spiega perchè c'è molta maggior disponibilità di software per la sola decodificazione. E spiega anche perchè il passaggio da PCM a MP3, e di nuovo a PCM, restituisca file con dimensioni essenzialmente uguali all'originale (la codifica PCM comporta un numero di bit costante per ciascun segnale). Un esempio chiaro di questo processo si può avere con l'utilizzo di Nero Burning Room, provando a masterizzare un file in MP3 convertendolo da PCM ed effettuare successivamente il processo inverso riconvertendolo in formato audio. 

 

Spectra S.r.l.
Via Belvedere, 42 -20862 ARCORE (Monza Brianza)

P.IVA: 02090230968

Tel.:+39 039-613321- (6 linee ricerca automatica)

Fax: +39 039-6133235

Posta elettronica: spectra@spectra.it

Informazioni Commerciali: ecaglio@spectra.it

Informazioni tecniche:    

Alberto Armani:     

  aarmani@spectra.it

                                                                                            

Webmaster : webmast@spectra.it

 

Data ultimo Aggiornamento/ Last Update :11/12/2011

 

 

            

    


Tutti i diritti riservati

Copyrights 2011-2013