|
1.Elementi
di teoria sulla musica digitale
Dobbiamo innanzi tutto
considerare che tutti i fenomeni fisici naturali sono di natura analogica,
cioè possono assumere infiniti valori in un campo continuo, e che il
mondo dei PC o il mondo dei binario dei numeri invece è fatto di I e 0
(uno e zero) di grandezze "discrete". Quindi se considerassimo
un una conversione audio da ANALOGICA a DIGITALE dovremmo prima effettuare
una "discretizzazione" del segnale. Tale processo avviene in due
distinti processi: il primo si chiama campionamento (o sampling), il
secondo quantizzazione e riguarda l'ampiezza del segnale campionato.
Effettuare un campionamento quindi, vuol dire considerare solo i valori
che il segnale analogico assume in determinati intervalli di tempo, ossia
rilevare un certo numero di campioni nell'unità di tempo. Il numero di
campioni considerati nell'unità di tempo si chiama frequenza di
campionamento e si esprime (come ben saprete ...spero..) in Hz. Pensiamo
ora che con il PC, se volessimo registrare dei suoni ad esempio la Voce
dobbiamo campionare a 11025Hz, mentre se volessimo la qualità CD dobbiamo
campionare a 44100 Hz.. Perchè tutto ciò? vi chiederete? Perchè allora
non usiamo sempre frequenze elevate di campionamento? A tutto ciò esiste
una spiegazione scientifica che in poche parole...dice che un segnale
limitato in banda è ricostruibile in modo perfetto dai suoi campioni,
purchè siano acquisiti con una frequenza almeno doppia di quella massima
riproducibile di segnale (Teorema di Nyquist). Ecco spiegato perchè per
fare dei CD audio è necessario campionare a 44100 Hz in modo da avere una
frequenza massima di 20000 Hz. E' necessario però ancora un passaggio: la
quantizzazione. La quantizzazione è direttamente dipendente dalla
risoluzione che viene espressa in bit. In pratica i dati vengono
raggruppati in fasce analogiche a cui ciascuna corrrisponde un valore
discreto digitale, quindi maggiore è il numero di bit impiegato, maggiore
è l'approssimazione e quindi diciamo che la risoluzione è maggiore.
Esempio se abbiamo 8 bit si avranno 256 combinazioni, con 16 bit 65536,
con 24 bit 16milioni777mila216 combinazioni (2 elevato al numero di
bit). Diciamo pure che il 24bit garantisce un'elevatissima
approssimazione. I vantaggi principali del digitale..beh credo li
conosciamo tutti: assenza di fruscii, annullati fenomeni di usura del
nastro e riproducibilità infinita cioè ogni copia può essere un master.
Proviamo invece a fare la copia della copia della copia con una
registrazione analogica...alla fine di tutti i passaggi avremo un rapporto
segnale disturbo(S/N) tale da avere sul nastro solo rumore..e niente
segnale (esagerando..) Per finire ..ritornando ancora sui bit..possiamo
dire che i raggruppamenti di cui sopra determinano in un certo modo la
dinamica....eh già...la dinamica....vale a dire il campo in ampiezza
espresso in Decibel ...diciamo da...a... di misura... passiamo
oltre per non scrivere un libro...anche perchè diversi libri
sull'argomento li ho gia scritti.
2.I
formati audio
Vengo ad elencare sommariamente la
tipologia dei formati principali audio/video esistenti oggi sul mercato, e
per ciascuno di essi cercherò di spiegarne le caratteristiche salienti:
PCM e WAV
PCM (pulse
code modulation) con frequenza di campionamento di 44100Hz a 16bit stereo
è il primo esempio di musica digitale utilizzato nei CD AUDIO, lo
standard PCM definisce appunto la qualità CD. In pratica è un segnale
audio digitale in formato non compresso. Il più conosciuto formato che
utilizza tale codifica è il WAV. Essendo non compresso occupa moltissimo
spazio..es. 1 minuto di registrazione a 44,1 KHz a 16bit stereo occupa
circa 10MByte. Il formato Wave gestisce frequenze di campionamento che
arrivano sino a 192KHz con una risoluzione fino a 32 bit lineari. Altri
formati non compressi sono: AIFF (Apple), AU (Unix, Sun).
DVD AUDIO il
dvd audio è sicuramente superiore al cd audio, anche se solo nel
1999 sono stati definiti gli standard SDMI (Secure Digital Music
Initative). In pratica utilizza lo standard PCM, portando la
frequenza di campionamento a 192KHz a 24 bit (f.s.96KHz), ma tutto ciò
non tragga in inganno in quanto la risorsa principale di tale sistema è
quello di avere un sistema audio multicanale ovvero diviso su più
dei due canali stereo tradizionali (applicazioni: Cinema ...Video).
Super AUDIO
CD è un concorrente diretto del DVD audio che utilizza la
codifica DSD (Digital Stream Digital) anzichè PCM. La codifica è monobit
ed il campionamento è fino a 64 volte a quello CD. Supporta anch'esso il
sistema multicanale.
MP3 E
finalmente approdiamo all'MP3 (Mpeg-1 Layer 3) dopo le specifiche ISO del
1993, è un formato compresso con un Layer (algoritmo di
compressione/decompressione ) compreso tra 12:1 e 14:1. Attenzione però
MP3 non è un metodo di registrazione digitale, ma semplicemente un
processo in cui si eliminano comunque dei dati
Streaming
ed altri formati- Streaming è un termine che nasce da internet,
la possibilità di ascoltare files audio senza dover scaricare
preventivamente il file e ne è un esempio Real Audio Player. Come sempre
esiste un'alternativa che è la stessa Microsoft a fornire: Windows Media
Player (WMA) oppure ASF (advanced streaming format)
3.Tecnologie
di compressione e formati compressi
Per ridurre lo spazio occupato ad
esempio su un CD o su un dico fisso si opera una compressione, che abbiamo
visto essere un processo. Ma tutte le compressioni non sono uguali.
Vediamone le tre principali differenze:
lossless - compressione senza
perdita di informazione (un esempio è rappresentato da un file zippato
che per poter essere eseguito deve subire un processo inverso di
decompressione;
transparent- comprime molto di
più del lossless, ma sacrifica una piccola parte delle informazioni,
difficilmente percepibili (un esempio è rappresentato da un file JPEG)
lossy- compressione con perdita
sensibile di informazioni (es. si riduce fino ad un centinaio di volte la
dimensione)
Altri due importanti concetti per la
codifica percettiva dell'audio digitale sono la ridondanza e
l'irrilevanza. Entrambi descrivono i motivi i base ai quali una certa
quantità di informazione audio può essere scartata senza causare
scadimenti "percettibili" sulla qualità audio. L'irrilevanza è
infatti una particolare caratteristica della psicoacustica
attraverso la quale si possono eliminare particolari di una forma d'onda
irrilevanti intesa come percettività sonora. La ridondanza invece
appartiene all'informazione digitale legata al campionamento e si basa sia
sul teorema di Nyquist che sull'effetto di Mascheramento (a parità di
frequenza un suono minore è mascherato da uno di maggiore intensità
(bisogna però stare attenti alle distorsioni armoniche).
Il formato più conosciuto e diffuso di
formato compresso è senz'altro l'MP3, codificato a 16bit e campionato a
44,1 KHz. Il flusso originale PCM viene filtrato e diviso da 32
sottobande. Per ognuna delle sottobande viene calcolata l'entità del
mascheramento causata da bande adiacenti...quindi nel caso in cui la
potenza di una sottobanda sia inferiore alla soglia di mascheramento, i
dati..(che non sarebbero percepiti) non vengono codificati...ed alla fine
del processo si crea il flusso dei dati in uscita rappresentato da un
certo numero di bit codificati.
4.La
codifica MP3 (approfondimento)
Mentre
la PCM tenta catturare una forma d'onda così com'è, MP3 tenta di
catturare una forma d'onda per come potrebbe suonare (la scelta del verbo
"potere" piuttosto che "dovere" non è indifferente:
un'onda non deve suonare nel modo che pensiamo, un'onda può suonare come
ci aspettiamo... ma può anche non farlo).
Per raggiungere questo obiettivo, e' determinante un certo insieme
di valutazioni circa ciò che è o non è significativo per un ascoltatore
umano. Questo insieme di valutazioni è generalmente riassunto in un
"modello psicoacustico". Per capire come lavora il modello
psicoacustico, dobbiamo considerare due concetti importanti per l'audio
digitale e la codifica percettiva: la ridondanza e l'irrilevanza.
Entrambi i termini descrivono le ragioni per cui una certa quantità di
dati audio e' ritenuta non necessaria, in modo da considerare
ragionevolmente ininfluente ciò che può essere scartato o ignorato senza
una degradazione inaccettabile nella qualità del suono. Ad esempio la
frequenza di campionamento dei 44.1 kHz è stata scelta perchè
frequenze di 22.05 kHz sono state ritenute oltre la soglia udibile, e perciò
ridondanti. Naturalmente, se dovessimo decidere (come alcuni audiofili o
acustici con orecchio particolarmente esercitato) che le frequenze sopra i
22.05 kHz restituiscono comunque (all'interno della banda udibile)
importanti informazioni sul timbro e tono di suoni e musica, potremmo
scegliere di usare una frequenza di campionamento maggiore.
Con ciò cattureremmo alcune delle frequenze che un sistema "CD-quality"
avrebbe trattato come ridondante. D'altra parte, così facendo, avremmo
semplicemente spostato gli obiettivi (o, più precisamente, il
"Limite di Nyquist"), in modo che la ridondanza si presentati a
frequenze più alte di prima. La ridondanza, in altre parole, e' una
presenza inevitabile dell'informazione digitale.
L'irrilevanza, invece, e' un concetto più radicale.
La teoria alla base della codifica psicoacustica ammette che, date le
particolarità della percezione umana, certe proprietà di una data forma
d'onda saranno effettivamente insignificanti per un ascoltatore umano: non
sarà percepito tutto il segnale.
D'altra parte, un sistema PCM, a motivo della sua caratteristica volta a
catturare l'intera forma d'onda, richiederà la registrazione e la
memorizzazione di una grande quantità di dati irrilevanti, a dispetto di
un vantaggio impercepibile sull'ascolto successivo.
La codificazione percettiva prevede ( in riferimento ad un modello
psicoacustico ) di memorizzare solo quei dati percepibili dall'orecchio
umano. In questo modo, è possibile ottenere drastiche riduzioni delle
dimensioni dei file, semplicemente scartando l'impercepibile, ossia i dati
irrilevanti catturati in una registrazione PCM. La codifica percettiva,
come abbiamo detto, elimina dai file audio determinate informazioni che
non sono necessarie. Per far questo si basa sui risultati del
"modello psicoacustico", i cui studi hanno dimostrato che
l'orecchio umano non e' in grado di percepire frequenze deboli adiacenti a
frequenze forti, in quanto queste ultime coprono le prime. In termini
tecnici si tratta di effetto mascheramento.
Il mascheramento può essere descritto come la tendenza di un ascoltatore
a privilegiare certi suoni piuttosto che altri, a seconda del contesto nel
quale si presentano. Il mascheramento si verifica perchè l'udito umano e'
capace di adattarsi ai livelli di suono e rumore di un dato contesto.
Quando due suoni si presentano simultaneamente o quasi, uno può essere
parzialmente mascherato dall'altro, in funzione di fattori quali: la
contemporaneità, i loro livelli acustici relativi ed il contenuto di
frequenze. Il mascheramento permette quindi alla codifica percettiva di
eliminare una buona parte dei dati che richiederebbe la convenzionale
codifica PCM della forma d'onda. Questo non comporta che vengano scartati
tutti i dati descriventi gli elementi mascherati in una registrazione del
suono: così probabilmente si otterrebbe un suono artefatto e sgradevole.
Invece, la codifica percettiva lavora per assegnare meno bit di dati agli
elementi mascherati di una registrazione piuttosto che agli altri. Questo
ha l'effetto di introdurre alcuni distorsioni delle immagini sonore, ma
poichè questa distorsione è presumibilmente confinata all'interno degli
elementi mascherati, di fatto è impercepibile all'ascolto. Usare
meno bit per rappresentare gli elementi mascherati in una registrazione,
comporta che nell'insieme siano richiesti meno bit. Questa e' la ragione
per cui la codifica MP3 riesce a ridurre file audio intorno a 1/12 della
loro dimensione originale, con piccola o nessuna degradazione evidente
nella qualità del suono. Come abbiamo accennato, MP3 ha bisogno di
separare suoni irrelevanti da suoni rilevanti, trattandoli in modo
differente. Per far questo, il suono in ingresso, viene diviso in 32
sottobande uguali.
Dividendo l'insieme di segnali in sottobande, è possibile per la codifica
MP3 ordinare generi diversi di suoni secondo la frequenza in esse
contenuta e così dare la precedenza ad alcuni suoni rispetto ad altri,
secondo le specifiche del modello psicoacustico.
Ad esempio per suoni a bassa-frequenza di un tamburo da ritenersi
irrilevanti, la codifica potrebbe usare meno bit di dati per codificare le
sottobande che contengono quelle frequenze e con questo lasciare più bit
disponibili per codificare le sottobande che portano alcune delle
frequenze vocali che potrebbero essere più rilevanti per un ascoltatore,
e così si riduce la distorsione ed il rumore degli elementi con
codificazione maggiore. Il passo successivo del processo comporta che le
sottobande siano raggruppate in sezioni (frames). Il codificatore
esamina i contenuti di queste sezioni, e cerca di determinare dove il
mascheramento si presenterà in entrambi i domini del tempo e delle
frequenze, e così per quali sezioni possono essere accettate le
distorsioni.
Il codificatore calcola quello che e' conosciuto come come un rapporto
Mascheramento/Disturbo (Mask/Noise) per ciascuna sezione, ed
usa questa informazione nella fase finale del processo: assegnazione dei
bit. Durante l'assegnazione dei bit, il codificatore decide quanti bit di
dati dovranno essere usati per codificare ciascuna sezione. Maggiore e' il
numero di bit richiesti, più complessa è la codifica.
Il codificatore, quindi necessita di assegnare più bit a sezioni
dove il possibile mascheramento e' piccolo o nullo, ma può permettere
l'assegnazione di meno bit a sezioni dove e' possibile/ probabile il
verificarsi del mascheramento. Il numero totale di bit disponibili varia
secondo il flusso di bit per la trasmissione e tipicamente 128 kilobits
per secondo (kbps).(NON DIMENTICHIAMOCI CHE L'MP3 E' UN PROCESSO E NON UN
FORMATO) Quando la codifica e' finita, tutte le sezioni sono organizzate
ciascuna con alcune byte di dati d'intestazione, e l'insieme può essere
memorizzato come file MP3. Il file che risulta può essere letto da un
decodificatore MP3, e suonato come audio. Un decodificatore MP3 compie un
semplice processo inverso alla codifica.
Le sottobande contenute nelle sezioni sono risintetizzate nel dominio del
tempo (usando una forma inversa del filtro analizzatore), e unite in modo
da ricreare il flusso audio. D'altra parte, mentre il codificatore
gestisce l'assegnazione di allocazione dei bit nelle sezioni da trattare,
il decodificatore non deve farlo, e di conseguenza ha molto meno lavoro da
compiere.
Sebbene un decodificatore possa essere implementato in un programma
comprendente un codificatore, ciò spiega perchè c'è molta maggior
disponibilità di software per la sola decodificazione. E spiega
anche perchè il passaggio da PCM a MP3, e di nuovo a PCM, restituisca
file con dimensioni essenzialmente uguali all'originale (la codifica PCM
comporta un numero di bit costante per ciascun segnale). Un esempio chiaro
di questo processo si può avere con l'utilizzo di Nero Burning Room,
provando a masterizzare un file in MP3 convertendolo da PCM ed effettuare
successivamente il processo inverso riconvertendolo in formato
audio.
|