Compression du Son

MP3

Après avoir découvert les standarts de compression pour les données multimédia des images, nous allons nous intéresser à celles du son.
Ici les techniques utilisées sont très perfomrantes et permettent d'atteindre des taux de compression importants. Cependant, il ne faut pas se leurer, ces taux excelents viennent du fait que les algorithmes de codage sont tous avec pertes.

Nous allons étudier ici l'algorithme de compression du MP3 car il est devenu le standart de par le web pour l'échange de données. Sa popularité pose même de gros problèmes maintenant aux maisons de disques qui se rendent bien compte de l'importance du phénomène.

Codage MP3

Le MP3 "MPEG Audio layer 3" est un format de compression de données audio par destruction de données audio développée par l'organisation de standardisation internationale (ISO). Ce format permet de compresser à un taux de 1:12 les formats audio habituels (WAV ou CD audio). Vous pouvez donc mettre l'équivalent de douze albums de musique sur un seul CD de mp3. De plus, le format mp3 n'altère pas le son pour l'oreille humaine.

En fait la compression MPEG layer 3 consiste à retirer des données audio les fréquences inaudibles par l'oreille humaine. Il s'agit d'analyser les composantes spectrométriques d'un signal audio, et de leur appliquer un modèle psycho-accoustique pour ne conserver que les sons audibles. L'oreille humaine est capable de discerner des sons entre 0.20Khz et 20Khz, sachant que sa sensibilité est maximale pour des fréquences entre 2 et 5Khz (la voix humaine est entre 0.5 et 2Khz), suivant une courbe donnée par la loi de Fletcher et Munsen.
La compression consiste à déterminer les sons que nous n'entendons pas et à les supprimer, on perd ainsi des données.

Principe

Effet de Masque :
Gabriel Bouvigne explique:
"Lorsque vous regardez le soleil et qu'un oiseau passe dans son axe, vous ne le voyez pas car la lumière provenant du soleil est trop importante. En acoustique, c'est similaire. Lorsqu'il y a des sons de fort volume sonore, vous n'entendez pas les sons faibles. Prenez l'exemple d'un orgue: lorsqu'un organiste ne joue pas, vous entendez le souffle dans les tuyaux, et quand il joue, vous ne l'entendez plus car il est masqué.

Il n'est donc pas essentiel d'enregistrer tous les sons, c'est la première propriété utilisée par le format MP3 pour gagner de la place."

Réservoir de bytes :
Souvent, certains passages d'une musique ne peuvent pas être encodés sans altérer la qualité. Le mp3 utilise donc un petit réservoir de bytes qui agit en utilisant des passages qui peuvent être encodés à un taux inférieur au reste des données.

Joint Stereo :
Dans beaucoup de chaines hi-fi, il ya un boomer (ce qui produit les basses) unique. Cependant on n'a pas l'impression que le son vient de ce boomer mais plutôt des haut-parleurs satellites. En effet, en dessous d'une fréquence donnée l'oreille humaine est incapable de localiser l'origine du son. Le format mp3 peut exploiter (en option) cette astuce en utilisant la méthode du joint stereo. C'est-à-dire que certaines fréquences sont enregistrées en mono mais elles sont accompagnées d'informations complémentaires afin de restituer un minimum d'effet spatial.

Codage de Huffman :
Voir codage de Huffman

Structure

La structure d'un fichier MP3 est légèrement différente d'un fichier wav standart. On retrouve ainsi :

1	Synchronisation Cette partie sert à donner des informations sur la compression : fréquence d'échantillonage, taux de numérisation...
2	ID Cette partie sert à donner des informations sur le fichier : nom d'auteur, titre de la chanson...
3	Données Cette partie contient la musique

Résultat

Ainsi, une minute d'un CD-audio (à une fréquence de 44.1 khz, 16 bits, stéréo) ne prendra qu'un seul Mo. Une chanson fait donc en moyenne 3 ou 4 Mo, ce qui rend son téléchargement possible par modem.

Bande passante	Mode	Débit	Qualité	Compression
11.025	Mono	8 Kbps	Mauvaise	200:1
22.050	Stéréo	64 Kbps	Bonne	25:1
44.100	Stéréo	96 Kbps	Très bonne	16:1
44.100	Stéréo	128 Kbps	Excellente	12:1

retour index