La compression de données

Les deux types de compressions

Cette partie va présenter les deux types majeurs de compression que sont la compression sans perte et la compression avec pertes.

Compression sans perte

Illustration de la compression sans perte

Une compression est dite sans perte si les données après décompression sont identiques aux données originelles.

Ces compression se basent toutes sur le même principe : la répétition d’une donnée est une répétition de trop. L’objectif va être de supprimer le maximum de répétition pour obtenir une compression plus importante tout en étant capable de retrouver les répétitions retirées.

En somme, ces compressions écrivent exactement les mêmes données mais de façon plus concise.

Elles sont appliquées à tous types de données et les formats compressés sont très nombreux. Pour ne citer que les plus connus, nous retrouvons les formats : 7z,bz2, gz, zip, rar, etc...

Format RAR    Format BZ2    Format 7Z

Les algorithmes, moins connu du grand public, sont aussi très nombreux. Nous retrouvons par exemple le codage de Huffman ou les codages de Lempel-Ziv.

Une petite particularité de la compression sans perte : il est impossible de trouver un algorithme dit strictement universel. Cela signifie que pour un algorithme donné, il existera au moins une donnée dont il n’arrivera pas à réduire la taille et si nous tentons de compresser un fichier compressé encore et encore, soit le fichier compressé après compression fini par devenir identique au fichier compressé avant compression, soit la taille du fichier compressé augmente sans arrêt.

Compression avec pertes

Illustration de la compression avec pertes

Une compression est dite avec perte si les données après décompression sont différentes des données originelles.

Elles sont appliquées à des données perceptibles, c'est-à-dire à des images, des sons ou des vidéos. Le principe va consister à supprimer les informations là où les sens de la vue et de l’ouïe ne les perçoivent que très peu. Par exemple, l’œil humain ne distingue que très peu les zones de contraste. Aussi, nous pouvons retirer des détails à ces zones sans trop impacter sur la qualité de l’image.

Ici, nous allons plutôt parler de techniques telles que le sous-échantillonnage ou la quantification. De plus, le nom de format représente directement le type de compression employé : JPEG, MP3, DIVX, MPEG, etc...

Format JPEG    Format MP3    Format DIVX