·          I (Intra coded) frames : les images sont codées (JPEG) sans faire référence à d'autres images. Elles offrent des points d'accès à la séquence codée, points à partir desquels le décodage peut démarrer. Mais ces images sont codées seulement avec une compression modérée.

·          P (Predictive coded) frames : les images sont codées plus efficacement en utilisant la prédiction compensée de mouvement à partir d'une image de référence I ou une image prédite P précédente, et sont généralement utilisées comme référence pour une prédiction postérieure. Il s'agit, en gros, d'une différence bloc par bloc avec la dernière trame.

·          B (Bidirectionally predictive coded) frames : elles offrent le plus grand degré de compression mais requièrent une image de référence passée et future pour la compensation en mouvement, et éviter des ruptures visuelles. Il s'agit des différences avec la trame précédente et suivante. Les images B ne sont jamais utilisées comme référence pour la prédiction (excepté dans le cas où l'image résultante est utilisée comme référence dans une couche d'amélioration réductible spatialement).

·                 D (DC coded) frames : Moyennes de bloc, utilisées pour effectuer une avance rapide.

Un GoP commence par une image I, contient une suite périodique d'images P séparées par un nombre constant d'images B. La structure du GoP est alors définie par deux paramètres; le nombre d'images du GoP et la distance entre images I/P.

L'image est elle-même découpée en tranches ou slices dont le but est de limiter la propagation d'erreurs de transmission/stockage dans l'image restituée. Une tranche est une suite de macro-blocs. Un macro-bloc représente une partie de l'image de 16x16 pixels. Un bloc est une matrice de 8x8 coefficients chacun représentant l'une des trois composantes d'un pixel, Y, Cr ou Cb.