Le son et l’image numérique
La numérisation d’un signal se divise en deux opérations : l’échantillonnage et la quantification. Dans un premier temps, il faut prélever des échantillons, c’est-à-dire découper un signal analogique (continu) en un nombre x de tranches pour les mesurer à intervalles réguliers, afin d’obtenir un certain nombre de valeurs. La distance entre chaque prise d’échantillon est le pas d’échantillonnage. Plus cette distance est petite, meilleure est la qualité de l’échantillonnage. Celle-ci dépend aussi de la régularité du pas [1] ou intervalle d’échantillonnage [2] Il ne suffit donc pas seulement de travailler en numérique, il faut aussi d’abord et avant tout bien échantillonner. Un son haché, une droite en escalier sont le résultat d’un trop grand pas d’échantillonnage. C’est-à-dire d’une distance trop importante entre chaque prélèvement. L’idéal serait donc de ne pas s’arrêter de prélever afin de réduire le pas d’échantillonnage au minimum voire d’obtenir un échantillonnage continu. Mais, cela est impossible. La gestion du volume des données générées serait impossible à traiter, à transmettre et à stocker. Le pas d’échantillonnage est donc déjà une manière de discriminer l’information. Car aucune valeur ne correspond aux espaces situés entre deux échantillonnages. [Par conséquent, cette opération entraîne des pertes d’informations.-
erreur d'échantillonnage from BERNARD Hervé (rvb) on Vimeo.
La quantification
La quantification suit immédiatement l’échantillonnage du signal. Le terme quantification désigne l’opération d’attribution d’une valeur numérique à l’amplitude du signal de chacun des échantillons prélevés lors de l’échantillonnage. La quantification et l’échantillonnage sont donc étroitement liés. Ces deux opérations sont essentielles, car ajouter ultérieurement des bits au signal initial, ne l’améliore pas, cela ne fait que réduire les pertes d’arrondis lors des différents calculs effectués sur le signal : application de filtres visuels ou sonores, agrandissement-réduction d’une image... De même, l’échantillonnage achevé, il est impossible d’ajouter des échantillonnages intermédiaires. Ces deux opérations sont donc irréversibles.
Il ressort de ces deux définitions que dans le domaine du son, on aura un échantillonnage temporel : ce que l’on doit mesurer c’est un signal qui se déroule dans le temps. Dans le domaine de l’image fixe, on va effectuer un échantillonnage spatial (on mesure la valeur RVB des points situés dans un repère orthonormé définit par la grille du capteur CCD ou CMOS). Tandis que dans le domaine de la vidéo et du cinéma, on va employer à la fois un échantillonnage temporel : le nombre d’images enregistrées à la seconde. (On en déduit que le cinéma et la vidéo analogique utilisent eux-aussi un échantillonnage temporel respectif de 24 images et de 50 trames à la seconde [3] ) et un échantillonnage spatial : la grille d’analyse de chaque image. Plus la valeur de cet échantillonnage temporel sera élevée moins l’effet de la stroboscopie sera perceptible [4].
L’échantillonnage spatial détermine la définition de chacun des photogrammes du film ou des photographies. Il est défini soit par un nombre de points global (6 millions de pixels par exemple) ou par deux nombres précisant le nombre de points sur la longueur et la largeur de l’image (3 000 x 2 000 pixels pour reprendre l’exemple précédent). Si le premier nombre donne le nombre de photosites du capteur, il a pour inconvénient de ne fournir aucune information sur le format de l’image. Son rapport (16/9 ou 4/3...) reste inconnu, tandis que la seconde notation fournit des informations sur le format de l’image. Employée rigoureusement, cette seconde notation, outre le nombre de photosites, précise aussi, pour une image fixe, le sens de l’image : horizontal ou vertical.
Numériser le plus grand nombre de points possible dans une image pour obtenir une image de qualité n’est pas suffisant. Faut-il encore quantifier correctement ces points, afin de capter les bonnes couleurs, c’est-à-dire la modulation chromatique et lumineuse de chacun des points pour restituer correctement la plage dynamique de l’image. C’est pourquoi, le nombre de bits par couleur primaire joue un très grand rôle. Il représente la gamme de couleurs reproduite par un périphérique (écran, imprimante... ) ou le nombre de couleurs individuelles ou de niveaux d’intensité, qu’il peut analyser (scanner, appareil photo...).
Pour une image, la quantification est exprimée soit par un nombre de bits total soit séparément pour chacun des canaux : rouge, vert et bleu. (Ce n’est qu’une différence de notation) Lorsque chaque canal de couleur est défini par un nombre codé sur 8 bits, il existe 256 niveaux de luminosité possibles pour chaque couleur, ce qui permet de décrire 16,7 millions de couleurs (256 niveaux x 256 x 256)5. Tandis qu’en 12 bits, ce nombre passe à 4 096 niveaux par couleur. Précisons que si l’on a choisi un codage en rouge, vert, bleu pour numériser une image, c’est parce que c’est l’un des codages qui correspond le mieux à la vision humaine compte-tenu de la complexité de fabrication des filtres couleurs de qualité. En effet, un CCD est seulement sensible à l’intensité lumineuse, il fonctionne comme un pluviomètre à lumière. La séparation des couleurs se fait grâce à des filtres placés devant le capteur (cf. encadré séparation des couleurs en numérique). Nous aurions eu une vision quadrichromique comme certains animaux, le filtrage de la lumière se ferait sur quatre couleurs.
La perception auditive est un phénomène complexe qui, comme tous les phénomènes perceptifs, est non linéaire. Car la réaction de l’oreille n’est pas proportionnelle à la variation du niveau sonore et de la fréquence... L’oreille tout comme l’œil humain fonctionne en relatif. Ils comparent les signaux proches dans le temps, plutôt que dans l’absolu. Juger d’un niveau sonore et/ou visuel dans l’absolu est quelque chose de difficile. Pour évaluer une perception, nous procédons toujours par référence et comparaison comme le montre l’accordeur de piano au travail ou l’imprimeur estimant de la qualité d’une impression.
Pourtant, la perception sonore est d’une efficacité étonnante. Ainsi, nous reconnaissons le timbre d’une voix au téléphone malgré la bande de fréquences étroite de ce canal. L’écoute humaine binaurale nous permet de reconstituer la sensation d’espace proposée par la stéréophonie, qu’elle soit à deux canaux ou spatialisée. Chaque signal acoustique issu d’une enceinte arrive d’abord à une oreille, puis à l’autre, avec une différence d’intensité et un léger retard. Le cerveau interprète ces données et en déduit l’origine spatiale du signal.
La compression
Mais revenons à l’exemple d’une image comme base de raisonnement, pour un codage sur huit bits par couleur primaire, chaque point sera défini par les valeurs suivantes : coordonnées x et y, valeurs R, V et B soit cinq chiffres pour décrire ce point. Cette quantité d’information va nous amener rapidement à devoir compresser les données afin de pouvoir les manipuler plus facilement. Il existe deux types de compression : les compressions non destructives et les compressions destructives de l’information. En fait, le terme compression est inexact, il vaudrait mieux parler de réduction de débit. La réduction de débit non destructive repose notamment sur le traitement de toutes les informations redondantes.
Une forme simple de compression sans perte consiste à prendre un texte, à en répertorier toutes les séquences de trois mots qui sont répétées plus de trois fois par exemple, et à les remplacer par un numéro. Ce repérage effectué, à l’enregistrement, on place, au début du fichier, un tableau de correspondances entre les nombres et les séquences de mots. A l’ouverture de ce fichier, on remplace ce nombre par la séquence de mots lui correspondant et le texte reprend, à l’écran ou lors de l’impression, sa forme initiale.
Pour une image photographique numérisée, le procédé est sensiblement identique. Imaginons une ligne de 3 000 points de la même couleur, avec la réduction de débits au lieu de stocker 3 000 fois les mêmes valeurs RVB et leurs coordonnées, lors de l’enregistrement du fichier, on va coder l’information suivante : « du point 1 de la ligne 1 au point 3 000 de la ligne 1 et le triplet RVB. » Ce type d’encodage ne détruit aucune information, il en réduit cependant considérablement le volume. C’est pour cela qu’il est dit non destructif.
La compression destructive
Au-delà de cette compression d’un taux maximum de 2:1, on ne peut plus réduire le volume des données sans perte d’information. Par conséquent, lors de la lecture ou décompression du fichier, ces informations seront plus ou moins bien reconstituées. A ce niveau, on distingue deux types de pertes, les pertes dites imperceptibles et les pertes perceptibles. La question est de savoir perceptible par qui ? Un chef d’orchestre qui vient de diriger pendant un mois « La Cinquième Symphonie » de Beethoven n’aura pas la même perception de ces pertes. Son oreille est d’autant plus aiguisée qu’il est déjà capable de percevoir des différences entre deux exécutions qu’il a dirigées. Discrimination que la plupart d’entre nous sommes incapables de faire.
Dans ce cas, l’un des principes de la réduction de débit repose sur le moyennage entre plusieurs échantillons réputés peu différents. Ainsi, dans la compression des images selon le mode JPEG, l’échantillonnage et la quantification restent constant mais une fois ces deux opérations achevées, on va effectuer une moyenne de la quantification sur un nombre de pixels donnés. Ce nombre appelé bloc est de quatre pixels minimum. Quant cette moyenne est effectuée sur quatre pixels, bien souvent, elle est peu visible, mais quand elle faite sur douze ou vingt-quatre pixels voire plus les dégâts peuvent-être très importants.
Dans le son et la vidéo, on utilise un procédé un peu différent : la réduction de débit. Comme pour la compression de données, dans un premier temps on va numériser le signal dans la plus large bande possible. Puis, dans un second temps, après avoir fait cette numérisation on réduit l’échantillonnage et la quantification afin de réduire la bande passante nécessaire lors de la transmission et du stockage. Ainsi, dans le son, on numérisera le son en 24 bits avec un échantillonnage de 96 000 Hz puis, dans un second temps, on ramènera le signal à 16 bits et en 48 000 Hz. En vidéo, il est problématique de réduire l’échantillonnage temporel pour des questions de standardisation technologique et pour la fluidité du mouvement, on travaillera avant tout sur l’échantillonnage spatial et la quantification de la couleur. C’est l’une des techniques utilisées par les caméscopes DV afin de réduire la bande passante. Pour cela, le codage RVB va être remplacé par le codage YUV (utilisé auparavant en vidéo analogique où il permettait une compression de l’ordre de 4:1) où Y symbolise la luminance, le U, le signal de chromie R-Y (rouge moins luminance) et le V, le signal de chromie B-Y (bleu moins luminance)7. Le signal de luminance étant codé sur les 576 lignes de la définition d’une image numérique au standard européen, tandis que les deux signaux de chrominance sont codés alternativement sur une ligne soit 288 lignes par signal. De la même manière, la luminance sera stockée sur les 720 pixels de la longueur de chaque ligne tandis que les signaux de chrominance ne seront stockés que sur un pixels sur deux (360 pixels). Du point de vue perceptif, ce codage repose sur une moindre sensibilité de l’œil aux variations de chrominance. Il est aussi noté sous la 4:2:0. Dans le cas du signal DV utilisé aux Etats-Unis et dans les autres pays utilisant le NTSC, ce signal est légèrement différent (4:1:1) ce qui explique les problèmes de compatibilité entre les cassettes DV américaines et européennes. Dans cette technique de compression, comme dans toutes les techniques de compression, l’image est instantanément reconstruite à la lecture du support.
Bien entendu, toutes ces opérations engendrent des erreurs lors de la transmission et/ou de l’enregistrement. C’est pourquoi, simultanément au développement du numérique, les chercheurs ont mis au point des algorithmes de corrections d’erreurs qui contrôle en temps réel le signal et le corrige.
Le signal numérique est donc un signal facilement manipulable, transportable et stockable. Composé d’une suite de chiffres, il est commode de lui appliquer des traitements comme la détection et la correction d’erreurs mais aussi tous les filtres d’effets spéciaux. Cependant, sa discontinuité en fait un codage imparfait. Une des voies pour l’améliorer serait donc de réduire cette discontinuité. Ainsi, dans le domaine de l’image animée, dans la course à la définition et à la qualité vaut-il mieux augmenter le pas de l’échantillonnage ou la quantification ? C’est l’une des questions que le cinéma numérique nous posera rapidement avec l’accroissement du débit des réseaux. Vaut-il mieux un cinéma basé sur un échantillonnage temporel de 24 images à la seconde et une définition spatiale comprise dans une fenêtre de 4 000 x 4 000 pixels ou un cinéma à 48 images par seconde et une définition spatiale comprise dans une fenêtre de 2 000 x 2 000 pixels selon les rapports d’image. Pour un débit quasi identique, dans le second cas, on privilégie le rendu du mouvement tandis que dans le premier cas, on privilégie la définition de l’image. Cette question trouve sa réponse dans les spécificités de l’œil mais aussi dans le type de cinéma désiré. La seconde hypothèse favorisant le cinéma d’action (personnages en mouvement et/ou caméra se déplaçant rapidement) et le compte-rendu d’évènements sportifs. La première hypothèse produisant, probablement, un cinéma plus esthétique avec une mise en valeur de l’éclairage, des matières utilisées dans les décors et de la composition de l’image. Enfin, n’oublions jamais que le numérique, tout comme l’analogique est soumis aux fragilités de son support : CD, bande magnétique, réseaux de transmission…
Hervé Bernard