Article publié dans le magazine Le Photographe dans les années 1995
La retouche numérique est née aux Etats-Unis pour rendre présentables dans la presse, à la télévision les photos de la NASA. Ce sont paradoxalement les besoins de la police et des services de contre-espionnage qui développent ces techniques. Les modules de retouche disponibles sur le marché servent dans le domaine des poussières, des rayures, des détériorations du support, du contraste et parfois des couleurs . Ils fonctionnent en semi-automatique avec parfois des fonctions d’apprentissage (cf le logiciel de retouche de poussières de Scitex, un des précurseurs avec Crosfield dans ce domaine dans les années 1990). La suppression de la trame d’impression est l’une des rares fonctions automatisées.
Les implications de la retouche d’une image
Face à la multiplication des images dans ces différents services, trouver une méthode d’exploitation est devenu indispensable. Diminuer le grain pour rendre une image lisible ou détramer -trame d’impression ou trame vidéo- revient à réduire le bruit. Tandis que supprimer les poussières d’une image ou ses taches, c’est faire de la reconnaissance de forme.
Les flous
Les flous peuvent être locaux, c’est-à-dire ne concerner qu’une partie de l’image, ou globaux. D’un point de vue mathématique, selon Frédéric Guichard, de la société Poseidon (issue de DXO), un flou, qu’il soit de mise au point ou de mouvement, correspond à une convolution. Pour déflouter l’image floue, il suffit de diviser la Transformée de Fourier de l’image par celle du flou et l’on obtient alors la Transformée de l’image nette. Méthode très efficace, sauf dans le cas d’un faible flou où l’on divise alors par des valeurs comprise entre 0 et 1. Dans ce cas, le bruit est amplifié, et rend l’image illisible. Réduire le bruit implique de faire un compromis entre bruit et flou. C’est pourquoi, en utilisant un algorithme de défloutage, on peut être déçu de la qualité photographique de l’image obtenue même si la qualité informative est améliorée. Par contre, pour un flou de travelling, assimilable optiquement parlant à une photo faite avec un diaphragme rectangulaire et allongé, le résultat est bien meilleur.
Le flou de mise au point varie avec la distance des objets. S’il est global et homogène cf une photo prise au lointain avec un flou de mise au point. On procède comme précédemment en estimant d’abord la Transformée de ce flou qui variera avec la focale de l’optique, son ouverture, sa mise au point et la position des objets.
Il est très difficile de retoucher des flous de mouvement d’objets rapides car c’est un mélange fond/forme, arrière-plan et avant-plan. Ainsi, pour une photo de main agitée, la restauration d’une partie du mouvement à partir d’une autre sera impossible tandis que celle d’un véhicule est beaucoup plus simple y compris dans le cas d’un travelling. Selon J.M. Morel, il est possible de le déflouter manuellement, s’il s’agit d’un mouvement rectiligne et uniforme. On ramène alors les traits du flou de mouvement à des points “raisonnablement” restaurés par déconvolution.
Identifier automatiquement un flou uniforme
La Transformée de Fourier sert notamment à mesurer le degré de flou : on regarde, par exemple, l’endroit où la Transformée devient nulle et produit un cercle noir ou cercle d’annulation qui donnera des informations sur la taille et la forme du flou. On en déduira la forme approximative du diaphragme au moment de la prise de vue. Cette information est alors utilisée pour diviser la Transformée et reconstituer l’image.
Actuellement, toutes ces informations : focales, mise au point... sont incomplètes sauf pour des photos par satellites. Dans ce cas, on dispose de la vitesse du satellite, de la focale de l’optique, de l’ouverture, de la vitesse de l’obturateur et surtout de la modélisation du bruit du CCD. Ici, l’algorithme de défloutage fait même partie de l’appareil photo [1]. Et c’est seulement si l’on dispose de toutes ces données que l’on peut refocaliser l’image en mode automatique. Le CNES (Centre National d’Études Spatiales) utilise cette possibilité dans la filière SPOT de satellites d’observation de la terre (méthodes élaborées au Laboratoire QTIS, “Qualité et Traitement de l’Image Spatiale”). Quant aux appareils photos numériques autofocus du commerce, même s’ils fournissent toutes les informations concernant la prise de vue, la modélisation du bruit du CCD n’est malheureusement pas fournie. Il faut procéder par étapes et propositions multiples sélectionnées finalement par l’opérateur. Si, malgré la complexité de ces méthodes de défloutage, des organismes comme le CNES s’attellent à cette tache, c’est qu’elles permettent de réduire par deux ou quatre la taille du satellite et par huit ou plus son coût de lancement. L’investissement est largement rentabilisé.
Transformer l’information temporelle en information spatiale
Cependant, il ne faut pas confondre défloutage et augmentation de la netteté. Ainsi, augmenter la définition est facile pour un zoom avant ou arrière. Dans ce cas, il est possible de transformer l’information temporelle en information spatiale quelle que soit la source (image vidéo ou séquence photos). L’une des versions de cet algorithme a été développée au MIT, il y a quelques années. Cependant, pour l’utiliser, il fallait des images de qualité irréprochable. Actuellement, deux chercheurs, Frédéric Guichard et Lenny Rudin, de la société californienne Cognitech Inc, ont développé l’algorithme Frame Fusion. Cette variante du MIT plus robuste est utilisée avec les télescopes à synthèse d’ouverture. Grâce à cette technique de fusion numérique de plusieurs images, quatre télescopes de dix mètres sont équivalents à un télescope de vingt mètres de diamètre.
Le détramage automatique d’une séquence vidéo -autre forme de transformation de l’information temporelle en information spatiale- est lié à l’estimation du mouvement. La difficulté est de trouver une bonne référence pour reconstituer le mouvement de la caméra et de l’objet. Reprenons le cas du camion qui circule sur l’autoroute et sur lequel est dessiné un cercle. On le filme avec une caméra vidéo PAL perpendiculaire à cette autoroute. Puis, on numérise une des images, on obtient une image composée de deux trames, filmée à 1/25e de seconde chacune. Pour reconstituer le camion, on a deux photos, composées l’une des lignes paires de l’image, l’autre des lignes impaires. Le camion, sur ces deux trames, n’est donc pas au même endroit, il s’est déplacé d’1/25e de la distance parcourue pendant une seconde. Pour reconstituer une image de qualité, il va falloir évaluer la distance entre les deux trames pour les superposer et reconstituer une image numérique complète. Ici, le mouvement parcouru par le haut et le bas du camion est uniforme et simple. Pour un mouvement non uniforme –ballon dirigeable, jambes de pantalons...– cette détection devient plus complexe.
La détection des poussières et des taches pose un problème identique : il s’agit d’une occlusion de la forme. On procède alors par calcul de l’occlusion et restitution d’une géométrie plausible. Ainsi, dans le cas d’une tache située sur le point central d’un X, il faudra une intervention humaine pour sélectionner la bonne solution parmi les réponses proposées. Luc Vincent et Jean Serra ont développé un algorithme “Tueur de grains” qui élimine les petites taches des poussières par comparaison de contraste. En automatique, il supprime toutes les taches. En manuel, on sélectionne les zones retouchées. Cet algorithme est aussi utilisé pour supprimer le bruit du grain de la pellicule. Mais, comment discriminer les poussières des éléments de l’image comme les points noirs d’une barbe mal rasée ? L’opérateur est obligé d’intervenir en dernier recours pour sélectionner les retouches. Cependant, Simon Masnou, de l’École Normale de Cachan, a obtenu d’excellents résultats en reconstituant complètement une image détruite à 40% par une tache.
Il est aussi possible de réduire le bruit en utilisant les ondelettes (une ondelette mesure l’oscillation du signal c’est-à-dire les variations de fréquences). Or une image bruitée contient de nombreuses variations de fréquences ; il suffit de supprimer les ondelettes les plus oscillantes pour débruiter l’image. Pour l’améliorer, dans un deuxième temps, on peut lui appliquer un algorithme de défloutage, cf le travail de David Donoho, de l’Université de Princeton, Bernard Rougé, du CNES et Stéphane Mallat, de l’Ecole Polytechnique.
Réduction de la granularité de la pellicule
Plus une pellicule est sensible, plus elle a de grains, donc de bruit. A la différence du flou, ce bruit dû à la granularité rompt la continuité géométrique alors que le flou dilue la continuité géométrique. Du point de vue de la théorie de l’information, une image floue est moins bruitée qu’une image qui a un gros grain. D’autre part, le flou est multiplicatif dans l’Espace de Fourier, alors que le bruit est additif, que cela soit en espace ou en Transformée. Ceci explique que le flou soit enlevé par une division en espace de Fourier, alors que le bruit est éliminé par soustraction ou par moyennage, ce qui rend l’image floue. La vision humaine procède de la même manière comme le montrent les affiches 4x3 qui nous paraissent bruitées si on les regarde de près et de plus en plus nettes au fur et à mesure de l’éloignement.
Dans la pénombre, les hommes voient moins bien parce que le bruit rétinien et le bruit neuronal perturbent l’information (on perçoit très bien ce bruit de nuit, sans lui, il y aurait de fait, bien suffisamment de photons dans la pénombre pour voir clair). C’est en immobilisant le regard, que l’on augmente le rapport signal/bruit. Car le bruit est fluctuant tandis que le signal est fixe grâce à la permanence rétinienne. En numérique, on peut procéder de la même manière. Les militaires opèrent ainsi avec une caméra infrarouge fixe, ils additionnent les images d’une même scène. Ainsi, par accumulation, ils obtiennent de meilleurs images. Pour doubler la qualité (le rapport signal à bruit), il faut quatre images et pour la tripler, il en faut neuf. Pour des images en mouvement –mouvement de caméra et/ou sujet animé- il faut d’abord compenser le mouvement en replaçant les objets là où ils étaient, puis faire l’accumulation. Ainsi, dans le cas d’un zoom, on choisit une image de référence pour l’emplacement des objets et on accumule toutes les images. Cet algorithme peut aussi être utilisé pour compenser des pertes lors d’une décompression MPEG. Mais, actuellement, il est impossible de l’automatiser et le choix final doit être fait par un opérateur. Cette difficulté de retouche s’accroît avec la photographie qui, contrairement à la vidéo et au cinéma, ne peut pas se référer à un élément précédent.
Au-delà des difficultés techniques, se pose la question de l’interprétation. Un artiste donne des choses à voir et en cache d’autres. Le flou est justement une manière de pratiquer ce jeu de révélation et de disparition. Le flou comme le bruit sert à faire cette sélection. Du point de vue de la théorie de l’information, les impressionnistes sont “bruités”. Et ils obligent à s’éloigner de l’image et à refabriquer du flou pour diminuer le bruit et la rendre lisible. Selon les observations de Pascal Monasse et J.M. Morel, de l’ENS Cachan, les pointillistes sont en fait aliasés, et Léonard de Vinci est carrément flou. Comment un logiciel de retouche automatique pourrait-il décider du traitement à effectuer dans pareils cas ?
Hervé Bernard avec la collaboration de J.M. Morel de L’ENS Cachan
Algorithmes et fabrication des images, entretien en deux parties avec Frédéric Guichard, directeur de la recherche de DXO