Apprentissage a contrario et architecture efficace pour la détection d'évènements visuels significatifs

Nicolas Burrus

Résumé

To ensure the robustness of a detection algorithm, it is important to get a close control of the false alarms it may produce. Because of the great variability of natural images, this task is very difficult in computer vision, and most methods have to rely on a priori chosen parameters. This limits the validity and applicability of the resulting algorithms. Recently, by searching for structures for which some properties are very unlikely to be due to chance, the a contrario statistical approach has proved successful to provide parameterless detection algorithms with a bounded expected number of false alarms. However, existing applications rely on a purely analytical framework that requires a big modeling effort, makes it difficult to use heterogeneous features and limits the use of data-driven search heuristics. In this thesis, we propose to overcome these restrictions by using statistical learning for quantities that cannot be computed analytically. The interest of this approach is demonstrated through three applications : segment detection, segmentation into homogeneous regions, and object matching from a database of pictures. For the two first ones, we show that robust decision thresholds can be learned from white noise images. For the last one, we show that only a few examples of natural images that do not contain the database objects are sufficient to learn accurate decision thresholds. Finally, we notice that the monotonicity of a contrario reasoning enables an incremental integration of partial data. This property leads us to propose an architecture for object detection which has an "anytime" behavior : it provides results all along its execution, the most salient first, and thus can be constrained to run in limited time.

Pour assurer la robustesse d'un algorithme de détection, il est nécessaire de maîtriser son point de fonctionnement, et en particulier son taux de fausses alarmes. Cette tâche est particulièrement difficile en vision artificielle à cause de la grande variabilité des images naturelles, qui amène généralement à introduire des paramètres choisis a priori qui limitent la portée et la validité des algorithmes. Récemment, l'approche statistique a contrario a montré sa capacité à détecter des structures visuelles sans autre paramètre libre que le nombre moyen de fausses alarmes tolérées, en recherchant des entités dont certaines propriétés sont statistiquement trop improbables pour être le fruit du hasard. Les applications existantes reposent toutefois sur un cadre purement analytique qui requiert un travail important de modélisation, rend difficile l'utilisation de caractéristiques multiples et limite l'utilisation d'heuristiques de recherche dirigées par les données. Nous proposons dans cette thèse d'assouplir ces restrictions en ayant recours à de l'apprentissage pour les quantités non calculables analytiquement. Nous illustrons l'intérêt de la démarche à travers trois applications : la détection de segments, la segmentation en régions homogènes et la détection d'objets à partir d'une base de photos. Pour les deux premières applications, nous montrons que des seuils de détection robustes peuvent être appris à partir d'images de bruit blanc. Pour la dernière, nous montrons que quelques exemples d'images naturelles ne contenant pas d'objets de la base suffisent pour obtenir un algorithme de détection fiable. Enfin, nous remarquons que la monotonicité du raisonnement a contrario permet d'intégrer incrémentalement des informations partielles. Cette propriété nous conduit à proposer une architecture "anytime" pour la détection d'objets, c'est-à-dire capable de fournir des détections progressivement au cours de son exécution, en commençant par les objets les plus saillants.

Apprentissage a contrario et architecture efficace pour la détection d'évènements visuels significatifs

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager