Event-Based Detection and Tracking

David Reverter Valeiras

Résumé

Neuromorphic event-based cameras are a new type of biomimetic vision sensors, whose principle of operation is inspired by the functioning of the retina. Unlike conventional cameras, these devices do not encode visual information as a sequence of static frames, but as a stream of precisely timestamped events. Every pixel is independent and asynchronously generates events when it detects a sufficient amount of change in the luminance at its corresponding field of view. This frame-free approach avoids redundant sampling of previously known information, resulting in a drastic increase of the temporal resolution without raising the amount of data to process or the energy consumption. This new way of encoding visual information calls for new processing methods, as classical image-based algorithms do not fully exploit the potential of event-based neuromorphic cameras. The main objective of this thesis is the development of truly event-based algorithms for visual detection and tracking. In the first place two plane trackers are introduced. Firstly, a part-based shape tracking is presented. This method represents an object as a set of simple shapes linked by springs. The resulting virtual mechanical system is simulated with every incoming event. Next, a line and segment detection algorithm is introduced, which can be employed as an event-based low level feature. Two event-based methods for 3D pose estimation are then presented. The first of these 3D algorithms is based on the assumption that the current estimation is close to the true pose of the object, and it consequently requires a manual initialization step. The second of the 3D algorithms is designed to overcome this limitation. All the presented methods update the estimated position (2D or 3D) of the tracked object with every incoming event. This results in a series of trackers capable of estimating the position of the tracked object with microsecond precision. Experiments are provided in order to test each of the methods, comparing them against other state-of-the-art algorithms. This thesis shows that event-based vision allows to reformulate a broad set of computer vision problems, often resulting in simpler but accurate algorithms.

Les caméras événementielles neuromorphiques sont un nouveau type de capteurs bioinspirés, dont le principe de fonctionnement s'inspire de la rétine. Contrairement aux caméras conventionnelles, ces dispositifs n'encodent pas l'information visuelle comme une séquence d'images statiques, mais comme un flux d'événements possèdant chacun un temps précis. Chaque pixel est indépendant et génère des événements de manière asynchrone lorsqu'un changement de luminosité suffisamment important est detecté à la position correspondante du plan focal. Cet échantillonnage en amplitude du signal lumineux permet d'accroître la résolution temporelle, sans augmenter la quantité des données à traiter ni la consommation énergétique. Cette nouvelle fa\c{c}on d'encoder l'information visuelle requiert de nouvelles méthodes pour la traiter, car les algorithmes classiques de traitement d'image ne parviennent pas à exploiter l'integralité du potentiel de cette information. L'objectif principal de cette thèse est le développement d'algorithmes événementiels pour la détection et le suivi d'objets. Ces algorithmes sont spécifiquement conçus pour traiter les données produites par des caméras neuromorphiques. Dans un premier temps deux algorithmes 2D sont presentés. D'abord, un ``\emph{tracker}'' plan est décrit. Cet algorithme associe à un objet une série de formes simples reliées par des ressorts. Le système mécanique virtuel résultant est mis à jour pour chaque événement. Le chapitre suivant présente un algorithme de détection de lignes et de segments, pouvant constituer une primitive (\emph{feature}) événementielle de bas niveau. Ensuite, deux méthodes événementielles pour l'estimation de la pose 3D sont présentées. Le premier de ces algorithmes 3D est basé sur l'hypothèse que l'estimation de la pose est toujours proche de la position réelle, et requiert donc une initialisation précise et, dans un premier temps, manuelle. Le deuxième de ces algorithmes 3D est conçu pour surmonter cette limitation. Toutes les méthodes présentées mettent à jour l'estimation de la position (2D ou 3D) pour chaque événement. Ceci résulte en une série de \emph{trackers} capables d'estimer la position de l'objet suivi avec une résolution temporelle de l'ordre de la microseconde. Chaque méthode est illustrée avec des expériences, et comparée avec d'autres algorithmes issus de l'état-de-l'art. Cette thèse montre que la vision événementielle permet de reformuler une vaste série de problèmes en vision par ordinateur, souvent donnant lieu à des algorithmes plus simples, donc moins coûteux, sans sacrifier la précision.

Event-Based Detection and Tracking

Detection et Suivi Événementielles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager