Classification bayésienne non supervisée de données fonctionnelles en présence de covariables - Agropolis Accéder directement au contenu
Thèse Année : 2014

Unsupervised bayesian clustering for functional data with covariates

Classification bayésienne non supervisée de données fonctionnelles en présence de covariables

Résumé

One of the major objectives of unsupervised clustering is to find similarity groups in a dataset. With the current development of phenotyping, in which continuous-time data are collected, more and more users require new efficient tools capable of clustering curves. The work presented in this thesis is based on Bayesian statistics. Specifically, we are interested in unsupervised Bayesian clustering of functional data. Nonparametric Bayesian priors allow the construction of flexible and robustmodels. We generalize a clustering model (DPM), founded on the Dirichlet process, to the functional framework. Unlike current methods which make use of the finite dimension, either by representing curves as linear combinations of basis functions or by regarding curves as data points, calculations are hereby carried out on complete curves, in the infinite dimension. The reproducing kernelHilbert space (RKHS) theory allows us to derive, in the infinite dimension, probability density functions of curves with respect to a gaussianmeasure. In the same way,we make explicit a posterior distribution, given complete curves and not only data points.We suggest generalizing the algorithm"Gibbs sampling with auxiliary parameters" by Neal (2000). The numerical implementation requires the calculation of inner products, which are approximated from numerical methods. Some case studies on real and simulated data are also presented, then discussed. Finally, the addition of an extra hierarchy in our model allows us to take functional covariates into account. For that purpose, we will show that it is possible to define several models. The previous algorithmic method is therefore extended to each of these models. Some case studies on simulated data are presented.
Un des objectifs les plus importants en classification non supervisée est d’extraire des groupes de similarité depuis un jeu de données. Avec le développement actuel du phénotypage où les données sont recueillies en temps continu, de plus en plus d’utilisateurs ont besoin d’outils capables de classer des courbes. Le travail présenté dans cette thèse se fonde sur la statistique bayésienne. Plus précisément, nous nous intéressons à la classification bayésienne non supervisée de données fonctionnelles. Les lois a priori bayésiennes non paramétriques permettent la construction de modèles flexibles et robustes. Nous généralisons un modèle de classification (DPM), basé sur le processus de Dirichlet, au cadre fonctionnel. Contrairement aux méthodes actuelles qui utilisent la dimension finie en projetant les courbes dans des bases de fonctions, ou en considérant les courbes aux temps d’observation, la méthode proposée considère les courbes complètes, en dimension infinie. La théorie des espaces de Hilbert à noyau reproduisant (RKHS) nous permet de calculer, en dimension infinie, les densités de probabilité des courbes par rapport à une mesure gaussienne. De la même façon, nous explicitons un calcul de loi a posteriori, sachant les courbes complètes et non seulement les valeurs discrétisées. Nous proposons un algorithme qui généralise l’algorithme "Gibbs sampling with auxiliary parameters" de Neal (2000). L’implémentation numérique requiert le calcul de produits scalaires, qui sont approchés à partir deméthodes numériques. Quelques applications sur données réelles et simulées sont également présentées, puis discutées. En dernier lieu, l’ajout d’une hiérarchie supplémentaire à notre modèle nous permet de pouvoir prendre en compte des covariables fonctionnelles. Nous verrons à cet effet qu’il est possible de définir plusieurs modèles. La méthode algorithmique proposée précédemment est ainsi étendue à chacun de ces nouveaux modèles. Quelques applications sur données simulées sont présentées.

Mots clés

Fichier principal
Vignette du fichier
TheseDamienJuery_1.pdf (1.75 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-02793540 , version 1 (05-06-2020)

Identifiants

  • HAL Id : tel-02793540 , version 1
  • PRODINRA : 283949

Citer

Damien Juery. Classification bayésienne non supervisée de données fonctionnelles en présence de covariables. Méthodologie [stat.ME]. Université Montpellier 2 (Sciences et Techniques), 2014. Français. ⟨NNT : ⟩. ⟨tel-02793540⟩
11 Consultations
35 Téléchargements

Partager

Gmail Facebook X LinkedIn More