thèse de Lucile Sautot

Thumbnail imageConception et implémentation semi-automatiques d'entrepôts de données : application aux données écologiques

Financement : ministère de l'agriculture, projet FCPR (100 %)

Directeur : Bruno Faivre ; codirecteur : Sandro Bimonte (UR TSCF, IRSTEA de Clermont-Ferrand)

Début de la thèse : novembre 2012

Soutenue le 9 octobre 2015

 

Résumé

Cette thèse traite de la conception semi-automatique d'entrepôts de données et des cubes OLAP associés pour l'analyse de données écologiques.

Les sciences biologiques, notamment l'écologie et l'agronomie, génèrent des données nombreuses, hétérogènes, voire inconsistantes, qui nécessitent un effort de collecte important. Il est donc intéressant de proposer aux scientifiques travaillant dans les sciences du vivant des systèmes d'information capable de stocker et de restituer leurs données, en particulier quand celles-ci présentent un volume important. Parmi les outils existants, les systèmes d'analyse en ligne (On-Line Analytical processing : OLAP), ont particulièrement retenu notre attention, car il s'agit de processus d'analyse de données sur de larges collections de données historiques (c'est-à-dire un entrepôt de données) afin d'offrir un support à la prise de décision. Cependant, les systèmes OLAP, bien qu'ils aient des caractéristiques intéressantes pour gérer et analyser des données multidimensionnelles, ont une complexité qui les rendent difficilement accessibles pour des utilisateurs potentiels, qui ne seraient pas des informaticiens professionnels.

Thumbnail imageC'est pourquoi l'objectif de ce travail de thèse est de proposer une méthode de conception d'entrepôt de données et des cubes OLAP associés la plus automatique possible. Cette méthode doit être capable de prendre en compte la complexité des données inhérente aux sciences biologiques.

Nous avons proposé 3 contributions :

  1. Nous nous sommes d'abord intéressés au type des données : comment créer automatiquement des hiérarchies pour des membres d'une dimension décrits par des données mixtes et qui peuvent être manquantes.
  2. Ensuite, nous nous sommes intéressés à l'intégration d'algorithmes de construction automatique de hiérarchies dans une méthode de prototypage.
  3. Enfin, nous avons travaillé sur la construction de hiérarchies à partir de données factuelles. Il s'agit d'enrichir une dimension avec des données issues d'une table de faits, afin de réaliser des requêtes sur d'autres tables de faits. Bien sûr, il faut prendre en compte le contexte de la dimension cible et du fait source de données. Ainsi, on permet l'intégration de données dans une dimension en fonction du contexte multidimensionnel de la dimension, et on peut gérer l'inconsistance des données.

Ce travail de thèse a permis de développer un ensemble d'algorithmes pour adapter la conception multidimensionnelle automatique à des données complexes, telles que celles générées par la biologie, l'agronomie ou les sciences environnementales. Nos contributions ont permis d'intégrer des méthodes de construction automatique de hiérarchies dans une méthode de prototypage de système OLAP. Nous avons également proposé des méthodes permettant de d'intégrer à la construction automatique de hiérarchies des données mixtes (les membres de la dimension sont décrits par des attributs qualitatifs et des attributs quantitatifs), pouvant être manquantes, voir inconsistantes ou originaires d'autres cubes.

 

Mots-clés

informatique décisionnelle, entrepôt de données, OLAP, fouille de données, oiseaux, modèles, bio-indication

 

Comité de suivi de thèse

Kokou Yetongnon, LE2I Laboratoire électronique, informatique et image, UMR CNRS 6306, université de Bourgogne.
Jean Secondi, GECCO Groupe écologie et conservations des vertébrés, université d'Angers.
Francis Aubert, CESAER Centre d'économie et de sociologie appliquées à l'agriculture et aux espaces ruraux, UMR INRA – AgroSup Dijon.

 

Jury

Bruno Faivre (UMR Biogéosciences, université de Bourgogne) – directeur de thèse,
Sandro Bimonte (UR TSCF, IRSTEA de Clermont-Ferrand) – coencadrant
Fadila Bentayeb (Laboratoire ERIC, universités de Lyon) – rapporteur
Gilles Zurfluh (IRIT, université de Toulouse Capitole) – rapporteur
Christophe Nicolle (UMR LE2I, université de Bourgogne) – examinateur
Engelbert Mephu Nguifo (UMR LIMOS, université Blaise Pascal Clermont-Ferrand) – examinateur
Francis Aubert (UMR CESEAR, INRA Dijon) – membre invité