Thea
Thea : un outil dédié à l'analyse de grands jeux de données
Thea est composé d'un ensemble d'outils intégrés destiné au pilotage et à l'exploitation d'expérimentations portant sur des grands jeux de données grâce à un contexte biologique géré dans une base de connaissances
Problématique
Au cours des dernières années, les projets de séquençage massif ont alimenté les grandes banques de données biologiques d'une extraordinaire quantité de données. Cependant, ces données brutes restent de peu d'utilité si elles ne sont pas transformées en connaissance. Actuellement, le processus laborieux d'annotation est réalisé conjointement par des experts humains et des programmes informatiques. L'élaboration automatique d'annotations s'effectue, soit à l'aide d'algorithmes utilisant une modélisation biologique (recherche de gènes, de motifs ou d'ARN non-codants, calcul de structures 3D), soit, le plus souvent, grâce à des programmes d'alignements. Le principe de la seconde méthode est d'inférer l'homologie de séquences sur la base de leur similarité et d'en déduire des similarités de structure ou de fonction. La connaissance générée est toutefois difficilement utilisable car elle est représentée selon différents formalismes (texte libre, mots-clés, vocabulaire contrôlé, base de données relationnelle), possède souvent un indice de fiabilité variable suivant la méthode utilisée (annotations manuelles vs annotations prédites) et se trouve dispersée parmi des milliers d'artiles scientifiques, des annotations dans les bases de données et le cerveau des biologistes
Un scénario similaire se dessine pour les nouvelles technologies (protéomique, transcriptomique) qui commencent à produire des torrents de données. Le but désormais n'est pas d'étudier de manière approfondie des objets biologiques pris isolément, mais de traquer l'activité de génomes entiers, temporellement et spatialement. La connaissance n'est plus bâtie sur la base d'alignements de séquences mais en fonction de l'activité mesurée de ces objets dans des contextes particuliers d'expérimentation. L'idée est qu'un ensemble de gènes réagissant d'une manière coordonnée est probablement impliqué dans un même module fonctionnel. Le travail consiste donc à identifier ces modules et à en comprendre leur fonctionnement.
La première phase est facilement automatisable et abondamment étudiée. Il existe de nombreuses techniques dédiées à l'acquisition, la normalisation, le filtrage et le groupement des résultats générés par les expérimentations post-génomiques
Cependant, à l'issue de cette phase, les données générées sont, bien évidemment, plus fiables et mieux organisées, mais toujours aussi nombreuses. Les systèmes automatiques capables d'extraire de la connaissance à partir des données brutes doivent faire face aux problèmes récurrents de l'annotation des génomes : description de fonctions inconsisante, faux assignements (positifs ou négatifs), prédictions non supportées, utilisation hasardeuse de termes. Il existe plus que jamais un besoin important de techniques automatiques qui se basent sur des vocabulaires structurés et controllés (ontologies) pour analyser des grandes quantités de données de manière à découvrir des règles
Objectifs
Le projet Thea (Tools for High-throughput Experiment Analysis) vise à élaborer des outils et des techniques adaptés à l'analyse des données post-génomiques. Ceux-ci couvrent deux domaines : l'un est axé sur l'élaboration de connaissances à partir de données (fouille de données) et l'autre porte sur la représentation des connaissances. Ces deux aspects du projet sont évidemment très liés car la base de connaissances doit intégrer les nouvelles connaissances générées et la fouille de données ne peut s'effectuer qu'en utilisant un contexte biologique stocké dans la base.



