QCM-BioChem : Quality in Consensualizing and Mining biological and chemical datasets
Le projet QCM-BioChem propose de s'attaquer aux défis posés par la très grande variété des données biologiques et chimiques et des méthodes d'analyse et de fouille sur ces données. L'originalité des approches développées dans QCM-BioChem repose sur la prise en compte et l'explicitation systématique de critères de qualité, au niveau des données, des méthodes d'analyse et de fouille, et jusqu'aux connaissances produites.Le projet comporte trois axes hautement complémentaires décrits ci-après.
Axe scientifique "Classement consensuel de données"
Contexte : A partir de plusieurs classements d'un même jeu de données (plusieurs ordres entre les données), l'objectif est de produire un classement consensuel, qui minimise les désaccords entre les classements d'entrées.
Applications visées
- Classements de données biologiques obtenues en réponse à une requête (plusieurs classements à "consensualiser" en fonction de plusieurs reformulations possibles de la requête), on considérera en priorité les requêtes recherchant les gènes du NCBI (base de données internationale fournissant des informations sur les gènes) impliqués dans des cancers.
- D'autres applications sont envisagées, en particulier en lien avec les deux autres axes du projet (par exemple, utilisation de techniques de consensus plutôt qu'un vote majoritaire en cas de choix entre plusieurs alternatives ou combinaison des retours d'experts concernant l'étiquetage des données et des mesures quantitatives venant des bases de données existantes).
Objectifs 2018
- Publication/valorisation de la plateforme CoRankCo, version béta ici : https://corankco.lri.fr/
- Description d'un cadre uniforme pour représenter les différentes métriques utilisées dans le calcul d'un consensus, étude des propriétés des différentes métriques.
- Etude d'un modèle statistique pour évaluer a priori la qualité d'un consensus à partir des jeux de données initiaux.
- Valorisation de l'outil ConQur-Bio, étude de cas avec APHP Paul-Brousse
Axe scientifique "Approches hybrides pour la fouille de données et l'extraction de connaissances"
Objectif : Dans le cadre des données scientifiques la tâche de découverte de connaissances est rendue plus difficile en raison de l'hétérogénéité et de la complexité des données. En effet, ces données sont incomplètes, imprécises, multi-échelles (e.g., cellule, tissus, organisme) et décrites avec différents vocabulaires. L'objectif de cet axe est de formaliser la combinaison de méthodes numériques et symboliques de fouille de données et d'extraction de connaissances dans les données scientifiques.Méthodes informatiques : Fouille de données, représentation des connaissances, raisonnement.
Objectifs 2018
- Conception et formalisation d'une approche de découverte de sous-graphes clés fondée sur la recherche de non clés en utilisant d'abord les éléments théoriques définis dans le domaine de la "Formal Concept Analysis" ou FCA.
- Conception d'un Cadre formel commun et comparatif pour les techniques de classification/fouille de données comme le clustering, la FCA, SVM et Random Forests (voire les réseaux de neurones). Les données d'intérêt pour nous sont les triplets RDF du Web des données (avec un focus particulier sur les données biologiques) avec un problème important à résoudre qu'est la recherche de clés dans les données relationnelles et qui généralise le problème de la recherche de dépendances fonctionnelles.
- Conception et formalisation d'une approche de découverte de règles de causalité en exploitant les résultats d'approches de découverte de clés graphes et de liage sémantique de données.
Axe scientifique : Techniques d'échantillonnage et intégration de préférences dans les approches de fouille de données
Contexte : Utiliser l'expertise des utilisateurs afin de biaiser la fouille de motifs, ainsi que modifier incrémentalement des modèles prédictifs apprisApplications visées
- Offrir un outil interactif (PrePeP) aux experts en chimie thérapeutique afin de leur permettre de prédire des PAINS (Pan-Assay INterference compoundS - molécules ayant de l'activité non-spécifique), explorer le modèle utilisé et apporter des corrections, si nécessaire
- Développement d'une approche générale pour la fouille interactive des données structurées - p. ex. molécules en forme de graphes ou séquences, trajet des trains en forme de séquences, visites des sites web en forme d'arbres
Objectifs 2018
- Appliquer la recherche d'arbre Monte Carlo ayant un budget de temps (Bosc et al.) vers le domaine de motifs graphe, ce qui demande de nouvelles stratégies d'exploration des branches parce que l'évaluation des motifs est plus coûteuse en temps et l'espace de recherche est plus grand. Les données moléculaires étant représentées en forme de graphes, ce type d'échantillonnage sera nécessaire pour améliorer la réactivité de PrePeP.
- étendre l'échantillonnage de motifs pour d'établir les étiquettes des données incomplètement/incorrectement étiquetées (Giacometti et al.) aux données moléculaires déséquilibrées. Le PAINS par nature n'étant pas concrètement défini, l'approche actuelle apprend à partir des "frequent hitters", molécules qui possèdent une activité envers plusieurs cibles. Un étiquetage interactif permettrait d'améliorer la qualité des données.
- Transférer le cadre de la modification minimale de clusters en utilisant la programmation par contraintes (Kuo et al.) vers la modification minimale de motifs graphes/arbres de décision. L'inclusion de cette technique dans PrPeP permettrait d'éviter la relance du processus de fouille/apprentissage.
Réunion 01/06/2018 -- INRIA Paris, 2 Rue Simone IFF, 75012 Paris
- 10h00 Arnaud Soulet/Arnaud Giacometti: Dense neighborhood pattern sampling in numerical data
- 11h00 Khalil Youcef Lagraa: FS3: échantillonnage MCMC de graphes fréquents
- 12h00 Déjeuner
- 13h30 Christel Vrain & Thi-Bich-Hanh Dao: Descriptive clustering
- 15h30-17h00 Discussions