Analyse de données

Les technologies de génomique à haut débit : puces à ADN et séquençage NGS génèrent un grand nombre de données qui doivent être normalisées, validées statistiquement, triées, regroupées et classées (clustering), comparées entre elles (data mining) puis interprétées en terme biologique (analyse Gene Ontology, Analyse de pathways) et comparées à d’autres études pour être publiées. En addition de cette analyse, certaines revues imposent également la publication électronique des données sous format MIAME (microarrays) ou MINSEQE Minimum Information About a Sequencing Experiment » (NGS) .

Profilexpert a une solide expérience, depuis 2003, dans ces analyses de données à haut débit et vous propose une large gamme de services d’analyse de données ainsi qu’un accompagnement tout au long de votre projet, du design expérimental à l’interprétation des données et la publication de vos résultats.

Format de publication des données de génomique

Pour la publication de vos résultats, de nombreuses revues, requièrent que vos données d’analyse à haut débit soient intégrées (Format MIAME pour les microarrays et format MINSEQE pour le séquençage NGS) dans des bases de données telles que Array Express ou NCBI-GEO. ProfileXpert vous accompagne dans la procédure de soumission de vos données et dans la rédaction du matériel et méthodes.

Analyse de données d’Expression –Transcriptome

En plus des analyses primaires de normalisation, ProfileXpert vous propose :

La visualisation des signaux (scatter plots)
La comparaison de l’expression des ARN entre échantillons. Identification des gènes différentiellement exprimés
Le tri statistique des données multi critères – analyse en composantes principales (PCA)-
Le classement, regroupement de données et construction d’arbres hiérarchiques (Clustering, hierarchical, K-means)-
L’analyse d’enrichissement selon le GeneOntology
L’intégration des données et l’Analyse de voies de signalisation (Pathway analysis)
Extraction de données de la littérature et comparaison avec vos données
Recherche de marqueurs à visée diagnostic/pronostic
Analyse de données cliniques – supervisée et non supervisée.
Comparaison de données issues de plateformes différentes ou d’espèces différentes

Analyse des données de miRNA

Comparaison de l’expression de miRNA
Recherche des gènes cibles des miRNA : Cette analyse a pour objectif de rechercher les ARN cibles des miRNA par interrogation de bases de données : miRBase, miRDB, Target Scan, miRWalk…. Nous proposons de comparer les données transcriptomiques avec celle du miRNome, de sélectionner les ARN cibles selon leur potentialité à être régulés par les miRNA trouvés différentiellement exprimés.

Analyse de variants d’épissage

Normalisation des données
Recherche de variants d’épissage
Recherche de promoteurs alternatifs
Recherche de sites de polyadénylation alternatifs
Visualisation des données

Analyse de données de Génotypage

Normalisation des données
Recherche des variations du nombre de copies alléliques (CNV)
Analyse des pertes d’hétérozygotie (LOH)
Site de translocations
Pedigree
Visualisation des données
Intégration avec des données de transcriptome et de méthylation
Genome wide association studies (GWAS)

Analyse des données de Méthylation

Comparaison des niveaux de méthylation entre échantillons.
Analyse statistique des données – recherche des régions différentiellement méthylées
Visualisation des données
Analyse ciblée des promoteurs
Comparaison avec les données de transcriptome
Intégration avec des données de transcriptome et génotypage
Epigenome wide association study (EWAS)

Comparaison des données entre échantillons. Tri statistique des données multi critères – Analyse en composantes principales (PCA)-

Cette analyse consiste à trier et filtrer statistiquement les données (transcriptome, methylome, genotypage) afin d’extraire les éléments qui diffèrent significativement entre différents groupes d’échantillons selon des critères préalablement définis (age, pathologie, traitement pharmacologique etc..). Des analyses multifactorielles peuvent être réalisées pour déterminer des interactions entre critères. Les tests statistiques (False discovery rate (benjamini hochberg), test-t, Chi2, Anova).

Clustering des données

L’objectif de cette analyse est de rechercher des corrélations entre échantillons afin de les grouper selon différents critères et de caractériser les signatures moléculaires permettant de distinguer ces différents groupes. Ces analyses peuvent être réalisées de manière supervisée (à partir de critères prédéfinis) ou non supervisée (classement sans à priori) à partir de données issues du transcriptome, génotypage et méthylation. Ces analyses sont utiles par exemple pour la classification de tissus tumoraux selon leur grade, pour la classification d’individu en fonction de la réponse à des drogues etc…Ces analyses sont également utiles dans les études de cinétiques afin de regrouper les gènes selon le comportement de leur expression au cours du temps (co-régulation, expression offset).

Enrichissement selon le GenOntology

Dans cette analyse nous cherchons à regrouper les gènes, issus du flltrage statistique des données, selon leur appartenance à des fonctions biologiques particulières (Cellular Movement, Connective Tissue Disorders Cancer, Immunological Disease etc..). Cette analyse est réalisée à l’aide des logiciels Partek, Genespring et Ingenuity pathway analysis.

Visualisation des données

L’objectif est de donner une représentation visuelle des évènements moléculaires mis en évidence par les analyses de génomique afin d’illustrer les résultats d’une publication. Nous proposons par exemple la visualisation des variations structurale (gains et pertes de matériel génétique) du génome directement sur les chromosomes.

Analyse des voies de signalisation

L’objectif est d’intégrer les données génétiques individuelles en voies de signalisation. Ces voies de signalisation sont visualisées selon différents formats : des voies canoniques (Interferon signaling, hepatic fibrosis, etc.), des voies issues d’analyses internes au laboratoire (custom pathways) ou par fonctions. La recherche des voies de signalisation est réalisée à l’aide du logiciel IPA (Ingenuity pathway analysis) (Ingenuity).

Interrogation de bases de données et intégration de données externes aux données propres

L’objectif est d’extraire les données à partir de différentes bases afin de pouvoir les comparer à vos propres données. L’extraction est réalisée à partir des bases publiques : NCBI, Ensembl, FastDB, , UCSC Genome Browser; mais également à partir de bases de données propres à ProfileXpert.

Analyse intégrative

L’objectif est de compiler les données issues du transcriptome, génotypge, méthylome etc pour la compréhension d’un mécansime moléculaire.

Partenariat

ProfileXpert travaille également en partenariat avec :

Le PRABI pour des projets d’analyse nécessitant des développements particuliers.