Rechercher

sur ce site


Accueil du site > Equipes_Fr_En_It > MEV : Modélisation pour l’évolution du vivant.

MEV : Modélisation pour l’évolution du vivant.

Responsable : S. Méléard, Professeur à l’Ecole Polytechnique.


- Chercheurs confirmés :

- Vincent Bansaye, Professeur chargé de cours, CMAP
- Carl Graham, Chargé de recherche CNRS, CMAP
- Sylvie Méléard, Professeur Ecole Polytechnique
- Hélène Morlon, Chargé de recherche CNRS, CMAP
- Stéphane Gaïffas, Professeur chargé de cours, CMAP
- Chi Viet Tran, Maitre de Conférence, Lille 1
- Amandine Véber, Chargé de recherche CNRS, CMAP

Doctorants et Post-Doctorants :

- Fabien Condamine, Postdoc CMAP
- Camille Coron, Doc CMAP
- Manon Costa, Doc CMAP
- Clément Fabre, Doc CMAP
- Hélène Leman, Doc CMAP
- Yann Le Poul, Doc MNHN
- Daniel Moen, Postdoc CMAP
- Sepideh Mirrahimi, Postdoc CMAP
- Mathieu Richard, Postdoc CMAP
- Jonathan Rolland , Doc CMAP
- Charline Smadi, Doc CMAP

Activités de recherche :

L’équipe se consacre à la modélisation de phénomènes liés au vivant, qu’ils soient motivés par la compréhension du fonctionnement de la cellule, de l’évolution des populations et de leurs caractéristiques phénotypiques et génotypiques, ou de l’évolution et de l’assemblage des espèces au sein des communautés écologiques.

Les problèmes de modélisation sont immenses et nécessitent, suivant les échelles auxquelles on se place, une modélisation déterministe ou aléatoire. Les chercheurs de l’équipe sont donc ouverts à des approches faisant appel à des outils variés, du microscopique au macroscopique, d’une approche théorique mathématique au recours aux simulations et à l’informatique, en passant par un travail statistique sur des données,

Notre équipe participe activement au projet ANR MANEGE (Modélisation Aléatoire eN écoloGie et Evolution), dans le but d’apporter des avancées méthodologiques et conceptuelles dans l’étude des processus stochastiques modélisant des problèmes liés à l’écologie, à la génétique des populations et à l’évolution du vivant. Elle porte en outre la chaire Modélisation Mathématique et Biodiversité avec le Museum National d’Histoire Naturelle.

On peut mentionner trois thèmes majeures au sein de notre équipe :

A Probabilités pour l’évolution du vivant

Nous cherchons à développer des modèles aléatoires pertinents pour appréhender des questions liées à l’évolution (spéciation, mutations et fixations, branchement évolutif, intérêt de la reproduction sexuée et asexuée... ) et aux dynamiques de population (extinction, limites d’échelles, compétition, loi quasistationnaire …). Ces questions peuvent se poser au niveau individuel (cellules, bactéries, espèces végétales ou animales ...), de grandes populations ou de métapopulations. Notre approche vise à construire de bons modèles, les décrire, relier les différentes échelles, prédire leur évolution et comprendre les phénomènes impliqués. Pour ce faire, nous développons surtout les théories des équations à valeur mesure, des équations différentielles stochastiques, des processus de branchement ou coalescents.

B Ecologie évolutive et statistiques

Nous nous intéressons de façon très large à la biodiversité, depuis les processus qui la génèrent jusqu’à ceux qui la maintiennent. Nous essayons de comprendre ce qui génère les différences, aussi bien en terme de nombre d’espèces qu’en terme de disparité morphologique, entre groupes taxonomiques et zones géographiques. Pour cela, nous développons des approches qui permettent d’estimer les vitesses de spéciation et d’extinction des espèces et la dynamique de la biodiversité qui en résulte. Nous utilisons des processus de branchement pour modéliser les naissances (spéciations) et morts (extinctions) des lignées, potentiellement dans un contexte spatial. Cette modélisation permet d’inférer — à partir de données phylogénétiques — la dynamique de la diversification et les facteurs écologiques qui l’influencent. Nous appliquons nos approches théoriques à une grande variété de systèmes biologiques, en particulier amphibiens, mammifères et plantes mais également microorganismes.

C Statistiques et biologie

Les thèmes statistiques en lien avec la biologie concernent principalement l’apprentissage statistique en grande dimension. Les axes principaux concernent l’apprentissage non-supervisé et supervisé en grande dimension, et notamment l’inférence pour des graphes statiques et dynamiques et la sélection de variables. Ils sont détaillés en cinq points, à la fin de cette page.

Pour décrire plus en détails nos activités de recherches, nous vous invitons à lire les points suivants.

1 - Evolution d’une population asexuée structurée par trait et âge.

On s’intéresse ici à l’évolution temporelle d’une population d’individus caractérisés par leur âge (âge physique, âge d’une maladie,...) et par un vecteur de traits phénotypiques, ces deux paramètres étant fortement liés : l’âge agit sur les pressions de sélection et sur la nature des mutations possibles du trait, le trait agit sur la vitesse de vieillissement. A partir d’une modélisation microscopique aléatoire, on s’intéresse à diverses approximations dépendant des échelles respectives des paramètres du modèle. Des simulations illustrent notre propos. On étudie en particulier une approximation en grande population où les mutations sont rares, décrivant ainsi l’échelle de temps de l’évolution.

2 - Evolution génétique d’une population structurée spatialement.

Autre type de structuration, le fait qu’une population soit distribuée sur un espace géographique discret (i.e., structurée en des sous-communautés) ou continu dans lequel seuls des individus relativement proches interagissent peut influencer la vitesse de propagation ou de disparition de certaines caractéristiques génétiques. En effet, le flot d’information génétique et les corrélations entre les diversités alléliques locales sont alors fortement dépendants des mécanismes de migration et de reproduction de la population modélisée. Grâce à des modèles macroscopiques incluant une composante spatiale, on tente d’obtenir des signatures précises de différentes forces évolutives telles que la sélection naturelle, des réductions drastiques de la taille de la population, des événements massifs d’extinction et de recolonisation, etc. Un objectif majeur de ces études est la mise au point d’outils pour tester la présence de ces ingrédients évolutifs dans l’histoire de la population et en déduire les principaux acteurs générant la diversité observée.

3 - Evolution d’une population sexuée, mécanismes de spéciation.

L’étude d’une population sexuée est extrêmement complexe, car on doit prendre en compte les différents modes d’évolution génétique. Outre les phénomènes de mutation, qui figurent déjà dans la modélisation des populations asexuées, apparaissent ici en plus des phénomènes de recombinaison génétique induisant des mécanismes de sélection au niveau des gènes, liés à une fonction d’appariement entre les individus. L’idée exploitée dans ce cadre pour le moment est de généraliser à ces populations sexuées l’approche particulaire de Pierre Del Moral concernant les algorithmes de mutations et sélection et de faire le lien entre cette modélisation probabiliste et les travaux des biologistes Doebeli et Burgers.

4-Etude asymptotique de la dynamique d’une population structurée

Il s’agit de l’étude de phénomènes de concentration en masse de Dirac apparaissant dans des problèmes issus de la dynamique des populations, en utilisant des équations intégro-differentielles. Nous étudions la dynamique adaptative d’un trait quantitatif en fonction de paramètres écologiques de l’environnement, comme les nutriments, sous l’effet des mutations et de la sélection naturelle. La modélisation mathématique de ces problèmes mène à des équations paraboliques avec petite diffusion. La présence d’un petit terme conduit à des modèles multi-échelles. Les solutions asymptotiques de ces équations apparaissent comme une réunion de concentrations de masse en un ou plusieurs points qui se déplacent. En d’autres termes, un ou plusieurs traits survivent alors que les autres traits disparaissent. Ces traits dominants évoluent en temps grâce à la présence des mutations. Nous décrivons la dynamique asymptotique à l’aide d’une équation de Hamilton-Jacobi.

5 - Mécanismes de branchement évolutionnaire.

L’étude de la variation phénotypique de populations soumises à de la sélection naturelle et à des mutations peut faire apparaître à l’échelle de l’évolution (échelle de temps beaucoup plus lente que l’échelle de l’écologie), des branchements évolutionnaires que l’on cherche à comprendre et dont on souhaite pouvoir prédire l’apparition (ou non) en fonction des paramètres du modèle. Plus précisément, on considère une population initialement monomorphique (tous les individus ont le même trait). A cause des mutations, l’ensemble des traits pris par les individus évolue au cours du temps, mais sa distribution reste essentiellement unimodale, jusqu’à un tel point de branchement où la population devient subitement bimodale. Il s’agit de comprendre le plus finement possible ce phénomène.

6 - Mesures quasi-stationnaires pour des modèles d’évolution.

Les mesures quasi-stationnaires décrivent le comportement en temps long de processus conditionnés à ne pas s’éteindre. Dans le cas des populations qui nous intéressent, soumises à une sélection de type logistique, le processus aléatoire qui décrit cette population s’éteint en temps fini. Il est donc particulièrement intéressant de mettre en évidence ces stabilités en temps long, quand on conditionne à la non-extinction. Elles décrivent des états qui peuvent apparaître comme stationnaires avant l’extinction finale, états que les biologistes cherchent à décrire et à prédire. La non-linéarité des modèles et les comportements spécifiques des processus de population rendent ces problèmes riches et originaux.

7 - Fluctuations aléatoires de l’environnement et processus de branchement

Modéliser l’impact de la variabilité de l’environnement sur la croissance ou l’extinction des populations animales ou végétales peut se faire à l’aide de processus aléatoires décrivant une population qui se reproduit avec une loi de reproduction dépendant de l’environnement qui fluctue. On s’intéresse alors au comportement en temps long de ces processus de branchement en environnement aléatoire, en cherchant en outre à prendre en compte la répartition spatiale des individus et leurs interactions.

8- Processus de branchement et macroévolution

On s’intéresse ici aux vitesses de spéciation et d’extinction des espèces et à la dynamique de la biodiversité qui en résulte sur des échelles de temps évolutives. On utilise des processus de branchement pour modéliser les naissances (spéciations) et morts (extinctions) des lignées, potentiellement dans un contexte spatial. Cette modélisation permet d’inférer — à partir de données phylogénétiques — la dynamique de la diversification et les facteurs écologiques qui l’influencent. On essaie ainsi de comprendre les processus à l’origine de la disparité, en terme de nombre d’espèces, entre groupes taxonomiques et zones géographiques. Nous appliquons nos approches théoriques à une grande variété de systèmes biologiques, en particulier oiseaux et mammifères, mais également microorganismes.

9- Apprentissage non-supervisé

Nous nous intéressons au problème de clustering et de sélection de variables en grande dimension (cadre non-supervisé). L’approche la plus répandue est basée sur des mélanges gaussiens avec barycentres sparses, obtenus par pénalisation L1. Nous cherchons des explications théoriques à ces procédures, qui sont encore mal connues, et nous cherchons des approches alternatives basées sur une approche bayesienne, avec priors sparses, permettant d’assurer d’avoir des barycentres partageant le même support. Les motivations biologiques de ce travail sont principalement liées au clustering d’expression de gènes pour déterminer leur fonction ou déterminer des sous-types de cancers à partir de séquençages sur différents patients ou différents tissus.

10- Sélection de variables pour les durées de survie, données cliniques

Nous considérons le problème d’inférence statistique basée sur des données de survie de patients, modélisées mathématiquement par des trajectoires de processus de comptage, pour lesquels nous avons des informations cliniques, mais aussi des données génomiques. Le problème peut être compris comme un problème de régression : on veut expliquer les durées de vie des patients, éventuellement censurés, à partir de leurs données cliniques et génomiques. Dans ce contexte, un estimateur sparse est souhaitable : on part en effet du principe que peu de gènes expliquent de façon significative la durée de vie des patients. Nous avons mis en évidence pour cela nouvelle pénalisation L1, s’adaptant mieux au caractère intrinsèquement hétéroscédastique de ces données. D’un point de vue mathématique, le problème principal est d’obtenir des inégalités de concentration pour les processus stochastiques associés, avec des termes de variance observables. A la suite de ces études théoriques, nous cherchons des algorithmes permettant de chercher des facteurs pronostiques - pour la durée de vie après diagnostique - pour les tumeurs colo-rectales parmi des données en grande dimension issues des technologies à haut débit (biopuces génomiques et d’expression, séquençage profond).

11- Détection de ruptures

La détection de ruptures est un problème important pour la segmentation de signaux audio, le traitement d’image, l’analyse de séries temporelles, ou encore l’étude des profils génomiques d’un ensemble de patients (CGH profiling). Au delà du contexte signal + bruit, le comportement de la pénalisation par variation totale est encore mal connu. Cette pénalisation propose en effet une procédure très efficace en temps de calcul, car on peut utiliser alors des méthodes homotopiques ou des méthodes de "coordinate descent" qui ont une complexité quasi linéaire. Au delà du cadre signal + bruit, l’estimation de ruptures dans le risque instantané de décès en analyse de survie a une grande importance, notamment pour l’évaluation des mesures de santé publique (e.g. dépistage). Nous étudions cette pénalisation pour la segmentation de l’intensité d’un processus de comptage.

12-Covariables dépendant du temps Pour les processus de comptage, nous considérons le problème de régression quand les coefficients et/ou les covariables dépendent du temps. Nous cherchons à partir de cela une nouvelle modélisation des données d’expression génique (le temps est ici remplacé par la place sur le brin d’ADN) en fonction des profils génomiques, données de méthylation et de micro-RNA, en utilisant un modèle de régression dynamique avec des coefficients ayant une petite norme en variation totale.

13- Inférence pour les réseaux statiques et dynamiques

A partir de l’observation partielle des arêtes d’un graphe évoluant dans le temps, nous cherchons à prédire et à apprendre simultanément les arêtes du prochain graphe, et des "variables latentes" dynamiques de la suite de graphes. Nous proposons une modélisation et calculons une prédiction et une estimation pour ce modèle, qui utilise une approche par pénalisation d’un problème de minimisation jointement convexe (estimation et prédiction). La pénalisation a pour but d’induire de la sparsité et un rang petit dans la suite des matrices d’adjacence. L’analyse et la prédiction de graphes évoluant dans le temps est essentielle dans la compréhension des systèmes biologiques, notamment pour l’étude des mécanismes de régulation génétique. L’information véhiculée par un graphe peut être utilisée pour obtenir par exemple une meilleure compréhension de l’effet de traitements sur le réseau de co-expression (ou sur le réseau d’interaction des protéines) des cellules cancéreuses, par exemple. Un autre exemple est l’analyse d’association génétique, où le but est de découvrir quelques variantes ou un unique polymorphisme nucléotique (UPN), parmi des millions de UPNs, qui influencent le phénotype, comme les mesures d’expressions. Des groupes de gènes partageant les mêmes variantes sont plus à même d’influencer ces phénotypes que d’autres. Dans ce cadre, l’utilisation d’un graphe et l’étude de son évolution semble particulièrement bien adaptée.


CMAP UMR 7641 École Polytechnique CNRS, Route de Saclay, 91128 Palaiseau Cedex France, Tél: +33 1 69 33 46 00 Fax: +33 1 69 33 46 46