intronSeeker 1.0
Milestone ID: 157

Contexte scientifique

Lorsque l'on effectue le séquençage d'ARNm, des introns non épissés peuvent être retenus et sont donc présents dans les lectures obtenues. Cependant, lorsque l'on effectue l'assemblage de novo de ces transcrits, on ne dispose pas la plupart du temps de génome de référence permettant d'identifier et d'éliminer ces introns résiduels. Nous voulons donc proposer un outil permettant, dans un assemblage RNAseq de novo, l'identification des introns retenus et éventuellement effectuer le nettoyage de l'assemblage. Un premier outil, précédemment implémenté, permet la simulation de données RNAseq (librairies et assemblage) et la recherche de potentiels événements d'épissage dans un assemblage RNAseq. A partir de celui-ci, nous voulons produire une autre fonctionnalité capable de simuler des données plus proches de la réalité et de discriminer les événements candidats afin d'identifier les introns encore présents dans un assemblage RNAseq.

2. Description de la demande

L'outil comportera trois fonctions principales :

Simulation de données RNAseq :

En plus de la simulation de données basée sur la génération aléatoire de séquences (i.e. simulation sans données en entrée) déjà implémentée, l'outil pourra à partir d'un génome et de son annotation (plus particulièrement sa composition introns/exons) générer des contigs pouvant contenir des introns résiduels ainsi qu'une librairie de lectures associée.

Alignement de librairies de lectures sur un assemblage RNAseq :

L'alignement des lectures sur l'assemblage est nécessaire à l'identification des introns. L'outil permet déjà de faire tourner STAR ou Hisat2 pour effectuer cet alignement.

Recherche de candidat et discrimination des introns :

L'outil effectue déjà la recherche de candidats à partir d'un assemblage et d'un alignement entre ce dernier et la librairie de lectures d'origine. Il faudra donc établir et implémenter des descripteurs, utilisables sur des données RNAseq de novo (i.e. ne dépendant du génome ou de l'annotation), permettant l'identification des véritables introns parmi ces candidats.

3. Organisation

3.1 Planning

Cette version est prévue pour fin novembre 2019

3.2 Personnes

Implémentation : Emilien.
Tests du traitement: Emilien et Christophe.

Mise à jour Novembre 2019 : Phillipe BARDOU (SIGENAE) rentre dans le projet sur la partie l'implémentation.

3.3 Ressources matériels

Aucun besoin spécifiques

3.4 Ressources financières

Financement du CDD : PIA France Génomique.

4. Échéancier

Fin janvier 2019: Implémentation de la simulation de données. Rédaction de la documentation.
Fin mars 2019 : Implémentation de la totalité des tests pour les fonctionnalités déjà présentes. Mise en place d'une procédure d'installation fonctionnelle (utilisation d'un environnement Conda souhaitée)
Fin août 2019 : Recherche des descripteurs à partir des jeux de données simulés (FRS et GBS). Implémentation des critères de discrimination.
Fin septembre 2019 : Automatisation complète du pipeline. Étude exhaustive des résultats du pipeline sur des jeux de données réels.
Fin novembre 2019 : Rédaction de l'article. Release du programme.

5. Critères de validations

L'outil doit pouvoir simuler des données le plus réalistes sous la forme désirée et produire un fichier listant l'ensemble des introns identifiés. Pour cela, nous utiliserons un assemblage RNAseq de Ceanorhabditis elegans ainsi que son génome de référence et son annotation pour déterminer les critères de discrimination. Pour valider cette recherche d'introns, nous utiliserons cet outil sur d'autres assemblage de la même espèce ainsi que d'autres espèces dont on connaît la composition en introns. Il doit également pouvoir s'installer facilement à l'aide d'un script d'installation et d'un environnement Conda sur d'autres infrastructures (IFBcore, en local sur les PC INRA et perso)

6. Bilan et modifications de l'échancier

La rédaction de la documentation ainsi que l'implémentation des tests de non-régression et unitaires n'ont pu être que commencées et non terminées à temps. Ces étapes restent à faire avant la release de la version 1.0 fin novembre.

6.1 Déroulé du CDD (Emilien Lasguignes - France Génomique - 15 mois)

Progression_CDD.html

Assign some issues to this milestone.

intronSeeker 1.0 Milestone ID: 157