RNAbrowse specification pipeline
1. Contexte scientifique
Transcriptome analysis based on a de novo assembly of next generation sequences is now performed routinely in many laboratories. The generated results, including contig sequences, quantification figures, functional annotations and variation discovery outputs are very diverse and bulky. The aim of the project is to implement a pipeline to compute and load all this information in the user interface RNAbrowse.
2. Description de la demande
Le pipeline doit :
- option Rename
- option prefix
- blast
- gestion des banques ?
- IPRscan (ajout de table prediction)
- GO (via IPRscan ou file)
- Keyword ?
- Alignement des librairies (bwa, pê STAR?)
- detections de variant (GATK pour real recab puis mpileup pour variant calling)
- annotation des variant (principe de tSNPannot + VEP)
Un pipeline existe déjà. Il s'agit ici de s'inspirer de celui-ci pour re-coder un pipeline dans le cadre du système ngspipelines. Si le principe du pipeline sera conservé et amélioré, le code sera refait afin de changer le langage de programmation (perl -> python) et réaliser un meilleur découplage des fichier de configuration. Le pipeline doit :
-
Réaliser une annotation des contigs par alignement. [ancien pipeline : alignement via blast -> conversion en fichier GFF3 d'annotation (1 par banque) -> envoi des données dans la base de données]
-
Fournir un ensemble de GO et éventuellement de keywords associés aux contigs. [ancien pipeline : récupération des GO et keywords associés au meilleur hit du blast -> envoi des données dans la base de données] GO (via IPRscan ou file) La table Keyword n'est pas a garder.
-
Ajouter des information de prédiction (via HMM ou autre) sur les contigs. [ancien pipeline : seul les ORF sont calculés à la volée] Ces informations pourront provenir de plusieurs sources (IPRscan et Tandem Repeat Finder sont les premiers logiciels visés).
-
Réaliser l'alignement des librairies sur les contigs [ancien pipeline : bwa -> script maison de calcul des profondeurs -> envoi des données dans la base de données] Evaluer l'intérêt d'utiliser STAR à la place de bwa
-
Détecter les variant [ancien pipeline : GATK réalignement et recalibration de la qualité -> GATK variant calling -> envoi des données dans la base de données]
-
Annoter les variant [ancien pipeline : tSNPannot -> envoi des données dans la base de données] Utilisation de variant effect predictor pour réaliser l'équivalent de tSNPannot (distance aux barrières d'exon, conséquences prédites du SNP, existance de SNP équivalent connu)
-
Fournir la possibilité de renommer ou non les contigs par le nom du gène de leur meilleur hit.
-
Fournir la possibilité de préfixer l'id des contigs pour pouvoir les différencier en cas de fusion de projets.
-
Au cours de ce développement certaines améliorations pourront êtres apportés à jFlow ou ngspipilines Ajout de parsers et de composant servant à l'ensemble de la communauté et amélioration de la gestion de certaines ressources ( ex : gestion des banques ).
-
Contraintes Temps d'exécution d'au maximum X j pour 200 contigs et Z banques.
3. Organisation
3.1 Planning
Développement du pipeline sur 4 mois avec support / maintenance sur 1 ans.
3.2 Personnes
Implémentation Frédéric, Céline, Jérôme
Tests Frédéric, Céline et Christophe
3.3 Ressources matériels
Aucun besoin spécifiques
3.4 Ressources financières
Sur ANR Blindtest ( 6 mois CDD Fréderic == 1 an a 50% )
4. Échéancier
début janvier 2014 jusqu'à fin septembre
5. Critères de validations
Test du pipeline (performance et validité) sur d'ancien jeux de données déjà connus de l'équipe