RNAbrowse specification interface
1. Contexte scientifique
Transcriptome analysis based on a de novo assembly of next generation sequences is now performed routinely in many laboratories. The generated results, including contig sequences, quantification figures, functional annotations and variation discovery outputs are very diverse and bulky. The aim of the project is to implement a user interface gathering all these information.
2. Description de la demande
L'interface devra comprendre:
- La page projet: L'utilisateur arrive sur cette page après s'être authentifié et avoir choisi le projet auquel il souhaite se connecter.Elle comportera plusieurs onglets, un pour chaque modèle biomart (correspondant à un type d'analyse effectuée pour ce projet : exemple RNAseq De novo, SNP Indel de novo, RNAseq, SNP Indel ….). Elle comportera également un onglet download permettant de télécharger les fichiers plats.Chacun des onglets (sauf l'onglet download) permettra d'accéder à une page contenant des informations et statistiques divers sur les différents objets de l'analyse, par exemple les contigs générés lors de l'assemblage des données de rnaseqDenovo et servira de portail d'accès vers la possibilité de requêter la base de données ou d'effectuer d'autres analyses telles que la génération d'un diagramme de Venn.
- L'onglet contig: Cette page donne des informations générales sur les objets biologiques liés à l'analyse et permet d'accéder à des outils de requêtage spécifiques.Elle contiendra des informations générales sur les librairies, les contigs et les annotations des contigs.Elle permettra par un lien d'accéder aux outils de création de diagramme de Venn, de Digital Differential Display (DDD), au mart form permettant le requêtage de la base de données et enfin un lien exemple vers un report de contig. Il y aura également une search box, permettant d'accéder au report du contig name demandé. Le tableau de contigs favoris est rempli grâce à la table analysis__result (analyse contigs_favorite), la value étant l'ID du contig. L'utilisateur peut enlever un contig de sa table de favori en cliquant sur la croix et en rajouter en cliquant sur le bouton Add To favorite qui sera dans le report contig (ce qui mettra à TRUE le champs favourite). En cliquant sur le contig, l'utilisateur ouvrira le report Contig correspondant.
- L'onglet variant: Cette page donne des informations générales sur les objets biologiques liés au mart snpindelDenovo et permet d'accéder à des outils de requêtage spécifiques.Elle contiendra des informations générales sur les librairies, les variants détectés et les annotations des variants.Elle permettra par un lien d'accéder au mart form permettant le requêtage de la base de données et enfin un lien exemple vers un report de snp. Il y aura également une search box, permettant d'accéder au report du SNP name demandé. Comme pour l'onglet RNAseqDenovo, il faudrait aussi présenter les informations de statistiques sous une forme plus graphique : peut-être deux histogrammes : un concernant les SNPs et une concernant les contigs ?Le tableau de SNPs favoris est rempli grâce à la table snp__main. L'utilisateur peut enlever un contig de sa table de favori en cliquant sur la croix et en rajouter en cliquant sur le bouton Add To favorite qui sera dans le report contig (ce qui mettra à TRUE le champs favourite). En cliquant sur le SNP / /Indel favori,l'utilisateur ouvrira le report SNP/indel correspondant Le but est de répondre a la question quels sont les SNP spécifique a une librairie ou spécifique a une autre ? on sélectionne les librairies et on position les snp dans la librairie. Après petite discussion rapide avec Christophe : Il s'agit ici seulement de la présence du snp dans la librairie. Si dans la librairie on trouve uniquement un allèle : le snp n'est pas présent, si on trouve un aussi un autre allèle, il est présent. Il faudrait de plus considérer comme deux snps différents un snp qui à la même position présente des allèles alternatifs complétement différents selon les librairies. C'est encore assez vague : il faudrait revérifier si on a bien compris avec Christophe.
- L'onglet téléchargement: Cet onglet donnera accès aux fichiers plats générés pendant l'analyse à partir d'un répertoire qui les contiendra soit réellement soit sous forme de liens symboliques.Pour un projet de rnaseqDenovo ces fichiers seraient typiquement : les fichiers bruts stockés dans le répertoire raw du projets.
- Le mart form Contig: Il s'agit d'un mart form standard permettant d'interroger la base de données selon un certain nombre d'attributs et demandant d'afficher certaines informations. Exemple d'utilisation : je peux vouloir la liste des contigs name et le numéro d'accession du meilleur hit correspondant pour les contigs dont la longueur est comprise entre 1000 et 2000 nucléotides et qui présentent le terme « dna polymerase » dans la description du meilleur hit blast.Dans le tableau de résultats, si je clique sur le contig name, j'accède au report contig.
- Le mart form variant: Il s'agit d'un mart form standard permettant d'interroger la base de données selon un certain nombre d'attributs et demandant d'afficher certaines informations.Exemple d'utilisation : je peux vouloir la liste des SNP name, leur position, les allèles et le comptage allélique pour chaque librairie ainsi que l'effet du snp (annotation_consequence) si je le connais pour les SNP/Indel présents sur le contig « trucmuche ».Dans le tableau de résultats, si je clique sur le SNP/Indel name, j'accède au report SNP/Indel.
- Le diagramme de Venn pour les contigs: Il existe déjà dans ng6 un utilitaire capable de faire un diagramme de Venn. Il s'agit ici de le réutiliser pour mettre en évidence le nombre de contigs représentés dans au maximum 5 lots de librairies. Un contig sera considéré comme étant exprimé dans le lot de librairies si il a au moins un read mappé sur ce contig dans au moins une des librairies du lot. Cette information est présente dans la table « ProjectSpeciesV1__read__librairie__count ». Nous sommes conscient que cette information n'est pas satisfaisante, il serait peut-être plus judicieux d'utiliser un seuil de couverture du contig pour chaque librairie. De toutes façons l'utilisateur ayant accès à l'histogramme de couverture du contig par le report contig, il pourra faire appel à son expertise pour valider l'expression ou la non expression du contig dans la librairie. Comme présenté dans l'onglet rnaseqDenovo, si l'utilisateur choisi Venn dans le menu déroulant, il apparaitra les 5 lots (pool). La liste des librairies est toujours présente et le bouton launch pour lancer l'analyse est présent quelque soit l'analyse sélectionnée (Venn ou DDD). L'utilisateur sélectionnera les librairies qu'il souhaite faire apparaître dans chaque pool (par exemple par un glisser-déposer), il pourra mettre les réplicats d'une même expérience dans un même pool. Puis il appuiera sur le bouton launch (ou équivalent) pour lancer la construction du diagramme de Venn. En cliquant sur une intersection on obtiendra la liste des contigs correspondants. En cliquant sur un contig name dans la liste, l'utilisateur chargera le contig report correspondant.
- Le Digital Differential Display pour les contigs: l s'agit de mettre en évidence les différences significatives en terme de nombre de reads mappant chaque contig (par un test exact de Fisher corrigé pour les tests multiples par un FDR (Benjamini and Hochberg) : fonction p.adjust dans R ou réimplémentation perso) entre deux lots de librairies. Comme précédemment, l'utilisateur va sélectionner les librairies souhaitées dans les deux pools puis cliquer sur le bouton launch (ou équivalent) pour faire apparaître la liste de résultats. Il serait peut-être utile de proposer d'autres tests statistiques et / ou normalisation. Cela impliquerait une dépendance par rapport à un logiciel de statistiques tel que R (je prospecte de ce coté ). Comme présenté dans l'onglet rnaseqDenovo, si l'utilisateur choisi DDD dans le menu déroulant, il apparaitra les 2 lots (pool). La liste des librairies est toujours présente et le bouton launch pour lancer l'analyse est présent quelque soit l'analyse sélectionnée (Venn ou DDD). L'utilisateur sélectionnera les librairies qu'il souhaite faire apparaître dans chaque pool (par exemple par un glisser-déposer), il pourra mettre les réplicats d'une même expérience dans un même pool. Puis il appuiera sur le bouton launch (ou équivalent) pour lancer la construction du DDD. On obtiendrait un tableau de résultats présentant les contigs sur ou sous-exprimés dans l'un ou l'autre des lots. Un code couleur permettant de visualiser rapidement le sens de la différence d'expression. Les contigs name dans le tableau peuvent également cacher un lien vers le contig report correspondant. Il faudrait également un moyen de récupérer un fichier tabulé contenant les résultats des différents cas possibles : contigs surexprimés dans le lot 1 par rapport au lot 2 (= sous-exprimés dans le lot 2 par rapport au lot 1), l'inverse et les contigs sans signal d'expression différentielles et la list des GO associés aux contigs différentiellement exprimés (figuré par Get contigs list sur le schéma). l faut aussi les list des contigs sur lequel on a pas pu faire le test car il n'y avait pas de reads dans un des pools (list contigs without reads in pools 1 et 2)
- Le report par contigsCette page contiendrait un Jbrowse avec une piste par annotation (par exemple les hits swissprot, unigene … disponibles dans la table annotation__dm), les SNP / indels trouvés dans les différentes librairies du projets (disponible dans la table snp__dm) et une piste par librairie qui ne sera pas affichée par défaut et qui permettra d'afficher les bam (alignement des reads sur le contig). Elle contiendrait également quelques informations descriptives telles que la longueur, la profondeur moyenne, le numéro d'accession du meilleur hit trouvé (Informations présentes dans la table contig__main). La liste des contigs ayant le même nom de gènes ? Figurerait sur cette page un graphique représentant la profondeur le long du contig de chacune des librairies (les données sont dans la table read_library_count__dm). Peut-être serait-il intéressant de pouvoir sélectionner les librairies à afficher sur ce graphique. Il serait également utile de pouvoir exporter la séquence du contig (dans la table dna__dm), le tableau contenant les annotations et les SNP / Indels trouvés sur ce contig.
- Le report par SNP / indels: ette page contiendra les principales informations concernant un snp : ce sera sa position sur le contig, le nom du contig, les allèles, les séquences flanquantes, l'annotation du snp si on a pu la générer ainsi que le comptage du nombre de read et la fréquence pour chaque librairie. Ces informations sont réparties dans les trois tables du mart snpindelDenovo. Il serait intéressant également de proposer le téléchargement du fichier fasta contenant les séquences flanquantes du snp. Comme précédemment le bouton Add to favorites permettra de rajouter ce SNP à la liste de SNP favoris (champs favourite de la table snp__main).
3. Organisation
3.1 Planning Développement de l'interface sur 4 mois. 3.2 Personnes Implémentation Jérôme, Philippe et Ibou. Tests Christophe et Céline 3.3 Ressources matériels Aucun besoin spécifiques 3.4 Ressources financières Sur budget propres
4. Échéancier
début juin jusqu'à fin septembre 2012
5. Critères de validations
Test de l'interface sur d'ancien jeux de données déjà connus de l'équipe