Améliorations possibles du pipeline
Questions et remarques suite à la présentation du pipeline le 20/05 à Bioinfo Jouy + réponses de Claire :
-
créer une table d'abondance des bins ==>Oui bien sûr... dès qu'on a un binning digne de ce nom dans metaGWGS. -
utiliser CheckM à la place de BAT pour l'affiliation taxonomique des bins ? ==>Il faut utiliser CheckM, mais cet outil vérifie la qualité des bins, il ne fait pas l'affiliation. -
dans le tableau d'abondance des gènes, on a ajouté une colonne avec le lien sur le NCBI vers l'identifiant de la protéine sur laquelle matche le gène dans la base de données utilisée. Comme on n'a utilisé que NR pour le moment, ça ne pose pas trop de problèmes mais si jamais l'utilisateur utilise une autre base de données dont les id ne sont pas sur le NCBI ça peut créer des liens qui ne vont nulle part. Mais il me semble Géraldine que tu étais au fait de ce "problème", je ne sais pas par contre si les autres "grosses" bases de données ont leurs identifiants inclus dans le NCBI. ==>Oui, il faudra adapter dans ce cas. -
ce serait bien d'indiquer aux utilisateurs combien proportionnellement aux données brutes il y a d'espace disque occupé par les analyses pour qu'il sache combien d'espace disque il va devoir réserver. Je suis en train de le calculer pour le leur envoyer, à voir pour l'ajouter dans la documentation ? ==>Le truc c'est que ça va aussi dépendre de la diversité des échantillons non ? -
est-ce que ce serait possible de lancer l'analyser 10 échantillons par 10 échantillons pour supprimer les fichiers intermédiaires et ainsi avoir moins besoin d'espace disque ? J'ai dit que pour le moment non (mais je me trompe peut-être , Céline tu auras peut-être une idée ?), parce que le pipeline va chercher les fichiers dont il a besoin dans les fichiers temporaires pour fonctionner (par exemple pour l'étape de clustering) et s'il n'a pas les fichiers temporaires il ne pourra pas les trouver. Et comme l'étape de clustering n'est pas externe au pipeline on ne peut pas la lancer seulement pour le moment. Peut-être avec un fichier "manifest" qu'ont peut faire remplir automatiquement par le pipeline si on lance touts les amples d'un coup et qui peut sinon être rempli par l'utilisateur quand il a fait toutes les étapes avant le clustering ou une autre étape qui nécessite tous les samples ? ==>C'est sûr que le workflow est gourmand en espace temporaire. A réfléchir en effet... -
mise en place du pipeline sous Galaxy / interface web possible ? --> les collègues ont souligné le problème des ressources, j'ai dit que ce n'était pas prévu pour le moment ==>Trop gourmand selon moi. -
ATLAS génère des graphes (boxplots, etc) dans un rapport HTML, peut-être ajouter des sorties dans un rapport pdf avec des résultats (ça serait complémentaire avec les tableaux de sortie et autres figures de sortie et du rapport HTML avec les métriques) ==>Si on a un chouette rapport html, je vois pas trop pourquoi faire aussi un pdf, mais bon. -
info : 11 samples analysés avec ATLAS --> plus d'un mois et demi / 2 mois de calcul (voir avec Olivier et Cédric Midoux ?). Avec metagWGS, analyse de 32 samples en 12,5 jours. ==> après ce n'est pas trop comparable vu que le binning est bien plus compliqué dans ATLAS. On verra quand on aura toutes les fonctionnalités souhaitées.
==> Autre info, il va vraiment falloir que je m'y remette et la première des choses à faire sera de modifier le tableau d'abondance taxo en mettant la profondeur moyenne des contigs et non le nombre de lecture. Je m'y colle (moi ou Pierre, le nouveau CDD) dès que possible.
-
mise à disposition des fichiers des mocks pour les utilisateurs -
32 samples ExpoMycoPig (62X à 109X) : 7,5To d'espace disque nécessaire pour l'analyse avec metagWGS dont 375 To pour les données brutes (.fastq.gz). Je ne suis pas certaine que j'aie compté l'analyse fonctionnelle dedans. Indiquer qu'il faut 20 fois plus d'espace disque que l'espace disque des données brutes zippées à l'utilisateur pour qu'il lance toute l'analyse ?