metagWGS issueshttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues2023-01-20T10:50:34+01:00https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/97Metrics on final quantification file with annotations2023-01-20T10:50:34+01:00Joanna FourquetMetrics on final quantification file with annotationsPriorité faible.
Create a log file with some metrics of functionnal annotations contained into final file with quantification of reads on genes and functional annotations.
(Par exemple, avoir un fichier de log avec le nombre de PFAMs et ...Priorité faible.
Create a log file with some metrics of functionnal annotations contained into final file with quantification of reads on genes and functional annotations.
(Par exemple, avoir un fichier de log avec le nombre de PFAMs et le % de reads associés à tous ces PFAMs et idem pour les GOs, etc.)
Voir le script qui permet de générer le fichier Quantifications_and_functional_annotations.tsv
- [ ] % de genes associés à un eggnog_id et à un diamond_id
- [ ] Demander à Géraldine pour le nombre de PFAMs et les % (globalement sur l'issue)Issues en vracVIENNE MAINAVIENNE MAINAhttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/98Replace diamond by MMseq2? (benchmark)2023-04-07T15:26:34+02:00Joanna FourquetReplace diamond by MMseq2? (benchmark)Bon à savoir : pour eggnog-mapper l'alignement avec mmseqs2 est assez gourmand en mémoire (ils parlaient de 200G de mémoire, j'avais assuré en prenant 250G, a priori pour le mock il a utilisé 77G). Avec diamond, on utilise 7G sur les 32G...Bon à savoir : pour eggnog-mapper l'alignement avec mmseqs2 est assez gourmand en mémoire (ils parlaient de 200G de mémoire, j'avais assuré en prenant 250G, a priori pour le mock il a utilisé 77G). Avec diamond, on utilise 7G sur les 32G que je lui avais donné.
DONC: regarder et comparer CPUs et RAM utilisés par les 2 outils.
Other possibility:
Chunk files for parallelization of diamondIssues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/109Clustering: improve table_clstr.txt2021-09-29T09:49:48+02:00Joanna FourquetClustering: improve table_clstr.txtPas prioritaire.
Make 1 line by cluster with list of associated genes separated by comas (and not 1 line = 1 cluster and 1 associated gene).Pas prioritaire.
Make 1 line by cluster with list of associated genes separated by comas (and not 1 line = 1 cluster and 1 associated gene).Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/125Generate .html to make documentation website2021-09-29T09:57:47+02:00Joanna FourquetGenerate .html to make documentation websiteGeneraterate .html file with CI/CD to make a documentation website (see nf-core workflows).Generaterate .html file with CI/CD to make a documentation website (see nf-core workflows).Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/132Bins and contigs: generate matrix with metrics2021-09-29T09:00:28+02:00Joanna FourquetBins and contigs: generate matrix with metricsWhen binning is done:
Do the same as #82 but for bins + contigs and with other metrics.
The final table for contigs must be:
Bactérie A + name_contigs + nb contigs **+ nb de gènes observés dans chaque échantillon**
The final table fo...When binning is done:
Do the same as #82 but for bins + contigs and with other metrics.
The final table for contigs must be:
Bactérie A + name_contigs + nb contigs **+ nb de gènes observés dans chaque échantillon**
The final table for bins must be:
Bactérie A + nb contigs + nb de gènes observés dans chaque échantillon + nb de gènes observés par Bactérie A + nb de bins (dans le cas des mocks: + nb de gènes attendus dans le génome + nb de gènes attendus dans l'échantillon).Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/133Questions to answer with the pipeline (biologist)2021-09-27T14:50:24+02:00Joanna FourquetQuestions to answer with the pipeline (biologist)- Quelles bactéries ai-je dans le milieu ?
- Quels gènes sont présents dans le milieu ?
- Pour une fonction donnée, qui a cette fonction/gène dans le milieu? --> construire un script qui à partir d'une liste de fonctions (example: PFAMs ...- Quelles bactéries ai-je dans le milieu ?
- Quels gènes sont présents dans le milieu ?
- Pour une fonction donnée, qui a cette fonction/gène dans le milieu? --> construire un script qui à partir d'une liste de fonctions (example: PFAMs ids) (ou à partir d'une liste de clusters de gènes qui ont une fonction ou des fonctions en particulier) aille chercher les gènes qui ont pour représentant les clusters ids ayant ces fonctions et aille chercher les contigs auquels ils appartiennent (c'est inclut dans le nom des gènes) et leur affiliation taxonomique. Lorsqu'on aura le binning, ça pourra être géré autrement (partir des bins et de l'annotation des gènes sur les contigs dans chaque bin par exemple).Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/13403_filtering: Assess the impact of CPM and contig length filtering2022-12-02T15:18:16+01:00Joanna Fourquet03_filtering: Assess the impact of CPM and contig length filteringA partir du bam des reads sur l'assemblage, représenter les différentes métriques d'assemblage (taille de l'assemblage, % de reads mappés, nombre de contigs) en fonction de différents seuils CPM et également de différentes longueurs de c...A partir du bam des reads sur l'assemblage, représenter les différentes métriques d'assemblage (taille de l'assemblage, % de reads mappés, nombre de contigs) en fonction de différents seuils CPM et également de différentes longueurs de contigs minimum.
Permet de visualiser l'impact du filtre sur l'assemblage et de ne pas relancer inutilement le filtre à l'aveugle plusieurs fois.
On peut également imaginer de déterminer le seuil de filtre automatiquement à partir de ces résultats.Issues en vracVIENNE MAINAVIENNE MAINAhttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/135Documentation: update use_case.md with interpretations2022-06-07T15:26:25+02:00Joanna FourquetDocumentation: update use_case.md with interpretationsUpdate use case with interpretations of results, for example:
- which are good metrics for a good assembly?
@claire.hoede : ajouter des warnings pour ce que tu as rencontré dans tes différentes utilisations de metagWGS. Exemple: ce qu'i...Update use case with interpretations of results, for example:
- which are good metrics for a good assembly?
@claire.hoede : ajouter des warnings pour ce que tu as rencontré dans tes différentes utilisations de metagWGS. Exemple: ce qu'il faut vérifier après un kaiju (% de lectures affiliées à des bactéries, est-ce qu'il n'y a pas des bactéries en grand nombre auquel on ne s'attend pas, etc).
@geraldine.pascal : pour quelle date aurais-tu besoin d'avoir cette page de la documentation terminée ?Issues en vracVIENNE MAINAVIENNE MAINAhttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/139Améliorations possibles du pipeline2022-08-29T15:28:48+02:00Joanna FourquetAméliorations possibles du pipelineQuestions et remarques suite à la présentation du pipeline le 20/05 à Bioinfo Jouy + réponses de Claire :
- [x] créer une table d'abondance des bins
==>Oui bien sûr... dès qu'on a un binning digne de ce nom dans metaGWGS.
- [x] utiliser...Questions et remarques suite à la présentation du pipeline le 20/05 à Bioinfo Jouy + réponses de Claire :
- [x] créer une table d'abondance des bins
==>Oui bien sûr... dès qu'on a un binning digne de ce nom dans metaGWGS.
- [x] utiliser CheckM à la place de BAT pour l'affiliation taxonomique des bins ?
==>Il faut utiliser CheckM, mais cet outil vérifie la qualité des bins, il ne fait pas l'affiliation.
- [x] dans le tableau d'abondance des gènes, on a ajouté une colonne avec le lien sur le NCBI vers l'identifiant de la protéine sur laquelle matche le gène dans la base de données utilisée. Comme on n'a utilisé que NR pour le moment, ça ne pose pas trop de problèmes mais si jamais l'utilisateur utilise une autre base de données dont les id ne sont pas sur le NCBI ça peut créer des liens qui ne vont nulle part. Mais il me semble Géraldine que tu étais au fait de ce "problème", je ne sais pas par contre si les autres "grosses" bases de données ont leurs identifiants inclus dans le NCBI.
==>Oui, il faudra adapter dans ce cas.
- [ ] ce serait bien d'indiquer aux utilisateurs combien proportionnellement aux données brutes il y a d'espace disque occupé par les analyses pour qu'il sache combien d'espace disque il va devoir réserver. Je suis en train de le calculer pour le leur envoyer, à voir pour l'ajouter dans la documentation ?
==>Le truc c'est que ça va aussi dépendre de la diversité des échantillons non ?
- [ ] est-ce que ce serait possible de lancer l'analyser 10 échantillons par 10 échantillons pour supprimer les fichiers intermédiaires et ainsi avoir moins besoin d'espace disque ? J'ai dit que pour le moment non (mais je me trompe peut-être , Céline tu auras peut-être une idée ?), parce que le pipeline va chercher les fichiers dont il a besoin dans les fichiers temporaires pour fonctionner (par exemple pour l'étape de clustering) et s'il n'a pas les fichiers temporaires il ne pourra pas les trouver. Et comme l'étape de clustering n'est pas externe au pipeline on ne peut pas la lancer seulement pour le moment. Peut-être avec un fichier "manifest" qu'ont peut faire remplir automatiquement par le pipeline si on lance touts les amples d'un coup et qui peut sinon être rempli par l'utilisateur quand il a fait toutes les étapes avant le clustering ou une autre étape qui nécessite tous les samples ?
==>C'est sûr que le workflow est gourmand en espace temporaire. A réfléchir en effet...
- [ ] mise en place du pipeline sous Galaxy / interface web possible ? --> les collègues ont souligné le problème des ressources, j'ai dit que ce n'était pas prévu pour le moment
==>Trop gourmand selon moi.
- [ ] ATLAS génère des graphes (boxplots, etc) dans un rapport HTML, peut-être ajouter des sorties dans un rapport pdf avec des résultats (ça serait complémentaire avec les tableaux de sortie et autres figures de sortie et du rapport HTML avec les métriques)
==>Si on a un chouette rapport html, je vois pas trop pourquoi faire aussi un pdf, mais bon.
- [ ] info : 11 samples analysés avec ATLAS --> plus d'un mois et demi / 2 mois de calcul (voir avec Olivier et Cédric Midoux ?). Avec metagWGS, analyse de 32 samples en 12,5 jours.
==> après ce n'est pas trop comparable vu que le binning est bien plus compliqué dans ATLAS. On verra quand on aura toutes les fonctionnalités souhaitées.
==> Autre info, il va vraiment falloir que je m'y remette et la première des choses à faire sera de modifier le tableau d'abondance taxo en mettant la profondeur moyenne des contigs et non le nombre de lecture. Je m'y colle (moi ou Pierre, le nouveau CDD) dès que possible.
- [x] mise à disposition des fichiers des mocks pour les utilisateurs
- [ ] 32 samples ExpoMycoPig (62X à 109X) : 7,5To d'espace disque nécessaire pour l'analyse avec metagWGS dont 375 To pour les données brutes (.fastq.gz). Je ne suis pas certaine que j'aie compté l'analyse fonctionnelle dedans. Indiquer qu'il faut 20 fois plus d'espace disque que l'espace disque des données brutes zippées à l'utilisateur pour qu'il lance toute l'analyse ?Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/143Replacing alignment methods with quantification methods (kmer...)2021-06-28T16:03:14+02:00MARTIN PierreReplacing alignment methods with quantification methods (kmer...)Instead of aligning sequences throughout all the pipeline, should we:
- Replace those operations with non-alignment methods (quantification) or pseudo-mapping (through kmers)?
- If so, what to use? Salmon/CD-HIT/other?
Evaluate impact o...Instead of aligning sequences throughout all the pipeline, should we:
- Replace those operations with non-alignment methods (quantification) or pseudo-mapping (through kmers)?
- If so, what to use? Salmon/CD-HIT/other?
Evaluate impact on pipeline, output files format (and "CO2 emissions" as less alignment means less work on the cluster).https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/145investigate cdhit-est option to control alignment coverage option2021-09-07T21:07:39+02:00Claire Hoedeinvestigate cdhit-est option to control alignment coverage optionSee results to find if we need to be more stringent on the alignment length. test several options.See results to find if we need to be more stringent on the alignment length. test several options.Claire HoedeClaire Hoedehttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/155Functional tests: change output to table format2022-12-02T15:14:31+01:00MARTIN PierreFunctional tests: change output to table formatChange format to a table for better human readabilityChange format to a table for better human readabilityIssues en vracMARTIN PierreMARTIN Pierrehttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/164Eggnog mapper chunks2023-12-18T14:20:06+01:00MARTIN PierreEggnog mapper chunksAs for assembly filter or maybe diamond, do eggnog by chunksAs for assembly filter or maybe diamond, do eggnog by chunksIssues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/168Databases saving folder2022-12-02T15:20:55+01:00MARTIN PierreDatabases saving folderAdd databases saving option?
Test download databases with new publishdir:
-> [publishdir "move" ?]
-> [publishdir symbolic link?]
-> [option: --copy_databases with "false" by default?]
-> [DL all DB to use in separate workflow (as o...Add databases saving option?
Test download databases with new publishdir:
-> [publishdir "move" ?]
-> [publishdir symbolic link?]
-> [option: --copy_databases with "false" by default?]
-> [DL all DB to use in separate workflow (as option of metag)]Issues en vracVIENNE MAINAVIENNE MAINAhttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/193Functional test: check process and image, nextflow stub and gitlab CI/CD2023-01-25T10:07:39+01:00VIENNE MAINAFunctional test: check process and image, nextflow stub and gitlab CI/CDfaciliter la maintenance des tests fonctionnels pour les process, peut etre utiliser :
https://www.nextflow.io/docs/edge/process.html#stub
mais c'est encore experimental
reduire la taille des bases de données test, notamment kaijufaciliter la maintenance des tests fonctionnels pour les process, peut etre utiliser :
https://www.nextflow.io/docs/edge/process.html#stub
mais c'est encore experimental
reduire la taille des bases de données test, notamment kaijuIssues en vracVIENNE MAINAVIENNE MAINAhttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/198Add taxonomic affiliation plots to multiqc2022-09-01T16:46:56+02:00Ghost UserAdd taxonomic affiliation plots to multiqcThe taxonomic affiliation plots (#136 ) should be part of the multiqc final report.
These plots combines the taxonomic affiliation of contigs and the abundances from the samtools coverage so that would not fit any official multiqc modul...The taxonomic affiliation plots (#136 ) should be part of the multiqc final report.
These plots combines the taxonomic affiliation of contigs and the abundances from the samtools coverage so that would not fit any official multiqc module. However, it is still possible to code a custom module for that.
On top of that the plotly html plot are quite slow to render.Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/199Re-activate the workflow installation with conda2022-09-09T11:28:42+02:00Claire HoedeRe-activate the workflow installation with condaInstallation with conda don't work anymore.
We need to fix this and think to test it regularly.Installation with conda don't work anymore.
We need to fix this and think to test it regularly.Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/201Improve HiFi binning2022-12-02T15:09:30+01:00Ghost UserImprove HiFi binningDifferent possibility to improve HiFi binning:
* Implement a circular aware startegy as in the [Binning Pacbio Pipeline](https://github.com/PacificBiosciences/pb-metagenomics-tools/blob/master/docs/Tutorial-HiFi-MAG-Pipeline.md). Check o...Different possibility to improve HiFi binning:
* Implement a circular aware startegy as in the [Binning Pacbio Pipeline](https://github.com/PacificBiosciences/pb-metagenomics-tools/blob/master/docs/Tutorial-HiFi-MAG-Pipeline.md). Check on project if it would really improved the results
* Use of assembly graph: information of the assembly graph could be used to bin contigs : Check [RepBin](https://github.com/xuehansheng/RepBin), [https://github.com/metagentools/GraphBin2](GraphBin2), [GraphMB](https://github.com/MicrobialDarkMatter/GraphMB)
* Use of methylation marks found in HiFi reads : check [nanodisco](https://github.com/fanglab/nanodisco) use to do that with ONT reads. The methods was originally made for PacBio RS II data with the tool [mbin](https://github.com/fanglab/mbin). It is now possible to call methylation in HiFi reads so we could theoretically apply this method with our HiFi reads.Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/204CDHIT on aa protein sequences rather than on nucleotides protein sequences2022-10-12T09:57:24+02:00Ghost UserCDHIT on aa protein sequences rather than on nucleotides protein sequencesGoal of the clustering is to have a shared table gathering of functions and their abundance across samples.
The clustering is done one nucleotide genes sequences. It could be interesting to do it on amino acid sequences. This would be f...Goal of the clustering is to have a shared table gathering of functions and their abundance across samples.
The clustering is done one nucleotide genes sequences. It could be interesting to do it on amino acid sequences. This would be faster and would allow to cluster proteins that have similar aa sequences and so similar function even if their nucleotide sequences have diverged.
We would still use a strict identity threshold (>95% ?) to cluster aa sequences as the main goal is to have a shared function table between sample and not to have protein families.Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/212Minimap2 requires an extra parameter for large reference (>4GB)2023-01-20T10:55:15+01:00Ghost UserMinimap2 requires an extra parameter for large reference (>4GB)See minimap2 FAQ: https://github.com/lh3/minimap2/blob/master/FAQ.md#3-the-output-sam-doesnt-have-a-header
And this issue: https://github.com/lh3/minimap2/issues/301
Minimap2 process would break with a large reference genome and requi...See minimap2 FAQ: https://github.com/lh3/minimap2/blob/master/FAQ.md#3-the-output-sam-doesnt-have-a-header
And this issue: https://github.com/lh3/minimap2/issues/301
Minimap2 process would break with a large reference genome and requires to add --split-prefix or increase the -I parameter.Issues en vrac