metagWGS issueshttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues2024-02-09T08:46:32+01:00https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/240test MetaMDBG2024-02-09T08:46:32+01:00Claire Hoedetest MetaMDBGNew assembler for HiFi reads : https://www.nature.com/articles/s41587-023-01983-6New assembler for HiFi reads : https://www.nature.com/articles/s41587-023-01983-6Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/239tester https://github.com/GaetanBenoitDev/metaMDBG pour assembler les reads HiFi2023-11-28T15:36:42+01:00Claire Hoedetester https://github.com/GaetanBenoitDev/metaMDBG pour assembler les reads HiFiSemble sur le papier plus efficace et plus rapide en utilisant moins de RAM.
A tester.Semble sur le papier plus efficace et plus rapide en utilisant moins de RAM.
A tester.Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/238Idea : compute statistics to help defining abudance filtering threshold2023-10-19T13:52:08+02:00Maria BernardIdea : compute statistics to help defining abudance filtering thresholdGenes abundance tables are often filtered on abundance and/or prevalence, as well as taxonomy tables (contigs or bin)
We could compute a graphic or table which filtered genes based on a minimum abundance (from 3 to 15 reads ? or from 0.5...Genes abundance tables are often filtered on abundance and/or prevalence, as well as taxonomy tables (contigs or bin)
We could compute a graphic or table which filtered genes based on a minimum abundance (from 3 to 15 reads ? or from 0.5 to 1 depth) in at least X samples (from 2 samples to 10% of all samples ).
This graphic/table need to return :
- the number/percentage of feature kept (obviously)
- the number/percentage of total abundance kept
Ideally we could remove lot of niose (rar feature) for a minimal lost of reads/depth.https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/231suggestion pour améliorer le temps de calcul de eggnog2023-07-07T16:40:00+02:00Maria Bernardsuggestion pour améliorer le temps de calcul de eggnogJ'ai réutilisé l'env singularity, la commande et la database eggnog que lors d'une analyse faite avec le pipeline metagWGS mais sur un fichier de 13,5M de gènes divisé en 14 paquets (donc presque 1M par paquet) .
Il s'avère que tous mes...J'ai réutilisé l'env singularity, la commande et la database eggnog que lors d'une analyse faite avec le pipeline metagWGS mais sur un fichier de 13,5M de gènes divisé en 14 paquets (donc presque 1M par paquet) .
Il s'avère que tous mes jobs plantaient car ils accédaient tous à la même base de données en même temps.
J'ai donc ajouter l'option --dbmem pour que la base soit chargée en mémoire.
Non seulement mes jobs sont passés mais en plus ils se sont terminés en 45 min (41G de RAM) au lieu de >2h (? 2 jobs ne sont toujours pas terminés après 3h30) (12G de RAM) sur 40 CPU.
Il me semble que la conso mémoire est raisonnable compte tenu du gain de temps de calcul. Une idée à peut être mettre en place dans metagWGS.
(attention l'option a changé dans les futures versions de eggnog en --servermode et --usemem, à valider)https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/227check if assembly filter is working well when co-assembly is configured and a...2023-04-19T14:45:27+02:00Claire Hoedecheck if assembly filter is working well when co-assembly is configured and add the choice to not filter on cpm but in contig lengthAfter some experiences, we observed that, for a lot of data, the cpm filter can be too stringent. A minimal length contig treshold is more relevant. Moreover, a collegue has observed a curious behaviour for the cpm filter in case of co-a...After some experiences, we observed that, for a lot of data, the cpm filter can be too stringent. A minimal length contig treshold is more relevant. Moreover, a collegue has observed a curious behaviour for the cpm filter in case of co-assembly. We need to check that.Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/215Make binning results compatible with anvio2022-12-02T15:19:02+01:00Ghost UserMake binning results compatible with anvioNeed to try anvio and check required files.Need to try anvio and check required files.Issues en vracVIENNE MAINAVIENNE MAINAhttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/213Add info if bin is RNA complete or not2023-01-20T10:42:25+01:00Ghost UserAdd info if bin is RNA complete or notBins quality is also evaluated according the number of tRNA and if all rRNA genes are found.
Check : https://ena-docs.readthedocs.io/en/latest/faq/metagenomes.html#how-is-the-quality-of-a-metagenomic-assembly-defined
Add the number...Bins quality is also evaluated according the number of tRNA and if all rRNA genes are found.
Check : https://ena-docs.readthedocs.io/en/latest/faq/metagenomes.html#how-is-the-quality-of-a-metagenomic-assembly-defined
Add the number of tRNA and if all rRNA genes are found in the bins to the stat bin table.Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/201Improve HiFi binning2022-12-02T15:09:30+01:00Ghost UserImprove HiFi binningDifferent possibility to improve HiFi binning:
* Implement a circular aware startegy as in the [Binning Pacbio Pipeline](https://github.com/PacificBiosciences/pb-metagenomics-tools/blob/master/docs/Tutorial-HiFi-MAG-Pipeline.md). Check o...Different possibility to improve HiFi binning:
* Implement a circular aware startegy as in the [Binning Pacbio Pipeline](https://github.com/PacificBiosciences/pb-metagenomics-tools/blob/master/docs/Tutorial-HiFi-MAG-Pipeline.md). Check on project if it would really improved the results
* Use of assembly graph: information of the assembly graph could be used to bin contigs : Check [RepBin](https://github.com/xuehansheng/RepBin), [https://github.com/metagentools/GraphBin2](GraphBin2), [GraphMB](https://github.com/MicrobialDarkMatter/GraphMB)
* Use of methylation marks found in HiFi reads : check [nanodisco](https://github.com/fanglab/nanodisco) use to do that with ONT reads. The methods was originally made for PacBio RS II data with the tool [mbin](https://github.com/fanglab/mbin). It is now possible to call methylation in HiFi reads so we could theoretically apply this method with our HiFi reads.Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/168Databases saving folder2022-12-02T15:20:55+01:00MARTIN PierreDatabases saving folderAdd databases saving option?
Test download databases with new publishdir:
-> [publishdir "move" ?]
-> [publishdir symbolic link?]
-> [option: --copy_databases with "false" by default?]
-> [DL all DB to use in separate workflow (as o...Add databases saving option?
Test download databases with new publishdir:
-> [publishdir "move" ?]
-> [publishdir symbolic link?]
-> [option: --copy_databases with "false" by default?]
-> [DL all DB to use in separate workflow (as option of metag)]Issues en vracVIENNE MAINAVIENNE MAINAhttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/164Eggnog mapper chunks2023-12-18T14:20:06+01:00MARTIN PierreEggnog mapper chunksAs for assembly filter or maybe diamond, do eggnog by chunksAs for assembly filter or maybe diamond, do eggnog by chunksIssues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/155Functional tests: change output to table format2022-12-02T15:14:31+01:00MARTIN PierreFunctional tests: change output to table formatChange format to a table for better human readabilityChange format to a table for better human readabilityIssues en vracMARTIN PierreMARTIN Pierrehttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/143Replacing alignment methods with quantification methods (kmer...)2021-06-28T16:03:14+02:00MARTIN PierreReplacing alignment methods with quantification methods (kmer...)Instead of aligning sequences throughout all the pipeline, should we:
- Replace those operations with non-alignment methods (quantification) or pseudo-mapping (through kmers)?
- If so, what to use? Salmon/CD-HIT/other?
Evaluate impact o...Instead of aligning sequences throughout all the pipeline, should we:
- Replace those operations with non-alignment methods (quantification) or pseudo-mapping (through kmers)?
- If so, what to use? Salmon/CD-HIT/other?
Evaluate impact on pipeline, output files format (and "CO2 emissions" as less alignment means less work on the cluster).https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/139Améliorations possibles du pipeline2022-08-29T15:28:48+02:00Joanna FourquetAméliorations possibles du pipelineQuestions et remarques suite à la présentation du pipeline le 20/05 à Bioinfo Jouy + réponses de Claire :
- [x] créer une table d'abondance des bins
==>Oui bien sûr... dès qu'on a un binning digne de ce nom dans metaGWGS.
- [x] utiliser...Questions et remarques suite à la présentation du pipeline le 20/05 à Bioinfo Jouy + réponses de Claire :
- [x] créer une table d'abondance des bins
==>Oui bien sûr... dès qu'on a un binning digne de ce nom dans metaGWGS.
- [x] utiliser CheckM à la place de BAT pour l'affiliation taxonomique des bins ?
==>Il faut utiliser CheckM, mais cet outil vérifie la qualité des bins, il ne fait pas l'affiliation.
- [x] dans le tableau d'abondance des gènes, on a ajouté une colonne avec le lien sur le NCBI vers l'identifiant de la protéine sur laquelle matche le gène dans la base de données utilisée. Comme on n'a utilisé que NR pour le moment, ça ne pose pas trop de problèmes mais si jamais l'utilisateur utilise une autre base de données dont les id ne sont pas sur le NCBI ça peut créer des liens qui ne vont nulle part. Mais il me semble Géraldine que tu étais au fait de ce "problème", je ne sais pas par contre si les autres "grosses" bases de données ont leurs identifiants inclus dans le NCBI.
==>Oui, il faudra adapter dans ce cas.
- [ ] ce serait bien d'indiquer aux utilisateurs combien proportionnellement aux données brutes il y a d'espace disque occupé par les analyses pour qu'il sache combien d'espace disque il va devoir réserver. Je suis en train de le calculer pour le leur envoyer, à voir pour l'ajouter dans la documentation ?
==>Le truc c'est que ça va aussi dépendre de la diversité des échantillons non ?
- [ ] est-ce que ce serait possible de lancer l'analyser 10 échantillons par 10 échantillons pour supprimer les fichiers intermédiaires et ainsi avoir moins besoin d'espace disque ? J'ai dit que pour le moment non (mais je me trompe peut-être , Céline tu auras peut-être une idée ?), parce que le pipeline va chercher les fichiers dont il a besoin dans les fichiers temporaires pour fonctionner (par exemple pour l'étape de clustering) et s'il n'a pas les fichiers temporaires il ne pourra pas les trouver. Et comme l'étape de clustering n'est pas externe au pipeline on ne peut pas la lancer seulement pour le moment. Peut-être avec un fichier "manifest" qu'ont peut faire remplir automatiquement par le pipeline si on lance touts les amples d'un coup et qui peut sinon être rempli par l'utilisateur quand il a fait toutes les étapes avant le clustering ou une autre étape qui nécessite tous les samples ?
==>C'est sûr que le workflow est gourmand en espace temporaire. A réfléchir en effet...
- [ ] mise en place du pipeline sous Galaxy / interface web possible ? --> les collègues ont souligné le problème des ressources, j'ai dit que ce n'était pas prévu pour le moment
==>Trop gourmand selon moi.
- [ ] ATLAS génère des graphes (boxplots, etc) dans un rapport HTML, peut-être ajouter des sorties dans un rapport pdf avec des résultats (ça serait complémentaire avec les tableaux de sortie et autres figures de sortie et du rapport HTML avec les métriques)
==>Si on a un chouette rapport html, je vois pas trop pourquoi faire aussi un pdf, mais bon.
- [ ] info : 11 samples analysés avec ATLAS --> plus d'un mois et demi / 2 mois de calcul (voir avec Olivier et Cédric Midoux ?). Avec metagWGS, analyse de 32 samples en 12,5 jours.
==> après ce n'est pas trop comparable vu que le binning est bien plus compliqué dans ATLAS. On verra quand on aura toutes les fonctionnalités souhaitées.
==> Autre info, il va vraiment falloir que je m'y remette et la première des choses à faire sera de modifier le tableau d'abondance taxo en mettant la profondeur moyenne des contigs et non le nombre de lecture. Je m'y colle (moi ou Pierre, le nouveau CDD) dès que possible.
- [x] mise à disposition des fichiers des mocks pour les utilisateurs
- [ ] 32 samples ExpoMycoPig (62X à 109X) : 7,5To d'espace disque nécessaire pour l'analyse avec metagWGS dont 375 To pour les données brutes (.fastq.gz). Je ne suis pas certaine que j'aie compté l'analyse fonctionnelle dedans. Indiquer qu'il faut 20 fois plus d'espace disque que l'espace disque des données brutes zippées à l'utilisateur pour qu'il lance toute l'analyse ?Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/135Documentation: update use_case.md with interpretations2022-06-07T15:26:25+02:00Joanna FourquetDocumentation: update use_case.md with interpretationsUpdate use case with interpretations of results, for example:
- which are good metrics for a good assembly?
@claire.hoede : ajouter des warnings pour ce que tu as rencontré dans tes différentes utilisations de metagWGS. Exemple: ce qu'i...Update use case with interpretations of results, for example:
- which are good metrics for a good assembly?
@claire.hoede : ajouter des warnings pour ce que tu as rencontré dans tes différentes utilisations de metagWGS. Exemple: ce qu'il faut vérifier après un kaiju (% de lectures affiliées à des bactéries, est-ce qu'il n'y a pas des bactéries en grand nombre auquel on ne s'attend pas, etc).
@geraldine.pascal : pour quelle date aurais-tu besoin d'avoir cette page de la documentation terminée ?Issues en vracVIENNE MAINAVIENNE MAINAhttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/13403_filtering: Assess the impact of CPM and contig length filtering2022-12-02T15:18:16+01:00Joanna Fourquet03_filtering: Assess the impact of CPM and contig length filteringA partir du bam des reads sur l'assemblage, représenter les différentes métriques d'assemblage (taille de l'assemblage, % de reads mappés, nombre de contigs) en fonction de différents seuils CPM et également de différentes longueurs de c...A partir du bam des reads sur l'assemblage, représenter les différentes métriques d'assemblage (taille de l'assemblage, % de reads mappés, nombre de contigs) en fonction de différents seuils CPM et également de différentes longueurs de contigs minimum.
Permet de visualiser l'impact du filtre sur l'assemblage et de ne pas relancer inutilement le filtre à l'aveugle plusieurs fois.
On peut également imaginer de déterminer le seuil de filtre automatiquement à partir de ces résultats.Issues en vracVIENNE MAINAVIENNE MAINAhttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/133Questions to answer with the pipeline (biologist)2021-09-27T14:50:24+02:00Joanna FourquetQuestions to answer with the pipeline (biologist)- Quelles bactéries ai-je dans le milieu ?
- Quels gènes sont présents dans le milieu ?
- Pour une fonction donnée, qui a cette fonction/gène dans le milieu? --> construire un script qui à partir d'une liste de fonctions (example: PFAMs ...- Quelles bactéries ai-je dans le milieu ?
- Quels gènes sont présents dans le milieu ?
- Pour une fonction donnée, qui a cette fonction/gène dans le milieu? --> construire un script qui à partir d'une liste de fonctions (example: PFAMs ids) (ou à partir d'une liste de clusters de gènes qui ont une fonction ou des fonctions en particulier) aille chercher les gènes qui ont pour représentant les clusters ids ayant ces fonctions et aille chercher les contigs auquels ils appartiennent (c'est inclut dans le nom des gènes) et leur affiliation taxonomique. Lorsqu'on aura le binning, ça pourra être géré autrement (partir des bins et de l'annotation des gènes sur les contigs dans chaque bin par exemple).Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/132Bins and contigs: generate matrix with metrics2021-09-29T09:00:28+02:00Joanna FourquetBins and contigs: generate matrix with metricsWhen binning is done:
Do the same as #82 but for bins + contigs and with other metrics.
The final table for contigs must be:
Bactérie A + name_contigs + nb contigs **+ nb de gènes observés dans chaque échantillon**
The final table fo...When binning is done:
Do the same as #82 but for bins + contigs and with other metrics.
The final table for contigs must be:
Bactérie A + name_contigs + nb contigs **+ nb de gènes observés dans chaque échantillon**
The final table for bins must be:
Bactérie A + nb contigs + nb de gènes observés dans chaque échantillon + nb de gènes observés par Bactérie A + nb de bins (dans le cas des mocks: + nb de gènes attendus dans le génome + nb de gènes attendus dans l'échantillon).Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/125Generate .html to make documentation website2021-09-29T09:57:47+02:00Joanna FourquetGenerate .html to make documentation websiteGeneraterate .html file with CI/CD to make a documentation website (see nf-core workflows).Generaterate .html file with CI/CD to make a documentation website (see nf-core workflows).Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/109Clustering: improve table_clstr.txt2021-09-29T09:49:48+02:00Joanna FourquetClustering: improve table_clstr.txtPas prioritaire.
Make 1 line by cluster with list of associated genes separated by comas (and not 1 line = 1 cluster and 1 associated gene).Pas prioritaire.
Make 1 line by cluster with list of associated genes separated by comas (and not 1 line = 1 cluster and 1 associated gene).Issues en vrachttps://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/issues/97Metrics on final quantification file with annotations2023-01-20T10:50:34+01:00Joanna FourquetMetrics on final quantification file with annotationsPriorité faible.
Create a log file with some metrics of functionnal annotations contained into final file with quantification of reads on genes and functional annotations.
(Par exemple, avoir un fichier de log avec le nombre de PFAMs et ...Priorité faible.
Create a log file with some metrics of functionnal annotations contained into final file with quantification of reads on genes and functional annotations.
(Par exemple, avoir un fichier de log avec le nombre de PFAMs et le % de reads associés à tous ces PFAMs et idem pour les GOs, etc.)
Voir le script qui permet de générer le fichier Quantifications_and_functional_annotations.tsv
- [ ] % de genes associés à un eggnog_id et à un diamond_id
- [ ] Demander à Géraldine pour le nombre de PFAMs et les % (globalement sur l'issue)Issues en vracVIENNE MAINAVIENNE MAINA