|
|
**TP Métagénomique**
|
|
|
|
|
|
**##################################################################################**
|
|
|
|
|
|
**Rappel des comptes fleurs :** \
|
... | ... | @@ -12,35 +10,45 @@ Aujourd’hui nous allons lancer un workflow nextflow de métagénomique sur des |
|
|
2. Nous utiliserons aussi des images singularity. Documentez-vous là-dessus ici : [Singularity | Sylabs.io](https://sylabs.io/singularity/)
|
|
|
3. Nous utiliserons le workflow metaGWGS (branche master) trouvable ici : [genotoul-bioinfo / metagWGS · GitLab (inra.fr)](https://forgemia.inra.fr/genotoul-bioinfo/metagwgs)
|
|
|
1. **Pour l’installer suivez la documentation d’installation** : [docs/installation.md · dev · genotoul-bioinfo / metagWGS · GitLab (inra.fr)](https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/blob/dev/docs/installation.md) **mais ce ne sera pas la peine d’installer NextFlow ni Singularity car ils sont déjà installés sur le cluster. Voir les notes : « NOTE: you are on** [**genologin cluster**](http://bioinfo.genotoul.fr/)**. »**
|
|
|
2. **Récupérer le contenu de /home/formation/public_html/M2_bioinfo/TPMetaG_WF/input**, il s’agit des fichiers d’entrée à analyser.
|
|
|
2. **Récupérer le contenu de**` /home/formation/public_html/M2_bioinfo/TPMetaG_WF/input`, il s’agit des fichiers d’entrée à analyser.
|
|
|
|
|
|
Il y a des fastq qui sont les lectures pairées (R1 et R2) à analyser. L’échantillon 2 a été dupliqué, considérez-le comme un troisième échantillon. Dans le répertoire host, vous trouverez un génome de l’hôte réduit indexé pour bwa mem. Il s’agit en fait du chromosome 21 humain. Ce jeu de données est un jeu de test réduit permettant de manipuler le workflow dans des temps d’exécution et avec un besoin en ressources raisonnable. **Vous utiliserez les banques fournies ici : /home/formation/work/datasetsMetaGWGS/FT_banks_2021-10-19 mais vous ne les copierez pas** (même si ce sont des banques de taille réduites elles prennent tout de même de la place, ne les dupliquez pas).
|
|
|
Il y a des fastq qui sont les lectures pairées (R1 et R2) à analyser. L’échantillon 2 a été dupliqué, considérez-le comme un troisième échantillon. Dans le répertoire host, vous trouverez un génome de l’hôte réduit indexé pour bwa mem. Il s’agit en fait du chromosome 21 humain. Ce jeu de données est un jeu de test réduit permettant de manipuler le workflow dans des temps d’exécution et avec un besoin en ressources raisonnable. **Vous utiliserez les banques fournies ici :**` /home/formation/work/datasetsMetaGWGS/FT_banks_2021-10-19` **mais vous ne les copierez pas** (même si ce sont des banques de taille réduites elles prennent tout de même de la place, ne les dupliquez pas).
|
|
|
3. **Suivez la documentation d’usage du workflow** : [docs/usage.md · dev · genotoul-bioinfo / metagWGS · GitLab (inra.fr)](https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/blob/dev/docs/usage.md) **sauf que vous utiliserez la branche master** que vous avez installée précédemment et que vous lancerez tout le workflow hormis le binning (étape 8).
|
|
|
|
|
|
Ecrivez un script tel que celui-ci :
|
|
|
|
|
|
more launch.sh
|
|
|
more launch.sh
|
|
|
|
|
|
```shell
|
|
|
|
|
|
\`\`\`
|
|
|
#!/bin/bash
|
|
|
|
|
|
\#!/bin/bash
|
|
|
module load bioinfo/Nextflow-v21.04.1
|
|
|
module load system/singularity-3.7.3
|
|
|
|
|
|
module load bioinfo/Nextflow-v21.04.1 ; module load system/singularity-3.7.3 ; nextflow run -profile test_genotoul_workq <metagwgs-src>/main.nf --step '01_clean_qc,02_assembly,03_filtering,04_structural_annot,05_alignment,06_func_annot,07_taxo_affi' --reads '<datasets>/input/\*_{R1,R2}.fastq.gz' --host_fasta '<datasets>/input/host/genome.hg38.chr21_10000bp_region.fa' --host_bwa_index '<datasets>/input/host/genome.hg38.chr21_10000bp_region.fa.{amb,ann,bwt,pac,sa}' --min_contigs_cpm 1 --kaiju_db_dir '<bank>kaijudb_refseq_2020-05-25' --taxonomy_dir '<bank>/taxonomy_2021-08-23' --eggnog_mapper_db_dir '<bank>/eggnog-mapper-2.0.4-rf1/data' --diamond_bank '<bank>/refseq_bacteria_2021-05-20/refseq_bacteria.dmnd' -with-report -with-timeline -with-trace -with-dag
|
|
|
nextflow run -profile test_genotoul_workq <metagwgs-src>/main.nf \
|
|
|
--step '01_clean_qc,02_assembly,03_filtering,04_structural_annot,05_alignment,06_func_annot,07_taxo_affi' \
|
|
|
--reads '<datasets>/input/\*_{R1,R2}.fastq.gz' \
|
|
|
--host_fasta '<datasets>/input/host/genome.hg38.chr21_10000bp_region.fa' \
|
|
|
--host_bwa_index '<datasets>/input/host/genome.hg38.chr21_10000bp_region.fa.{amb,ann,bwt,pac,sa}' --min_contigs_cpm 1 \
|
|
|
--kaiju_db_dir '<bank>kaijudb_refseq_2020-05-25' \
|
|
|
--taxonomy_dir '<bank>/taxonomy_2021-08-23' \
|
|
|
--eggnog_mapper_db_dir '<bank>/eggnog-mapper-2.0.4-rf1/data' \
|
|
|
--diamond_bank '<bank>/refseq_bacteria_2021-05-20/refseq_bacteria.dmnd' \
|
|
|
-with-report -with-timeline -with-trace -with-dag
|
|
|
```
|
|
|
|
|
|
\`\`\`\
|
|
|
\
|
|
|
**Remplacez <metagwgs-src> par le chemin de l’endroit où vous avez installé le workflow.**
|
|
|
**Remplacez par le chemin de l’endroit où vous avez installé le workflow.**
|
|
|
|
|
|
**Remplacer <datasets> par le chemin vers vos inputs fastq récupérées en b).**
|
|
|
**Remplacer par le chemin vers vos inputs fastq récupérées en 3.2.**
|
|
|
|
|
|
**Remplacer <bank> par le répertoire suivant : /home/formation/work/datasetsMetaGWGS/FT_banks_2021-10-19**
|
|
|
**Remplacer par le répertoire suivant :** `/home/formation/work/datasetsMetaGWGS/FT_banks_2021-10-19`
|
|
|
|
|
|
\
|
|
|
**Commande de lancement :**
|
|
|
|
|
|
**sbatch -J functional_test --mem=6G launch.sh**
|
|
|
`sbatch -J functional_test --mem=6G launch.sh`
|
|
|
|
|
|
**Vous pouvez suivre l’avancée du workflow dans la fichier trace.txt.**
|
|
|
**Vous pouvez suivre l’avancée du workflow dans la fichier** `trace.txt`.
|
|
|
|
|
|
**Prendre un des process marqué COMPLETED et trouver les fichiers de sortie dans le répertoire work de travail du workflow. Le début du nom du dossier se trouve dans la deuxième colonne.**
|
|
|
|
... | ... | @@ -48,13 +56,13 @@ module load bioinfo/Nextflow-v21.04.1 ; module load system/singularity-3.7.3 ; n |
|
|
|
|
|
**Pour cela allez voir dans le répertoire work et faites affiché les fichiers cachés par la commande ls –la.**
|
|
|
|
|
|
**Investiguez les fichiers .command.log, .command.err et .command.sh pour trouver l’erreur.** La corriger et relancer le workflow avec l’option **–resume** de nextflow (changer le launch.sh). Monitorez les jobs avec un squeue –u nomdeFleur et ce qui s’écrit dans le nouveau trace.txt.
|
|
|
**Investiguez les fichiers** `.command.log`**,**` .command.err `**et** `.command.sh` **pour trouver l’erreur.** La corriger et relancer le workflow avec l’option **–resume** de nextflow (changer le launch.sh). Monitorez les jobs avec un` squeue –u nomdeFleur` et ce qui s’écrit dans le nouveau trace.txt.
|
|
|
|
|
|
**Questions :**
|
|
|
|
|
|
1. Qu’est-ce que la répétabilité d’une analyse ? La reproductibilité d’une analyse ?
|
|
|
2. En quoi NextFlow et Singularity peuvent aider à améliorer répétabilité et reproductibilité ?
|
|
|
3. Que signifie les options nextFlow suivantes, à quoi servent-elles ? -profile, -with-report, -with-timeline, -with-trace, -with-dag, -resume ?
|
|
|
3. Que signifie les options nextFlow suivantes, à quoi servent-elles ?` -profile, -with-report, -with-timeline, -with-trace, -with-dag, -resume `?
|
|
|
4. Explicitez-en quoi consiste les étapes 1 à 7 du workflow en un résumé d’une page maximum.
|
|
|
5. Qu’y a-t-il dans les répertoires avec des noms bizarres (ceux dont le début est dans le fichier trace.txt) dans le dossier work ? Qu’y a-t-il dans le dossier results ?
|
|
|
6. Que fait l’option –resume de nextFlow ?
|
... | ... | @@ -64,9 +72,9 @@ module load bioinfo/Nextflow-v21.04.1 ; module load system/singularity-3.7.3 ; n |
|
|
3. Quelles sont les étapes les plus gourmandes en mémoire ?
|
|
|
4. Quelles sont les étapes les plus utilisatrice d’IO ?
|
|
|
5. Auriez-vous des idées pour les optimiser ?
|
|
|
8. Télécharger et regardez attentivement le fichier multiqc_report.html.
|
|
|
8. Télécharger et regardez attentivement le fichier `multiqc_report.html`.
|
|
|
1. Que pensez-vous des assemblages ? Pour cela commentez les résultats de Quast.
|
|
|
9. Télécharger et regardez les kronas fait à partir des résultats de kaiju (dans l’étape clean_qc et taxonomic affiliation à partir des lectures)
|
|
|
1. Qu’en pensez-vous ? Mettez votre observation en parallèle avec la qualité de l’assemblage.
|
|
|
10. La matrice d’aabondance taxonomique faite à partir des résultats des diamond sur les ORF annotées sur les contigs est dans le répertoire 07_taxo_affi. Regardez le fichier quantification_by_contig_lineage_all.tsv. Que contient-il ? Que signifient chacune des colonnes ?
|
|
|
11. La matrice d’abondance fonctionnelle est 06_3_functional_annotation/ Quantifications_and_functional_annotations.tsv. Elle a été produite après clusterisation des gènes annotés sur les contigs, puis annotation fonctionnelle par eggNog_mapper. Que signifient chacune des colonnes ? |
|
|
\ No newline at end of file |
|
|
10. La matrice d’abondance taxonomique faite à partir des résultats des diamond sur les ORF annotées sur les contigs est dans le répertoire `07_taxo_affi`. Regardez le fichier `quantification_by_contig_lineage_all.tsv`. Que contient-il ? Que signifient chacune des colonnes ?
|
|
|
11. La matrice d’abondance fonctionnelle est `06_3_functional_annotation/Quantifications_and_functional_annotations.tsv`. Elle a été produite après clusterisation des gènes annotés sur les contigs, puis annotation fonctionnelle par eggNog_mapper. Que signifient chacune des colonnes ? |
|
|
\ No newline at end of file |