... | @@ -9,14 +9,11 @@ Aujourd’hui nous allons lancer un workflow NextFlow de métagénomique sur des |
... | @@ -9,14 +9,11 @@ Aujourd’hui nous allons lancer un workflow NextFlow de métagénomique sur des |
|
1. D’abord allez jeter un œil à ce qu’est NextFlow : [A DSL for parallel and scalable computational pipelines | Nextflow](https://www.nextflow.io/)
|
|
1. D’abord allez jeter un œil à ce qu’est NextFlow : [A DSL for parallel and scalable computational pipelines | Nextflow](https://www.nextflow.io/)
|
|
2. Nous utiliserons aussi des images Singularity. Documentez-vous là-dessus ici : [Singularity | Sylabs.io](https://sylabs.io/singularity/)
|
|
2. Nous utiliserons aussi des images Singularity. Documentez-vous là-dessus ici : [Singularity | Sylabs.io](https://sylabs.io/singularity/)
|
|
3. Nous utiliserons le workflow metaGWGS (branche master) trouvable ici : [genotoul-bioinfo / metagWGS · GitLab (inra.fr)](https://forgemia.inra.fr/genotoul-bioinfo/metagwgs)
|
|
3. Nous utiliserons le workflow metaGWGS (branche master) trouvable ici : [genotoul-bioinfo / metagWGS · GitLab (inra.fr)](https://forgemia.inra.fr/genotoul-bioinfo/metagwgs)
|
|
|
|
- **Pour l’installer suivez la documentation d’installation** : [docs/installation.md · master · genotoul-bioinfo / metagWGS · GitLab (inra.fr)](https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/blob/master/docs/installation.md) **mais ce ne sera pas la peine d’installer NextFlow ni Singularity car ils sont déjà installés sur le cluster. Voir les notes : « NOTE: you are on** [**genologin cluster**](http://bioinfo.genotoul.fr/)**. »**
|
|
- **Pour l’installer suivez la documentation d’installation** : [docs/installation.md · master · genotoul-bioinfo / metagWGS · GitLab (inra.fr)](https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/blob/master/docs/installation.md) **mais ce ne sera pas la peine d’installer NextFlow ni Singularity car ils sont déjà installés sur le cluster. Voir les notes : « NOTE: you are on** [**genologin cluster**](http://bioinfo.genotoul.fr/)**. »**
|
|
- **Récupérer le contenu de** `/home/formation/public_html/M2_bioinfo/TPMetaG_WF/input`, il s’agit des fichiers d’entrée à analyser.
|
|
|
|
|
|
- **Récupérer le contenu de** `/home/formation/public_html/M2_bioinfo/TPMetaG_WF/input`, il s’agit des fichiers d’entrée à analyser.
|
|
|
|
|
|
|
|
Il y a des fastq qui sont les lectures pairées (R1 et R2) à analyser. L’échantillon 2 a été dupliqué, considérez-le comme un troisième échantillon. Dans le répertoire host, vous trouverez un génome de l’hôte réduit indexé pour bwa-mem. Il s’agit en fait du chromosome 21 humain. Ce jeu de données est un jeu de test réduit permettant de manipuler le workflow dans des temps d’exécution et avec un besoin en ressources raisonnable. **Vous utiliserez les banques fournies ici :** `/home/formation/work/datasetsMetaGWGS/FT_banks_2021-10-19` **mais vous ne les copierez pas** (même si ce sont des banques de taille réduites elles prennent tout de même de la place, ne les dupliquez pas).
|
|
Il y a des fastq qui sont les lectures pairées (R1 et R2) à analyser. L’échantillon 2 a été dupliqué, considérez-le comme un troisième échantillon. Dans le répertoire host, vous trouverez un génome de l’hôte réduit indexé pour bwa-mem. Il s’agit en fait du chromosome 21 humain. Ce jeu de données est un jeu de test réduit permettant de manipuler le workflow dans des temps d’exécution et avec un besoin en ressources raisonnable. **Vous utiliserez les banques fournies ici :** `/home/formation/work/datasetsMetaGWGS/FT_banks_2021-10-19` **mais vous ne les copierez pas** (même si ce sont des banques de taille réduites elles prennent tout de même de la place, ne les dupliquez pas).
|
|
|
|
- **Suivez la documentation d’usage du workflow** : [docs/usage.md · master · genotoul-bioinfo / metagWGS · GitLab (inra.fr)](https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/blob/master/docs/usage.md) **sauf que vous utiliserez la branche master** que vous avez installée précédemment, et que vous n'avez pas besoin de tenir compte de la doc sur les tests fonctionnels (nous faisons comme-ci vous travaillez sur un vrai projet). Vous lancerez tout le workflow hormis le binning (étape 8).
|
|
- **Suivez la documentation d’usage du workflow** : [docs/usage.md · master · genotoul-bioinfo / metagWGS · GitLab (inra.fr)](https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/blob/master/docs/usage.md) **sauf que vous utiliserez la branche master** que vous avez installée précédemment, et que vous n'avez pas besoin de tenir compte de la doc sur les tests fonctionnels (nous faisons comme-ci vous travaillez sur un vrai projet). Vous lancerez tout le workflow hormis le binning (étape 8).
|
|
|
|
|
|
|
|
Ecrivez un script `launch.sh` tel que celui-ci :
|
|
Ecrivez un script `launch.sh` tel que celui-ci :
|
|
|
|
|
... | @@ -67,18 +64,12 @@ nextflow run -profile test_genotoul_workq <metagwgs-src>/main.nf \ |
... | @@ -67,18 +64,12 @@ nextflow run -profile test_genotoul_workq <metagwgs-src>/main.nf \ |
|
4. Explicitez en quoi consistent les étapes 1 à 7 du workflow en un résumé d’une page maximum en tout.
|
|
4. Explicitez en quoi consistent les étapes 1 à 7 du workflow en un résumé d’une page maximum en tout.
|
|
5. Qu’y a-t-il dans les répertoires avec des noms bizarres (ceux dont le début est dans le fichier trace.txt) dans le dossier work ? Qu’y a-t-il dans le dossier results ?
|
|
5. Qu’y a-t-il dans les répertoires avec des noms bizarres (ceux dont le début est dans le fichier trace.txt) dans le dossier work ? Qu’y a-t-il dans le dossier results ?
|
|
6. Lorsque le workflow a terminé, allez voir le fichier report.html. Téléchargez le en local pour l’ouvrir.
|
|
6. Lorsque le workflow a terminé, allez voir le fichier report.html. Téléchargez le en local pour l’ouvrir.
|
|
|
|
- Que montre-t-il ?
|
|
- Que montre-t-il ?
|
|
- Quelles sont les étapes les plus longues ?
|
|
|
|
- Quelles sont les étapes les plus gourmandes en mémoire ?
|
|
- Quelles sont les étapes les plus longues ?
|
|
- Quelles sont les étapes les plus utilisatrices d’I/O ?
|
|
|
|
- Auriez-vous des idées pour les optimiser ?
|
|
- Quelles sont les étapes les plus gourmandes en mémoire ?
|
|
7. Téléchargez et regardez attentivement le fichier `multiqc_report.html`.
|
|
|
|
|
|
- Quelles sont les étapes les plus utilisatrices d’I/O ?
|
|
|
|
|
|
|
|
- Auriez-vous des idées pour les optimiser ?
|
|
|
|
|
|
|
|
7. Téléchargez et regardez attentivement le fichier `multiqc_report.html`.
|
|
|
|
- Que pensez-vous des assemblages ? Pour cela commentez les résultats de Quast.
|
|
- Que pensez-vous des assemblages ? Pour cela commentez les résultats de Quast.
|
|
8. Téléchargez et regardez les kronas faits à partir des résultats de kaiju (dans l’étape clean_qc et taxonomic affiliation à partir des lectures)
|
|
8. Téléchargez et regardez les kronas faits à partir des résultats de kaiju (dans l’étape clean_qc et taxonomic affiliation à partir des lectures)
|
|
- Qu’en pensez-vous ? Mettez votre observation en parallèle avec la qualité de l’assemblage.
|
|
- Qu’en pensez-vous ? Mettez votre observation en parallèle avec la qualité de l’assemblage.
|
... | | ... | |