|
|
**##################################################################################**
|
|
|
|
|
|
**Rappel des comptes fleurs :** \
|
|
|
anemone arome aster bleuet camelia capucine chardon clematite cobee coquelicot cosmos cyclamen dahlia digitale geranium gerbera glaieul hortensia iris jacinthe\
|
|
|
anemone arome aster bleuet camelia capucine chardon clematite cobee coquelicot cosmos cyclamen dahlia digitale geranium gerbera glaieul hortensia iris jacinthe\
|
|
|
**##################################################################################**
|
|
|
|
|
|
Aujourd’hui nous allons lancer un workflow NextFlow de métagénomique sur des données de tests (lectures courtes Illumina – mini gut).
|
|
|
Aujourd’hui nous allons lancer un workflow NextFlow de métagénomique sur des données de tests (lectures HiFi Pacbio – 1 seul échantillon sous-échantillonné).
|
|
|
|
|
|
1. D’abord allez jeter un œil à ce qu’est NextFlow : [A DSL for parallel and scalable computational pipelines | Nextflow](https://www.nextflow.io/)
|
|
|
2. Nous utiliserons aussi des images Singularity. Documentez-vous là-dessus ici : [Singularity | Sylabs.io](https://sylabs.io/singularity/)
|
|
|
3. Nous utiliserons le workflow metaGWGS (branche master) trouvable ici : [genotoul-bioinfo / metagWGS · GitLab (inra.fr)](https://forgemia.inra.fr/genotoul-bioinfo/metagwgs)
|
|
|
- **Pour l’installer suivez la documentation d’installation** : [docs/installation.md · master · genotoul-bioinfo / metagWGS · GitLab (inra.fr)](https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/blob/master/docs/installation.md) **mais ce ne sera pas la peine d’installer NextFlow ni Singularity car ils sont déjà installés sur le cluster. Voir les notes : « NOTE: you are on** [**genologin cluster**](http://bioinfo.genotoul.fr/)**. »**
|
|
|
- **Récupérer le contenu de** `/home/formation/public_html/M2_bioinfo/TPMetaG_WF/input`, il s’agit des fichiers d’entrée à analyser.
|
|
|
- **Vous trouverez dans ** `/home/formation/work/datasetsMetaGWGS/input`, le fichier d’entrée à analyser.
|
|
|
|
|
|
Il y a des fastq qui sont les lectures pairées (R1 et R2) à analyser. L’échantillon 2 a été dupliqué, considérez-le comme un troisième échantillon. Dans le répertoire host, vous trouverez un génome de l’hôte réduit indexé pour bwa-mem. Il s’agit en fait du chromosome 21 humain. Ce jeu de données est un jeu de test réduit permettant de manipuler le workflow dans des temps d’exécution et avec un besoin en ressources raisonnable. **Vous utiliserez les banques fournies ici :** `/home/formation/work/datasetsMetaGWGS/FT_banks_2021-10-19` **mais vous ne les copierez pas** (même si ce sont des banques de taille réduites elles prennent tout de même de la place, ne les dupliquez pas).
|
|
|
- **Suivez la documentation d’usage du workflow** : [docs/usage.md · master · genotoul-bioinfo / metagWGS · GitLab (inra.fr)](https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/blob/master/docs/usage.md) **sauf que vous utiliserez la branche master** que vous avez installée précédemment, et que vous n'avez pas besoin de tenir compte de la doc sur les tests fonctionnels (nous faisons comme-ci vous travaillez sur un vrai projet). Vous lancerez tout le workflow hormis le binning (étape 8).
|
|
|
Il y a un fichier fastq HiFi Pacbio à analyser. Ce jeu de données est un jeu de test réduit permettant de manipuler le workflow dans des temps d’exécution et avec un besoin en ressources raisonnable. **Vous utiliserez les banques fournies ici :** `/home/formation/work/datasetsMetaGWGS/banques` **mais vous ne les copierez pas** (même si ce sont des banques de taille réduites elles prennent tout de même de la place, ne les dupliquez pas).
|
|
|
- **Suivez la documentation d’usage du workflow** : [docs/usage.md · master · genotoul-bioinfo / metagWGS · GitLab (inra.fr)](https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/blob/master/docs/usage.md) **sauf que vous utiliserez la branche master** que vous avez installée précédemment, et que vous n'avez pas besoin de tenir compte de la doc sur les tests fonctionnels (nous faisons comme-ci vous travaillez sur un vrai projet). Vous lancerez tout le workflow hormis le filtre des lectures contaminantes de l'hôte et le filtre de l'assemblage.
|
|
|
|
|
|
Ecrivez un script `launch.sh` tel que celui-ci :
|
|
|
|
... | ... | @@ -58,6 +58,7 @@ nextflow run -profile test_genotoul_workq <metagwgs-src>/main.nf \ |
|
|
|
|
|
**Questions :**
|
|
|
|
|
|
1. Qu'est-ce que des lectures HiFi ? Comment les obtient-on ? Qu'elles sont les différences entre des lectures Illumina NovaSeq (pairées, 2x150 pb) et des lectures HiFi Pacbio ? Regarder au moins cette page : https://www.pacb.com/technology/hifi-sequencing/
|
|
|
1. Qu’est-ce que la répétabilité d’une analyse ? La reproductibilité d’une analyse ?
|
|
|
2. En quoi NextFlow et Singularity peuvent aider à améliorer répétabilité et reproductibilité ?
|
|
|
3. Que signifient les options NextFlow suivantes, à quoi servent-elles ? `-profile, -with-report, -with-timeline, -with-trace, -with-dag, -resume` ?
|
... | ... | |