Closed
Milestone
Jun 10, 2009–Oct 1, 2009
Version 1.0
1. Contexte scientifique
Un biais existe sur les données 454 induisant la production aléatoires de duplicats techniques. L'objectif de l'outil est de supprimer ces séquences artificiellement ajoutées.
2. Description de la demande
L'idée est de supprimer ou ranger correctement des séquences d'un fichier sff :
- supprimer les trop longues ou les trop courtes,
- supprimer les doublons,
- mettre dans les shotgun les séquences PET qui n'ont pas de tag ou dont le tag est trop excentré. étape 1 : passer le sff en fasta, qual et xml (ce dernier fait surtout le lien entre les séquences des PETs) outil : sffinfo, sff_extract (http://bioinf.comav.upv.es/sff_extract/download.html) étape 2 : calculer la moyenne et la variance des longueurs des séquences du fasta supprimer les séquences qui sont en dehors de deux écart-types autour de la moyenne outil : biopython étape 3 : recherche les clusters de séquences ayant même origine (megablast : query start = subject start = 1), 98% d'identité et même longueur à 20 nucléotides prêts outil megablast + biopython ou bioperl étape 4 : recherche la présence des séparateurs (spacer) dans les séquences et tri des séquences en fonction de la place du séparateur
- si le séparateur est à moins de 100 bp des deux extrémités : on vire la séquence
- si le séparateur est à moins de 100 bp d'une seule des deux extrémités : on coupe la séquence et le fichier qualité et on ne garde que le côté opposé, la séquence passe en type shotgun et il faut modifier le XML
- sinon on garde la séquence tel quel outils : cross_match + biopython ou bioperl parser cross_match dans xmatchview (pièce jointe) étape 5 : on produit un nouveau sff à partir des fichiers nettoyés outil : ???? Suivi des étapes : on produit un fichier le log qui contient les différentes choses faites avec les séquences supprimées, rognées et qui termine par des statistiques sur ce qui a été modifié et qui reste. NB. Ce serait bien aussi que le module puisse vérifier la présence des logiciels pré-requis. Je le vois comme une application en ligne de commande pour unix que n'importe qui puisse installer chez lui et faire tourner en local. Il faudrait aussi que ça puisse être disponible sous ergatis pour les utilisateurs de la plate-forme et nous.
3. Organisation
## 3.1 Planning Développement rapide sur 3 mois du script.
3.2 Personnes
Implémentation Jérôme et Céline. Tests Christophe
3.3 Ressources matériels
Aucun besoin spécifiques ## 3.4 Ressources financières Sur budget propres
4. Échéancier
début août -> Réunion pour suivre le développement fin septembre -> Tests finaux avant packaging de la V1
5. Critères de validations
Est-ce que les jeux de données de christophe sont correctement nettoyés.