bug in bin/filter_diamond_hits.py : coverage need to be scaled between 0-100
En regardant les réusltats du tableau des quantifications et annotations des gènes (06_func_annot/06_3_functional_annotation/Quantifications_and_functional_annotations.tsv
), je me suis apperçue que les deux dernières colonnes (sseqid
, stitle
) sont systématiquement vides. Elles correspondent à la sélection des CDS sur nr avec Diamond et dépendent de la sélection des best_hit par bin/filter_diamond_hits.py
dont les paramètres par défaut sont 60% d'id et 70% de coverage.
Le problème est du à un problème d'échelle. Les paramètres sont exprimés sur une échelle de 0 à 100, alors que la couverture est exprimée de 0 à 1: Il suffit de multiplier par 100 la couverture sur cette ligne : https://forgemia.inra.fr/genotoul-bioinfo/metagwgs/-/blob/master/bin/filter_diamond_hits.py#L70