Proposition optimisation disque/ressource

Avec ma contrainte d'une petit espace disque j'imagine l'utilisation de metagWGS en plusieurs étapes avec des nextflow clean entre chaque.

Mon idée première:

stop at clean ==> remplacement des raw reads par les cleaned dans la samplehseet et suppression des raw
skip clean et stop at filtering ==> remplacement des cleaned reads par des dedup_reads dans la sample_sheet, suppression des cleaned, et ajout des assemblages filtered dans la sample_sheet
skip clean skip binning : (pour ne faire que l'annotation structurale, functionnelle et taxonomique)
skip clean skip_func_annot skip taxo affi (pour ne faire que le bining)

Actuellement, c'est possible mais ce n'est pas optimale:

pour mon étape 3 et 4, les lectures seront systématiquement réalignées sur les contigs
pour mon étape 4: l'annotation structurale est systématique lancée.

Idées:

pourrait on ajouter une colonne bam dans la sample_sheet, pour éviter de refaire les alignements sur les assemblages qui seraient déjà précisés dans la sample_sheet?
pourrait on ajouter un skip_structurale annot ce qui évite toute la partie analyse des gènes.

Par ailleurs en lisant le code (en espérant avoir bien compris):

Pourquoi fait on un renommage des contigs ? Pourquoi est il systématique ? On pourrait faire un check du format des noms de séquences et si c'est ok alors ne faire que des liens symboliques?
dans filtering pourquoi refaire l'alignement après filtre? pourquoi ne pas simplement conserver les alignements sur les contigs qui passent les filtres ?
Est ce utile de retourner les merged fastq & et les reads_dedup ? dedup devrait suffire, non ?

Admin message