Proposition optimisation disque/ressource
Avec ma contrainte d'une petit espace disque j'imagine l'utilisation de metagWGS en plusieurs étapes avec des nextflow clean entre chaque.
Mon idée première:
- stop at clean ==> remplacement des raw reads par les cleaned dans la samplehseet et suppression des raw
- skip clean et stop at filtering ==> remplacement des cleaned reads par des dedup_reads dans la sample_sheet, suppression des cleaned, et ajout des assemblages filtered dans la sample_sheet
- skip clean skip binning : (pour ne faire que l'annotation structurale, functionnelle et taxonomique)
- skip clean skip_func_annot skip taxo affi (pour ne faire que le bining)
Actuellement, c'est possible mais ce n'est pas optimale:
- pour mon étape 3 et 4, les lectures seront systématiquement réalignées sur les contigs
- pour mon étape 4: l'annotation structurale est systématique lancée.
Idées:
- pourrait on ajouter une colonne bam dans la sample_sheet, pour éviter de refaire les alignements sur les assemblages qui seraient déjà précisés dans la sample_sheet?
- pourrait on ajouter un skip_structurale annot ce qui évite toute la partie analyse des gènes.
Par ailleurs en lisant le code (en espérant avoir bien compris):
- Pourquoi fait on un renommage des contigs ? Pourquoi est il systématique ? On pourrait faire un check du format des noms de séquences et si c'est ok alors ne faire que des liens symboliques?
- dans filtering pourquoi refaire l'alignement après filtre? pourquoi ne pas simplement conserver les alignements sur les contigs qui passent les filtres ?
- Est ce utile de retourner les merged fastq & et les reads_dedup ? dedup devrait suffire, non ?