Skip to content

Proposition optimisation disque/ressource

Avec ma contrainte d'une petit espace disque j'imagine l'utilisation de metagWGS en plusieurs étapes avec des nextflow clean entre chaque.

Mon idée première:

  1. stop at clean ==> remplacement des raw reads par les cleaned dans la samplehseet et suppression des raw
  2. skip clean et stop at filtering ==> remplacement des cleaned reads par des dedup_reads dans la sample_sheet, suppression des cleaned, et ajout des assemblages filtered dans la sample_sheet
  3. skip clean skip binning : (pour ne faire que l'annotation structurale, functionnelle et taxonomique)
  4. skip clean skip_func_annot skip taxo affi (pour ne faire que le bining)

Actuellement, c'est possible mais ce n'est pas optimale:

  • pour mon étape 3 et 4, les lectures seront systématiquement réalignées sur les contigs
  • pour mon étape 4: l'annotation structurale est systématique lancée.

Idées:

  • pourrait on ajouter une colonne bam dans la sample_sheet, pour éviter de refaire les alignements sur les assemblages qui seraient déjà précisés dans la sample_sheet?
  • pourrait on ajouter un skip_structurale annot ce qui évite toute la partie analyse des gènes.

Par ailleurs en lisant le code (en espérant avoir bien compris):

  • Pourquoi fait on un renommage des contigs ? Pourquoi est il systématique ? On pourrait faire un check du format des noms de séquences et si c'est ok alors ne faire que des liens symboliques?
  • dans filtering pourquoi refaire l'alignement après filtre? pourquoi ne pas simplement conserver les alignements sur les contigs qui passent les filtres ?
  • Est ce utile de retourner les merged fastq & et les reads_dedup ? dedup devrait suffire, non ?