CR-Webinaire 06/11
Compte-rendu du webinaire du 06/11/2025 présenté par Vanita Haurheeram et Anne-Françoise Adam-Blondon
Accès au moodle de la formation :
https://moodle.france-bioinformatique.fr/course/view.php?id=44
Ce moodle contient :
- une présentation du processus et des outils mis en place dans le cadre d'AgroDiv et BReIF pour soumettre des données à l'EMBL-EBI (ENA et BioSamples)
- une explication approfondie des fichiers d'entrée requis pour la soumission
- une démonstration de l'utilisation des scripts développés pour automatiser la soumission des données
Points à retenir:
- L'obtention d'identifiant pour les échantillons permet de mieux tracer et de faciliter la liaison des données,
- Des templates sont proposés pour les plantes et les animaux et peuvent servir d'exemples pour d'autres types de données,
- Certaines métadonnées sont obligatoires pour la soumission,
- Un compte à l'EBI est nécessaire pour utiliser les services, il faut privilégier un compte commun, d'unité ou de plateforme plutôt qu'on compte personnel. Les données sont liées au compte qui réalise la soumission.
FAQ:
- Est-ce que BioSamples est l'équivalent du bioproject de NCBI?
Non, BioProject est en lien avec la study
- Faut-il faire un autre template pour d'autres types de données (exemple: données issues d'environnement) ?
Oui, les métadonnées importantes sont probablement différentes de ce qui est nécessaire pour les plantes et les animaux. D'ailleurs ce n'est pas le même fichier de métadonnées pour les plantes et les animaux.
- Pour les data environnementales (MAG), la base de données taxonomiques EBI a de sérieux problèmes de redondance (un Tax ID correspond à plusieurs espèces et une espèce a plusieurs TaxID différents). Du coup, comment gérer ça ?
Faire une demande au helpdesk.
- Qu'est qu'un token ?
Il s'agit d'une chaine de caractère qui sert de clé d'accès au service pour faire des requêtes. Les scripts s'en chargent et son utilisation est transparente pour les utilisateurs des programmes data-brokering.
- Les scripts sont-ils accessibles ?
Oui les scripts et le dépôt sont publiques et donc accessibles par tous.
- La génération d'identifiant BioSamples est-elle instantanée ?
Elle est très rapide.
- Est-ce qu'on peut corriger les métadonnées d'un échantillon après l'avoir soumis à BioSamples ?
Oui, on peut mettre à jour les métadonnées en utilisant le même script que pour les soumettre en changeant les arguments. C'est très facile à faire.
- Est ce qu'on peut avoir des précisions sur l'étape de transformation du fichier Excel en fichier json ? Avec un document décrivant chaque étape idéalement.
https://moodle.france-bioinformatique.fr/course/view.php?id=44
- Est-ce que le NCBI et ENA communique les données entre eux ?
Oui, il y a un miroir entre les base de données de l'INSDC (International Nucleotide Sequence Database Collaboration). Donc ce qui est dans ENA apparaît également au NCBI et à DDBJ.
- Est-ce qu'on peut soumettre seulement des échantillons d'ADN à BioSamples ?
Non, d'autres types d'échantillon peuvent être soumis à BioSamples (exemple : ARN).
- Doit-on avoir un compte perso ou un compte par unité/INRAE pour interagir avec le service EBI ?
Il est nécessaire d'avoir un compte pour accéder au service EBI. Il est préférable que ce compte ne soit pas un compte personnel (les données et métadonnées soumis à l'EBI sont liées au compte qui les a soumis). Il faut privilégier un compte par Unité/Plateforme.
- Est-ce que le NCBI et ENA communique les données entre eux ?
Oui, il y a un miroir entre les base de données de l'INSDC (International Nucleotide Sequence Database Collaboration). Donc ce qui est dans ENA apparaît également au NCBI et à DDBJ.
- Est-ce qu'on peut soumettre seulement des échantillons d'ADN à BioSamples ?
Non, d'autres types d'échantillon peuvent être soumis à BioSamples (exemple : ARN).
- Est-ce que c'est au propriétaire de faire la soumission ou bien au prestataire ?
Il faut en discuter avec chaque partie en expliquant bien que la personne qui fait la soumission sera celle qui devra faire la gestion/correction des données/métadonnées.
- En tant que prestataire est-ce qu'en déposant on devient le propriétaire du dépôt ? Est-ce qu'on peut le lier aux véritables propriétaires ?
Il n'existe pas de moyen de lier nous-mêmes les données aux véritables propriétaires. Il faut passer par le helpdesk ce qui peut être long...
- Est-ce qu'il est possible de faire un umbrella project à ENA comme c'est possible sur NCBI ? Est-ce qu'on peut le faire nous mêmes ou il faut demander au helpdesk ?
Oui, il est possible de faire un umbrella project à ENA nous-mêmes sans avoir à demander au helpdesk.
- Est-ce qu'il faut avoir un compte pour soumettre des échantillons à BioSamples et un autre compte pour soumettre des données à ENA ?
Non, la soumission d'échantillons à BioSamples et de données à ENA se fait avec le même compte. Le compte nécessaire pour faire des soumissions à l'EMBL-EBI est appelé Webin.
- Quelle est la configuration nécessaire pour l'utilisation des scripts ?
Les scripts nécessitent une version python 3.10 minimal. Le reste des dépendances est précisé dans le README du dépôt.
- Peut-on télécharger toutes les données séquences d'un projet d'un coup ?
Il est possible de sélectionner les données que l'on souhaite télécharger.
- Savez-vous si il est possible d'obtenir des URLs privées pour les reviewers ?
Pas d'info à ce sujet pour le moment.
- Où peut-on partager les questions et les problèmes concernant la soumission d'échantillons à BioSamples ?
Les issues de ce dépôt peuvent être utilisées pour partager.
- Y a-t-il une durée limite pour les données sous embargo à l'ENA ?
De base la soumission peut se faire avec un embargo jusqu'à 2 ans, il est ensuite possible de prolonger cette embargo.
- Y-a-t-il une garantie de conservation des données ?
Les pays européens payent l'EBI pour la gestion de données, cela offre plus de garantie que le NCBI.