🧬

Publicando Secuencias a través de BioProject, BioSample y SRA

Aquí puedes encontrar información resumida sobre la publicación de secuencias, si necesitas apoyo en video, te recomiendo los siguientes videos tutoriales, ambos cuenta con la información de como crear BioProject, BioSample y SRA

Definiciones básicas

BioProject

Recurso de organización que contiene la descripción general de un proyecto de investigación que incluye información relevante sobre las secuencias a ser depositadas. Proporciona un contexto para comprender los datos y permite a los investigadores asociar secuencias específicas con proyectos más amplios.

BioSample

Descripción de la fuente biológica única utilizada en un proyecto de investigación. Proporciona información descriptiva y detallada sobre la muestra biológica, como la especie, el organismo de origen, el tratamiento y las condiciones de crecimiento.

SRA

El Sequence Read Archive (SRA) es un repositorio centralizado que almacena datos de secuenciación de nueva generación (NGS) y datos asociados. Los archivos SRA contienen las lecturas de secuencias crudas generadas por las plataformas de secuenciación, como Illumina, Ion Torrent, PacBio, entre otras.

Proceso de publicación

De manera general, para publicar los archivos de secuencias se deben seguir tres pasos:

  1. Crear un BioProject
  1. Crear BioSamples relacionados con cada archivo que se desea publicar
  1. Publicar SRA asociados a Bioproject y BioSample

Recuerda que debes tener una cuenta en NCBI para poder acceder a la publicación, te recomiendo ingresar a través de la cuenta ORCiD para poder tener de manera centralizada tus publicaciones

Creando BioProject

Al crear un BioProject permite establecer una URL única que contiene información sobre el proyecto al cual se van a asociar las secuencias que desees publicar. Esto no necesariamente tiene que tener la misma información que el proyecto asociado (Fondecyt/Beca/otro), pero puede ser de mucha ayuda para completar los campos que se requieren en Bioproject.

Otra categoría de BioProject son los Umbrella Bioproject, los cuales se deben crear solicitandolo a NCBI al momento de crear un nuevo BioProject. Estos agrupan distintos BioProject bajo un proyecto más grande, generalmente creado de manera institucional. De momento BASE no cuenta con un Umbrella Bioproject.

Para crear un BioProject se debe ingresar a https://submit.ncbi.nlm.nih.gov/subs/ , seleccionar BioProject y luego hacer click en el botón “New submission”.

Requerimientos Bioproject:

  • SUBMITTER: Información sobre quién crea el BioProject y su organización, se puede seleccionar la posibilidad de publicar en grupo.
  • PROJECT TYPE: Aquí se deben rellenar dos campos
    • Sample Scope: Alcance de la muestra: indica el alcance y la pureza de la muestra biológica utilizada para el estudio. Las opciones para seleccionar son las siguientes:
      • Monoislate: en este esfuerzo de investigación se está estudiando un solo organismo (p. ej., animal, línea celular cultivada, población endogámica).
      • Multiisolate: en este esfuerzo de investigación se están estudiando varios individuos de la misma especie.
      • Multi-species: se están estudiando múltiples especies en este esfuerzo de investigación.
      • Enviorenment: se desconoce el contenido de especies de la muestra porque el ácido nucleico se aisló directamente de una muestra ambiental para su análisis. Esto se utiliza para estudios de metagenoma.
      • Synthetic: la muestra se sintetiza en un laboratorio.
      • Other: no se definió el alcance.
  • TARGET: Información del organismos o información de etiquetado para proyectos que abarcan múltiples especies, ya sea que estén identificadas o no. Es obligatorio identificar en nombre del organismo.
  • GENERAL INFO: Información general del proyecto, que contiene la fecha de publicación, Título del proyecto, Descripción pública, Relevancia, Identificación de proyecto ya registrados y enlaces externos.
  • BIOSAMPLE: Se pueden ingresar BioSamples ya registradas o dejar vacía
  • PUBLICATIONS: Publicaciones asociadas relevantes para el BioProject
  • REVIEW AND SUBMIT: Resumen de la información del BioProject, luego de confirmar la información y apretar el botón “submit” se genera el BioProject, que luego de ser procesado se genera un numero de acceso que comienza con PRJN.
Creando BioSample

Un BioSample contiene los metadatos de las muestras den una manera estructurada con el uso de vocabulario controlado, conecta los metadatos de la muestra a través de multiples portales y reduce el trabajo de los publicadores estableciendo una sola instancia de publicación,

Para crear un Biosample se debe ingresar a https://submit.ncbi.nlm.nih.gov/subs/ , seleccionar BioSample y luego hacer click en el botón “New submission”.

Requerimientos BioSample:

  • SUBMITTER: Información sobre quién crea el BioSample y su organización.
  • SAMPLE TYPE: Tipo de muestra, en esta página se define el organismo y tipo de muestra que se desea publicar, se debe buscar a través del nombre de la especie y luego seleccionar el tipo de muestra correspondiente
  • ATTRIBUTES: Atributos, en caso de ser solo una muestra, se pueden rellenar los campos solicitados en esta página. En caso de ser más de una muestra, se puede optar por subir el documento descargado desde la página de plantillas o usar un editor de tabla dentro de la misma página.
  • BIOPROJECT: Aquí se indica el número de registro de o los BioProject asociados
  • DESCRIPCTION: Se deben rellenar los campos de Título de la muestra (generado automáticamente o personalizable) y la descripción pública.
  • REVIEW AND SUBMIT: Resumen de la información del BioSample, luego de confirmar la información y apretar el botón “submit” se genera el BioSample, que luego de ser procesado se genera un numero de acceso que comienza con SAM.
Publicando SRA

El SRA contiene los archivos de las secuencias que se desean publicar, para esto hay que considerar los siguientes prerrequisitos:

  1. SRA acepta lecturas de plataformas de secuenciación de alto rendimiento en formatos específicos (consulte la Guía de formato de archivo de SRA para obtener más detalles en el siguiente enlace: https://www.ncbi.nlm.nih.gov/sra/docs/submitformats/). SRA NO acepta datos ensamblados/consensuados o contigs.
  1. Publicaciones de 1000 muestras o menos. Si tiene más de 1000 muestras, cree varios envíos con la misma referencia de BioProyecto.
  1. Los archivos se pueden comprimir con gzip o bzip2 y se pueden empaquetar en un tarball. ¡No use zip! No es necesario empaquetar y/o comprimir sus archivos.
  1. Cada archivo fastq enviado debe tener un tamaño inferior a 100 GB. Si los archivos comprimidos tienen más de 100 GB, divídalos antes de enviarlos.
  1. Los estudios con más de 5 TB de datos deben dividirse en varios envíos, manteniendo cada conjunto de cargas por debajo de los 5 TB y esperando a que se complete cada envío antes de cargar el siguiente conjunto de archivos. Las publicaciones se pueden vincular al mismo BioProject para garantizar que todos los datos se puedan buscar con una sola entrada.
  1. SRA no acepta el envío de archivos duplicados y estos envíos pueden suprimirse sin previo aviso. Además, la publicación de datos duplicados dará lugar a retrasos significativos en el procesamiento de la carga de estos. Para actualizar un registro existente, no vuelva a enviar los archivos de datos; en su lugar, comuníquese con el servicio de asistencia de la SRA (sra@ncbi.nlm.nih.gov) para obtener ayuda.

Para crear un SRA se debe ingresar a https://submit.ncbi.nlm.nih.gov/subs/ , seleccionar SRA y luego hacer click en el botón “New submission”.

Requerimientos BioSample:

  • SUBMITTER: Información sobre quién crea el BioSample y su organización.
  • GENERAL INFO: Aquí se deben rellenar tres campos
    • Fecha de publicación
    • Número de Acceso de BioProject
    • Si existe un BioSample asociado
  • SRA METADATA: Metadatos asociados a los archivos que se van a publicar, se pueden construir dentro de la misma tabla o a través de una Plantilla, un ejemplo de plantilla lo pueden encontrar en el siguiente archivo:
    ⚠️
    Aclaración, la plantilla anterior fue descargada de manera automática de la página de NCBI, pero en lugar de la columna bioproject_accession, debería indicarse biosample_accession. Es la única diferencia entre el archivo presentado y el portal de relleno manual de la pagina web. Por favor descargar la plantilla correspondiente a sus datos cuando se llegue a esta sección para asegurar que solo sea una discrepancia en el nombre de la columna.

    Es importante escribir los nombres de los archivos de igual manera de como se van a cargar en el sistema.

  • FILES: Hay distintos tipos de subir los archivos y depende del tipo y tamaño de estos. Si es menor a 10GB se puede subir de manera directa a través del portal web pero si supera este tamaño se debe hacer a través de protocolo FTP o Aspera. Una opción de protocolo FTP es a través del programa FileZila.

    Luego de terminar de cargar los archivos se debe seleccionar la opción de autopublicar.

  • REVIEW AND SUBMIT: Resumen de la información del SRA, luego de confirmar la información y apretar el botón “submit” se genera el SRA, que luego de ser procesado se genera un numero de acceso que comienza con SR.