¿Qué necesito enviar al data manager para subir mis secuencias a GenBank?
Esta información fue extraída de los webinar para el envío de secuencias con la herramienta BankIt: A Submitter’s Guide to GenBank, Part 1 & Part 2.
- Información biológica
- Información de los autores y publicación
- Secuencia en formato FASTA.txt
- Tabla de Modificatores.txt (Source Modifiers Table)
- Tabla de características.txt (Features Table)
Si tienes dudas sobre cualquiera de los requerimientos, puedes seguir leyendo a continuación
Pasos a seguir en BankIT
- Información Inicial
- Identificación de los Autores
- Fecha de Publicación
- Identificación de la secuencia
- Categoría (Original/A partir de terceros)
- Modificadores
- Características
- Consideraciones
Información inicial
Para poder ingresar una secuencia a GenBank se deben conocer distintos aspectos de la secuencia:
Origen de la secuencia
¿Cuál es el organismo?
¿Dónde proviene el organismo?
¿Cuándo y cómo se obtuvo la secuencia?
Tipo y localización
Secuencia Genómica / Secuencia mARN
Genoma / Organelo (plásmido, plastidio, mitocondria)
Significado biológico de la secuencia
¿Qué gen representa?
¿Total o parcial?
La información anterior permite guiar el proceso de publicación de la secuencia. Los requerimientos específicos que solicita GenBank son los siguientes:
Identificación de los Autores y Publicación
Autores: Quien publica la secuencias
Publicación: Puede que la secuencia provenga de un trabajo sin publicar
Nombre y Estado de la Publicación
Autores de la Publicación
Fecha de Publicación
Corresponde a la fecha en la que se desea que se publiquen los datos en GenBank
Identificación de la secuencia
Junto con poder responder las preguntas anteriores, para poder subir las secuencias a GenBank a través de la herramienta BankIt, es necesario que las secuencias se encuentren en formato FASTA:
- Tipo de secuencia
- Non-coding RNAs
- Topología
- Completitud del Genoma
- Número de secuencias
En caso de que sea más de una secuencia que contiene 4 genes distintos, es recomendable que se indique en Set/Barch que serán 4 envios separados, esto genera números de seguimiento consecutivos. En caso de ser 1 gen en distintos organismos, es solo 1 envío.
Las opciones en este caso son:
Pop Set: Estudio poblacional, un set de secuencias que fueron derivadas secuenciado el mismo gen de diferentes aislados del mismo organismo
Phy set: Estudio filogenético, un set de secuencias que fueron derivadas secuenciando el mismo gen de diversos organismos
Mut set: Estudio mutaciones, un set de secuencias que fueron derivadas secuenciando múltiples mutaciones de un gen
Env set: estudio ambiental: un set de secuencias que fueron derivadas de la secuenciación del mismo gen para una población de organismos sin clasificar o desconocidos.
Batch: Múltiples secuencias relacionadas nucleótidos que no son de un mismo gen, pero pueden ser de la misma publicación u organismo.
- Secuencia en formato FASTA
Esta se puede copiar directamente o puede subirse en un archivo .txt
Formato FASTA para secuencias de nucleótidos
En el formato FASTA, la línea antes de la secuencia de nucleótidos, llamada línea de definición FASTA, debe comenzar con un quilate (">"), seguida de un SeqID (identificador de secuencia) único.
- El SeqID debe ser único para cada secuencia de nucleótidos y no debe contener espacios. Limite el SeqID a 25 caracteres o menos. El SeqID solo puede incluir letras, dígitos, guiones (-), guiones bajos (_), puntos (.), dos puntos (:), asteriscos (*) y signos de número (#). El personal de la base de datos reemplazará el identificador de secuencia con un número de acceso cuando se procese su envío.
›SeqABCD
- La información sobre el organismo fuente del que se obtuvo la secuencia sigue al SeqID y debe tener el formato [modifier=text]. No ponga espacios alrededor del "=". Como mínimo, se debe incluir el nombre científico del organismo. Se pueden agregar modificadores opcionales para proporcionar información adicional. Los modificadores se pueden encontrar aquí https://www.ncbi.nlm.nih.gov/genbank/mods_fastadefline/
›SeqABCD [organism=Mus musculus] [strain=C57BL/6]
📢[isolate=xxx] sirve para identificar distintos indiviudos de una misma especie, de manera de evitar que pasen por duplicados, puede utilizarse la identificación que se estime conveniente. Cada modificador está descrito en el siguiente enlace: https://www.ncbi.nlm.nih.gov/genbank/mods_fastadefline/- El último componente opcional de la línea de definición de FASTA es el título de la secuencia, que se utilizará como campo DEFINICIÓN en el archivo plano. El título debe contener una breve descripción de la secuencia. Existe un formato preferido para los títulos de nucleótidos y proteínas. El título provisto será cambiado al formato adecuado por el personal de la base de datos durante el procesamiento.
›SeqABCD [organism=Mus musculus] [strain=C57BL/6] Mus musculus neuropilin 1 (Nrp1) mRNA, complete cds.
Tenga en cuenta que, en todos los casos, la línea de definición de FASTA no debe contener retornos firmes. Toda la información debe estar en una sola línea de texto. Si tiene problemas para importar sus secuencias FASTA, verifique que su software de edición no haya agregado retornos a la línea de definición FASTA.
Ejemplos de líneas de definición FASTA correctamente formateadas para secuencias de nucleótidos:
>Seq1 [organism=Streptomyces lavendulae] [strain=456A] Streptomyces lavendulae strain 456A mitomycin radical oxidase (mcrA) gene, complete cds. >ABCD [organism=Plasmodium falciparum] [isolate=ABCD] Plasmodium falciparum isolate ABCD merozoite surface protein 2 (msp2) gene, partial cds. >DNA.new [organism=Homo sapiens] [chromosome=17] [map=17q21] [moltype=mRNA] Homo sapiens breast and ovarian cancer susceptibility protein (BRCA1) mRNA, complete cds.La línea después de la línea de definición de FASTA comienza la secuencia de nucleótidos. A diferencia de la línea de definición de FASTA, la propia secuencia de nucleótidos puede contener retornos. Se recomienda que cada línea de secuencia no tenga más de 80 caracteres. Utilice únicamente los símbolos IUPAC dentro de la secuencia de nucleótidos. Para secuencias que no son
📢Para indicar una base que no se conoce, estas se definen como N y se repiten el número de veces que se tenga en conocimiento, pero no se deben poner al final de las secuencias. Si se insertan 100 N, esto indica que no se conoce la longitud de las pares de base faltantes. El número de N tiene que ser como máximo el 50% de la secuencia. Cada intervalo sin identificar debe ingresarse como mis_feature. Pueden indicarse los intervalos en formato FASTA, ejemplo:>Seq1 TGGTGGAA >?unk12 CCCA >?unk100 CCGTGTGT- El SeqID debe ser único para cada secuencia de nucleótidos y no debe contener espacios. Limite el SeqID a 25 caracteres o menos. El SeqID solo puede incluir letras, dígitos, guiones (-), guiones bajos (_), puntos (.), dos puntos (:), asteriscos (*) y signos de número (#). El personal de la base de datos reemplazará el identificador de secuencia con un número de acceso cuando se procese su envío.
Modificadores
Los modificadores pueden incluirse en la línea de definición de la secuencia FAST, para esto se ingresa entre corchetes [ ], el modificador que tiene la secuencia. También puede realizarse con una tabla. Los modificadores para la línea de definición se encuentran en el siguiente enlace: https://www.ncbi.nlm.nih.gov/genbank/mods_fastadefline/
Esto también se puede hacer de manera manual cuando se ingresa solo UNA secuencia. Para esto es necesario identificar de cual organelo proviene la secuencia.
Tabla de Modificadores (Source Modifiers Table)
Si es más de una secuencias es necesario completar una tabla de modificadores como la que se presentan a continuación
Sequence_ID Specimen_voucher Collected_by Collection_date Country Identified_by Lat_Lon Seq1 MKP 334 C. Grant 31-Jan-2001 USA C. Grant 13.57 N 24.68 W Seq2 MKP 1230 S. Tracy 28-Feb-2002 Slovakia C. Grant 13.24 N 24.35 W Seq3 1B-2526 A. Gardner 16-Apr-2001 France C. Grant 43.21 N 56.78 W Seq4 WBM 86-64 F. McMurray 26-May-2002 Germany C. Grant 45.32 N 21.34 E Seq5 1B-2518 V. Leigh 13-Jun-2003 Brazil V. Leigh 46.80 N 13.57 E Seq6 WBM 86-65 E. Flynn 15-Aug-2000 Australia V. Leigh 68.53 S 57.42 E Seq7 1B-2355 G. Kelly 26-Oct-2002 Mexico C. Grant 22.44 S 55.77 W Seq8 1B-2455 G. Kelly 26-Sep-2002 Mexico C. Grant 22.44 S 55.77 W Seq9 WBM 87-70 G. Kelly 10-Nov-2000 Mexico C. Grant 22.44 S 55.77 W Seq10 1B-3355 G. Kelly 02-Dec-2002 Mexico C. Grant 22.44 S 55.77 W Seq11 WBM 90-95 G. Kelly 26-Oct-2002 Mexico C. Grant 22.44 S 55.77 W📌Se puede verificar o rellenar en una tabla Excel, pero BankIT sólo reconoce .txtSequence_ID Collected_by Collection_date Country Isolation_source Isolate Lat_Lon Specimen_voucher Seq1 C. Grant 31-Jan-2001 USA soil A 13.57 N 24.68 W MKP 334 Seq2 S. Tracy 28-feb-02 Slovakia contaminated soil B 13.24 N 24.35 W MKP 1230 Seq3 A. Gardner 16-Apr-2001 France farm soil C 43.21 N 56.78 W 1B-2526 Seq4 F. McMurray 26-may-02 Germany farm runoff water D 45.32 N 21.34 E WBM 86-64 Seq5 V. Leigh 13-jun-03 Brazil forest soil E 46.80 N 13.57 E 1B-2518 Seq6 E. Flynn 15-Aug-2000 Australia river water F 68.53 S 57.42 E WBM 86-65 Seq7 G. Kelly 26-oct-02 Mexico river bed soil G 22.44 S 55.77 W 1B-2355
Características
- Región codificante (CDS) / Gen / ARNm
- Por intervalos
- Hebra : + o - (► o ◄)
- Parcial : 5’ o 3’ (en que extremo es parcial)💡< 5’ parcial
> 3’ parcial
Reading frame: Si es parcial al extremo 5’, indicar el marco de lectura. Cuál base inicia el primer codón de triplete completo para cuando la secuencia de nucleótidos se traduce en secuencia de proteína
Cuando se tienen genes exones es necesario tener la posición de cada uno de estos
- Gen sin intrones
- Intervalos de Nucleótidos
- Secuencia completa
- Intervalo específico
💡En caso de ser más de una secuencia, las características se pueden ingresar de manera compartida para todas o de manera específica para cada una de ellas
- Información de la Proteína
- Nombre
- Descripción
- Número EC
- Información del gen
- Nombre del gen
- Alelo del gen
- Descripción del Gen
- Información ARNm
- Por datos de la secuencia proteica
- Por intervalos
- ARN (ARNr, ARN no codificante, misc_ARN, etc)
- Región repetida (para secuencias repetidas, elementos móviles y satélites)
- Otros
Tabla de Características (Features Table File)
La primera línea de la tabla de características contiene la siguiente información básica
>Feature Sequence_ID
El identificador de secuencia (Sequence_ID) debe coincidir con la etiqueta utilizada para identificar la secuencia correspondiente de cada tabla en el archivo FASTA de nucleótidos. Las líneas subsiguientes de la tabla enumeran las características.
Prepare el archivo de la tabla de características en un editor de texto y guárdelo como texto ASCII sin formato (no .rtf ni .doc)
Formato para una tabla de características:
- Cada característica se muestra en una línea separada.
- Múltiples intervalos de nucleótidos para una característica están en líneas subsiguientes.
- Los calificadores que describen una característica están en las líneas debajo de esa característica y sus intervalos.
- Cada columna está separada por una pestaña.
Como se muestra en los siguientes ejemplos:
Línea 1 Columna 1: Ubicación de inicio (primer nucleótido) de una característica Columna 2: Ubicación de parada (último nucleótido) de una característica Columna 3: Nombre de la función (por ejemplo, 'CDS' o 'mRNA' o 'rRNA' o 'gen' o 'exon')
Línea 2: Columna 4: Nombre del calificador (por ejemplo, 'producto' o 'número' o 'gen' o 'nota') Columna 5: Valor del calificador Tenga en cuenta en los ejemplos a continuación que 'gen' es tanto una característica como un calificador y debe ingresarse en dos columnas separadas.
Los ejemplos a continuación muestran tablas de muestra e ilustran una serie de puntos sobre el formato de la tabla.
>Feature Seq1 <1 >1050 gene gene ATH1 <1 1009 CDS product acid trehalase product Athlp codon_start 2 <1 >1050 mRNA product acid trehalase >Feature Seq2 2626 2590 tRNA 2570 2535 product tRNA-Phe >Feature Seq3 1080 1210 CDS 1275 1315 product actin note alternatively spliced 1055 1210 mRNA 1275 1340 product actin 1055 1340 gene gene ACT 1055 1079 5'UTR 1316 1340 3'UTR>Feature Seq1 <1 >1050 gene gene gene ATH1 <1 1009 CDS product acid trehalase product Athlp codon_start 2 <1 >1050 mRNA product acid trehalase 📌Se puede verificar o rellenar en una tabla Excel, pero BankIT sólo reconoce .txt- Las características que están en la cadena complementaria, como el tRNA-Phe, se indican invirtiendo las ubicaciones de los intervalos (número más grande a más pequeño)
- Las ubicaciones de las funciones parciales (incompletas) se indican con un ">" o "<" junto al número. En el ejemplo de Seq1, el gen, el CDS y el ARNm comienzan aguas arriba del inicio de la secuencia de nucleótidos. El símbolo "<" indica que son características parciales 5' y el símbolo ">" indica que el gen y el ARNm son parciales 3'. Además, para que la proteína se traduzca correctamente, se debe indicar el marco de lectura correcto con el calificativo "codon_start" en el CDS. No es necesario indicar start_codon en los CDS completos, ya que se supone que la traducción comienza en el primer nucleótido del intervalo si no se proporciona codon_start.
- Si una característica contiene múltiples intervalos, como el tRNA-Phe empalmado, cada intervalo se enumera en una línea separada por su posición inicial y final antes de las líneas calificadoras posteriores.
- Las características genéticas son siempre un solo intervalo y su ubicación debe cubrir los intervalos de todas las características relevantes (por ejemplo: CDS más 5'UTR más 3'UTR).
- Si una proteína tiene más de un nombre, cada uno puede incluirse en la tabla como un calificador de producto separado en el CDS de la tabla. El valor del primer calificador de producto se convertirá en /product en el CDS en el archivo plano, y cualquier calificador de producto adicional se mostrará como una nota /en el CDS en el archivo plano. Todas las características de CDS deben tener al menos un producto.
- Se puede agregar un archivo plano/nota a cualquier característica usando la nota calificadora en la tabla📌Para indicar que esta en la hebra - , se escribe el del numero más grande al pequeño📢Si se ocupa una tabla, es necesario eliminar todas las características que se ingresaron manualmente📢Intergenic spacer se identifican como misc_feature, y en note se explica que es
Otras consideraciones
- Si es reenvío de secuencia es necesario el número anterior para poder reemplazar
Documentos necesarios para actualizar datos ya publicados en GenBank
Se pueden hacer actualizaciones sobre cualquier registro ya existente dependiendo de las indicaciones que siguen a continuación. Si se desean actualizar registros múltiples es necesario enviar una lista de todas las adhesiones que se actualizarán al inicio de la solicitud. También se puede solicitar un cambio en la fecha de publicación de los registros dependiendo de el estado de la solicitud.
No se deben subir nuevos archivos para actualizar un registro ya existente ya que que se creará una base de datos duplicada
Si envió a nuestros colaboradores en ENA o DDBJ, consulte sus instrucciones para actualizar los formatos. Los genomas procariotas y eucariotas, TSA y SRA deben actualizarse como se describe en las páginas vinculadas. Las actualizaciones de BioProject y BioSample deben enviarse a submit-help@ncbi.nlm.nih.gov.
Editar información del origen de la secuencia
Se puede actualizar cualquier información sobre el origen de la secuencia siguiendo el siguiente formato
acc. num. strain country organism MHxxxx02 82 USA Escherichia coli MHxxxx03 ABC Canada Bacillus subtilis
Actualizar Información de la publicación
- Si el PMID o el DOI están disponibles públicamente la información se envía en el siguiente formato
acc. num. PMID MHXXXX01 29980901 MHXXXX02 29980901 or acc. num. DOI MHXXXX01 10.1000/xyz123 MHXXXX02 https://doi.org/10.1000/xyz123doi
- Para todas las demás actualizaciones en el siguiente formato, teniendo en consideración que se deben remplazaron todo carácter que no pertenezca a los caracteres ASCII (por ejemplo, los caracteres con acentos y diéresis),
La lista completa de los nombres de autores revisados debe ser en el formato: first_initial middle_initial surname
acc. num. authors title MHXXXX01 J. A. Smith Identification of gene A MHXXXX02 X. P. Weng, J. Doe Identification of gene BLos siguientes son campos de publicación válidos que deben ser ussados como identificadores en el encabezado de cada columna
- authors
- journal
- volume
- issue
- pages
- publication date
- title
- affiliation
- department
- city
- state
- publication country
- street
- postal code
- PMID
- *class
Todas las columnas pueden ser no apropiadas para cada referencia. Use solamente aquellas que sean relevantes, Si la referencia ya a sido publicada, incluya en título completo de la revista, no su abreviación.
*Si la publicación tiene un identificador PubMed (PMID) ,no es necesario rellenar ninguno de los restantes campos de publicación. Es suficiente enviar una tabla con el número de adhesión y PMDI
**El descriptor class solo debe se usado cuando el estado de publicación tuviera algun cambio. El descriptor tiene vocabulario controlado y solo puede incluirse una de las siguientes clases:
- unpublished
- in-press journal
- journal
- Si el PMID o el DOI están disponibles públicamente la información se envía en el siguiente formato
Actualización de la secuencia
Si se esta actualizando la sequencia de nucleótidos actual, se debe enviar al secuencia nueva completa en formato FASTA
>MHxxxx02 cggtaataatggaccttggaccccggcaaagcggagagac >MHxxxx03 ggaccttggaccccggcaaagcggagagaccggtaataatNo se debe enviar una lista de los cambios de nucleótdos. No se debe incluir caracteres no IUPAC dentro de la secuencias. Usar n para los nucleótidos desconocidos dentro de la secuencia
Actualizar tabla de características
Si se añadan anotaciones o cambion en las ubicaciones de las características se debe enviar una tabla de características como la siguiente
Formato de tabla de características para actualizaciones
>Feature Sc_16 1 7000 REFERENCE PubMed 8849441 <1 1050 gene gene ATH1 <1 1009 CDS product acid trehalase product Ath1p codon_start 2 <1 1050 mRNA product acid trehalase [offset=2000] 1253 420 gene gene YPR027C 1253 420 CDS product Ypr027cp note hypothetical protein 1253 420 mRNA product Ypr027cp 2626 2535 gene gene trnF 2626 2590 tRNA 2570 2535 product tRNA-Phe 2626 2590 exon number 1 2570 2535 exon number 2 3450 4536 gene gene YIP2 3522 3572 CDS 3706 4197 product Yip2p prot_desc similar to human polyposis locus protein 1 (YPD) 3450 3572 mRNA 3706 4536 product Yip2p- Las características que se encuentran en la cadena complementaria, como el gen YPR027C y el tRNA-Phe, se indican invirtiendo las ubicaciones de los intervalos.
- Las ubicaciones de las características parciales (incompletas) se indican con un ">" o "<" delante de la ubicación del nucleótido. El símbolo "<" siempre aparece en la columna 1 y ">" siempre aparece en la columna 2, independientemente de la varada de la característica. En este ejemplo, el primer gen, el CDS y el ARNm comienzan aguas arriba del inicio de la secuencia de nucleótidos. El símbolo "<" indica que son elementos parciales de 5', así como el símbolo ">" indica que son elementos parciales de 3’-
- Para que la proteína de un CDS que es parcial en su extremo 5’ se traduzca correctamente, el primer nucleótido del CDS que es la primera base del primer codón completo debe estar indicado con el calificador “codon_start”. Este no es el marco de lectura de toda la secuencia; es solo la posición del nucleótido dentro del CDS. En el ejemplo, el nucleótido 2 comienza el primer codón completo de la CDS de la trehalasa ácida. La situación predeterminada es que codon_start es 1. No es necesario indicar codon_start en CDS completos, ya que la traducción siempre comienza en el primer nucleótido del intervalo.
- Si una característica contiene múltiples intervalos, como el tRNA-Phe empalmado o el Yip2p CDS, cada intervalo se enumera en una línea separada por su posición inicial y final antes de las líneas calificadoras posteriores.
- Las características genéticas son siempre un solo intervalo, y su ubicación debe cubrir los intervalos de todas las características relevantes. Por ejemplo, el gen YIP2 es tan largo como su ARNm y, por lo tanto, es más largo que su CDS.
- Si la característica del gen abarca los intervalos de las características de CDS o ARNm para ese gen, no es necesario incluir calificadores de genes en esas características en la tabla, porque se seleccionarán por superposición. Por ejemplo, en el archivo sin formato, los nombres de genes ATH1 e YPR027C están presentes como /gen en los CDS superpuestos, aunque no se enumeran explícitamente como calificadores de genes en esos CDS en la tabla. Esta opción se puede suprimir agregando un calificador de gen con el valor '-' a la característica. La supresión del gen / superpuesto es importante cuando, por ejemplo, un tRNA está codificado dentro de un intrón de un gen de mantenimiento.
- Si una proteína tiene más de un nombre, cada uno puede incluirse en la tabla como un calificador de producto separado en el CDS de la tabla. El valor del primer calificador de producto se convertirá en /product en el CDS en el archivo plano, y cualquier calificador de producto adicional se mostrará como una nota /en el CDS en el archivo plano. Consulte el primer CDS, que tiene dos calificadores de productos, trehalasa ácida y Ath1p. Todas las características de CDS deben tener al menos un producto. Se puede agregar un archivo plano/nota a cualquier característica usando la nota calificadora en la tabla. Se ha agregado una nota al segundo CDS.
- Las citas publicadas se agregan mediante la función REFERENCE. Para la mayoría de las publicaciones, el inicio y el final de la función son el primer y el último nucleótido de la secuencia. La clave calificadora es PubMed y el valor es el identificador de PubMed (PMID), que se puede encontrar en PubMed.
- El [offset] se usa para agregar un número específico a todos los intervalos de nucleótidos posteriores. En este ejemplo, el registro se anotó en dos partes, cada parte a partir del residuo número 1. Las secuencias mismas se unieron en el archivo FASTA. El [offset=2000] agrega 2000 nt a la ubicación de todas las funciones que lo siguen, lo que ahorra al remitente la necesidad de volver a calcular la ubicación de cada función. Esta opción podría usarse si los intervalos de características para dos brazos de un cromosoma o contigs adyacentes se almacenan por separado, pero deben unirse para el envío final.
- Si el registro es liberado de manera pública y tiene anotación, es posible descargar la anotación existente en un rachivo .tnl recuperando el registro y haciendo click en la opción “Send to”. Elija “File” como destino y luego “Feature Table” como formato. Edite esa tabla y envíela via email.
- Si el registro aun no es liberado de manera pública, es necesario contactar al equipo de Genbank para que ellos envién una tabla de características con la anotación actual para que se edite según las nuevas características y se reenvíe nuevamente al equipo de Genbank.
Se debe mantener el siguiente formato al editar la tabla
>Feature gb|EFxxxxxx|EFxxxxxx <1 400 gene gene ENO1 <1 30 CDS 70 300 product enolase note homodimer <1 30 mRNA 70 400 product enolase <1 30 exon number 1 70 400 exon number 2
- Si es una nueva secuencia, puede ponerse un título opcional. Este NO reemplaza el ID de Genbank
- Pueden enviar información adicional, pero si se completaron los pasos anteriores no debería ser necesario. Además, si existe alguna duda o problema, GenBank se pondrá en contacto de manera posterior
- BankIt no acepta formatos alineados, puede usar Sequin para formatos como FASTA-GAP, PHYLIP, NEXUS
Cuando tengas toda la información necesaria y tu archivo en formato FASTA, estas listo para hacer tu solicitud, para eso debes responder el siguiente formulario: Formulario Gestión de Datos
Recuerda que puedes adjuntar tus archivos dentro del formulario o mandarlos posteriormente con tu número de solicitud al data manager
Data manager: Catalina Marín
Correo: datoscientificos@institutobase.cl
Asunto: Envío archivos número de solicitud DM-XXXX