🧬

¿Qué necesito enviar al data manager para subir mis secuencias a GenBank?

Esta información fue extraída de los webinar para el envío de secuencias con la herramienta BankIt: A Submitter’s Guide to GenBank, Part 1 & Part 2.

📌

Resumen de lo necesario

Información biológica

Información de los autores y publicación

Secuencia en formato FASTA.txt

Tabla de Modificatores.txt (Source Modifiers Table)

Tabla de características.txt (Features Table)

Si tienes dudas sobre cualquiera de los requerimientos, puedes seguir leyendo a continuación

Pasos a seguir en BankIT

Información Inicial

Identificación de los Autores

Fecha de Publicación

Identificación de la secuencia

Categoría (Original/A partir de terceros)

Modificadores

Características

Consideraciones

Información inicial

Para poder ingresar una secuencia a GenBank se deben conocer distintos aspectos de la secuencia:

Origen de la secuencia
¿Cuál es el organismo?
¿Dónde proviene el organismo?
¿Cuándo y cómo se obtuvo la secuencia?

Tipo y localización
Secuencia Genómica / Secuencia mARN
Genoma / Organelo (plásmido, plastidio, mitocondria)

Significado biológico de la secuencia
¿Qué gen representa?
¿Total o parcial?

📢

No se pueden ingresar nuevos datos en BankIt si hay un trabajo en proceso. Si se hace una nueva subida de datos esta se va a sobre-escribir

La información anterior permite guiar el proceso de publicación de la secuencia. Los requerimientos específicos que solicita GenBank son los siguientes:

Identificación de los Autores y Publicación

Autores: Quien publica la secuencias

Publicación: Puede que la secuencia provenga de un trabajo sin publicar

Nombre y Estado de la Publicación

Autores de la Publicación

Fecha de Publicación

Corresponde a la fecha en la que se desea que se publiquen los datos en GenBank

Identificación de la secuencia

Junto con poder responder las preguntas anteriores, para poder subir las secuencias a GenBank a través de la herramienta BankIt, es necesario que las secuencias se encuentren en formato FASTA:

Tipo de secuencia
- mRNA Sequences
- Prokaryotic Genes
- Eukaryotic Genes
- rRNA and/or ITS
- Viral Sequences
- Transposon or Insertion Sequences
- Microsatellite Sequences
- Pseudogenes
- Cloning Vectors
- Phylogenetic or Population Sets
- Non-coding RNAs

Topología

Completitud del Genoma

Número de secuencias
En caso de que sea más de una secuencia que contiene 4 genes distintos, es recomendable que se indique en Set/Barch que serán 4 envios separados, esto genera números de seguimiento consecutivos. En caso de ser 1 gen en distintos organismos, es solo 1 envío.
Las opciones en este caso son:
Pop Set: Estudio poblacional, un set de secuencias que fueron derivadas secuenciado el mismo gen de diferentes aislados del mismo organismo
Phy set: Estudio filogenético, un set de secuencias que fueron derivadas secuenciando el mismo gen de diversos organismos
Mut set: Estudio mutaciones, un set de secuencias que fueron derivadas secuenciando múltiples mutaciones de un gen
Env set: estudio ambiental: un set de secuencias que fueron derivadas de la secuenciación del mismo gen para una población de organismos sin clasificar o desconocidos.
Batch: Múltiples secuencias relacionadas nucleótidos que no son de un mismo gen, pero pueden ser de la misma publicación u organismo.

Secuencia en formato FASTA
Esta se puede copiar directamente o puede subirse en un archivo .txt
- Formato FASTA para secuencias de nucleótidos
  En el formato FASTA, la línea antes de la secuencia de nucleótidos, llamada línea de definición FASTA, debe comenzar con un quilate (">"), seguida de un SeqID (identificador de secuencia) único.
  - El SeqID debe ser único para cada secuencia de nucleótidos y no debe contener espacios. Limite el SeqID a 25 caracteres o menos. El SeqID solo puede incluir letras, dígitos, guiones (-), guiones bajos (_), puntos (.), dos puntos (:), asteriscos (*) y signos de número (#). El personal de la base de datos reemplazará el identificador de secuencia con un número de acceso cuando se procese su envío.
    ›SeqABCD
  - La información sobre el organismo fuente del que se obtuvo la secuencia sigue al SeqID y debe tener el formato [modifier=text]. No ponga espacios alrededor del "=". Como mínimo, se debe incluir el nombre científico del organismo. Se pueden agregar modificadores opcionales para proporcionar información adicional. Los modificadores se pueden encontrar aquí https://www.ncbi.nlm.nih.gov/genbank/mods_fastadefline/
    ›SeqABCD [organism=Mus musculus] [strain=C57BL/6]
  📢
  [isolate=xxx] sirve para identificar distintos indiviudos de una misma especie, de manera de evitar que pasen por duplicados, puede utilizarse la identificación que se estime conveniente. Cada modificador está descrito en el siguiente enlace: https://www.ncbi.nlm.nih.gov/genbank/mods_fastadefline/
  - El último componente opcional de la línea de definición de FASTA es el título de la secuencia, que se utilizará como campo DEFINICIÓN en el archivo plano. El título debe contener una breve descripción de la secuencia. Existe un formato preferido para los títulos de nucleótidos y proteínas. El título provisto será cambiado al formato adecuado por el personal de la base de datos durante el procesamiento.
    ›SeqABCD [organism=Mus musculus] [strain=C57BL/6] Mus musculus neuropilin 1 (Nrp1) mRNA, complete cds.
  Tenga en cuenta que, en todos los casos, la línea de definición de FASTA no debe contener retornos firmes. Toda la información debe estar en una sola línea de texto. Si tiene problemas para importar sus secuencias FASTA, verifique que su software de edición no haya agregado retornos a la línea de definición FASTA.
  Ejemplos de líneas de definición FASTA correctamente formateadas para secuencias de nucleótidos:
```
>Seq1 [organism=Streptomyces lavendulae] [strain=456A] Streptomyces lavendulae strain 456A mitomycin radical oxidase (mcrA) gene, complete cds.

>ABCD [organism=Plasmodium falciparum] [isolate=ABCD] Plasmodium falciparum isolate ABCD merozoite surface protein 2 (msp2) gene, partial cds.

>DNA.new [organism=Homo sapiens] [chromosome=17] [map=17q21] [moltype=mRNA] Homo sapiens breast and ovarian cancer susceptibility protein (BRCA1) mRNA, complete cds.
```
  La línea después de la línea de definición de FASTA comienza la secuencia de nucleótidos. A diferencia de la línea de definición de FASTA, la propia secuencia de nucleótidos puede contener retornos. Se recomienda que cada línea de secuencia no tenga más de 80 caracteres. Utilice únicamente los símbolos IUPAC dentro de la secuencia de nucleótidos. Para secuencias que no son
  📢
  Para indicar una base que no se conoce, estas se definen como N y se repiten el número de veces que se tenga en conocimiento, pero no se deben poner al final de las secuencias. Si se insertan 100 N, esto indica que no se conoce la longitud de las pares de base faltantes. El número de N tiene que ser como máximo el 50% de la secuencia. Cada intervalo sin identificar debe ingresarse como mis_feature. Pueden indicarse los intervalos en formato FASTA, ejemplo:
  >Seq1 TGGTGGAA >?unk12 CCCA >?unk100 CCGTGTGT

Modificadores

Los modificadores pueden incluirse en la línea de definición de la secuencia FAST, para esto se ingresa entre corchetes [ ], el modificador que tiene la secuencia. También puede realizarse con una tabla. Los modificadores para la línea de definición se encuentran en el siguiente enlace: https://www.ncbi.nlm.nih.gov/genbank/mods_fastadefline/

Esto también se puede hacer de manera manual cuando se ingresa solo UNA secuencia. Para esto es necesario identificar de cual organelo proviene la secuencia.

Tabla de Modificadores (Source Modifiers Table)

Si es más de una secuencias es necesario completar una tabla de modificadores como la que se presentan a continuación

Sequence_ID	Specimen_voucher	Collected_by	Collection_date	Country	Identified_by	Lat_Lon
Seq1	MKP 334	C. Grant	31-Jan-2001	USA	C. Grant	13.57 N 24.68 W
Seq2	MKP 1230	S. Tracy	28-Feb-2002	Slovakia	C. Grant	13.24 N 24.35 W
Seq3	1B-2526	A. Gardner	16-Apr-2001	France	C. Grant	43.21 N 56.78 W
Seq4	WBM 86-64	F. McMurray	26-May-2002	Germany	C. Grant	45.32 N 21.34 E
Seq5	1B-2518	V. Leigh	13-Jun-2003	Brazil	V. Leigh	46.80 N 13.57 E
Seq6	WBM 86-65	E. Flynn	15-Aug-2000	Australia	V. Leigh	68.53 S 57.42 E
Seq7	1B-2355	G. Kelly	26-Oct-2002	Mexico	C. Grant	22.44 S 55.77 W
Seq8	1B-2455	G. Kelly	26-Sep-2002	Mexico	C. Grant	22.44 S 55.77 W
Seq9	WBM 87-70	G. Kelly	10-Nov-2000	Mexico	C. Grant	22.44 S 55.77 W
Seq10	1B-3355	G. Kelly	02-Dec-2002	Mexico	C. Grant	22.44 S 55.77 W
Seq11	WBM 90-95	G. Kelly	26-Oct-2002	Mexico	C. Grant	22.44 S 55.77 W

📌

Se puede verificar o rellenar en una tabla Excel, pero BankIT sólo reconoce .txt

Sequence_ID	Collected_by	Collection_date	Country	Isolation_source	Isolate	Lat_Lon	Specimen_voucher
Seq1	C. Grant	31-Jan-2001	USA	soil	A	13.57 N 24.68 W	MKP 334
Seq2	S. Tracy	28-feb-02	Slovakia	contaminated soil	B	13.24 N 24.35 W	MKP 1230
Seq3	A. Gardner	16-Apr-2001	France	farm soil	C	43.21 N 56.78 W	1B-2526
Seq4	F. McMurray	26-may-02	Germany	farm runoff water	D	45.32 N 21.34 E	WBM 86-64
Seq5	V. Leigh	13-jun-03	Brazil	forest soil	E	46.80 N 13.57 E	1B-2518
Seq6	E. Flynn	15-Aug-2000	Australia	river water	F	68.53 S 57.42 E	WBM 86-65
Seq7	G. Kelly	26-oct-02	Mexico	river bed soil	G	22.44 S 55.77 W	1B-2355

Características

Región codificante (CDS) / Gen / ARNm
1. Por intervalos
  1. Hebra : + o - (► o ◄)
  1. Parcial : 5’ o 3’ (en que extremo es parcial)
    💡
    < 5’ parcial
    > 3’ parcial
    Reading frame: Si es parcial al extremo 5’, indicar el marco de lectura. Cuál base inicia el primer codón de triplete completo para cuando la secuencia de nucleótidos se traduce en secuencia de proteína
    Cuando se tienen genes exones es necesario tener la posición de cada uno de estos
    1. Gen sin intrones
    1. Intervalos de Nucleótidos
      1. Secuencia completa
      1. Intervalo específico
      💡
      En caso de ser más de una secuencia, las características se pueden ingresar de manera compartida para todas o de manera específica para cada una de ellas
    1. Información de la Proteína
      1. Nombre
      1. Descripción
      1. Número EC
    1. Información del gen
      1. Nombre del gen
      1. Alelo del gen
      1. Descripción del Gen
    1. Información ARNm
1. Por datos de la secuencia proteica

ARN (ARNr, ARN no codificante, misc_ARN, etc)

Región repetida (para secuencias repetidas, elementos móviles y satélites)

Otros

💡

Luego de ingresar la secuencia, BankIT traducirá a secuencia de aminoácidos de manera automática

Tabla de Características (Features Table File)
La primera línea de la tabla de características contiene la siguiente información básica
>Feature Sequence_ID
El identificador de secuencia (Sequence_ID) debe coincidir con la etiqueta utilizada para identificar la secuencia correspondiente de cada tabla en el archivo FASTA de nucleótidos. Las líneas subsiguientes de la tabla enumeran las características.
Prepare el archivo de la tabla de características en un editor de texto y guárdelo como texto ASCII sin formato (no .rtf ni .doc)
Formato para una tabla de características:
- Cada característica se muestra en una línea separada.
- Múltiples intervalos de nucleótidos para una característica están en líneas subsiguientes.
- Los calificadores que describen una característica están en las líneas debajo de esa característica y sus intervalos.
- Cada columna está separada por una pestaña.
Como se muestra en los siguientes ejemplos:
Línea 1 Columna 1: Ubicación de inicio (primer nucleótido) de una característica Columna 2: Ubicación de parada (último nucleótido) de una característica Columna 3: Nombre de la función (por ejemplo, 'CDS' o 'mRNA' o 'rRNA' o 'gen' o 'exon')
Línea 2: Columna 4: Nombre del calificador (por ejemplo, 'producto' o 'número' o 'gen' o 'nota') Columna 5: Valor del calificador Tenga en cuenta en los ejemplos a continuación que 'gen' es tanto una característica como un calificador y debe ingresarse en dos columnas separadas.
Los ejemplos a continuación muestran tablas de muestra e ilustran una serie de puntos sobre el formato de la tabla.
```
>Feature Seq1
<1    >1050    gene
                        gene          ATH1
<1    1009    CDS
                        product       acid trehalase
                        product       Athlp
                        codon_start   2
<1    >1050    mRNA
                        product       acid trehalase

>Feature Seq2
2626  2590    tRNA
2570  2535
                        product       tRNA-Phe

>Feature Seq3
1080  1210  CDS
1275  1315
                        product       actin
                        note          alternatively spliced
1055  1210  mRNA
1275  1340
                        product       actin
1055  1340  gene
                        gene          ACT
1055  1079  5'UTR
1316  1340  3'UTR
```
>Feature Seq1
<1 >1050 gene
gene gene ATH1
<1 1009 CDS
product acid trehalase
product Athlp
codon_start 2
<1 >1050 mRNA
product acid trehalase

📌
Se puede verificar o rellenar en una tabla Excel, pero BankIT sólo reconoce .txt
- Las características que están en la cadena complementaria, como el tRNA-Phe, se indican invirtiendo las ubicaciones de los intervalos (número más grande a más pequeño)
- Las ubicaciones de las funciones parciales (incompletas) se indican con un ">" o "<" junto al número. En el ejemplo de Seq1, el gen, el CDS y el ARNm comienzan aguas arriba del inicio de la secuencia de nucleótidos. El símbolo "<" indica que son características parciales 5' y el símbolo ">" indica que el gen y el ARNm son parciales 3'. Además, para que la proteína se traduzca correctamente, se debe indicar el marco de lectura correcto con el calificativo "codon_start" en el CDS. No es necesario indicar start_codon en los CDS completos, ya que se supone que la traducción comienza en el primer nucleótido del intervalo si no se proporciona codon_start.
- Si una característica contiene múltiples intervalos, como el tRNA-Phe empalmado, cada intervalo se enumera en una línea separada por su posición inicial y final antes de las líneas calificadoras posteriores.
- Las características genéticas son siempre un solo intervalo y su ubicación debe cubrir los intervalos de todas las características relevantes (por ejemplo: CDS más 5'UTR más 3'UTR).
- Si una proteína tiene más de un nombre, cada uno puede incluirse en la tabla como un calificador de producto separado en el CDS de la tabla. El valor del primer calificador de producto se convertirá en /product en el CDS en el archivo plano, y cualquier calificador de producto adicional se mostrará como una nota /en el CDS en el archivo plano. Todas las características de CDS deben tener al menos un producto.
- Se puede agregar un archivo plano/nota a cualquier característica usando la nota calificadora en la tabla
  
  📌
  Para indicar que esta en la hebra - , se escribe el del numero más grande al pequeño
  📢
  Si se ocupa una tabla, es necesario eliminar todas las características que se ingresaron manualmente
  📢
  Intergenic spacer se identifican como misc_feature, y en note se explica que es

Otras consideraciones

Si es reenvío de secuencia es necesario el número anterior para poder reemplazar

Documentos necesarios para actualizar datos ya publicados en GenBank
Se pueden hacer actualizaciones sobre cualquier registro ya existente dependiendo de las indicaciones que siguen a continuación. Si se desean actualizar registros múltiples es necesario enviar una lista de todas las adhesiones que se actualizarán al inicio de la solicitud. También se puede solicitar un cambio en la fecha de publicación de los registros dependiendo de el estado de la solicitud.
No se deben subir nuevos archivos para actualizar un registro ya existente ya que que se creará una base de datos duplicada
Si envió a nuestros colaboradores en ENA o DDBJ, consulte sus instrucciones para actualizar los formatos. Los genomas procariotas y eucariotas, TSA y SRA deben actualizarse como se describe en las páginas vinculadas. Las actualizaciones de BioProject y BioSample deben enviarse a submit-help@ncbi.nlm.nih.gov.
- Editar información del origen de la secuencia
  Se puede actualizar cualquier información sobre el origen de la secuencia siguiendo el siguiente formato
```
acc. num.       strain  country organism
MHxxxx02        82      USA Escherichia coli
MHxxxx03        ABC     Canada  Bacillus subtilis
```
- Actualizar Información de la publicación
  1. Si el PMID o el DOI están disponibles públicamente la información se envía en el siguiente formato
    acc. num. PMID MHXXXX01 29980901 MHXXXX02 29980901 or acc. num. DOI MHXXXX01 10.1000/xyz123 MHXXXX02 https://doi.org/10.1000/xyz123doi
  1. Para todas las demás actualizaciones en el siguiente formato, teniendo en consideración que se deben remplazaron todo carácter que no pertenezca a los caracteres ASCII (por ejemplo, los caracteres con acentos y diéresis),
    La lista completa de los nombres de autores revisados debe ser en el formato: first_initial middle_initial surname
    acc. num. authors title MHXXXX01 J. A. Smith Identification of gene A MHXXXX02 X. P. Weng, J. Doe Identification of gene B
    Los siguientes son campos de publicación válidos que deben ser ussados como identificadores en el encabezado de cada columna
    authors
    journal
    volume
    issue
    pages
    publication date
    title
    affiliation
    department
    city
    state
    publication country
    street
    postal code
    PMID
    *class
    Todas las columnas pueden ser no apropiadas para cada referencia. Use solamente aquellas que sean relevantes, Si la referencia ya a sido publicada, incluya en título completo de la revista, no su abreviación.
    *Si la publicación tiene un identificador PubMed (PMID) ,no es necesario rellenar ninguno de los restantes campos de publicación. Es suficiente enviar una tabla con el número de adhesión y PMDI
    **El descriptor class solo debe se usado cuando el estado de publicación tuviera algun cambio. El descriptor tiene vocabulario controlado y solo puede incluirse una de las siguientes clases:
    unpublished
    in-press journal
    journal
- Actualización de la secuencia
  Si se esta actualizando la sequencia de nucleótidos actual, se debe enviar al secuencia nueva completa en formato FASTA
```
>MHxxxx02
cggtaataatggaccttggaccccggcaaagcggagagac
>MHxxxx03
ggaccttggaccccggcaaagcggagagaccggtaataat
```
  No se debe enviar una lista de los cambios de nucleótdos. No se debe incluir caracteres no IUPAC dentro de la secuencias. Usar n para los nucleótidos desconocidos dentro de la secuencia
- Actualizar tabla de características
  Si se añadan anotaciones o cambion en las ubicaciones de las características se debe enviar una tabla de características como la siguiente
  - Formato de tabla de características para actualizaciones
    >Feature Sc_16 1 7000 REFERENCE PubMed 8849441 <1 1050 gene gene ATH1 <1 1009 CDS product acid trehalase product Ath1p codon_start 2 <1 1050 mRNA product acid trehalase [offset=2000] 1253 420 gene gene YPR027C 1253 420 CDS product Ypr027cp note hypothetical protein 1253 420 mRNA product Ypr027cp 2626 2535 gene gene trnF 2626 2590 tRNA 2570 2535 product tRNA-Phe 2626 2590 exon number 1 2570 2535 exon number 2 3450 4536 gene gene YIP2 3522 3572 CDS 3706 4197 product Yip2p prot_desc similar to human polyposis locus protein 1 (YPD) 3450 3572 mRNA 3706 4536 product Yip2p
    Las características que se encuentran en la cadena complementaria, como el gen YPR027C y el tRNA-Phe, se indican invirtiendo las ubicaciones de los intervalos.
    Las ubicaciones de las características parciales (incompletas) se indican con un ">" o "<" delante de la ubicación del nucleótido. El símbolo "<" siempre aparece en la columna 1 y ">" siempre aparece en la columna 2, independientemente de la varada de la característica. En este ejemplo, el primer gen, el CDS y el ARNm comienzan aguas arriba del inicio de la secuencia de nucleótidos. El símbolo "<" indica que son elementos parciales de 5', así como el símbolo ">" indica que son elementos parciales de 3’-
    Para que la proteína de un CDS que es parcial en su extremo 5’ se traduzca correctamente, el primer nucleótido del CDS que es la primera base del primer codón completo debe estar indicado con el calificador “codon_start”. Este no es el marco de lectura de toda la secuencia; es solo la posición del nucleótido dentro del CDS. En el ejemplo, el nucleótido 2 comienza el primer codón completo de la CDS de la trehalasa ácida. La situación predeterminada es que codon_start es 1. No es necesario indicar codon_start en CDS completos, ya que la traducción siempre comienza en el primer nucleótido del intervalo.
    Si una característica contiene múltiples intervalos, como el tRNA-Phe empalmado o el Yip2p CDS, cada intervalo se enumera en una línea separada por su posición inicial y final antes de las líneas calificadoras posteriores.
    Las características genéticas son siempre un solo intervalo, y su ubicación debe cubrir los intervalos de todas las características relevantes. Por ejemplo, el gen YIP2 es tan largo como su ARNm y, por lo tanto, es más largo que su CDS.
    Si la característica del gen abarca los intervalos de las características de CDS o ARNm para ese gen, no es necesario incluir calificadores de genes en esas características en la tabla, porque se seleccionarán por superposición. Por ejemplo, en el archivo sin formato, los nombres de genes ATH1 e YPR027C están presentes como /gen en los CDS superpuestos, aunque no se enumeran explícitamente como calificadores de genes en esos CDS en la tabla. Esta opción se puede suprimir agregando un calificador de gen con el valor '-' a la característica. La supresión del gen / superpuesto es importante cuando, por ejemplo, un tRNA está codificado dentro de un intrón de un gen de mantenimiento.
    Si una proteína tiene más de un nombre, cada uno puede incluirse en la tabla como un calificador de producto separado en el CDS de la tabla. El valor del primer calificador de producto se convertirá en /product en el CDS en el archivo plano, y cualquier calificador de producto adicional se mostrará como una nota /en el CDS en el archivo plano. Consulte el primer CDS, que tiene dos calificadores de productos, trehalasa ácida y Ath1p. Todas las características de CDS deben tener al menos un producto. Se puede agregar un archivo plano/nota a cualquier característica usando la nota calificadora en la tabla. Se ha agregado una nota al segundo CDS.
    Las citas publicadas se agregan mediante la función REFERENCE. Para la mayoría de las publicaciones, el inicio y el final de la función son el primer y el último nucleótido de la secuencia. La clave calificadora es PubMed y el valor es el identificador de PubMed (PMID), que se puede encontrar en PubMed.
    El [offset] se usa para agregar un número específico a todos los intervalos de nucleótidos posteriores. En este ejemplo, el registro se anotó en dos partes, cada parte a partir del residuo número 1. Las secuencias mismas se unieron en el archivo FASTA. El [offset=2000] agrega 2000 nt a la ubicación de todas las funciones que lo siguen, lo que ahorra al remitente la necesidad de volver a calcular la ubicación de cada función. Esta opción podría usarse si los intervalos de características para dos brazos de un cromosoma o contigs adyacentes se almacenan por separado, pero deben unirse para el envío final.
  1. Si el registro es liberado de manera pública y tiene anotación, es posible descargar la anotación existente en un rachivo .tnl recuperando el registro y haciendo click en la opción “Send to”. Elija “File” como destino y luego “Feature Table” como formato. Edite esa tabla y envíela via email.
  1. Si el registro aun no es liberado de manera pública, es necesario contactar al equipo de Genbank para que ellos envién una tabla de características con la anotación actual para que se edite según las nuevas características y se reenvíe nuevamente al equipo de Genbank.
    Se debe mantener el siguiente formato al editar la tabla
    >Feature gb|EFxxxxxx|EFxxxxxx <1 400 gene gene ENO1 <1 30 CDS 70 300 product enolase note homodimer <1 30 mRNA 70 400 product enolase <1 30 exon number 1 70 400 exon number 2

Si es una nueva secuencia, puede ponerse un título opcional. Este NO reemplaza el ID de Genbank

Pueden enviar información adicional, pero si se completaron los pasos anteriores no debería ser necesario. Además, si existe alguna duda o problema, GenBank se pondrá en contacto de manera posterior

BankIt no acepta formatos alineados, puede usar Sequin para formatos como FASTA-GAP, PHYLIP, NEXUS

Cuando tengas toda la información necesaria y tu archivo en formato FASTA, estas listo para hacer tu solicitud, para eso debes responder el siguiente formulario: Formulario Gestión de Datos

Recuerda que puedes adjuntar tus archivos dentro del formulario o mandarlos posteriormente con tu número de solicitud al data manager

Data manager: Catalina Marín

Correo: datoscientificos@institutobase.cl

Asunto: Envío archivos número de solicitud DM-XXXX

>Feature Seq1
<1	>1050	gene
		gene	gene	ATH1

<1	1009	CDS
			product	acid trehalase
			product	Athlp
			codon_start	2

<1	>1050	mRNA
			product	acid trehalase