🧬

¿Qué necesito enviar al data manager para subir mis secuencias a GenBank?

Esta información fue extraída de los webinar para el envío de secuencias con la herramienta BankIt: A Submitter’s Guide to GenBank, Part 1 & Part 2.

📌
Resumen de lo necesario
  1. Información biológica
  1. Información de los autores y publicación
  1. Secuencia en formato FASTA.txt
  1. Tabla de Modificatores.txt (Source Modifiers Table)
  1. Tabla de características.txt (Features Table)

Si tienes dudas sobre cualquiera de los requerimientos, puedes seguir leyendo a continuación


Pasos a seguir en BankIT

  1. Información Inicial
  1. Identificación de los Autores
  1. Fecha de Publicación
  1. Identificación de la secuencia
  1. Categoría (Original/A partir de terceros)
  1. Modificadores
  1. Características
  1. Consideraciones

Información inicial

Para poder ingresar una secuencia a GenBank se deben conocer distintos aspectos de la secuencia:

  • Origen de la secuencia

    ¿Cuál es el organismo?

    ¿Dónde proviene el organismo?

    ¿Cuándo y cómo se obtuvo la secuencia?

  • Tipo y localización

    Secuencia Genómica / Secuencia mARN

    Genoma / Organelo (plásmido, plastidio, mitocondria)

  • Significado biológico de la secuencia

    ¿Qué gen representa?

    ¿Total o parcial?

📢
No se pueden ingresar nuevos datos en BankIt si hay un trabajo en proceso. Si se hace una nueva subida de datos esta se va a sobre-escribir

La información anterior permite guiar el proceso de publicación de la secuencia. Los requerimientos específicos que solicita GenBank son los siguientes:

Identificación de los Autores y Publicación

Autores: Quien publica la secuencias

Publicación: Puede que la secuencia provenga de un trabajo sin publicar

Nombre y Estado de la Publicación

Autores de la Publicación

Fecha de Publicación

Corresponde a la fecha en la que se desea que se publiquen los datos en GenBank

Identificación de la secuencia

Junto con poder responder las preguntas anteriores, para poder subir las secuencias a GenBank a través de la herramienta BankIt, es necesario que las secuencias se encuentren en formato FASTA:

  1. Tipo de secuencia
    • Non-coding RNAs
  1. Topología
  1. Completitud del Genoma
  1. Número de secuencias

    En caso de que sea más de una secuencia que contiene 4 genes distintos, es recomendable que se indique en Set/Barch que serán 4 envios separados, esto genera números de seguimiento consecutivos. En caso de ser 1 gen en distintos organismos, es solo 1 envío.

    Las opciones en este caso son:

    Pop Set: Estudio poblacional, un set de secuencias que fueron derivadas secuenciado el mismo gen de diferentes aislados del mismo organismo

    Phy set: Estudio filogenético, un set de secuencias que fueron derivadas secuenciando el mismo gen de diversos organismos

    Mut set: Estudio mutaciones, un set de secuencias que fueron derivadas secuenciando múltiples mutaciones de un gen

    Env set: estudio ambiental: un set de secuencias que fueron derivadas de la secuenciación del mismo gen para una población de organismos sin clasificar o desconocidos.

    Batch: Múltiples secuencias relacionadas nucleótidos que no son de un mismo gen, pero pueden ser de la misma publicación u organismo.

  1. Secuencia en formato FASTA

    Esta se puede copiar directamente o puede subirse en un archivo .txt

    • Formato FASTA para secuencias de nucleótidos

      En el formato FASTA, la línea antes de la secuencia de nucleótidos, llamada línea de definición FASTA, debe comenzar con un quilate (">"), seguida de un SeqID (identificador de secuencia) único.

      • El SeqID debe ser único para cada secuencia de nucleótidos y no debe contener espacios. Limite el SeqID a 25 caracteres o menos. El SeqID solo puede incluir letras, dígitos, guiones (-), guiones bajos (_), puntos (.), dos puntos (:), asteriscos (*) y signos de número (#). El personal de la base de datos reemplazará el identificador de secuencia con un número de acceso cuando se procese su envío.

        ›SeqABCD

      • La información sobre el organismo fuente del que se obtuvo la secuencia sigue al SeqID y debe tener el formato [modifier=text]. No ponga espacios alrededor del "=". Como mínimo, se debe incluir el nombre científico del organismo. Se pueden agregar modificadores opcionales para proporcionar información adicional. Los modificadores se pueden encontrar aquí https://www.ncbi.nlm.nih.gov/genbank/mods_fastadefline/

        ›SeqABCD [organism=Mus musculus] [strain=C57BL/6]

      📢
      [isolate=xxx] sirve para identificar distintos indiviudos de una misma especie, de manera de evitar que pasen por duplicados, puede utilizarse la identificación que se estime conveniente. Cada modificador está descrito en el siguiente enlace: https://www.ncbi.nlm.nih.gov/genbank/mods_fastadefline/
      • El último componente opcional de la línea de definición de FASTA es el título de la secuencia, que se utilizará como campo DEFINICIÓN en el archivo plano. El título debe contener una breve descripción de la secuencia. Existe un formato preferido para los títulos de nucleótidos y proteínas. El título provisto será cambiado al formato adecuado por el personal de la base de datos durante el procesamiento.

        ›SeqABCD [organism=Mus musculus] [strain=C57BL/6] Mus musculus neuropilin 1 (Nrp1) mRNA, complete cds.

      Tenga en cuenta que, en todos los casos, la línea de definición de FASTA no debe contener retornos firmes. Toda la información debe estar en una sola línea de texto. Si tiene problemas para importar sus secuencias FASTA, verifique que su software de edición no haya agregado retornos a la línea de definición FASTA.

      Ejemplos de líneas de definición FASTA correctamente formateadas para secuencias de nucleótidos:

      >Seq1 [organism=Streptomyces lavendulae] [strain=456A] Streptomyces lavendulae strain 456A mitomycin radical oxidase (mcrA) gene, complete cds.
      
      >ABCD [organism=Plasmodium falciparum] [isolate=ABCD] Plasmodium falciparum isolate ABCD merozoite surface protein 2 (msp2) gene, partial cds.
      
      >DNA.new [organism=Homo sapiens] [chromosome=17] [map=17q21] [moltype=mRNA] Homo sapiens breast and ovarian cancer susceptibility protein (BRCA1) mRNA, complete cds.

      La línea después de la línea de definición de FASTA comienza la secuencia de nucleótidos. A diferencia de la línea de definición de FASTA, la propia secuencia de nucleótidos puede contener retornos. Se recomienda que cada línea de secuencia no tenga más de 80 caracteres. Utilice únicamente los símbolos IUPAC dentro de la secuencia de nucleótidos. Para secuencias que no son

      📢
      Para indicar una base que no se conoce, estas se definen como N y se repiten el número de veces que se tenga en conocimiento, pero no se deben poner al final de las secuencias. Si se insertan 100 N, esto indica que no se conoce la longitud de las pares de base faltantes. El número de N tiene que ser como máximo el 50% de la secuencia. Cada intervalo sin identificar debe ingresarse como mis_feature. Pueden indicarse los intervalos en formato FASTA, ejemplo:
      >Seq1
      
      TGGTGGAA
      
      >?unk12
      
      CCCA
      
      >?unk100
      
      CCGTGTGT

Modificadores

Los modificadores pueden incluirse en la línea de definición de la secuencia FAST, para esto se ingresa entre corchetes [ ], el modificador que tiene la secuencia. También puede realizarse con una tabla. Los modificadores para la línea de definición se encuentran en el siguiente enlace: https://www.ncbi.nlm.nih.gov/genbank/mods_fastadefline/

Esto también se puede hacer de manera manual cuando se ingresa solo UNA secuencia. Para esto es necesario identificar de cual organelo proviene la secuencia.

  • Tabla de Modificadores (Source Modifiers Table)

    Si es más de una secuencias es necesario completar una tabla de modificadores como la que se presentan a continuación

    Sequence_ID	Specimen_voucher	Collected_by	Collection_date	Country	Identified_by	Lat_Lon
    Seq1	MKP 334	C. Grant	31-Jan-2001	USA	C. Grant	13.57 N 24.68 W
    Seq2	MKP 1230	S. Tracy	28-Feb-2002	Slovakia	C. Grant	13.24 N 24.35 W
    Seq3	1B-2526	A. Gardner	16-Apr-2001	France	C. Grant	43.21 N 56.78 W
    Seq4	WBM 86-64	F. McMurray	26-May-2002	Germany	C. Grant	45.32 N 21.34 E
    Seq5	1B-2518	V. Leigh	13-Jun-2003	Brazil	V. Leigh	46.80 N 13.57 E
    Seq6	WBM 86-65	E. Flynn	15-Aug-2000	Australia	V. Leigh	68.53 S 57.42 E
    Seq7	1B-2355	G. Kelly	26-Oct-2002	Mexico	C. Grant	22.44 S 55.77 W
    Seq8	1B-2455	G. Kelly	26-Sep-2002	Mexico	C. Grant	22.44 S 55.77 W
    Seq9	WBM 87-70	G. Kelly	10-Nov-2000	Mexico	C. Grant	22.44 S 55.77 W
    Seq10	1B-3355	G. Kelly	02-Dec-2002	Mexico	C. Grant	22.44 S 55.77 W
    Seq11	WBM 90-95	G. Kelly	26-Oct-2002	Mexico	C. Grant	22.44 S 55.77 W
    📌
    Se puede verificar o rellenar en una tabla Excel, pero BankIT sólo reconoce .txt
    Sequence_IDCollected_byCollection_dateCountryIsolation_sourceIsolateLat_LonSpecimen_voucher
    Seq1C. Grant31-Jan-2001USAsoilA13.57 N 24.68 WMKP 334
    Seq2S. Tracy28-feb-02Slovakiacontaminated soilB13.24 N 24.35 WMKP 1230
    Seq3A. Gardner16-Apr-2001Francefarm soilC43.21 N 56.78 W1B-2526
    Seq4F. McMurray26-may-02Germanyfarm runoff waterD45.32 N 21.34 EWBM 86-64
    Seq5V. Leigh13-jun-03Brazilforest soilE46.80 N 13.57 E1B-2518
    Seq6E. Flynn15-Aug-2000Australiariver waterF68.53 S 57.42 EWBM 86-65
    Seq7G. Kelly26-oct-02Mexicoriver bed soilG22.44 S 55.77 W1B-2355
Características
  1. Región codificante (CDS) / Gen / ARNm
    1. Por intervalos
      1. Hebra : + o - (► o ◄)
      1. Parcial : 5’ o 3’ (en que extremo es parcial)
        💡
        < 5’ parcial

        > 3’ parcial

        Reading frame: Si es parcial al extremo 5’, indicar el marco de lectura. Cuál base inicia el primer codón de triplete completo para cuando la secuencia de nucleótidos se traduce en secuencia de proteína

        Cuando se tienen genes exones es necesario tener la posición de cada uno de estos

        1. Gen sin intrones
        1. Intervalos de Nucleótidos
          1. Secuencia completa
          1. Intervalo específico
          💡
          En caso de ser más de una secuencia, las características se pueden ingresar de manera compartida para todas o de manera específica para cada una de ellas
        1. Información de la Proteína
          1. Nombre
          1. Descripción
          1. Número EC
        1. Información del gen
          1. Nombre del gen
          1. Alelo del gen
          1. Descripción del Gen
        1. Información ARNm
    1. Por datos de la secuencia proteica
  1. ARN (ARNr, ARN no codificante, misc_ARN, etc)
  1. Región repetida (para secuencias repetidas, elementos móviles y satélites)
  1. Otros
💡
Luego de ingresar la secuencia, BankIT traducirá a secuencia de aminoácidos de manera automática
  • Tabla de Características (Features Table File)

    La primera línea de la tabla de características contiene la siguiente información básica

    >Feature Sequence_ID

    El identificador de secuencia (Sequence_ID) debe coincidir con la etiqueta utilizada para identificar la secuencia correspondiente de cada tabla en el archivo FASTA de nucleótidos. Las líneas subsiguientes de la tabla enumeran las características.

    Prepare el archivo de la tabla de características en un editor de texto y guárdelo como texto ASCII sin formato (no .rtf ni .doc)

    Formato para una tabla de características:

    • Cada característica se muestra en una línea separada.
    • Múltiples intervalos de nucleótidos para una característica están en líneas subsiguientes.
    • Los calificadores que describen una característica están en las líneas debajo de esa característica y sus intervalos.
    • Cada columna está separada por una pestaña.

    Como se muestra en los siguientes ejemplos:

    Línea 1 Columna 1: Ubicación de inicio (primer nucleótido) de una característica Columna 2: Ubicación de parada (último nucleótido) de una característica Columna 3: Nombre de la función (por ejemplo, 'CDS' o 'mRNA' o 'rRNA' o 'gen' o 'exon')

    Línea 2: Columna 4: Nombre del calificador (por ejemplo, 'producto' o 'número' o 'gen' o 'nota') Columna 5: Valor del calificador Tenga en cuenta en los ejemplos a continuación que 'gen' es tanto una característica como un calificador y debe ingresarse en dos columnas separadas.

    Los ejemplos a continuación muestran tablas de muestra e ilustran una serie de puntos sobre el formato de la tabla.

    >Feature Seq1
    <1    >1050    gene
                            gene          ATH1
    <1    1009    CDS
                            product       acid trehalase
                            product       Athlp
                            codon_start   2
    <1    >1050    mRNA
                            product       acid trehalase
    
    >Feature Seq2
    2626  2590    tRNA
    2570  2535
                            product       tRNA-Phe
    
    >Feature Seq3
    1080  1210  CDS
    1275  1315
                            product       actin
                            note          alternatively spliced
    1055  1210  mRNA
    1275  1340
                            product       actin
    1055  1340  gene
                            gene          ACT
    1055  1079  5'UTR
    1316  1340  3'UTR
    >Feature Seq1
    <1 >1050 gene
    gene gene ATH1
    <1 1009CDS
    productacid trehalase
    productAthlp
    codon_start2
    <1 >1050mRNA
    productacid trehalase

    📌
    Se puede verificar o rellenar en una tabla Excel, pero BankIT sólo reconoce .txt
    • Las características que están en la cadena complementaria, como el tRNA-Phe, se indican invirtiendo las ubicaciones de los intervalos (número más grande a más pequeño)
    • Las ubicaciones de las funciones parciales (incompletas) se indican con un ">" o "<" junto al número. En el ejemplo de Seq1, el gen, el CDS y el ARNm comienzan aguas arriba del inicio de la secuencia de nucleótidos. El símbolo "<" indica que son características parciales 5' y el símbolo ">" indica que el gen y el ARNm son parciales 3'. Además, para que la proteína se traduzca correctamente, se debe indicar el marco de lectura correcto con el calificativo "codon_start" en el CDS. No es necesario indicar start_codon en los CDS completos, ya que se supone que la traducción comienza en el primer nucleótido del intervalo si no se proporciona codon_start.
    • Si una característica contiene múltiples intervalos, como el tRNA-Phe empalmado, cada intervalo se enumera en una línea separada por su posición inicial y final antes de las líneas calificadoras posteriores.
    • Las características genéticas son siempre un solo intervalo y su ubicación debe cubrir los intervalos de todas las características relevantes (por ejemplo: CDS más 5'UTR más 3'UTR).
    • Si una proteína tiene más de un nombre, cada uno puede incluirse en la tabla como un calificador de producto separado en el CDS de la tabla. El valor del primer calificador de producto se convertirá en /product en el CDS en el archivo plano, y cualquier calificador de producto adicional se mostrará como una nota /en el CDS en el archivo plano. Todas las características de CDS deben tener al menos un producto.
    • Se puede agregar un archivo plano/nota a cualquier característica usando la nota calificadora en la tabla

      📌
      Para indicar que esta en la hebra - , se escribe el del numero más grande al pequeño
      📢
      Si se ocupa una tabla, es necesario eliminar todas las características que se ingresaron manualmente
      📢
      Intergenic spacer se identifican como misc_feature, y en note se explica que es

Otras consideraciones
  • Si es reenvío de secuencia es necesario el número anterior para poder reemplazar
  • Documentos necesarios para actualizar datos ya publicados en GenBank

    Se pueden hacer actualizaciones sobre cualquier registro ya existente dependiendo de las indicaciones que siguen a continuación. Si se desean actualizar registros múltiples es necesario enviar una lista de todas las adhesiones que se actualizarán al inicio de la solicitud. También se puede solicitar un cambio en la fecha de publicación de los registros dependiendo de el estado de la solicitud.

    No se deben subir nuevos archivos para actualizar un registro ya existente ya que que se creará una base de datos duplicada

    Si envió a nuestros colaboradores en ENA o DDBJ, consulte sus instrucciones para actualizar los formatos. Los genomas procariotas y eucariotas, TSA y SRA deben actualizarse como se describe en las páginas vinculadas. Las actualizaciones de BioProject y BioSample deben enviarse a submit-help@ncbi.nlm.nih.gov.

    • Editar información del origen de la secuencia

      Se puede actualizar cualquier información sobre el origen de la secuencia siguiendo el siguiente formato

      acc. num.       strain  country organism
      MHxxxx02        82      USA Escherichia coli
      MHxxxx03        ABC     Canada  Bacillus subtilis
    • Actualizar Información de la publicación
      1. Si el PMID o el DOI están disponibles públicamente la información se envía en el siguiente formato
        acc. num.   PMID 
            MHXXXX01    29980901
            MHXXXX02    29980901
        or
        
            acc. num.   DOI
            MHXXXX01    10.1000/xyz123
            MHXXXX02    https://doi.org/10.1000/xyz123doi
      1. Para todas las demás actualizaciones en el siguiente formato, teniendo en consideración que se deben remplazaron todo carácter que no pertenezca a los caracteres ASCII (por ejemplo, los caracteres con acentos y diéresis),

        La lista completa de los nombres de autores revisados debe ser en el formato: first_initial middle_initial surname

           acc. num.    authors    title
            MHXXXX01    J. A. Smith    Identification of gene A
            MHXXXX02    X. P. Weng, J. Doe    Identification of gene B

        Los siguientes son campos de publicación válidos que deben ser ussados como identificadores en el encabezado de cada columna

        • authors
        • journal
        • volume
        • issue
        • pages
        • publication date
        • title
        • affiliation
        • department
        • city
        • state
        • publication country
        • street
        • postal code
        • PMID
        • *class

        Todas las columnas pueden ser no apropiadas para cada referencia. Use solamente aquellas que sean relevantes, Si la referencia ya a sido publicada, incluya en título completo de la revista, no su abreviación.

        *Si la publicación tiene un identificador PubMed (PMID) ,no es necesario rellenar ninguno de los restantes campos de publicación. Es suficiente enviar una tabla con el número de adhesión y PMDI

        **El descriptor class solo debe se usado cuando el estado de publicación tuviera algun cambio. El descriptor tiene vocabulario controlado y solo puede incluirse una de las siguientes clases:

        • unpublished
        • in-press journal
        • journal

    • Actualización de la secuencia

      Si se esta actualizando la sequencia de nucleótidos actual, se debe enviar al secuencia nueva completa en formato FASTA

      >MHxxxx02
      cggtaataatggaccttggaccccggcaaagcggagagac
      >MHxxxx03
      ggaccttggaccccggcaaagcggagagaccggtaataat

      No se debe enviar una lista de los cambios de nucleótdos. No se debe incluir caracteres no IUPAC dentro de la secuencias. Usar n para los nucleótidos desconocidos dentro de la secuencia

    • Actualizar tabla de características

      Si se añadan anotaciones o cambion en las ubicaciones de las características se debe enviar una tabla de características como la siguiente

      • Formato de tabla de características para actualizaciones
        >Feature Sc_16
        1    7000    REFERENCE
                                PubMed         8849441
        <1    1050    gene
                                gene           ATH1
        <1    1009    CDS
                                product        acid trehalase
                                product        Ath1p
                                codon_start    2
        <1    1050    mRNA
                                product        acid trehalase
        [offset=2000]
        1253    420    gene
                                gene           YPR027C
        1253    420    CDS
                                product        Ypr027cp
                                note           hypothetical protein
        1253    420    mRNA
                                product        Ypr027cp
        2626    2535    gene
                                gene           trnF
        2626    2590    tRNA
        2570    2535
                                product        tRNA-Phe
        2626    2590    exon
                                number         1
        2570    2535    exon
                                number         2
        3450    4536    gene
                                gene           YIP2
        3522    3572    CDS
        3706    4197
                                product        Yip2p
                                prot_desc      similar to human polyposis locus protein 1 (YPD)
        3450    3572    mRNA
        3706    4536
                                product        Yip2p
        
        • Las características que se encuentran en la cadena complementaria, como el gen YPR027C y el tRNA-Phe, se indican invirtiendo las ubicaciones de los intervalos.
        • Las ubicaciones de las características parciales (incompletas) se indican con un ">" o "<" delante de la ubicación del nucleótido. El símbolo "<" siempre aparece en la columna 1 y ">" siempre aparece en la columna 2, independientemente de la varada de la característica. En este ejemplo, el primer gen, el CDS y el ARNm comienzan aguas arriba del inicio de la secuencia de nucleótidos. El símbolo "<" indica que son elementos parciales de 5', así como el símbolo ">" indica que son elementos parciales de 3’-
        • Para que la proteína de un CDS que es parcial en su extremo 5’ se traduzca correctamente, el primer nucleótido del CDS que es la primera base del primer codón completo debe estar indicado con el calificador “codon_start”. Este no es el marco de lectura de toda la secuencia; es solo la posición del nucleótido dentro del CDS. En el ejemplo, el nucleótido 2 comienza el primer codón completo de la CDS de la trehalasa ácida. La situación predeterminada es que codon_start es 1. No es necesario indicar codon_start en CDS completos, ya que la traducción siempre comienza en el primer nucleótido del intervalo.
        • Si una característica contiene múltiples intervalos, como el tRNA-Phe empalmado o el Yip2p CDS, cada intervalo se enumera en una línea separada por su posición inicial y final antes de las líneas calificadoras posteriores.
        • Las características genéticas son siempre un solo intervalo, y su ubicación debe cubrir los intervalos de todas las características relevantes. Por ejemplo, el gen YIP2 es tan largo como su ARNm y, por lo tanto, es más largo que su CDS.
        • Si la característica del gen abarca los intervalos de las características de CDS o ARNm para ese gen, no es necesario incluir calificadores de genes en esas características en la tabla, porque se seleccionarán por superposición. Por ejemplo, en el archivo sin formato, los nombres de genes ATH1 e YPR027C están presentes como /gen en los CDS superpuestos, aunque no se enumeran explícitamente como calificadores de genes en esos CDS en la tabla. Esta opción se puede suprimir agregando un calificador de gen con el valor '-' a la característica. La supresión del gen / superpuesto es importante cuando, por ejemplo, un tRNA está codificado dentro de un intrón de un gen de mantenimiento.
        • Si una proteína tiene más de un nombre, cada uno puede incluirse en la tabla como un calificador de producto separado en el CDS de la tabla. El valor del primer calificador de producto se convertirá en /product en el CDS en el archivo plano, y cualquier calificador de producto adicional se mostrará como una nota /en el CDS en el archivo plano. Consulte el primer CDS, que tiene dos calificadores de productos, trehalasa ácida y Ath1p. Todas las características de CDS deben tener al menos un producto. Se puede agregar un archivo plano/nota a cualquier característica usando la nota calificadora en la tabla. Se ha agregado una nota al segundo CDS.
        • Las citas publicadas se agregan mediante la función REFERENCE. Para la mayoría de las publicaciones, el inicio y el final de la función son el primer y el último nucleótido de la secuencia. La clave calificadora es PubMed y el valor es el identificador de PubMed (PMID), que se puede encontrar en PubMed.
        • El [offset] se usa para agregar un número específico a todos los intervalos de nucleótidos posteriores. En este ejemplo, el registro se anotó en dos partes, cada parte a partir del residuo número 1. Las secuencias mismas se unieron en el archivo FASTA. El [offset=2000] agrega 2000 nt a la ubicación de todas las funciones que lo siguen, lo que ahorra al remitente la necesidad de volver a calcular la ubicación de cada función. Esta opción podría usarse si los intervalos de características para dos brazos de un cromosoma o contigs adyacentes se almacenan por separado, pero deben unirse para el envío final.
      1. Si el registro es liberado de manera pública y tiene anotación, es posible descargar la anotación existente en un rachivo .tnl recuperando el registro y haciendo click en la opción “Send to”. Elija “File” como destino y luego “Feature Table” como formato. Edite esa tabla y envíela via email.
      1. Si el registro aun no es liberado de manera pública, es necesario contactar al equipo de Genbank para que ellos envién una tabla de características con la anotación actual para que se edite según las nuevas características y se reenvíe nuevamente al equipo de Genbank.

        Se debe mantener el siguiente formato al editar la tabla

        >Feature gb|EFxxxxxx|EFxxxxxx
        <1      400     gene
                                gene            ENO1
        <1      30      CDS
        70      300
                                product         enolase
                                note            homodimer
        <1      30      mRNA
        70      400
                                product         enolase
        <1      30      exon
                                number          1
        70      400     exon
                                number          2
  • Si es una nueva secuencia, puede ponerse un título opcional. Este NO reemplaza el ID de Genbank
  • Pueden enviar información adicional, pero si se completaron los pasos anteriores no debería ser necesario. Además, si existe alguna duda o problema, GenBank se pondrá en contacto de manera posterior
  • BankIt no acepta formatos alineados, puede usar Sequin para formatos como FASTA-GAP, PHYLIP, NEXUS

Cuando tengas toda la información necesaria y tu archivo en formato FASTA, estas listo para hacer tu solicitud, para eso debes responder el siguiente formulario: Formulario Gestión de Datos

Recuerda que puedes adjuntar tus archivos dentro del formulario o mandarlos posteriormente con tu número de solicitud al data manager

Data manager: Catalina Marín

Correo: datoscientificos@institutobase.cl

Asunto: Envío archivos número de solicitud DM-XXXX