SECUENCIACIÓN AUTOMÁTICA DEL GENOMA HUMANO


SECUENCIACIÓN AUTOMÁTICA DEL GENOMA HUMANO

jueves, 23 de mayo de 2019

INTRODUCCIÓN
El genoma humano haploide comprende aproximadamente tres mil millones de pares de bases de ADN que se organizan en 23 cromosomas. El orden de estos nucleótidos crea genes, que son las unidades de la información genética que contienen las instrucciones para construir y mantener un organismo. La secuenciación de ADN es el proceso de determinar el orden preciso de estos nucleótidos. En 2001, se publicaron las secuencias del primer borrador del Genoma Humano, una por una coalición internacional conocida como el Proyecto Genoma Humano y otra por una empresa llamada Celera. Aunque estos primeros estudios necesitaron muchos años y una gran cantidad de personas para realizarse, los avances en la tecnología de secuenciación han permitido completar totalmente los datos del genoma de forma rápida y sencilla.
La información del genoma humano puede ayudarnos a entender mejor nuestra fisiología y las bases biológicas de las enfermedades hereditarias. Por ejemplo, la secuenciación del ADN de los pacientes individuales, conocidos como medicina personalizada, está cambiando el papel de la genética en la medicina.

Secuenciación de ADN y búsquedas en las bases de datos
El primer paso en un proyecto de secuenciación es la obtención de los datos en bruto,el orden preciso de los cuatro nucleótidos: A, G, C y T. Existen varios enfoques para generar la información de la secuencia y nuevos métodos están apareciendo cada año. Dos métodos populares son la Secuenciación de terminación de la cadena y la Secuenciación por síntesis. La Secuenciación de terminación de la cadena, a menudo llamado Secuenciación de Sanger, permite a los investigadores generar una cadena larga de ADN a partir de una secuencia diana también conocido como plantilla o molde (“template”). La plantilla de ADN se combina con un cebador de ADN (“primer”), el enzima ADN polimerasa I (ADN Pol I), y una mezcla de dos tipos de nucleótidos libres, desoxinucleótidos (dNTP) y didesoxinucleótidos (ddNTPs) (Figura 1A). Durante la reacción de secuenciación, el ADN Pol I utiliza la plantilla de ADN y añade dNTPs al cebador para formar una cadena complementaria de ADN. De vez en cuando, la ADN Pol I añadirá un ddNTP en la cadena de ADN, terminando la reacción (Figura 1B). Esta terminación final es debido a la falta de un grupo 3'hidroxilo en los ddNTPs (Figura 1A) por lo que es imposible para la polimerasa para añadir otro nucleótido en el extremo de la hebra. Por lo tanto, el resultado de la reacción es una serie de fragmentos de ADN de diferentes tamaños que se pueden separar por electroforesis capilar (Figuras 1B, 1C). Es importante destacar que cada ddNTP esta unido aun marcador fluorescente diferente, permitiendo que la fluorescencia de cada cadena de ADN individual pueda ser "leída" por un láser (Figura 1C). A continuación, los cuatro colores fluorescentes diferentes de los ddNTP se detectan automáticamente y la intensidad de fluorescencia se traducen en un "pico" de datos que representa el orden de los nucleótidos en la plantilla de ADN (Figura 1D). La Secuenciación de Sanger se introdujo en 1977 y fue el principal método utilizado para crear la primera secuencia del genoma. Todavía se utiliza hoy en día debido a su capacidad para generar secuencias largas para su lectura (500-800 pb).

  Interpretar la información de secuencia de ADN
Después de obtener los datos de secuenciación de ADN, los biólogos moleculares suelen buscar bases de datos públicas de secuencias similares. Esta búsqueda puede revelar una investigación ya realizada con el gen secuenciado, incluyendo la estructura tridimensional del producto del gen, enfermedades asociadas con la secuencia, y en que tejidos está activo el gen. En los casos en que la región no haya sido estudiada, encontrar secuencias similares pueden proporcionar pistas sobre la función de la secuencia y su relación evolutiva con otros genes humanos.
Uno de las mayores y más influyentes bases de datos es la GenBank. Esta base de datos de código abierto contiene más de un billón de bases de datos de secuencias de nucleótidos disponibles públicamente.

OBJETIVO
Leer secuencias de ADN obtenidas a partir de técnicas de secuenciación automáticas de ADN. Posteriormente, los datos se analizarán utilizando las bases de datos disponibles al público para identificar los genes y productos genéticos.

MATERIAL NECESARIO
  • Fragmentos de secuencias de ADN.
  • Ordenador con acceso a internet.




DESCRIPCIÓN DEL EXPERIMENTO
Se pueden usar cualquier base de datos de secuencias del Genoma Humano para llevar a cabo la práctica. Para la realización de este protocolo se ha utilizado la base de datos ofrecida por el Centro Nacional de Información Biotecnológica, NCBI (National Center for Biotechnology Information).

PRÁCTICA
En esta práctica, vamos a usar también la página web BLASTN, por lo que ya que tenemos conocimiento sobre ella y cómo funciona, vamos a proceder a los ejercicios.

LECTURA DE LOS FRAGMENTOS DE LAS SECUENCIAS DE ADN
Los resultados a la hora de leer las secuencias han sido los siguientes:
  • 1º Secuencia:
    • Línea 1
GNNNNNTGGNNNNNNNATANTTGCGGCCGCGGTTTTNTTTTTTTNTTNNNCNNGGAGCACAANCNA
ATGNANTGTGTTGTTGTGGCGARGGC
GARGGCGCCGTTHHTAAAACTGTCTCCTGATATCCTACACAACAAACAAATTTCAT

    • Línea 2:
CGGAGTATGTACCGACTGTTTTTGACAACTATGCAGTCACAGTTATGATTGGTGGAGAACCAT
ATACTCTTGGACTTTTTGATACTGCAGGGCAAGTTATGACAGATTACGACCGCTC
ACTTATCCACAAACAG
    • Línea 3:
ATGTATTTCTAGTCTGTTTTTCAGTGGTCTCTCCATCTTCATTTGAAAACGTGAAAGAAAAGTGGTGC
CTGAGATAACTCACCACTGTCCAAGACNCCTTTCTT-GCTTGTTGGGACTCAAATTGATCTCAACGAGATGACCC
    • Línea 4:
CTCTACTATTGAGAAACTTGCCAAGAACAAACAGAAGCCTATCACTCCANAGACTGGGTGAAAAGCT
GGCCCGTGACCTGAANGCNGTCAAAGTATGTG-GAGTGTTCTGCACTTACACAGCAGANGTCTGAAAAATGTGTTNATGAAGC 
  • 2º Secuencia:
    • Línea 1:
TGCNNNNNTGGNTNNGGNNNNNATTGNNTCNCTNTACCATGCNNGNGCACAANGT
TTTTTTTTTTTTTTTTTTGGGCAAAGCGTACAAAGGTTCCAAGGGACAGGACCAAGA
ACGAGGGGCTGAGACATTTACAACAGCAGGCATT
    • Línea 2:
TTTCTCTTCCTCTTCTTCACGGGAGGCGGGCANAGGACTGCTCGGATCGCTTCGTC
AAACACTGTCTTGAGGCCTCNCTGTGTGAGCGCCGAGCACTCCAGGTATTTTACAG CACCAATCTCCTTANCCATGGCTANAC
    • Línea 3:
CCCTGCGGATAGGTGATGGGAGTCAGCTTCTTCBCCTTCAGTTTCNCNATCGTGTC
TTTATCATCCCTAAGATCAAGTTTAGTTCCCACTANGATGATGGGAGTGTTGGGACA
GTGGTGCCGCACCTCAGGATACCACTT
    • Línea 4:
TGCACGGACATTTTCAAATGATGCAGGACTCACAAGGGAAAAGCAAATTAAGAACAC
ATCTGTTTGCGGATAGGATAGGGGGCGTATTCTGTCATAATCTTCTTGTCCAGCTGTA
TCCCAAAAAGCCCAGATTCACCGGTTT
  • 3º Secuencia:
    • Línea 1:
TGNNNNNNTGNNNNNNNGNNANAACGAAGTGCAGACTCAAAAGTGCCATCTCCCTCCCGACCATT
GGAGGATCCCAAGCTCTCATGTTGCCCTTATTGTCACCAGTGACATTTAATTCCAAACAGGAGTCC
TTCGGGCCAGCAAA
    • Línea 2:
GCTGCCCAGGCTTAGCTGCGAGCCCGTACTGGAGGAAAAAGCTCAGGAGAAAAGCAGTCTGTTG
GAGAATGGGACAGTCCACCAGGGAGACACCTCGTGGGGCTCCAGCGGTTCTGCATCTCAGTCCA
GCCAAGGCAGA
    • Línea 3:
GACAGCCACTCCTCCAGCCTGTCCGAACAGTACCCCGACTGGGCCAGCCGAGGACATGTTTGAC
CATCCCACCCCATGCGAGCTCATCAAGGGGAAAGACTAAGTCAGAGGAGTCCCTCTCTGACCTTA
CAGGTTCCCTCCTCTCC
    • Línea 4:
CCTGCAAGCTTGATCTTGGGCCCTCACTTTTGGATGANGTGCTGAATGTTATGGAT
AAAAATAAGTAACTCGAGCATGCATCTAGAAGGGCCTATTCTATAATGTCACCTAAAT
GCTAAACCTCGCTGATCAGCCTCGACTGTGCCNT


EJERCICIO 1
Primero hemos leído el análisis de la secuencia de ADN de la copia impresa del gel y encontramos el gen que identifica esta huella.
Para hacer esto hay que seguir el siguiente procedimiento:
  • Identificar la secuencia de nucleótidos (nucleótidos 100-200) a partir de la lectura de la secuencia de ADN.
         Secuencia 3 (Línea 2).
  • Escriba al menos 70 bases en el cuadro de consulta del programa BLAST en la página web del NCBI. Las bases pueden ser de cualquier región de la secuencia, pero deben ser contiguas.
  • Examinar el informe de búsqueda BLASTN, identificar un gen probable, y examinar la identificación de genes para obtener información detallada.





 a.  ¿Cuál es el nombre de este gen?
Proteína efectora CDC42 (Rho GTPasa vinculante) 3 o CDC42EP3

b. En comparación con la entrada GenBank, ¿qué cadena has leído?
La primera.

c. ¿Se puede encontrar algún artículo escrito sobre este gen? Anote el nombre de uno de los autores que han contribuido.
"Las GTPasas de la familia Rho son moléculas clave en la regulación de la morfogénesis de la célula. En Schizosaccharomyces pombe, Cdc42, un miembro de la familia Rho, es una proteína que participa en el establecimiento de la polaridad celular y regula la formación de cables de actina. El objetivo de este trabajo de Tesis Doctoral ha sido el estudio de nuevas funciones de la GTPasa Cdc42 en S. pombe. Puesto que Cdc42 es una proteína esencial, el estudio de su función se ha llevado a cabo mediante la generación de mutantes termosensibles, que muestran defectos en las interacciones funcionales de esta GTPasa y otras proteínas, y permiten caracterizar defectos en los procesos en los que interviene Cdc42. De esta forma, en la cepa cdc42-L160S se observan múltiples defectos en procesos relacionados con secreción, tráfico de membranas y formación de vacuolas. Los estudios realizados nos indican que en S. pombe Cdc42 regula varios procesos de tráfico intracelular. Y que, junto con su proteína efectora Pob1, participa en la localización del exocisto y regula la secreción celular. Adicionalmente los resultados obtenidos sugieren que Rho3 y Cdc42 son parcialmente redundantes en la regulación de la exocitosis y del tráfico intracelular y que Cdc42 participa en la fusión vacuolar. Además, la caracterización de los defectos de la cepa mutante cdc42-L160S en el proceso de conjugación permite adjudicar nuevas funciones a la proteína Cdc42 de S. pombe en la regulación de la respuesta a feromonas, en el establecimiento de la polaridad celular en respuesta a estímulos externos y en la fusión celular."
Autor: Miguel Estravís.
http://digital.csic.es/handle/10261/116288


d. Al identificar una enfermedad causada por mutaciones en este gen. ¿Cuáles serían los motivos de un médico para realizar una búsqueda para esta enfermedad? ¿Y si quien realiza la búsqueda es una compañía de seguros?
Para proporcionarle un tratamiento y diagnóstico adecuado.

EJERCICIO 2
Luego intercambiamos la copia de secuencia automática con otro grupo y enviar la secuencia de análisis BLAST. Anotamos el gen. Seleccionamos una secuencia asociada a un documento publicado, grabar el título y el primer autor del artículo.
Mi grupo (el 3) cogimos la línea 2 de la secuencia 2.




a. ¿Qué es la bioinformática?
Es un área emergente interdisciplinaria que se ocupa de la aplicación de la informótica a la recopilación, almacenamiento, organización, análisis, manipulación, presentación y distribución de información relativa a los datos biológicos o médicos, tales como macromoléculas (por ejemplo DNA o proteínas).
Ha evolucionado para servir de puente entre las observaciones (datos) y el conocimiento que se deriva (información) sobre, por ejemplo, la función de los procesos y, posteriormente, la aplicación (conocimiento).

¿Cómo han avanzado en la tecnología de secuenciación en este campo?
La metodología de secuenciación masiva, junto al desarrollo bioinformático, está permitiendo obtener grandes avances en el diagnóstico genético orientado a la clínica, mediante el estudio de paneles de genes.
La evolución tecnológica acontecida en los últimos años ha permitido cambiar el paradigma de la ciencia. La incorporación de recursos como los microarrays en el estudio transcriptómico o la proteómica en el mundo proteico ha abierto la puerta al análisis masivo y sistémico de la biología y sus aplicaciones a diferentes campos como la biomedicina. Esta evolución tecnológica por sí sola ha permitido aumentar la cantidad de datos de manera exponencial; sin embargo, no ha elevado en la misma proporción el conocimiento científico.




b. Nombra dos métodos de secuenciación y describe el compromiso entre la velocidad de producción y la longitud de las secuencias producidas.
Sanger y Maxam y Gilbert.
En la secuenciación de Sanger, el ADN blanco es copiado muchas veces y se hacen fragmentos de diferentes longitudes. Nucleótidos fluorescentes que actúan como "terminadores de cadena" marcan los extremos de los fragmentos y permiten la determinación de la secuencia.
Un fragmento de ADN se marca radiactivamente en sus extremos con gamma 32P ó gamma 32S dATP por acción de la polinucleótido quinasa. La técnica consiste en romper estas moléculas marcadas con reacciones químicas específicas para cada una de las cuatro bases. Cuatro alícuotas de la misma muestra se tratan bajo condiciones distintas, posteriormente el tratamiento con piperidina rompe la molécula de ADN a nivel de la base modificada. Los productos de estas cuatro reacciones se resuelven en función de su tamaño en geles de poliacrilamida donde la secuencia puefe leerse en base al patrón de bandas radiactivas obtenidas.


c.  ¿Qué suposición hace BLAST? ¿Cuáles son las ventajas y desventajas de hacer esta suposición?
A pesar de que BLAST es un programa muy poderoso y casi siempre podemos confiar en sus resultados, se debe recordar que el programa es heurístico y por lo tanto puede que no encuentre la solución óptima. En la actualidad, el abuso y la pobre interpretación de los resultados de BLAST ha llevado a múltiples errores de anotación. Una cosa a tener en cuenta al usar BLAST es que cuanta más evidencia externa se pueda obtener para corroborar un alineamiento (fisiológica, filogenética, genética, etc.) es mejor.
El programa de BLAST NO garantiza que las secuencias que alinea sean homólogas y mucho menos que tengan la misma función, simplemente provee posibles candidatos. Se necesitan más análisis para anotar correctamente una secuencia.
La puntuación del BLAST depende del largo de la secuencia, una secuencia muy corta tendrá una puntuación menor que una grande simplemente por la cantidad de caracteres que tiene. Así que siempre se debe interpretar la puntuación con respecto al largo de la secuencia.
El valor depende del tamaño de la base de datos. Para bases de datos muy pequeñas, valores altos son más significativos que para bases de datos muy grandes. Para la base de datos no redundante (NR) de NCBI por lo general valores de 0.01 o menos son considerados como significativos, pero esto puede depender de la secuencia que se esté analizando.

Es importante entender que son simplemente suposiciones y que existen muchos casos en que sean falsos, pero constituye un buen punto de partida.
Se usa para encontrar similitudes locales. Para la utilización de BLAST se tienen en cuenta los siguientes supuestos: Los genes homólogos comparten similitud de secuencia, los genes ortologos tienen un gran nivel de similitud entre múltiples especies y los genes ortologos tienen con alta probabilidad funciones similares.
 





  

Comentarios