MapReduce for Bioinformatics
-
Upload
cristian-perez-garcia -
Category
Science
-
view
86 -
download
0
Transcript of MapReduce for Bioinformatics
Hadoop y algoritmos MapReduce de paralelización aplicados a genotipado de
secuencias nucleotídicas
CristianPérez GarcíaMiguelGonzálezAcera
MSc.Bioinformatics 2015/16
1. MapReduce• Algoritmo• Framework: Hadoop• Ejemplos
2. Aplicaciones• Genotipado en NGS• Alineamiento múltiple de secuencias• Otros
1
BigData
• Exoma->10Gbdedatos• Genoma ->cercade1TBdedatos
Búsquedas engoogledesde2005deltérminoBioinformatics contraBigData
Introducción
2
CreadoporGoogleparaelprocesamientodegrandescantidadesdedatos.
• Procesamientodegrandescantidadesdedatos• Paralelización yejecuciónautomáticadelosprocesosen
grandesclústeresdeordenadores.
1. MapReduce
3
• Input
• Map Function: procesaunficherocomovaloreskey/value paradevolverunnuevosetdedatoscomokey/value.
• Shuffle & sort: Ordena los datos y manda los de misma key al mismonodo.
• Reduce function: unetodos losvaloresintermediosconlamismakey.
• Output
1.1. Algoritmo MapReduce
4
HDFS (Hadoop Distributed File System)• Escalable• Distribuido
Los datos se encuentran distribuidos de manera redundante 2x o 3x entre los distintosnodos del clúster (algo parecido al sistema RAID)
1.2. Hadoop
5
1.3. Ejemplos
6
<,26>
<,11>
<,11>
<,4>
7
NODE1 NODE2
8
NODE1 NODE2
<,11><,20>
<,9>
<,12> <,10>
<,2> <,6>
1.3. Ejemplos: Mapping
9
NODE1 NODE2
<,12><,20> <,11>
<,6>
<,10>
<,2><,9>
<,32><,17> <,10> <,11>
1.3. Ejemplos: Shuffle and Sort1.3. Ejemplos: Reduce
10
<,32> <,17>
<,10> <,11>
1.3. Ejemplos: Output
11
Gran cantidad de datos, sobre todo en genoma
• Procesos altamente paralelizables• Posibilidad de aplicar MapReduce para resolver este problema• Mapeo de reads en NGS• Alineamiento múltiple de secuencias
2. Aplicaciones
12
2.1. Aplicaciones: Mapeo de Reads en NGS
13
• Permutaciones de secuencias• Alineamiento con Needleman-Wunsch de dos
secuencias• Alineamiento de una tercera con las secuencias ya
alineadas• Reducir• Repetir
2.2. Aplicaciones: Alineamiento Múltiple de Secuencias
14
• Obtención de la distancia Robinson-Foulds de diferencias topológicas entre t árboles filogenéticos
• Paralelización de algoritmos de Machine Learning
2.3. Aplicaciones: Otras aplicaciones
15
Gracias por vuestra atención