Selección genética para la mejora de la raza

Post on 18-Aug-2015

585 views 2 download

Transcript of Selección genética para la mejora de la raza

Selección Genética para la mejora de la raza Ovina Manchega mediante

técnicas de minería de datos

Luis Duncan COD: 066062010Patricia Cano COD: 066062005

ING: JORGE RODRIGUEZMINERIA DE DATOSUNIVERSIDAD LIBRE26 AGOSTO DE 2010

RAZA OVINA MANCHEGA

La Oveja Manchega es la raza ovina autóctona en Castilla - La Mancha (España) y sus dos principales productos (queso y cordero manchego), representan más del 50% de la producción final animal. Esta importancia en la economía de la región junto con el objetivo de ganar competitividad frente a otras razas lo cual llevó a las autoridades de la región a implantar hace 15 años el Esquema de Selección de la Raza Ovina Manchega (ESROM)

(1989-2003)

PROBLEMA

Mejorar las cifras en cuanto a la producción (queso, cordero) de la Oveja Manchega, aplicando técnicas de aprendizaje de redes Bayesianas que capten el modelo y las relaciones entre los distintos factores influyentes en la determinación del mérito genético (Modelo Descriptivo), con el fin de obtener una clasificación rápida antes de la primera lactación.

Marco general ESROM: Esquema de Selección de la Raza

Ovina Manchega, iniciado hace 15 años.

Se utiliza BLUP: (Best Linear Unbiased Prediction) modelo animal utilizando ecuaciones lineales para calcular el valor genético.

AGRAMA: Asociación Nacional de Criadores de Ganado Ovino Selecto de Raza Manchega.

9894 registros y 25 Variables.

Procesamiento de los datos y Técnicas aplicadas

Registros entre 1989-2003 (AGRAMA)

Los datos se distribuyen en 4 familias: Datos BV, Lactación, Entorno, Lactación Madre.

El interés radica en conseguir una estimación del BV de las Ovejas en las primeras etapas.

Se hace un pre-procesamiento de los datos.

Se añade una variable: PedigreeIndex.

Se elabora una nueva BD mediante discretización de la variable BV.

Los expertos de AGRAMA dividen la variable en 4 grupos.

Se derivan 2 BD para cálculos predictivos y descriptivos (predecir y blup)

No se cuenta con la variable de fiabilidad. (BVReliability).

Pre-procesamiento de las variables de entorno mediante el paquete ELVIRA.

Se esquematizan dos modelos (predictivo, descriptivo).

Procesamiento de los Datos

Tabla 1. Variables dentro del conjunto de datos, siendo BV la variable objetivo.

MODELO PREDICTIVO Cálculo de BV desde el punto de vista de

clasificación.

Se busca un conjunto de variables que permitan obtener un valor BV aceptable antes que sea calculado de manera real utilizando el algoritmo de selección de variables FW: Filter + Wrapper.

Se utilizan parámetros como lookahead y una modificación (Backprocessing).

Desarrollo y Análisis

Tabla 2. Resultados para un clasificador que sólo cuenta con la variable PedigreeIndex.

Tabla 3. Resultados para el algoritmo FW para los distintos clasificadores: a) Con las BD originales en las que la clase tiene 4 estados variando los parámetros del algoritmo Backprocessing y Lookahead.

Tabla 3. b) Con las BD con las que las variables tiene 3 estados (3 Labels) c) Con las BD con las que las variables tiene 2 estados (2 Labels) d) Con las BD originales pero contabilizando solamente las instancias que se categorizan con al menos 70% de probabilidad.

Conclusiones Minería Predictiva

Al introducir Backprocessing y Lookahead se obtiene una precisión mayor en los clasificadores.

El tiempo total de ejecución no es elevado al requerimiento de aumentar la precisión.

El conjunto de variables seleccionado que aparecen con más frecuencia son: BVFather, BVMother, PedigreeIndex, StockFarm, AvLac120.

Minería de Datos Descriptiva

Se construye una red bayesiana a través de aprendizaje automático mediante el uso de técnicas de búsqueda local.

El aprendizaje se realiza mediante el paquete ELVIRA.

Se construye una red sin restricciones y otra con restricciones utilizando una medición de distancias con Kullback-Leiber (KL) con el fin de hacer una comparación entre las dos.

REDES BAYESIANAS: Una red bayesiana es un grafo dirigido que consta de:

Un conjunto de nodos, uno por cada variable aleatoria.

Un conjunto de arcos dirigidos que conectan los nodos; si hay un arco de X a

Y,decimos que X es un padre de Y.

PAQUETE ELVIRA: Es fruto de un proyecto de investigación, en el que

participaron varios investigadores de varias universidades españolas y de otros

centros. Lo que busca es reducir la cantidad de posibles valores en una variable.

Algoritmo FW: Este algoritmo tiene dos fases, creación de un Ranking (Filter) y

evaluación de subconjuntos basada en dicho ranking (Wrapper)

Naive Bayes:

KL:Kullback-Leiber

RESULTADOS

Una red bayesiana que muestra las relaciones existentes entre las variables.

Se encontró un subconjunto de atributos que permiten clasificarla de forma sencilla y rápida sin esperar los resultados de BLUP.

BibliografíaFlores Julia, Gámez José, Mateo Juan, Perta José, Selección Genética Para La Mejora De La Raza Ovina Manchega Mediante Técnicas De Minería De Datos. Valencia, España. Revista Iberoamericana de Inteligencia Artificial Vol. 10. Nº 029. 2006. Pág. 69-77.

Rodriguez H. Jose Victor. Tesis Doctoral. Evaluación fenotípica y genotípica de los caracteres de crecimiento en el esquema de selección del ovino Segureño. 2004. Pág. 43.

GRACIAS