Cenidet...Bayesianas, las Redes Probabilisticas Dinámicas y los Modelos Ocultos de Markov; tomando...

127
SEIT DGlT SEP CENTRO NACIONAL DE INVESTIGACIÓN Y DESARROLLO TECNOL~GICO Cenidet ANÁLISIS DE MÉTODOS DE INFERENCIA ESTADkTlCA APLICABLES AL RECONOCIMIENTO DE PATRONES VISUALES T E S I S PARA OBTENER EL GRADO DE: MAESTRO EN CIENCIAS EM CIENCIAS COMPUTACIONALES PRESENTA: CLAUDIA GRACIELA SÁNCHEZ HERNÁNDEZ DIRECTOR DE TESIS: DR. RAÚL PINTO ELIAS CODIRECTOR DE TESIS: DRA. AZUCENA MONTES RENDÓN / Y CUERNAVACA, MORELOS JUNIO DEL 2003 OGITl CENiDET DE INFORMACION

Transcript of Cenidet...Bayesianas, las Redes Probabilisticas Dinámicas y los Modelos Ocultos de Markov; tomando...

  • SEIT DGlT SEP

    CENTRO NACIONAL DE INVESTIGACIÓN Y DESARROLLO TECNOL~GICO

    C e n i d e t

    ANÁLISIS DE MÉTODOS DE INFERENCIA ESTADkTlCA APLICABLES AL RECONOCIMIENTO

    DE PATRONES VISUALES

    T E S I S

    PARA OBTENER EL GRADO DE: MAESTRO EN CIENCIAS EM

    CIENCIAS COMPUTACIONALES

    P R E S E N T A : CLAUDIA GRACIELA SÁNCHEZ HERNÁNDEZ

    DIRECTOR DE TESIS: DR. RAÚL PINTO ELIAS CODIRECTOR DE TESIS: DRA. AZUCENA MONTES RENDÓN

    / Y CUERNAVACA, MORELOS JUNIO DEL 2003

    OGITl CENiDET DE INFORMACION

  • Cuernavaca, Mor., a 2 de Junio del 2003

    Dr. Gerard0 Reyes Salgado Presidente de la Academia de Ciencias Computacionales Presente

    Nos es grato comunicarle, que conforme a los lineamientos para la obtención del grado de Maestro en Ciencias de este Centro, y después de haber sometido a revisión académica la tesis denominada: Análisis de Métodos de inferencia estadística aplicables al Reconocimiento de Patrones Visuales realizada por el(la) C. Claudia Graciela Sánchez Hernández, y habiendo realizado las correcciones que le fueron indicadas, acordamos no tener objeción para que se le conceda la autorkacion de impresión de la tesis.

    Sin otro particular, quedamos de usted

    Atentamente

    La comisión de revisión de tesis

    cisco Martinez Trinidad.

    Codirector de tesis

    c.c.p. Dr. Rodolfo A. Pazos Rangel, Jefe del Depto. de Ciencias Computacionales. Lic. Olivia Maquinay Díaz, Jefe del Depto. de Servicios Escolares. C. Claudia Graciela Sánchez Hernández, alumno del programa de maestría.

    INTERIOR INTERNADO PALMIRA S/N, COL. PALMIRA , A.P. 5-164. CP. 62490. CUERNAVACA, MOR. - MÉXICO TELS. 17771312 23 14.318 7741,FAX(777) 312 2434 EMAIL P0ror~sd-cenidet.com.mx

  • iUBl tC*fTdkDí COUUCWNT

    FORMULARIO C4 I I?MsTIG.UION nc,.a(Ki,CN AUTORIZACI~N DE IMPRESI~N DE TESIS

    Cuernavaca, Mor., a 6 de junio de 2003.

    .C. Claudia Graciela Sánchez Hernández Candidato al grado de Maestro en Ciencias en Ciencias de la Computación Presente

    Después de haber atendido las indicaciones sugeridas por la Comisión Revisora de la Academia de Ciencias Computacionales en relación a su trabajo de tesis: Análisis de Métodos de Inferencia Estadística Aplicables al Reconocimiento de Patrones Visuales, me & grato comunicarle, que conforme a los lineamientos establecidos para la obtención del grado de Maestro en Ciencias en este Centro, se le concede la autorización para que proceda con la impresión de su tesis.

    n dten

    Jefe del Depto. de Ciencias Computacionales

    C.C.P. Lic. Ohia Maquinay Díaz, Jefe Depto. de Servicios Escolares. INTERIOR INTERNADO PALMiRA S/N, COL, PALMIRA , A.P. 5-164. CP. 62490. CUERNAVACA. MOR. - MEXICO TELS.(777)312 2314.318 7741.FAXj777) 312 2434 EMAIL p ~ ~ ~ s ~ s d ~ ~ e n i d e l . c o m . m x

  • Dedicatorias

    A Dios, por permitirme finalizar este trabajo y todas las bendiciones que me ha dado.

    A mi mamá, por su apoyo incondicional, por ser mi amiga y saber que siempre cuento con ella.

    A mi esposo, por estar conmigo en las buenas y en las malas, por su apoyo incondicional, y porque sé que siempre cuento con él.

    A mis hijos, que son una bendición de Dios y son una parte importante de mi vida

    A mis compañeros y amigos, en especial a Andrea y Erika, gracias por su amistad y por sus consejos.

    A todas aquellas personas que hicieron posible realizar este trabajo de tesis, gracias.

  • Agradecimientos

    A mi asesor, e/ Dr. Raúl pinto €lías, por todos los conocimientos Y sugerencias para la realización de este trabajo.

    A mi codirector, la Dra. Azucena Montes Rendón, por los conocimientos impartidos y por los comentados realizados para la realización de este irabajo.

    A mis revisores, Dr. José Francisco Martínez Trinidad, por los comentarios realizados, sugerencias y su tiempo para revisar este trabajo. A la M. en C. Andrea Magadán Salazar, por sus comentarios y sugerencias que permitieron finalizar exitosamente este trabajo. Al M. en C. José Luis Ramírez Alcántara, al Dr. José Ruíz Ascencio y al Dr. Gerard0 Reyes Salgado, por todos sus comentados y su colaboración para el desarrollo de este trabajo de investigación.

    Al Centro nacional de investigación y desarrollo tecnológico (cenjdet), por pemjtjme Pedenecer a esta institución y seria casa formadora de mis estudios de maestría,

    Al Consejo Nacional de Ciencia y Tecnología (CONACYT), por el apoyo económico recibido.

    Al Consejo del Sistema Nacional de Educación Tecnológica (cosnet) por el apoyo económico recibido.

    A todos aquellos que de alguna forma, ayudaron a la realización de este trabajo de investigación.

  • Para la mayoría de los seres humanos la comunicación entre personas se da a través de un conjunto de aspectos, ya que aparte de escuchar la voz del locutor, se auxilian de información visual que les permite entender mejor lo que se está diciendo, por ejemplo, ver los labios del hablante, gestos, estado de ánimo, movimiento de manos y brazos, etc.

    Comunicarse con máquinas de una manera más natural ha sido uno de los objetivos de la Inteligencia Artificial, y para lograr esto, se han investigado diversas modalidades que permitan dicha comunicación, una de estas modalidades es la visual con la auditiva.

    Los primeros sistemas automáticos' reconocedores del habla (ASRS - Automatic Speech Recognition System) utilizaban sólo la señal acústica para lograr el reconocimiento del habla, este tipo de sistemas tienen un buen desempeño, pero ciertas limitaciones, por mencionar algunas, son dependientes a un solo hablante, no operan correctamente bajo condiciones de ruido o cuando se encuentran vanos hablantes interactuando.

    En la actualidad, estos sistemas utilizan la información visual y acústica proveniente del hablante, y tratan ambas señales por separado para más tarde integrarlas al sistema reconocedor. Cabe mencionar que utilizando aisladamente los datos ya sean visuales o auditivos, éstos no proporcionan la información suficiente para saber lo que se está diciendo pero al utilizarse conjuntamente se obtienen mejoras en el reconocimiento. Precisamente algunos de los problemas detectados durante el reconocimiento visual del habla, es que existen expresiones que son parecidas al articularlas, y no pueden distinguirse sus diferencias visuales debido a que están en función de la salida de aire o sonidos guturales difíciles de distinguir visualmente. Generalmente, la información generada por el reconocimiento es enviada a un archivo de texto, el cual, tendrá faltantes de información debido a los problemas antes mencionados.

    Por lo anterior, uno de los principales objetivos del presente trabajo, es realizar una investigación relacionada con algunas herramientas estadísticas que apoyen al reconocimiento de patrones visuales del habla, ya que se encontró en la literatura, que la tasa de reconocimiento puede mejorarse si se incorpora información estadística que auxilie a los objetos (palabras) de interés durante el reconocimiento.

    Los principales métodos de inferencia estadistica que se encontraron durante la revisión del arte y que son aplicables al reconocimiento de patrones visuales del habla son las Redes Bayesianas, las Redes Probabilisticas Dinámicas y los Modelos Ocultos de Markov; tomando todas ellas como base el teorema de Bayes con el cual se trabajó en el desarrollo de la herramienta.

    Para validar el funcionamiento de la herramienta de inferencia estadística, se realizaron 7 casos de prueba, donde los resultados obtenidos muestran que si se cumple con el objetivo propuesto al alcanzar un 100% de eficiencia en la etapa .de entrenamiento y un 85% de eficiencia con bases de conocimiento diferentes .

    -

    ~

  • Análisis de métodos de inferencia estadística aplicables al reconocimiento de patrones visuales

    Tabla de contenido

    TABLA DE CONTENIDO Página

    ListadeTablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Listade Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv

    CAPITULO 1 ANTECEDENTES

    1.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.3 . JUSTIFICACIÓN DEL TRABAJO DE TESIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.4 OBJETIVO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    ...

    1.2 CONTENIDO DE LA TESIS . . . . . . . . . . . . . . . . ~ . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    1.3.1 Elementos del análisis de imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.4.2 Casos de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    CAPITULO 2 MÉTODOS DE INFERENCIA ESTADíSTiCA

    2.1 2.2 2.3

    2.4

    2.5

    2.6 2.7

    2.8

    INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 ¿QUÉ ES LA INFERENCIA ESTADISTICA? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 CONCEPTOS BÁSICOS DE PROBABILIDAD . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3.1 Espacio de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.3.2 Independencia. correlación y causalidad . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3.2.1 Independencia de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . 13

    2.3.3 Definiciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3.4 Probabilidad condicional y Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . 14 REDES BAYESIANAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4.1 Teoría dc grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.4.2 Definición formal de red bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.4.3 Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.4.4 Análisis de criterios establecidos en el capitulo 1 . . . . . . . . . . . . . . . . . . . 20 REDES PROBABlLíSTlCAS DINÁMICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.5.1 Inferencia en redes probabilisticas dinámicas . . . . . . . . . . . . . . . . . . . . . . 23 2.5.2 Ventajas y desventajas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.5.3 Análisis de criterios establecidos en el capitulo 1 . . . . . . . . . . . . . . . . . . . 24 CADENAS DE MARKOV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 MODELOS OCULTOS DE MARKOV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.7.1 Algoritmos de los modelos ocultos de Markov . . . . . . . . . . . . . . . . . . . . . . 26

    2.7.1.1 Algoritmo de evaluación (forward) . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    2.7.1.3. Algoritmo de aprendizaje (Baum-Welch) . . . . . . . . . . . . . . . . . . . . . . 29 2.7.2 Tipos de modelos ocultos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.7.3 Aplicación de los modelos ocultos de Markov . . . . . . . . . . . . . . . . . . . . . . 32 2.7.4 Análisis de criterios establecidos en el capitulo I . . . . . . . . . . . . . . . . . . . 33 COMENTARIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    2.7.1.2 Algoritmo de reconstrucción (Viterbi) . . . . . . . . . . . . . . . . . . . . . . . . 28

    I

  • Análisis de métodos de inferencia estadistica aplicables al reconocimiento de patrones visuales

    Tabla de contenido

    CAPITULO 3 TEOREMA DE BAYES Y REDES BAYESIANAS

    3.1 3.2 3.3

    3.4

    3.5

    INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . &ÓMO DICENAR UNA RED BAYESIANA? . . . . . . . . . . . . . . . . . . . . . . . . . . . . SOFTWARE LIBRE PARA REDES BAYESIANAS . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Descripción de Netica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    3.3.1.1 Inferencia probabilística utilizada en Netica . . . . . . . . . . . . . . . . . . . 3.3.1.2 Aprendizaje por medio de casos . . . . . . . . . . . . . . . . . . . . . . . . . . .

    3.3.2 Comentarios relacionados con el software encontrado . . . . . . . . . . . . . . . . IMPLEMENTACIÓN DE LA MAQUINA DE INFERENCIA ESTADISTICA . 3.4.1 Teorema de Bayes: Probabilidades condicionales . . . . . . . . . . . . . . . . . . . 3.4.2 Definición del modelo general para el reconocimiento de patrones del habla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    3.4.2.1 Modelos de lenguaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Implementación en lenguaje C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . COMENTARIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    CAPITULO 4 CASOS DE PRUEBA

    4.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 DESCRIPCIÓN DE LA BASE DE CONOCIMIENTO A UTILIZAR CON NETICA .

    4.2.2 Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 DESCRIPCIÓN DE LA BASE DE CONOCIMIENTO A UTILIZAR EN EL

    PROGRAMA PROBABILIDADES-REGLA DE BAYES IMPLEMENTADO EN C++ BUILDER 5.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Experimentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    . . 4.2.1 Experimentacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    CAPíTULO 5 CONCLUSIONES

    5.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 RESUMEN DEL TRABAJO DE INVESTIGACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 CONCLUSIONES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 APORTACIONES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 TRABAJOS A FUTURO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    ANEXO 1 DESCRIPCIÓN DEL FUNCIONAMIENTO DEL PROGRAMA PROBABILIDADES - REGLA DE BAYES IMPLEMENTADO EN C++ BUILDER 5.0. . ANEXO 2 RESULTADOS DE LOS CASOS DE PRUEBA

    ANEXO 3 ESTADO DEL ARTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    35 37 38 39 39 41 42 43 43

    43 44 45 46

    47 48 48 53

    54 54 67

    68 68 69 70 71

    72

    77

    101

    113

    ii

  • Tabla de contenido Análisis de métodos de inferencia estadística aplicables al reconocimiento de patrones visuales

    LISTA DE TABLAS Página

    1.1 2.1

    3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 4.4 A3.1

    Esquema del proceso de la MIE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ventajas y desventajas de las aproximaciones basadas en HMM's utilizadas en el reconocimiento del habla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribuciones de probabilidad condicional sobre S dado P . . . . . . . . . . . . . . . . . Algunas herramientas de redes bayesianas disponibles en internet . . . . . . . . . . . Probabilidades establecidas e inferidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Probabilidades generadas por el teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . Autómata utilizado para la implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Oraciones utilizadas para generar la red bayesiana . . . . . . . . . . . . . . . . . . . . . . . Análisis de criterios establecidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verificación de criterios establecidos para el caso 1 . . . . . . . . . . . . . . . . . . . . . . . Verificación de criterios establecidos para el caso 2 . . . . . . . . . . . . . . . . . . . . . . . Resultados obtenidos de las arquitectura híbridas . . . . . . . . . . . . . . . . . . . . . . . .

    5 10 32 37 38 43 44 46 40 54 60 64

    110

    iii

  • ~~ ~~ ~

    Análisis de métodos de inferencia estadística aplicables al reconocimiento de patrones visuales Tabla de contenido

    LISTA DE FIGURAS Página

    1.1 1.2 1.3 2.1 2.2

    2.3 2.4 2.5 2.6 3.1

    3.2 3.3 3.4 4.1 4.2

    4.3 4.4 4.5 4.6 4.7 4.8 4.9 A l . l A l . 2 A.1.3 A l . 4 A3.1 A3.2

    Elementos del análisis de imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pasos a seguir en el reconocimiento de patrones visuales del habla . . . . . . . . . . Máquina de inferencia estadística propuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo de un grafo aciclico dirigido . . . . . . . . . . . . . . . . . . . . ! . . . . . . . . . . . . . . Estructura genérica de una red dinámica probabilística mostrando esquemáticamente las variables de estado X y las variables de evidencia E . El sensor del modelo describe P(EIXt) y el modelo del proceso describe P(X1+,IXI) . . Sistema de Markov y su matriz de transición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modeloergódicode4estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modelo izquierdoderecho de 4 estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modelo de trayectoria paralela izquierdoderecho de 6 estados . . . . . . . . . . . . . . Modelo para la prueba de gestación (P) . Los exámenes de sangre (B) y orina (U) proporcionan información del estado hormonal (H) . Tanto el estado hormonal como el ultrasonido (S) aportan señales de fecundación . . . . . . . . . . . Representación de una red bayesiana utilizando Netica . . . . . . . . . . . . . . . . . . . . Tabla de probabilidad del nodo tuberculosis o cáncer . . . . . . . . . . . . . . . . . . . . . . Ejemplodeunarchivodecasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Red bayesiana generada después de la compilación . . . . . . . . . . . . . . . . . . . . . .

    Resultado generado cuando se conocen las palabras gato y blanco . . . . . . . . . . Red bayesiana obtenida después de modificar la base de conocimiento . . . . . . . Red bayesiana generada a partir de los datos del problema . . . . . . . . . . . . . . . . Resultados aenerados de la búsqueda de palabras en forma individual . . . . . . .

    Red bayesiana generada dado que se conoce la palabra gato del nodo sustantivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    4 4 5

    17

    22 25 31 31 32

    36 40 40 41 49

    50 50 52 53 57

    Resultados generados de la búsqueda de palabras con estadísticas. . . . . . . . . 58 Resultados generados de la búsqueda con la opción de sólo palabras . . . . . . . . 59 Resultados generados de la búsqueda con la opción las n mejores. . . . . . . . . . . 59 Pantalla inicial al ejecutar el programa Probabilidades - Regla de Bayes . . . . . . 73 Pantalladel menú Procesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Pantalladelmenú Pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Pantalla del menú Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Estructura de un sistema automático reconocedor del habla . . . . . . . . . . . . . . . . 103 Modos de variación para el contorno de los labios . . . . . . . . . . . . . . . . . . . . . . . . 107

    A3.3 Arquitectura híbrida HMM/ANN para la lectura de labios . . . . . . . . . . . . . . . . . . . 109

    iv

  • " .

    CAPíTULO I

    ANTECEDENTES

    1.1 INTRODUCCI~N

    Uno de los principales problemas en el reconocimiento de patrones es obtener el conjunto de características o rasgos que permitan diferenciar a un objeto o a un conjunto de objetos.

    La mayoria de las veces resulta complicado encontrar estas características debido a que vanos de los objetos a clasificar comparten las mismas propiedades y en algunas ocasiones es dificil determinar los rasgos discriminantes que los hacen diferentes, o el número de rasgos es muy elevado y es dificil tratarlos computacionalmente.

    Para el caso del reconocimiento de patrones visuales por medio de una computadora, es aún más difícil la clasificación debido a diversos factores que inciden en las imágenes (tales como la fuente y naturaleza de la luz, el color, la intensidad, el ángulo y la distancia del dispositivo al objeto, etc.) obtenidas a través de los diferentes dispositivos de digitalización (cámaras de video, cámaras fotográficas, scaners, etc.).

  • Capitulo 1 Análisis de métodos de inferencia estadística aplicables al reconocimiento de patrones visuales Antecedentes

    En el reconocimiento de rostros. algunos de los aspectos que dificultan la localización e identificación de sus componentes (ojos, nariz, cejas, boca, etc.) son los siguientes: variación de las expresiones faciales, variación de la apariencia personal (barba, bigote, maquillaje, accesorios), variación de edad, perspectiva observador rostro (rotación, traslación, escala, inclinación del rostro).

    Debido a que es muy amplio el campo del reconocimiento de patrones y en especial de los visuales, en este trabajo sólo se consideran algunos de los problemas relacionados con el reconocimiento de patrones (RP) visuales del habla. Se propone una herramienta estadistica auxiliar a un sistema de RP visuales del habla que ayude a mejorar la tasa de reconocimiento.

    Se ha detectado que durante el reconocimiento del habla, uno de los problemas para lograr un Óptimo entendimiento, es que existen expresiones que se oyen parecidas y causan confusión al escucharlas, principalmente en ambientes ruidosos, o cuando se encuentran varios hablantes interactuando al mismo tiempo o con música en alto volumen, etc. Un ejemplo de expresiones que se oyen parecidas en el idioma espatiol, son los fonemas m y n, 'pero al observar los labios del hablante mientras pronuncia el fonema m, se notará que sus labios se cierran completamente, juntándose con cierta presión entre ambos, para el caso de la n, los labios del hablante permanecen abiertos y puede verse la lengua apoyada en los dientes superiores. De acuerdo con lo anterior, y utilizando la información visual proveniente del hablante, se podrá decidir con mayor seguridad si se trata de una rn o una n, dependiendo de la posición de los labios. Otro de los problemas relacionado con la percepción del habla, es que existen fonemas consonantes que comparten las mismas caracteristicas visuales y muchos de sus rasgos distintivos no pueden ser percibidos visualmente, ya que se trata de cuestiones de vibración y salida del aire.

    1.2 CONTENIDO DE LA TESIS

    Este trabajo de tesis consta de 5 capítulos

    El capitulo 1 da una breve introducción relacionada con la problemática del reconocimiento de patrones visuales y en especial los relacionados con el habla además de detallar el problema y los objetivos perseguidos en el presente trabajo.

    El capítulo 2 trata de los fundamentos teóricos y matemáticos de los métodos de inferencia estadística más utilizados en el reconocimiento de patrones visuales del habla, tales como las Redes Bayesianas, los Modelos Ocultos de Markov, y las Redes Probabilisticas Dinámicas. Se analizaron cada uno de los Criterios establecidos en el capitulo 1 y se verificó cuál de estos métodos cumple con la mayoria de los criterios establecidos, finalizando el capitulo con la selección de la herramienta estadistica.

    En el capitulo 3 se describe la herramienta seleccionada que cumplió co'n la mayor parte de los criterios establecidos. Se realizó un breve análisis relacionado con el software libre encontrado a través de internet y se hizo una selección de los posibles paquetes que pudieran ser útiles para la realización de las pruebas. Del paquete elegido se muestra su funcionamiento utilizando los ejemplos que vienen incluidos en el paquete.

    En el capitulo 4 se reportan los casos de prueba utilizados con la herramienta seleccionada, y debido a los resultados obtenidos y las limitaciones del paquete, se procedió a implementar

    L

  • Análisis de métodos de inferencia estadistica Capítulo 1 aplicables al 'reconocimiento de patrones visuales Antecedentes

    en lenguaje C++ Builder versión 5.0 una herramienta basada en el teorema de Bayes. Se realizaron pruebas con esta herramienta y se reportan los resultados obtenidos de las pruebas al utilizar el software libre y el programa implementado.

    ! En el capitulo 5 se hace una recapitulación del trabajo de tesis as¡ como las conclusiones y se proponen trabajos a futuro.

    En el anexo 1 se describe el funcionamiento del programa Probabilidades - Regla de Bayes implementado en el lenguaje C++ Builder 5.0.

    En el anexo 2 se documentan las pruebas realizadas para validar tanto la herramienta seleccionada as¡ como el programa Probabilidades - Regla de Bayes.

    En el anexo 3 se describen brevemente algunos de los aspectos teóricos relacionados con los sistemas automáticos reconocedores del habla (ASRS por sus siglas en inglés), posteriorniente se hace una recapitulación del estado del arte en donde utilizan la información visual proveniente del hablante para incorporarla (en algunos casos) junto con la inforrnacion acústica en los sistemas reconocedores del habla.

    1.3 JUSTlFlCAClON DEL TRABAJO DE TESIS

    La justificación del desarrollo del presente trabajo se basa en algunos de los resultados así como de observaciones obtenidas en trabajos previos, y en especial en Medina [MED198], en donde se detectó que utilizando solamente la información visual del hablante, esta no proporciona por si sola los datos suficientes para resolver el problema del RP visual del habla. Este trabajo utilizó una red neuronal difusa para reconocer vocales del idioma español.; De acuerdo a los experimentos realizados en este trabajo, se detecto que las vocales ':e" e "I" comparten ciertas caracteristicas visuales, y por lo tanto, son dificiles de diferenciar por parte de la red neuronal difusa. Se ha encontrado en la literatura que la tasa de reconocimiento puede mejorarse si se incorpora a la base de conocimiento la información estadistica del comportamiento de los objetos de interés [DESH99], [LUET96], [MOVE95], [RUSS96].

    La base de conocimiento es un elemento importante en análisis y reconocimiento de patrones, por lo cuál, se describen brevemente los pasos que se siguen durante este análisis.

    1.3.1 Elementos del análisis de imágenes

    Como puede observarse en la figura 1 . I , de acuerdo con González [GONZ96] el espectro de técnicas para el análisis de imágenes puede dividirse en tres áreas: a) procesado de bajo nivel, b) procesado de nivel intermedio, y c) procesado de alto nivel. Los bloques de líneas discontinuas se solapan, indicando que no existen limites definidos entre los diferentes procesos. El procesado de bajo nivel trata de un tipo de funciones a las que se puede considerar como reacciones automáticas y que no requieren inteligencia por parte del sistema' de análisis de imágenes. El procesado de.'nivel intermedio se refiere a la labor de extracción y caracterización de los componentes de la imagen que se obtiene de un proceso a bajo nivel. El procesado de alto nivel comprende el reconocimiento y la interpretación de las imágenes. Cabe hacer notar que los tres niveles se encuentran comunicados con la base de conocimiento.

    I

    3

  • Análisis de métodos de inferencia estadística I Capítulo 1 aplicables al reconocimiento de patrones visuales Antecedentes

    de

    Conocimiento

    t Dominio j del ! problema

    M imágenes W

    M Resultado e

    interpretación

    Fig. 1.1 Elementos del análisis de imágenes [GONZ96].

    En la figura 1.2 se muestra de manera gráfica los pasos a seguir en el reconocimiento de patrones visuales del habla, siguiendo el esquema propuesto por González y en la figura 1.3 se muestra la incorporación de la máquina de inferencia estadística (MIE) dentro del esquema del reconocimiento de patrones propuesta en este trabajo de tesis.

    RECONOCIMIENTO DE PALABRAS

    Fig. 1.2 Pasos a seguir en el reconocimiento de patrones visuales del habla [JUNGOl].[GORD02]

    4

  • .- .~ 1 ~. .- .~ _ _ Análisis de métodos de inferencia estadistica aplicables al reconocimiento de patrones visuales. - Capítulo 1 Antecedentes . . . .

    Palabras del lenguaje español formadas por las letras del abecedario, incluyendo algunos signos de puntuación y algunos caracteres especiales para indicar una palabra faltante. Esta información proviene de la herramienta reconocedora que se encuentra en comunicación con la MIE (para nuestro caso se supone que existe alguna interfaz de comunicación entre ambas herramientas).

    PROCESADO DE IMAGENES( POR

    EJEMPLO DE ACUERDO A GONZALEZ

    Cálculos realizados por la Palabras del lenguaje MIE, utilizando una base español formadas por de conocimiento formada letras del abecedario así por un archivo de texto como sus respectivos que contiene oraciones del valores de probabilidad lenguaje español.

    ADQUiSiCi6N DE

    IMAGENES

    E C

    O C estadística I VALORES M I PROBABILIDAD E

    T N I V I gi RECONOCIMIENTO EXITOSO

    Fig. 1.3 Máquina de inferencia.estadística propuesta.

    La maquina de inferencia estadística (MIE) que se propone en este trabajo, se encuentra en comunicación con la herramienta de RP. Como ya se mencionó, el objetivo de la MIE es el de mejorar la tasa de reconocimiento proporcionando información estadística relacionada con el problema a resolver. La M E entra en acción cuando los resultados obtenidos por la herramienta de RP no son satisfactorios.

    Es conveniente aclarar que esta tesis no abarca temas relacionados con el reconocimiento de patrones ni utiliza técnicas para el reconocimiento de patrones visuales del habla, es decir, se da por hecho de que tal sistema existe realizando el proceso mostrado en ambas figuras y que de alguna forma ya se cuenta con la información previamente procesada, (los datos de entrada de la MIE) tal y como se describe en la tabla I.

    Tabla 1.1. Esquema del proceso de la MIE

    1.4 OBJETIVO

    Analizar los métodos de inferencia estadística aplicables al reconocimiento de patrones visuales del habla y proponer un modelo de inferencia estadística que ayude a mejorar la

    5

  • -

    Análisis de métodos de inferencia.estadistica Capítulo I Antecedentes aplicables al reconocimiento de patrones visuales

    tasa de reconocimiento aplicable a los casos mas representativos del RP visual del habla, ademas de cumplir con los siguientes atributos:

    I. - Modificación de la base de conocimiento de manera acumulativa. El objetivo de este atributo es poder adicionar a la base de conocimiento nueva información, de la misma forma en que si existiera un cambio en alguna de las restricciones, la base de conocimiento pueda modificarse sin llegar a afectar a la información ya existente.

    2. - Transparencia en la estructuración del conocimiento estadístico. Toda la información generada, así como los resultados deben ser entendibles por el usuario.

    3. - Capacidad de entrenamiento a partir de los datos del problema. Se pretende que el modelo propuesto pueda ser utilizado en diferentes contextos, siempre y cuando la información tenga comportamiento estadístico.

    4. - Capacidad de respuesta en un tiempo razonable. En general se espera que los sistemas reconocedores del habla tengan respuestas en tiempo real, no es el caso de este trabajo, lo que interesa es validar el modelo propuesto, se considera un tiempo razonable si el modelo da respuesta en segundos o minutos, sin llegar a convertirse en horas o días.

    5. - Capacidad de abstención. El modelo debe ser capaz de no dar una respuesta cuando la información utilizada durante el proceso k s e a desconocida.

    6. - Capacidad de respuesta múltiple con valor de confianza o certeza asociado. Se pretende que los resultados generados por el modelo generen estadísticas y cada resultado tenga un valor asociado para poder determinar cual de ellos es el más acertado.

    7. - Manejo de información numérica y/o simbólica. Se requiere que el modelo pueda, de preferencia, manejar ambos tipos de información.

    El modelo a seleccionar corresponderá al o los métodos que cumplan con la mayor parte de los atributos especificados anteriormente, a una modificación del método o a una combinación de dos o más métodos.

    1.4.1 Metodología

    El proyecto de tesis consta de las siguientes etapas:

    o

    o

    Analizar al menos tres métodos de inferencia estadística aplicables al problema del reconocimiento de patrones visuales del habla. Determinación y propuesta del mejor método de inferencia estadística aplicable acorde a los atributos establecidos. Implementación del método propuesto utilizando una herramienta computacional ya sea comerciar0 alguna aplicable disponible por la internet. Validación de los MSOS de prueba representativos del RP visual del habla.

    6

  • Análisis de métodos de inferencia estadística - ' I . . . . L . Capitulo 1 aplicables al reconocimiento de patrones Visuales Antecedentes

    1.4.2 Casos de aplicación

    Este trabajo incluye una etapa de experimentación para validar la herramienta seleccionada, al inicio de la propuesta de tesis se pretendía utilizar la base de conocimientos de Medina [MED198]. Esta base de conocimiento no se utilizó debido a que es muy pequeña, además de que no contiene la información necesaria aplicable a los métodos de inferencia estadísticos seleccionados.

    De acuerdo con la figura 1.2 y 1.3 se está dando por hecho de que ya se siguieron los procesos de adquisición de imágenes, preprocesado, segmentación, representación y reconocimiento o interpretación. En este último proceso, es donde se obtienen los vectores característicos que representan a cada una de las palabras de prueba, dando por hecho que existe una interfaz entre el sistema reconocedor. y la MIE. Los datos de salida de la herramienta reconocedora, después de un procesamiento previo, son los datos de entrada de la MIE.

    Para realizar las pruebas se utilizaron archivos de texto (datos previamente procesados por la interíaz entre la herramienta reconocedora y la MIE) y se considera como vector característico al conjunto de letras que forman una palabra. Esta representación facilita el proceso de pruebas y verificación de la herramienta.

    7

  • CAPíTULO 2

    MÉTODOS DE INFERENCIA ESTADíSTlCA

    2.1 INTRODUCCI~N

    En este capitulo se presentan los fundamentos teóricos así como matemáticos de los principales métodos de inferencia estadística aplicables al reconocimiento de patrones visuales del habla encontrados durante la revisión del estado del arte (anexo 3). Antes de entrar de lleno a esta revisión matemática. se presentan una serie de conceptos relacionados con la inferencia estadística y algunos conceptos básicos de la teoría de probabilidad y teoría de grafos.

    2.2

    Muchos de los fenómenos observables presentan una naturaleza aleatoria, y estos fenómenos pueden analizarse acoplándolos convenientemente a un modelo matemático (en este caso estocástico). La inferencia Estadística es una rama de la Estadistica que se ocupa de contrastar los resultados que se deriven de este modelo con sus análogos en la realidad observable [CRIS95].

    LQUÉ ES LA INFERENCIA ESTADkTICA?

    a

  • bqJiiiUi" L

    Métodos de Inferencia Estadistica -

    Análisis de métodos de inferencia estadistica aplicables al reconocimiento de patrones visuales I . . .~ . .~

    La forma en que se realiza la inferencia consiste en lo siguiente: Se parte de una cierta población base (conjunto de datos de interés) sobre la que hay definido un modelo estocástico que no está completamente especificado, y del cual se desea alguna indagación. Para ello se extrae de dicha población una muestra (conjunto de individuos de la población), que será seleccionada por algún procedimiento aleatorio, y con cuya información se realizan inferencias sobre alguna cuestión desconocida .del modelo planteado.

    De este modo, mientras en el Cálculo de Probabilidades, para un modelo estocástico dado, el problema es ¿qué se puede decir sobre los resultados?: en la Inferencia Estadistica se parte de un conjunto de resultados y el problema es ¿,qué se puede decir sobre el modelo probabilistico?

    A continuación se muestra un ejemplo típico de inferencia estadística en donde la población base es finita.

    Ejemplo: Se desea obtener información acerca del tiempo que tardan en realizar una determinada actividad los obreros de una fábrica (población), en principio, puede suponerse que dicha duración puede representarse por medio de una variable aleatoria distribuida.

    Posteriormente se extrae una muestra de los obreros de la fábrica en donde todos tengan la misma probabilidad de ser elegidos, y además de forma independiente, no importando que un individuo pueda aparecer dos o más veces en la muestra (muestra aleatoria simple).

    Por ultimo, se observa la duración de la tarea en todos los individuos de la muestra, y con estos datos se estiman los valores de los parámetros del modelo de la forma más ajustada posible en algún sentido.

    Respecto a la muestra que se toma, cabe destacar que debe representar adecuadamente a la poblaci¿n, así en el ejemplo anterior si tomamos en la muestra los obreros que son más rápidos, según alguna información a priori que se tenga, tal muestra no será representativa. Existen muy variados tipos de muestre0 que se acoplan mejor o peor a situaciones particulares y concretas, pero el más importante es aquél en el que los individuos de la muestra se extraen al azar, con probabilidad uniforme y de modo independiente unos de otros (CRIS951.

    De acuerdo a [MEND861 puede establecerse que la estadística trata del diseño de experimentos o encuestas mediante muestras para obtener una cantidad determinada de información a un costo mínimo y del uso Óptimo de esta información para hacer inferencias con respecto a una población a partir de la información contenida en una muestra y proporcionar una medida correspondiente a la inferencia.

    En un sentido más amplio, hacer inferencias implica la descripción parcial o total de un fenómeno y objeto físico. Se encuentran pocas dificultades si existen medidas descriptivas apropiadas y significativas, pero esto no siempre es así. Por ejemplo, es fácil describir a una persona mediante su estatura, peso, color de cabello y ojos, y otras medidas descriptivas de su fisonomia. Encontrar un conjunto de medidas descriptivas para definir una pintura al óleo sería un trabajo comparativamente más dificil, al igual que la descripción de una población que está formada por un conjunto de mediciones. Por consiguiente un preludio necesario a la explicación de cómo hacer inferencias, es la elaboración de un método para describir un

    9

  • Análisis de métodos de inferencia estadística aplicables al reconocimiento de patrones visuales

    Capítulo 2 Métodos de Inferencia Estadística

    conjunto de números. La descripción debe ser tal que el conocimiento de las medidas descriptivas permita tener una apreciación clara del conjunto de datos.

    La probabilidad juega un papel importante al hacer inferencias estadísticas. Los especialistas en probabilidad suponen que conocen la estructura del fenómeno en cuestión, la población y utilizan la teoría de la probabilidad para hacer inferencias con respecto a una muestra.

    2.3 CONCEPTOS BÁSICOS DE PROBABILIDAD

    Para muchos personas el término "probabilidad" indica la posibilidad de ocurrencia de un evento futuro. Esta interpretación práctica puede considerarse aceptable, pero se pretende lograr una comprensión más precisa del contexto de su aplicación, de cómo se mide y de qué manera se utiliza la probabilidad para hacer inferencias.

    El concepto de probabilidad es necesario cuando se opera con procesos físicos, biológicos y sociales que generan observaciones que no son factibles de predecir con exactitud. Por ejemplo, no se puede predecir con certeza la presión arterial de una persona en un momento dado, y nunca se conoce la carga exacta que soporta un puente antes de derrumbarse y caer. Tales sucesos o eventos aleatonos no se pueden predecir con exactitud, pero la frecuencia relativa con la cual ocurren en una gran serie de observaciones es a menudo estable. Los eventos que poseen esta propiedad se denominan eventos aleatorios o estocásticos. Esta frecuencia relativa estable da una medida intuitiva pero significativa de la posibilidad de ocurrencia de un evento aleatorio en una observación futura. Este concepto de frecuencia relativa de la probabilidad tiene sentido intuitivamente, pero no proporciona una definición estricta de probabilidad. Se han propuesto muchos otros conceptos de probabilidad, incluyendo el de una probabilidad subjetiva que se modifica de acuerdo con la persona que realiza la evaluación. No se requiere de una aclaración petfecta del significado práctico de probabilidad para establecer una teoría, pero es absolutamente necesario si se desea aplicarla para alcanzar la meta práctica de hacer inferencias, que se ha definido como el objetivo de la estadística. Para fines prácticos se acepta la interpretación basada en la frecuencia relativa como una medida significativa de la confianza (o cetieza) de una persona en la ocurrencia de un evento, y ahora se tratará la relación que la probabilidad proporciona entre la observación y la inferencia.

    Antes de comenzar a describir los métodos de inferencia estadística aplicables al reconocimiento de patrones visuales del habla, se presentan algunas definiciones básicas relacionadas con la teoría de probabilidad [BEND96], [DIEZ99].

    2.3.1 Espacio de probabilidades

    Definición: Espacio finito de probabilidades

    Sea E un conjunto finito y sea Puna función de E de los números reales no negativos (RI) tal que:

    (2.1)

  • Análisis de métodos de inferencia estadistica ,c Capítulo 2 aplicables al reconocimiento de patrones visuales' . * ' r . Métodos de Inferencia Estadistica

    Siendo E el conjunto de eventos y P(e) la probabilidad de que el evento e ocurra, o más brevemente, la probabilidad de e . El par (E ,P) es definido como espacio de probabilidad (finito). Los elementos de E son denominados eventos, y P las distribuciones de probabilidad.

    Definición : Eventos compuestos.

    Sea (E ,P) un espacio de probabilidad. Un subconjunto del conjunto finito E es llamado evento compuesto. Para un evento compuesto A c E se define:

    (2.2)

    El evento compuesto, formado por el subconjunto de elementos de E que no están en A, es denominado negación o complemento de A y es denotado por -A Ó ,4 Ó E - A.

    Definición : Variable aleatoria.

    Sea (E ,P) un espacio de probabilidades y sea S un conjunto. La función X : E + S denomina variable aleatoria.

    Una variable aleatoria es aquella que toma valores que a pfiofi, no se conocen con certeza. En esta definición "a prior? significa "antes de conocer el resultado de un acontecimiento, de un experimento o de una elección al azar".

    Definición:

    Sea X una variable aleatoria en el espacio de probabilidades (E ,P), si X = s es un evento compuesto, entonces P(X = s) - se lee " la probabilidad de que X = s" - es la probabilidad de ese evento compuesto. P o n se define como la función cuyo dominio es el rango de X y cuyo valor en s es P(X = s).

    2.3.2 Independencia, correlación y causalidad

    La idea principal detrás del término independencia es que conociendo cierta información, ésta no proporciona información adicional acerca de algo más.

    Definición: Valores independientes.

    Se dice que dos valores x e y de dos variables X e Y respectivamente son independientes sii P(x,y) = P(x) * Ph).

    Definición: Valores correiacionados.

    Dos valores x e y de dos variables X e Y respectivamenfe están correlacionados sii no son independientes, es decir, si¡ P(x,y) #P(x) - P @ . Cuando P(x,y) > P(r) - P ( y l , se dice que hay correlación positiva. Cuando P(x,y) < P(x) -P(yl , se dice que hay correlación negativa.

    se

    Probabilidad de una variable aleatoria.

    11

    . .

  • ~ . ~~~~ - Análisis de métodos de inferencia estadistica aplicables al reconocimiento de patrones visuales

    Capitulo 2 Métodos de Inferencia Estadistica

    Definición: Variables independientes

    Dos variables X e Y son independientes sil todos los pares de valores x e y son independientes, es decir si¡:

    VX,VY, P ( X , y) = P(x ) . P(Y) (2.3)

    Definición: Variables correlacionadas

    Dos variables X e Y están correlacionadas si¡ no son independientes, es decir si¡: %3Y, P(X,Y) f P(X)'P(Y) (2.4)

    Definición: Valores condicionalmente independientes.

    Sean tres valores x, y, z de las variables X, Y, y Z, respectivamente tales que P(z)>O, x e y son condicionalmente independientes dado z, cii P(x.y(z) = P(x(z)-P(y(z)

    Definición; Variables condicionalmente independientes.

    Las variables X e Yson condicionalmente independientes dada una tercera variable Z si¡ todo par de valores x e y es condicionalmente independiente para cada z tal que P(') > O, es decir sii:

    Vx,Vy,Vz, P ( z ) > o 3 P l x , y 1 z) = P f n ~ z ) . P ( y 1 z) (2.5)

    Definición: Independencia de eventos compuestos

    Sea ( E ,P) un espacio de probabilidad, y sea Ai. A2 c E . Si:

    W A , A A , ) = P í A , ) P ( A , )

    se dice que A, y A? son independientes. En forma general, si para cada subconjunto A = {Aji, ..., Alk} de {A,, .._,An} se tiene que:

    P(A,, A. . .AA,~ I B ) = P ( A , B ) . . .P(Ajk IB) (2.6)

    entonces se dice que las Ai son eventos (mutuamente) independientes dado B.

    Si P(B) I O, una formulación equivalente de la afirmación de que A y B son independientes es P(A 1 B) = P(A). Por otro lado, si P(B) = O, entonces P(A A B ) = O. En otras palabras,

    A y B son independientes o P(A A B ) = P(A) P(B) e o cualquiera de: P(B) = O Ó P(A 1 B) = P(A)

    intuitivamente, P(A 1 B) = P(A) indica que B ha ocurrido y no proporciona información acerca de la ocurrencia de A. Debido a que P(A A B ) = P(A) P(B) es simétrica, se concluye que P(B 1 A ) = P(R).

    12

    . .

  • Análisis de métodos de inferencia estadística aplicables al reconocimiento de patrones visuales

    capitulo 2 Métodos de Inferencia Estadistica

    Definición de causalidad. "En su significado más general, la relación entre dos cosas, en virtud de la cual la segunda es unívocarnente previsible a partir de la primera. Nicola Abbagnano" [GALLOO].

    Francisco Diez [DIEZ991 menciona que la causalidad es distinta de la correlación, es decir que la causalidad implica correlación pero no a la inversa. Esto puede observarse con el siguiente ejemplo: suponga que se tienen estos dos eventos: "Mucha gente está utilizando ropa primaveral" y "la gente se está enfermando de gripa" y estos eventos están sucediendo repetidamente. ¿Será esto una coincidencia? ¿Será a caso que el uso de ropa primaveral CAUSA que la gente se esté enfermando de gripa?, o ¿será acaso que el tener gripa CAUSA que la gente use ropa primaveral?, o es que 'existe un tercer evento que cause los otros dos?, puede suponerse que estos 2 eventos pudieran ser coincidencia [WORT02].

    2.3.2.1 Independencia de variables aleatorias

    Definición:

    Sea (E ,P) un espacio de probabilidad y sean Xl.,...,Xn y W un par discreto de conjuntos disjuntos de variables aleatonas en E . Decimos que las X, son (mutuamente) independientes dado Wsi:

    Independencia de conjuntos de variables aleatorias

    P(X, u. . . x, 1 W) = P(X, 1 W). . . P(X,, 1 W ) (2.7)

    Teorema: Propiedades de independencia de las variables aleatorias.

    Sean W, X, Yl Z pares de conjuntos disjuntos de variables aleatonas en un espacio de probabilidad. Sea I(X,Y,Z) indicando que Xy Z son independientes dado r; esto es P(Xu Z I Y) = P(X I Y) P(Z I Y) o, su equivalente, P (XI Y u Z) = P (XI Y), entonces:

    ( a ) I(X Z, FJ implica I f l Z, x) @) I& Z2 Y u W) implica I(x, Z, FJ (2.8) (c) I(X Z, Y u W) implica I@, Z,uW; 13 (4 I(X. Z, Y) y I(X Z U Y, w) juntos implican I(X Z, Y u w)

    2.3.3 Definiciones de probabilidad

    Definición: Probabilidad conjunta.

    Dado un conjunto de variables discretas k = {XI ,..., X } , definimos la probabilidad conjunta como una aplicación que a cada n-upla = (X I , ..., a) se le asigna un número real no negativo de modo que:

    p y x ) = .. .I P(x, , . . . ,qz) = 1 (2.9) 1 AI 5

    en donde P(xl, ..., xn) indica la probabilidad de que, para cada i, la variablex. tome el valorx,.

    13

  • Análisis de métodos de inferencia estadística aplicables al reconocimiento de patrones visuales

    Capitulo 2 Métodos de Inferencia Estadistica

    Definición: Probabilidad marginal.

    Dada una distribución de probabilidad conjunta P(x, ,..., xn), la probabilidad marginal para un

    subconjunto de variables = {XI,. . . , X’,,.} c x viene dada por:

    P ( 2 ) = P(X’, , . . . ,Y”.) = P ( x , , . . . x,) x,{A’,eF

    12.10)

    2.3.4 Probabilidad condicional y Teorema de Eayes

    “Pero si la probabilidad es una medida de la importancia de nuestro estado de ignorancia, debería de cambiar su valor cuando adicionamos nuevo conocimiento”. (Thornton C. Fry 1928).

    La probabilidad de un evento variara dependiendo de la ocurrencia o no de uno o más eventos relacionados. La probabilidad condicional de un evento es la probabilidad (la frecuencia relativa de ocurrencia) del evento, dado el hecho de que ya ocumeron uno o más eventos.

    Sean A y B dos eventos compuestos en algún espacio de probabilidad. Suponga que ha ocurrido algún evento simple e. Entonces P(B) es la probabilidad que e E E , dado el conocimiento inicial de la situación como lo refleja P. Intuitivamente, la probabilidad condicional P(B 1 A) es la probabilidad de que e E B cuando se ha dado información adicional de que e E A .

    Definición: Probabilidad condicional.

    Sea (E , P ) un espacio de probabilidades y A G E tal que P(A) # O . Defina un nuevo espacio de probabilidad (E ,A por:

    P(e) / P( A) , si e E A, 0, si e e A.

    (2.11)

    Para cualquier B c E , P(E I A) la probabilidad condicional de B dado A, igual a fp). Se dice que las probabilidades han sido condicionadas en A . Note que siA = E entonces P(e I E ) = P (e). En este caso se sabe que e E A y no proporciona información adicional. Si P(A) = O, defina P(e 1 A) de cualquier manera que sea consistente con su distribución de probabilidad sobre E .

    Tedrerna:

    Sea (E ,P) un espacio de probabilidades. Si C E E tiene P(C) f O, entonces:

    Propiedades de la probabilidad condicional.

    14

  • Análisis de métodos de inferencia estadistica aplicables al reconocimiento de patrones visuales

    Capitulo 2 Métodos de Inferencia Estadistica

    (b ) Si A c B c E entonces O I P ( B I C) 5 1;

    (2.12)

    (2.1 3)

    ( c ) Si A , B c: E entonces

    ( d ) Si A , B c E entonces

    ( e ) S i A i c c para l l i l n y A i n A j = O i # jentonces

    (2.14) P ( A A B 1 C)+ P ( A A ~ I C ) = P ( A I C )

    P ( A v B I C) = P ( A I C)+ P ( B I C - P ( A A B I C) (2.15)

    P ( A , v A, v .. .v A, IC) = (2.16) P ( A , I C ) + P ( A , I C) +. . . + P(A,, I C)

    ( f ) S i A c E , B , u - ... B , , = E y B , n B j = O i # j entonces P ( A ) = P ( A I B , ) P ( B , ) + . . . + P ( A 1 B, ,P(B, ) (2.17)

    Teorema de Bayes

    Sea (E ,P) un espacio de probabilidades y sean4 H,, ..., Hkeventos compuestos, ninguno tiene probabilidad cero, entonces:

    Si además P(H, A A ) # O para toda i, entonces:

    (2.18)

    (2.19)

    En donde las Hi’s generalmente representan hipótesis competitivas las cuales particionan E . El evento A puede ser visto como evidencia, el cual causa cambio de las probabilidades a priori P(HJ para las diferentes hipótesis a las nuevas probabilidades P(H,IA) que toma para cálculo de la evidencia A. La utilidad del teorema de Bayes se basa en el hecho de que se necesita información acerca de la probabilidad de una hipótesis dada alguna evidencia, pero la información disponible generalmente es la probabilidad de la hipótesis dada la evidencia. Este teorema indica corno convertir un conjunto de probabilidades en otro. Una debilidad del teorema es el hecho de que puede ser difícil asignar las probabilidades a priori. Debido a que el teorema de Bayes utiliza evidencias para llegar a conclusiones acerca de las hipótesis, puede ser considerado como una forma de razonamiento estadístico.

    2.4 REDES BAYESIANAS .

    Las redes bayesianas utilizan el concepto de inferencia bayesiana y representan las relaciones entr,e eventos independientes y la probabilidad de cada uno de ellos. Estas

    15

  • Análisis de métodos de inferencia estadistica aplicables al reconocimiento de patrones visuales

    Capitulo 2 Métodos de Inferencia Estadistica

    probabilidades algunas veces son referidas como "creencias" y generalmente, las redes bayesianas son llamadas también "redes de creencia".

    Antes de iniciar con la definición formal de red bayesiana, se proporcionan una sene de conceptos relacionados con la teoría de grafos.

    2.4.1 Teoría de grafoc

    Definición:

    Sea Vun conjunto. Un grafo dirigido o digrafo, es el conjunto Vjunto con un subconjunto E de Vx V , en donde ves el conjunto de nodos y E es un conjunto de arcos definidos sobre los nodos. Se denota el dígrafo por (I: E).

    Gráficamente se representa como sigue: los nodos x, E V son indicados por sus nombres. Un arco (u,v) E E es representado por una línea o curva que conecta los nodos y al final una flecha que indica la dirección de u a v.

    Definición:

    Ciclo. Es una sucesión de nodos {XI ,... XN} que perteneces a un grafo ( V , E), tal que (a) X f 4 para I s i 2 j 5 V, (b) para todo i < V existe en E un arco (Xi, ,YlLr) y (c) existe además un arco (XM X).

    Bucle. Sucesión de nodos [Xr ,...&}pertenecientes a un grafo (V . E ) tal que (a)) X, #qpara 1 s i s j 2 V, (b) para todo i < Vexiste en E un arco (& X I ) Ó (A',,,.,, &), (c) existe además un arco (X , , X I ) ó (XI, X,) y (d) los arcos no forman un ciclo.

    Un grafo dirigido sin ciclos es referido como grafo aciclico dirigido (DAG por sus siglas en inglés).

    Sea ( K E ) un DAG y hágase v E V. Se define:

    G rafos di rig idos.

    Grafos acíclicos dirigidos y conceptos relacionados.

    C ( V ) = ( U E V ~ ( U , V ) E ' E } D (v) = ( w E VI existe una trayectoria de v a w) A ( v ) = { x E V / x # v Y x & L " ( v ) u J ( v ) / '

    En donde C (v) son los padres o causas de v y D (v) son los descendientes de v. Debido a que un DAG no tiene ciclos, C (v) n D (v) = O. Así, (VI, A (v). C (v) y D (v) son particiones de V - par de conjuntos disjuntos cuya unión es Y.

    La figura 2.1 muestra un ejemplo de un grafo acíclico dirigido

    16

  • Análisis de métodos de inferencia estadística aplicables al reconocimiento de patrones visuales Capítulo 2 Métodos de Inferencia Estadistica

    Fig. 2.1 Ejemplo de un grafo acíclico dirigido

    Se dice que Xes padre de Ysii existe un arco ( X n . Yes un hijo deXsii existe un arco (xy. X es un antepasado de 2 si¡ existe (al menos) un nodo Y tal que X e s padre de Y e Y es antepasado de Z. Z es un descendiente de X sii Xes un antepasado de 2. La familia X es el conjunto formado por X y los padres de X.

    Nodo terminal. Es el nodo que no tiene hijos

    Camino. Un camino entre X I y X, en una sucesión de nodos {X, ,..., X,} pertenecientes a un grafo (V, E ) tal que X, # para 1 s i i j s Vy además:

    (X,;X+l) E E Ó (X,,, X,,) E E V i , I< ii V

    Es decir, dos nodos consecutivos X,. y X v 1 están unidos por un arco del primero al segundo o viceversa. Obsérvese que esta definición corresponde a lo que se conoce como camino abiefio.

    Tanto el ciclo como el bucle corresponden a lo que a veces se denomina caminos cerrados simples. La diferencia es que en un ciclo los arcos van de cada nodo al siguiente (nunca a la inversa), mientras que la definición de bucle permite que los arcos tengan cualquiera de los dos sentidos, con la única condición de que no formen un ciclo. Las redes bayesianas suelen contener bucles pero por definición nunca pueden contener ciclos.

    Grafo conexo. Un grafo es conexo si entre dos cualesquiera de sus nodos hay al menos un camino.

    Grafo simplemente conexo. Un grafo es simplemente conexo si entre dos cualesquiera de sus nodos hay exactamente un camino, es decir es un grafo conexo que no contiene ni ciclos ni bucles.

    Grafo múltiplemente conexo. Es el que contiene ciclos o bucles.

    Poliárbol. Es un grafo dirigido simplemente conexo. La diferencia entre árbol y poliárbol es que, en el primero, cada nodo tiene como máximo un padre.

    Definición: Separación

    La variable 2 separa las variables X e Y sii éstas dos Últimas son condicionalmente independientes dada Z.

    17

  • Análisis de métodos de inferencia estadística aplicables al reconocimiento de patrones visuales

    Capítulo 2 Métodos de Inferencia Estadistica

    Definición: Separación direccional (d-separation)

    Dos variables A y B en una red causal son d-separadas si para todos los caminos entre A y B existe una variable V intermedia tal que:

    - -

    la conexión es serial o divergente y el estado de Ves conocido Ó la conexión es convergente y ninguna V ó cualquiera de los descendientes de V han recibido evidencias.

    Dado un grafo dirigido acíclico convexo y una distribución de probabilidad sobre sus variables, se dice que hay separación direccional si, dado un nodo X, el conjunto de sus padres C (x) separa condicionalmente este nodo de otro subconjunto Y en que no haya descendientes de X e s decir:

    P ( X 1 C(X)>Y) = P(x I C(x)) (2.20)

    Definición ; Red bayesiana.

    Sea (E , P) un espacio de probabilidad con E = E I , . .., E k. Sea X, la proyección sobre E ¡. Sea (X A ) un DAG con X={Xi ,... Xk/. Se denomina (X, A , P) red bayesiana si, para todas IasX, E V y todas las W c A (X.), X, y W son independientes dado C(XJ. En la notación I del teorema 2.3, Z({X,.), C(X.), W). En términos de P, si P(W u C(X,)) z O entonces:

    P ( X , I w u C ( X , )) = P ( X , ~ C ( X , )) (2.21)

    La ecuación anterior indica que si se conocen las causas de Xi, sólo X,. o sus descendientes pueden proporciona información acerca de X,..

    No hay necesidad de mencionar que E en ( X , A , P) debido a que: !I

    & = rungo (X,) x. . . x rango (X,) (2.22) Debido a que los asignación de valores a X,, ..., Xk da un eventocompuesto que consiste de un evento (e ¡,... ek) se conoce a P cuando se conoce P ( 3 . Así que el espacio de probabilidades en la definición está dado por las ecuaciones 2.21 y 2.22.

    Un concepto que es importante y no es definido matemáticamente en el manejo de las redes bayesianas es el de causalidad, pero una de sus consecuencias está definida en la ecuación 2.21, ésta expresa la idea que sólo las causas inmediatas son relevantes en la determinación de la naturaleza del efecto. La causa inmediata está representada por un DAG, (2.21) una representación cualitativa (el DAG) con sus consecuencias numéricas (independencia). La causalidad juega un papel importante sólo proporcionando el significado de la interpretación real del problema en una red bayesiana.

    Teorema:

    Para propósitos de este teorema, hágase f una función de variable aleatoria si:

    Probabilidades en las redes bayesianas

  • Capitulo 2 Métodos de Inferencia Estadística

    Análisis de métodos de inferencia estadística aplicables al reconocimiento de patrones visuales

    (i)

    (ii)

    sus argumentos son (conjuntos de) variables aleatorias, pero el dominio es el valor de las variables aleatorias que puede tomar y su rango proporcione un número real no .negativo.

    En otras palabras, f se comporta como Pen sus argumentos.

    Sea X={X, ,...Xk) un conjunto de funciones, cada una de las cuales tiene un rango finito.

    (a) Si ( X , A , P) es una red bayesiana,

    (2.23)

    (b) Contrariamente si (X,A ) es un DAG y si f ( X IC (4) es una función de variable aieatoria tal que C,f(X I C ( X ) ) = I entonces:

    (2.24)

    define el espacio de probabilidad para el cual (X , A, P ) es una red bayesiana. Además, P(XI C (4) es O 6 f ( X I C (4).

    Debido a que P(X) determina (E , P), los productos en (a) y en (b) determinan completamente (E ,P). De (a) podemos observar que las probabilidades en cualquier red bayesiana pueden ser obtenidas del conozimiento de los valores de las probabilidades condicionales P f l , I C (XJ) simplemente multiplicándolas. Si realmente se cumple la condición de independencia, tendremos P r ( X ) = n P ( X ) . En cambio tenemos que condicionar X sobre sus causas inmediatas. De (b), se observa que solamente es necesario poner una restricción en las probabilidades condicionales, es decir, para cada i, el valor resultante toma el valor de la probabilidad condicional.

    2.4.2

    Una red bayesiana (bayesian net - BN) es un grafo acíclico dirigido convexo que cumple con la propiedad de separación direccional y se representa gráficamente como un conjunto de nodos conectados por medio de arcos. Los nodos representan variables (en un determinado dominio) y los arcos entre los nodos representan las relaciones de (in)dependencia probabilística (efectos causales) entre las variables.

    Para almacenar las relaciones entre los nodos, las redes bayesianas tienen distribuciones de probabilidad asociadas con cada relación entre nodos y los posibles estados de salida para cada nodo en la red. Estos estados deben ser mutuamente exclusivos. En otras palabras, el total de las probabilidades de todas las posibles variables de estados deben ser iguales al 100% y todos los posibles estados deben ser tomados en cuenta para esta contabilización.

    Definición formal de red bayesiana

    19

  • Análisis de métodos de inferencia ectadistica aplicables al reconocimiento de patrones visuales

    Capitulo 2 Métodos de Inferencia Estadística

    Una vez que la red bayesiana tiene su estructura definida, se deben estimar las probabilidades iniciales relacionadas con los nodos. Estas probabilidades iniciales son llamadas probabilidades a priori. En el caso de los nodos raíz (no tienen nodos padres) las probabilidades a priori simplemente indican la posibilidad de ocurrencia de cada uno de los estados de ese nodo. Para todos los demás nodos, las probabilidades a priori deben ser definidas para cada una de las posibles combinaciones de entrada. Cuando la red es evaluada, las probabilidades de uno o más nodos pueden cambiar cuando llega nueva evidencia.

    Si existe un cambio en las probabilidades, se tiene que recalcular nuevamente las probabilidades de la red. Este nuevo calculo se propaga a traves de toda la red ajustando dichas probabilidades. Las probabilidades a posteriori son las nuevas probabilidades de que un estado de un nodo en particular ocumrá dado un valor de uno de los estados del nodo hijo.

    En la práctica, existen dos tipos de información que pueden ser aplicados a las redes bayesianas cuando éstas son evaluadas. El primer tipo es simplemente una revisión de probabilidades para uno de los nodos. La probabilidad examinada, por supuesto incide a traves de la red y cambia otras probabilidades relevantes. El otro tipo de información, la más importante, es una declaración definida del estado de un nodo en particular. Esto se denomina en algunas ocasiones instanciación, y puede tener mayores efectos en la red. La instanciación es la parte principal de cualquier diagnóstico en una red debido a que representa la respuesta a una pregunta [PLA197].

    En general una BN puede ser utilizada para calcular la probabilidad condicional de un determinado nodo (conociendo las probabilidades de los otros nodos), una BN también puede ser utilizada como clasificador ya que proporciona la distribución de pmbabilidad a posferiori del nodo si se conocen los valores de los otros atributos. Cuando se realiza el aprendizaje de BNs por medio de bases de datos, se utilizan los nodos para representar los atributos del conjunto de datos [CHEN99].

    2.4.3 Limitaciones

    Varios autores[PLA197]. [NIED98] coinciden que el uso de las redes bayesianas en aplicaciones reales presentan varios problemas, el primero es la dificultad computacional de calcular las probabilidades cuando la red es muy grande y es dificil de propagar nueva información a través de toda la red ya que ésta crece exponencialmente con el número de nodos en la red. El segundo problema se centra en la calidad y el alcance de las creencias a priori utilizadas en el proceso de inferencia bayesiana. Una red bayesiana es útil sólo cuando su conocimiento a priori es confiable. Una expectativa optimista o pesimista de la calidad de estas creencias a priori, distorsionarán toda la red e invalidará los resultados. La selección de un modelo de distribución estadística apropiado que describa los datos, tiene un efecto notable en la calidad de la red resultante.

    2.4.4 Análisis de criterios establecidosan el capítulo 1

    En esta sección se analizan los atributos que debe cumplir el método de inferencia estadística a utilizar.

    . , . ~ , - . . . > ,

    *_ .,,: . .. . .. . I . . ., I . ,

    20

  • . .~

    . . * Capitulo 2 Análisis de métodos de inferencia estadística . f-, aplicables al reconocimiento de patrones visuales ' . Métodos de Inferencia Estadistica

    1) ~Odificación de la base de conocimiento de manera acumulativa. Con respecto a este criterio, las redes bayesianas si pueden modificar la base de conocimiento debido a que si llega nueva información, ésta se adiciona además de tener que recalcular todas las probabilidades de la red. Una de las desventajas es el tamaño de la red, si ésta es muy grande, el tiempo que tarda en calcular puede llegar a ser muy elevado y computacionalmente puede ser costoso debido a los requerimientos de hardware.

    2) Transparencia en la estructuración del conocimiento estadístico. Uno de los problemas en las redes bayesianas es asignar las probabilidades a priori y dependiendo de la calidad de estas probabilidades los resultados pueden ser confiables o no. AI estar evaluando un nodo de la red, los valores de creencia pueden variar dependiendo de la información que se tenga relacionada.

    3) Capacidad de entrenamiento a partir de los datos del problema. En los Últimos años se han desarrollado varios algoritmos.para el aprendizaje de la estructura de una red bayesiana. Generalmente estos algoritmos pueden clasificarse en dos grupos: algoritmos de búsqueda y puntaje, algoritmos basados en el análisis de dependencias, aunque algunos de estos algoritmos son buenos para evaluar los resultados en conjuntos de datos, aún existen varios problemas:

    O Se requiere que los nodos estén ordenados. Vanos de los trabajos realizados anteriormente asumen que el ordenamiento de los nodos está disponible. Desafortunadamente en la mayoría de los casos esto no sucede.

    Muchos de los algoritmos actuales no necesitan la ordenación de los nodos, pero generalmente no son muy eficientes. Todos los algoritmos prácticos basados en el análisis de dependencias necesitan de pruebas de independencia condicional exponenciales.

    O Ausencia de herramientas de aprendizaje disponibles públicamente. Aunque existen varios algoritmos de aprendizaje, sólo algunos cuantos sistemas de aprendizaje de redes neuronales esthn disponibles públicamente (CHEN981.

    O Falta de eficiencia.

    4) Capacidad de respuesta en un tiempo razonable. Dependerá del tamaño de la red, si es muy grande, al momento de introducir nueva información, el tiempo computacional crece exponencialmente dependiendo del número de nodos.

    5) Capacidad de abstención. Como las redes bayesianas tienen asignados un conjunto de probabilidades en cada nodo, siempre dará una respuesta en base a los datos de los nodos.

    6) Capacidad de respuesta múltiple con valor de confianza o certeza asociado. AI realizar inferencias en una red bayesiana, obtenemos la probabilidad de que ocurra un evento dada una determinada observación, los resultados que se obtienen son aquellos que tengan la mayor probabilidad de ocurrencia.

    Manejo de información numérica y/o simbólica. Las redes bayesianas pueden manejar ambas informaciones, ya que cada nodo tiene asociado un nombre de una variable y sus valores pueden ser tanto numéricos como simbólicos.

    7)

    CENTRO DE INFORMACION SEP CENIDET

    21

  • Análisis de métodos de inferencia estadística aplicables al reconocimiento de patrones visuales

    Capítulo 2 Métodos de Inferencia Estadística

    Comentarios

    De acuerdo a lo descrito anteriormente, las redes bayesianas son una herramienta poderosa para la representación del conocimiento bajo condiciones de incertidumbre. Como puede observarse en el apartado anterior, esta herramienta cumple con 6 de los 7 criterios establecidos en el capitulo 1.

    2.5 REDES PROBABlLíSTlCAS DINÁMICAS

    El campo de aplicación de las redes bayesianas se ha difundido ampliamente gracias a su representación del conocimiento e inferencia bajo condiciones de incertidumbre. Una de las caracteristicas del campo de aplicación de las redes bayesianas es su naturaleza estática, esto es, cada cantidad observable es vista una vez y la certeza de las observaciones restantes no es cuestionada. Sin embargo existen ciertos dominios en donde hay observaciones repetidas relacionadas con una colección de datos aleatonos (medicina, economía, biología), para dichos dominios, un modelo estático no es muy útil: la estimación de las distribuciones de probabilidad de las variables del dominio están basadas en el conocimiento a priori y la observación de otras variables es confiable sólo por un lapso de tiempo limitado, y más aún, con la llegada de nuevas observaciones, estas últimas y las observaciones pasadas deben ser tomadas en cuenta para el proceso de razonamiento. De este modo, para trabajar con sistemas dinámicos utilizando redes probabilísticas, se necesitan interconectar múltiples instancias de redes estáticas. Esto introduce al concepto de redes probabilísticas dinámicas.

    En la figura 2.2 se muestra una DPN formada por vanos bloques repetidos infinitamente

    ,-Modelo de evolución del estado

    I Modelo del sensor

    Fig. 2.2 Estructura genérica de una red dinámica probabilistica, mostrando esquemáticamente las variables de estado X y las variables de evidencia E. El sensor del modelo describe P(E,JXJ y el modelo del proceso describe P(Xf+ ' t

    I I.&. . . . .

    , I~ . . .,.:r'

    22

  • - . . .~ Análisis de métodos de inferencia estadística . aplicables al reconocimiento de patrones visuales

    . > < A 1. . . Capitulo 2 Métodos de Inferencia Estadistica

    particular0 en un intervalo de tiempo [KJAEQZ], es decir, representan la evolución del estado de creencia en el tiempo. El tiempo es discretizado en bloques o porciones de tiempo, en donde cada bloque es Una Copia de una red probabilística. Cada bloque de tiempo consiste en un conjunto de variables sensoras y de observac/ón. Generalmente, las observaciones de estos bloques son tomadas en tiempo regulares.

    Las variables en el bloque t-ésimo representan el estado del proceso en el tiempo t. Se asume por simplicidad que las variables dentro de un bloque pueden ser divididas en variables de estado Xt, las cuales siempre están ocultas, y las variables de evidencia Et, las cuales siempre son observables. Se asume que sólo los bloques adyacentes están conectados, y que la estructura topológica así como las distribuciones condicionales son idénticas para todos los bloques. Esto significa que DPN es descrita definiendo la estructura e interconectividad de los dos primeros bloques y posteriormente éstos son “desplegados” N veces, para proporcionar espacio de almacenamiento para tener los valores de Xt y Et para t E io, NI. Los nodos de estado sombreados de gris oscuro han sido inferidos en bloques de tiempo anteriores. Los nodos censores sombreados en gris claro han sido definidos a partir de observaciones. Las tablas de probabilidad condicional de los nodos de observación, establecen un modelo sensor el cual señala que tanto el estado verdadero influye en los valores de observación. Las ligas internas y las tablas de probabilidad condicional establecen el modelo de evolución de estado el cual describe el cómo cambian los estados de un bloque de tiempo a otro.

    2.5.1

    El método general de inferencia en una DPN es primero fijar los valores de los nodos de observación para el bloque de tiempo actual. Estas observaciones o evidencia propagan su evidencia utilizando algún algoritmo de inferencia. La complejidad de la inferencia varía con la topología de la red.

    A cada paso de tiempo, un nuevo bloque de tiempo se adiciona. La red puede crecer muy rápido y realizar operaciones sencillas puede llegar a ser imposible. Para conservar un tamaño constante de la red, los bloques anteriores son removidos del lado izquierdo de la red en cuando nuevos bloques son adicionados en un proceso conocido como predicción- estimación (roll up). La influencia del bloque pasado debe ser incorporada primeramente en el nuevo lado izquierdo cambiando las probabilidades a priori. El proceso también requiere en algunos casos que se reestructure la red, cuando las relaciones de independencia condicional puedan cambiar. Todas estas operaciones mantienen a la red en un tamaño constante, pero dichas operaciones aún son costosas computacionalmente [FORB96].

    2.5.2 Ventajas y desventajas

    Si existe sólo una variable oculta y una variable observable por bloque de tiempo, una DPN es equivalente a un modelo oculto de Markov. La principal ventaja de las DPNs sobre los HMMs surge cuando el estado puede ser descompuesto en varias variables de estado. Si cada variable de estado es directamente influenciada por un número constante de otras variables, entonces el número de parámetros requeridos para especificar la DPN será lineal en el número de variables de estado, mientras que para los HMMs estándar, esto es

    Inferencia en redes probabilísticas dinámicas

    23

  • Analisis de mbtodos de inferencla estadistm Capitulo 2 Metodos de Inferencia Estadistica aplicables al reconocimiento de patrones v6uales - - ~

    exponencial. Esta reducción hace la inferencia y el aprendizaje mucho más eficiente [BIND97].

    Los filtros Kalman pueden ser vistos como un caso especial de una DPN de variables continuas en la cual el modelo sensor se restringe a distribuciones gaussianas y el modelo del proceso se restringe a que sea lineal con ruido del tipo gaussiano.

    Estas redes tienen ventajas significativas sobre sus competidores como los filtros Kalman, los cuales manejan sólo distribuciones a posteriori unimodales y modelos lineales, y los modelos ocultos de Markov, cuya parametrización crece exponencialmente con el número de variables de estado, ;Los experimentos realizados en [ZWE198]; muestran que las DPNs pueden mejorar a los HMMs en tareas estándar del reconocimiento del habla.

    2.5.3 Análisis de criterios establecidos en el capítulo 1

    1) Modificación de la base de conocimiento de manera acumulativa. Como se mencionó anteriormente, las DPN's representan modelos dinámicos, es decir, representan el estado de un sistema en un punto en particular en un intervalo de tiempo, estos modelos no son estáticos y van cambiando en los diferentes intervalos de tiempo. De aquí que la base de conocimiento tiene que modificarse de tal forma en que pueda utilizarse la información de observaciones pasadas, esto se realiza mediante una reducción del modelo para ir eliminando partes de la red del lado izquierdo y la nueva información que llega se agrega del lado derecho. La información transmitida por la parte eliminada debe de estar representada completamente en la parte restante.

    2) Transparencia ' en la estructuración del conocimiento estadístico. AI igual que las redes bayesianas, uno de los problemas es asignar las probabilidades a priori y dependiendo de la calidad de estas probabilidades los resultados pueden ser confiables o no. El proceso que se realiza para actualizar las probabilidades cuando se eliminan observaciones pasadas, no es muy transparente al usuario, y se debe tener cuidado en que estos valores de probabilidad estén presentes en la parte actual del modelo, además de que esta información no debe de tener efecto en cálculos posteriores, es decir, se asume que los bloques de tiempo cumplen con la propiedad de Markov: el futuro es condicionalmente independiente del pasado dado el presente.

    3) Capacidad de entrenamiento a partir de los datos del problema. Estas redes están formadas por ¡una secuencia de submodelos. generalmente de estructura idéntica interconectados por relaciones temporales, y cada submodelo representa el estado de un sistema dinámico en un intervalo de tiempo en particular. De aquí que las DPNs puedan utilizar los datos del problema para entrenarse (siempre y cuando pueda generarse un modelo que represente el problema en particular).

    4) Capacidad de respuesta en un tiempo razonable. AI igual que las redes bayesianas dependerá del tamaño de la red.

    5) Capacidad de abstención. Estas redes representan un estado en particular en un determinado intervalo de tiempo por lo tanto siempre generarán una respuesta.

    24

  • - Análisis de métodos de inferencia estadlstica aplicables ai reaxmimiab de patrones visuales Capitulo 2 Métodos de Inferencia Estadistica

    6, Capacidad de ESPUeSta múltiple con valor de confianza 0 certeza asociado, L~~ r e s u k b s generados tienen asociado un valor de probabilidad, no se encontraron casos en donde estas redes puedan dar respuestas múltiples

    7) Manejo de i n fomadn numérica y10 simb6lica. AI igual que las redes bayesianas cada nodo tiene asociado el nombre de una variable, por lo tanto, podria utilizarse ambos tipos de información etiquetándose cada nodo.

    Comentarios

    Como puede observarse este tipo de redes es muy similar a las redes bayesianas con la diferencia de que las DPNs son utilizadas para modelar procesos que van cambiando en el tiempo. Cumple con 5 de los 7 criterios establecidos en el capitulo 1, uno menos que las redes Bayesranas.

    2.6 CADENAS DE MARKOV

    Un proceso de Markov (o sistema de Markov) es un modelo matemático utilizado en el estudio de sistemas complejos. Se dice que un sistema ocupa un estado cuando éste es completamente descrito por los valores de las variables que definen el estado. El sistema realiza transiciones entre los estados cuando sus variables descriptivas cambian de un valor específico de un estado a otro.

    Si un sistema de Markov se encuentra en el estado i, existe una probabilidad fija, a, que va hacia el estado j en el siguiente paso, y aV es llamada probabilidad de iransici6n.

    Un sistema de Markov puede ilustrarse por medio de un diagrama de transici6n de estados, el cual es un diagrama que muestra todos los estados y las probabilidades de transición. La matriz A cuyas entradas son a, es llamada mafni de transicidn asociada con el sistema. Las entradas en cada fila suman uno. En la figura 2.3 se muestra un ejemplo de un sistema de Markov así como su matriz de transición WANE97J.

    o . ,., I. I

    Fig. 23 Sistema de Markov y cu matriz de transición [WANESV.

    Una cadena de Markov es un proceso de Markov en el que las probabilidades de transición no dependen del tiempo y la probabilidad de que ocurra un evento depende únicamente de la probabilidad del evento anterior (propiedad de Markov).

    25

  • Análisis de métodos de inferencia esiadistica aplicables al reconocimiento de paimnes visuales

    Capitulo 2 Métodos de Inferencia Estadistica

    Formalmente una cadena de Markov puede especificarse por.

    - - -

    un conjunto de N posibles estados Q = {q7, 4z9..-4d. una distribución inicial de probabilidad de cada estado n=bi, nzS-..?d.

    l=qi), es decir la probabilidad de pasar del estado i al estado i. matriz de probabilidades de transición de estados A ='(ad, donde p(xt = 4i I xt-

    2.7 MODELOS OCULTOS DE MARKOV

    Un modelo oculto de Markov (Hidden Markov Model - HMM) está formado por un conjunto de estados finitos y cada uno de estos estados tiene asignada una probabilidad de transición para pasar de un estado a otro. Con el tiempo las transiciones de estados pueden ocumr estocásticamente y al igual que en los procesos de Markov estas transiciones dependen en cualquier tiempo sólo del estado precedente. Los estados de un modelo oculto de Markov no son directamente observables y únicamente se pueden ver a través de una secuencia de símbolos [RAB186]. [LEDS98].

    Podemos describir formalmente un modelo oculto de Markov como:

    T = longitud de la secuencia de observaciones (número de símbolos producidos) N = Número de estados en el modelo. M = numero de posibles simbolos de salida. Q = {ql, 9z...,qd conjunto de estados. V = {vi,va ..., v,J conjunto de posibles símbolos de salida. A = {ad, ay = P(q, en t+7 I 91 en t) probabilidad de transición de estados. B = @,#)I, 6,fk) = P(vk en t I q en t ) probabilidad de salida en el estado j . x = {ni}, ni = P(gien t = 7) probabilidad del estado inicial. 0 = {Oí,oa ... or}, secuencia de símbolos de salida (observaciones). h = {A, 6, n}. conjunto completo de parámetros del modelo oculto de Markov.

    Una vez que el sistema ha sido descrito como un HMM, se pueden obtener tres tipos de información. Dos de los primeros están relacionados con el reconocimiento de patrones:

    a) Dada la secuencia de observaciones O = (o,, 02, .... oT) y el modelo h = (A, 6, z), calcular la probabilidad de la secuencia de observaciones dado el modelo, P(0lh)'.

    b) Dada la secuencia de observaciones O = (ol,o &...,or) encontrar una secuencia de estados ocultos S = SI, $2, ... ,S,que sea óptimaz.

    c) Ajustar los parámetros del modelo h = (A, B, n) para maximizar P(O(k)3.

    2.7.1 Algoritmos de los modelos ocultos de Markov

    A continuación se describen los 3 tipos de algoritmos que resuelven los problemas dados en los incisos a, b y c.

    Se utiliza el algoritmo de evaluación o forward. Se utiliza el algoritmo Viterbi. Se utiliza el algoritmo Eaum-Welch (forward-backward)

    1

    2 3

    26

  • .~ ~apiiu1o2

    Métodos de Inferencia Estadistica Análisis de métodos de inferencia estadistica aplicables al reconocimiento de patrones visuales

    2.7.1.1 Algoritmo de evaluación (forward)

    Para encontrar cual es el modelo más probable P(0 I X) que pudo haber producido la secuencia de observaciones, se necesita calcular la probabilidad de la secuencia de observación O = {oi,o2 ,...,or} dado el modelo h = (A, 8, n) . Se puede calcular esta cantidad utilizando argumentos simples de probabilidad, pero los cálculos involucran operaciones numéricas del orden Nr. Esto puede llegar a ser muy tardado si la secuencia de T es grande. Por fortuna existe un método de menor complejidad y utiliza una variable auxiliar llamada variable hacia adelante a,(¡). Esta variable es definida como la probabilidad parcial de la secuencia de observaciones 01, 02, ..., Or, cuando finaliza en el estado i. Matemáticamente:

    a,(i) = P(o,,o,, . .. o,, q, = i l A) (2.25)

    y se puede observar fácilmente que se puede obtener la siguiente función recursiva:

    iV

    a,,, ( j ) = bj(o,+,)Xa,( i ) a,, 1 5 j 5 N , 1 5 5 T -1 (2.26) , = I

    en donde: a , ( j ) =IT .b . (o , ) , 1 5 j 5 N

    I f

    y utilizando recursion se puede calcular:

    a,(i), i á i á N

    entonces la probabilidad requerida está dada Por:

    (2.27)

    La complejidad del método hacia adelante es proporcional a PT, el cual es lineal con respecto a T, mientras que el cálculo directo mencionado al principio tiene complejidad exponencial.

    De manera similar puede definirse una variable de retroceso (backward variable) h(i) como la probabilidad de la secuencia de observación parcial ot+,, &+a,.., o ~ d a d o el estado actual f .

    Matemáticamente se tiene:

    P,(i> = P(o ,+ , , o ,+~ , . . . ol. I q, = i , A 1

    como en el caso de a+(,) existe una relación recursiva que puede ser utilizada para calcular h(i) eficientemente:

    (2.28)

    f

    27

  • Análisis de métodos de inferencia estadística aplicables al reconocimiento de patrones visuales

    Capitulo 2 Métodos de Inferencia Estadistica

    N

    P,(i) = ~P,+, ( i )a ,b , (o ,+ , ) , j = l I á i á N , l

  • ~. - Análisis de métodos de inferencia estadistica aplicables al reconocimiento de patrones visuales Capitulo 2 Métodos de Inferencia Estadistica

    j * = a r g rnux6,(j) Iqchz

    e iniciando desde este estado, se buscahacia atrás la posible secuencia de estados. Esto, proporciona el conjunto de estados requeridos. Todo el algoritmo puede ser interpretado como un algoritmo de búsqueda en un grafo cuyos nodos están formados por los estados del HMM en cada instante de tiempo t, 1

  • Análisis de métodos de inferencia estadística aplicabies al reconocimiento de patrones visuales

    Capitulo 2 Métodos de Inferencia Estadistica

    (2.36)

    esto es la probabilidad de estar en el estado i en f = t, dado el modelo y la secuencia de observaciones. Expresado en variables de avance y retroceso se tiene:

    1

    Se pu