Aprendizado de Máquina Simbólico José Augusto Baranauskas [email protected] Departamento de...

40
Aprendizado de Máquina Simbólico José Augusto Baranauskas [email protected] http://www.fmrp.usp.br/augusto Departamento de Física e Matemática – DFM Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto – FFCLRP Universidade de São Paulo – USP 5-13 de Maio de 2003 Ribeirão Preto, SP

Transcript of Aprendizado de Máquina Simbólico José Augusto Baranauskas [email protected] Departamento de...

Page 1: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

Aprendizado de MáquinaSimbólico

José Augusto Baranauskas

[email protected]://www.fmrp.usp.br/augusto

Departamento de Física e Matemática – DFMFaculdade de Filosofia, Ciências e Letras de Ribeirão Preto – FFCLRP

Universidade de São Paulo – USP

5-13 de Maio de 2003Ribeirão Preto, SP

Page 2: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

2

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Coleta de Dados

Pessoas são naturalmente observadoras

Page 3: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

3

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Coleta de Dados

Geralmente observamos processos que ocorrem na natureza ou criados pelo homem e tentamos compreendê-los

Page 4: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

4

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Coleta de Dados

Em algumas situações, um ser humano pode decidir medir ou coletar algumas variáveis (ou atributos) do processo em questão para facilitar a compreensão

Page 5: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

5

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Armazenamento de Dados

Memória humana Papéis ou fichas Arquivos texto ou planilhas

DBMS Data Marting ou Data Warehousing

Page 6: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

6

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Queries sobre os Dados

Embora o modo tradicional de interagir com os dados seja satisfatório para consultas bem definidas, ele não é projetado para responder questões do tipo É possível prever o comportamento do processo

em questão? Como os dados podem ser usados para construir

classificadores do processo a partir do qual os dados foram coletados?

Como entender melhor os dados e usá-los para obter algum tipo de vantagem ou tornar o processo melhor?

Page 7: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

7

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Aprendizado Indutivo Um sistema de aprendizado [supervisionado] é

um programa de computador que toma decisões baseadas na experiência contida em exemplos solucionados com sucesso(Weiss & Kulikowski 1991)

A indução é a forma de inferência lógica que permite obter conclusões genéricas sobre um conjunto particular de exemplos

Apesar da indução ser o recurso mais utilizado pelo cérebro humano, para derivar conhecimento novo, ela deve ser utilizada com cautela, pois se o número de exemplos for insuficiente, ou se os exemplos não forem bem escolhidos, as hipóteses obtidas podem ser de pouco valor

Page 8: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

8

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Exemplo Um cientista está pesquisando a audição das formigas A formiga está parada e o cientista dá um grito. A

formiga sai correndo. Ele então arranca uma das pernas da formiga, e dá

outro grito, da mesma intensidade que o primeiro. A formiga corre, mas não tão depressa como anteriormente

O cientista então arranca as outras pernas e dá outro grito. A formiga não corre. Então ele conclui que as formigas ouvem pelas pernas.

A conclusão, baseada no experimento do cientista, não é válida porque ele escolheu mal as características relevantes na determinação da audição das formigas

Page 9: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

9

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Hierarquia do Aprendizado

Aprendizadonão

Supervisionado

RegressãoClassificação

AprendizadoIndutivo

AprendizadoSupervisionado

Page 10: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

10

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Hierarquia do Aprendizado

Aprendizadonão

Supervisionado

RegressãoClassificação

AprendizadoIndutivo

AprendizadoSupervisionado

Efetuado a partir deexemplos externos

(coletados)

Page 11: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

11

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Hierarquia do Aprendizado

Aprendizadonão

Supervisionado

RegressãoClassificação

AprendizadoIndutivo

AprendizadoSupervisionado

Exemplosestão rotulados

(classe é conhecida)

Page 12: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

12

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Hierarquia do Aprendizado

Aprendizadonão

Supervisionado

RegressãoClassificação

AprendizadoIndutivo

AprendizadoSupervisionado

A classe é discreta

Page 13: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

13

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Exemplos Considerando dados sobre pacientes, um médico

pode diagnosticar se eles possuem ou não problemas cardíacos. Com base nos diagnósticos, o médico pode rotular os pacientes como saudáveis, doentes ou inconclusivos, determinando, desta forma, os rótulos que podem ser usados por um indutor para aprender o conceito sobre problemas cardíacos

Por outro lado, considerando um processo que adquire informações sobre as condições meteorológicas, tais como pressão atmosférica, temperatura, umidade relativa e tipo de condição (dia ensolarado, chuvoso, chuvisco, etc), é possível utilizar o tipo de condição como o rótulo da classe para ser utilizada por um indutor para aprender o conceito de tipo de condição atmosférica

Page 14: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

14

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

DadosBrutos

Especificaçãodo Problema

Conhecimentodo Domínio

Conhecimentodo Domínio

Indutor

Especialista

Avaliação

Classificador

X1 X2 X3 X4 X5 X6 X7 Y 53 male 140 true 3.1 down 0 sick 60 male 140 fal 3 flat 0 sick 40 male 140 true 1.4 up 0 buff 57 male 165 fal 1 flat 3 sick 60 male 130 true 1.4 up 1 sick 46 fem 138 true 0 flat 0 buff 43 male 110 fal 0 up 0 buff 58 male 120 fal 1.8 flat 0 sick 55 male 160 true 0.8 flat 1 sick 41 male 120 fal 0 up 0 buff 52 male 172 fal 0.5 up 0 buff 62 fem 138 fal 1.9 flat 3 sick 43 male 120 true 2.5 flat 0 sick 47 male 110 true 1 flat 1 sick 56 male 130 true 0.6 flat 1 sick

Processo de Aprendizado

Exemplos

Page 15: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

15

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

DadosBrutos

Especificaçãodo Problema

Conhecimentodo Domínio

Conhecimentodo Domínio

Indutor

Especialista

Avaliação

Classificador

X1 X2 X3 X4 X5 X6 X7 Y 53 male 140 true 3.1 down 0 sick 60 male 140 fal 3 flat 0 sick 40 male 140 true 1.4 up 0 buff 57 male 165 fal 1 flat 3 sick 60 male 130 true 1.4 up 1 sick 46 fem 138 true 0 flat 0 buff 43 male 110 fal 0 up 0 buff 58 male 120 fal 1.8 flat 0 sick 55 male 160 true 0.8 flat 1 sick 41 male 120 fal 0 up 0 buff 52 male 172 fal 0.5 up 0 buff 62 fem 138 fal 1.9 flat 3 sick 43 male 120 true 2.5 flat 0 sick 47 male 110 true 1 flat 1 sick 56 male 130 true 0.6 flat 1 sick

Processo de Aprendizado

Exemplos

CD pode ser usadopara fornecerinformação já

conhecida ao indutor

CD podeser usado

ao selecionaros dados

Page 16: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

16

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

DadosBrutos

Especificaçãodo Problema

Conhecimentodo Domínio

Conhecimentodo Domínio

Indutor

Especialista

Avaliação

Classificador

X1 X2 X3 X4 X5 X6 X7 Y 53 male 140 true 3.1 down 0 sick 60 male 140 fal 3 flat 0 sick 40 male 140 true 1.4 up 0 buff 57 male 165 fal 1 flat 3 sick 60 male 130 true 1.4 up 1 sick 46 fem 138 true 0 flat 0 buff 43 male 110 fal 0 up 0 buff 58 male 120 fal 1.8 flat 0 sick 55 male 160 true 0.8 flat 1 sick 41 male 120 fal 0 up 0 buff 52 male 172 fal 0.5 up 0 buff 62 fem 138 fal 1.9 flat 3 sick 43 male 120 true 2.5 flat 0 sick 47 male 110 true 1 flat 1 sick 56 male 130 true 0.6 flat 1 sick

Processo de Aprendizado

ExemplosO classificador

gerado é avaliadoe o processo

pode ser repetido

Page 17: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

17

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

DadosBrutos

Especificaçãodo Problema

Conhecimentodo Domínio

Conhecimentodo Domínio

Indutor

Especialista

Avaliação

Classificador

X1 X2 X3 X4 X5 X6 X7 Y 53 male 140 true 3.1 down 0 sick 60 male 140 fal 3 flat 0 sick 40 male 140 true 1.4 up 0 buff 57 male 165 fal 1 flat 3 sick 60 male 130 true 1.4 up 1 sick 46 fem 138 true 0 flat 0 buff 43 male 110 fal 0 up 0 buff 58 male 120 fal 1.8 flat 0 sick 55 male 160 true 0.8 flat 1 sick 41 male 120 fal 0 up 0 buff 52 male 172 fal 0.5 up 0 buff 62 fem 138 fal 1.9 flat 3 sick 43 male 120 true 2.5 flat 0 sick 47 male 110 true 1 flat 1 sick 56 male 130 true 0.6 flat 1 sick

Processo de Aprendizado

Exemplos

Classificador devefornecer uma

descrição compactado conceito

existente nos dados

Page 18: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

18

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Processo de Classificação de Novos Exemplos

DadosBrutos

Especificaçãodo Problema

Conhecimentodo Domínio

Conhecimentodo Domínio

Indutor

Especialista

Avaliação

Classificador

X1 X2 X3 X4 X5 X6 X7 Y 53 male 140 true 3.1 down 0 sick 60 male 140 fal 3 flat 0 sick 40 male 140 true 1.4 up 0 buff 57 male 165 fal 1 flat 3 sick 60 male 130 true 1.4 up 1 sick 46 fem 138 true 0 flat 0 buff 43 male 110 fal 0 up 0 buff 58 male 120 fal 1.8 flat 0 sick 55 male 160 true 0.8 flat 1 sick 41 male 120 fal 0 up 0 buff 52 male 172 fal 0.5 up 0 buff 62 fem 138 fal 1.9 flat 3 sick 43 male 120 true 2.5 flat 0 sick 47 male 110 true 1 flat 1 sick 56 male 130 true 0.6 flat 1 sick

Exemplos

ClassificarNovos Exemplos

ExemplosNão Rotulados(sem classe)

Exemplos Rotulados(com classe)

X1 X2 X3 X4 X5 X6 X7 53 male 140 true 3.1 down 0 60 male 140 fal 3 flat 0 40 male 140 true 1.4 up 0 57 male 165 fal 1 flat 3 60 male 130 true 1.4 up 1 46 fem 138 true 0 flat 0 43 male 110 fal 0 up 0 58 male 120 fal 1.8 flat 0 55 male 160 true 0.8 flat 1 41 male 120 fal 0 up 0 52 male 172 fal 0.5 up 0 62 fem 138 fal 1.9 flat 3 43 male 120 true 2.5 flat 0 47 male 110 true 1 flat 1 56 male 130 true 0.6 flat 1

X1 X2 X3 X4 X5 X6 X7 Y 53 male 140 true 3.1 down 0 sick 60 male 140 fal 3 flat 0 sick 40 male 140 true 1.4 up 0 buff 57 male 165 fal 1 flat 3 sick 60 male 130 true 1.4 up 1 sick 46 fem 138 true 0 flat 0 buff 43 male 110 fal 0 up 0 buff 58 male 120 fal 1.8 flat 0 sick 55 male 160 true 0.8 flat 1 sick 41 male 120 fal 0 up 0 buff 52 male 172 fal 0.5 up 0 buff 62 fem 138 fal 1.9 flat 3 sick 43 male 120 true 2.5 flat 0 sick 47 male 110 true 1 flat 1 sick 56 male 130 true 0.6 flat 1 sick

Page 19: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

19

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Aprendizado Supervisionado Aprendizado Supervisionado (feedback)

Exemplo:par (x, f(x)) x é a entrada (vetor de atributos)

f(x) é a saída (f desconhecida!) Indução ou inferência indutiva: dada uma coleção de exemplos de

f, retornar uma função h que aproxima f. h é denominada uma hipótese (classificador)

(a) (b)

(c) (d)

Page 20: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

20

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Tipos de Classificador Não Simbólico ou Caixa-preta

Não facilmente interpretado por humanos Desenvolve sua própria representação de

conceitos Não fornece esclarecimento ou explicação sobre

o processo de classificação Simbólico ou Orientado a conhecimento

Cria estruturas simbólicas que podem ser compreendidas por seres humanos

”Os resultados da indução devem ser descrições simbólicas das entidades dadas... devem ser compreensíveis como simples ‘pedaços’ de informação, diretamente interpretáveis em linguagem natural...” (Michalski 1983a)

Page 21: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

21

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Exemplo: Árvore de Decisão

Patient´stemperature

37

noyes

> 37

healthy sick

no yes

healthy

sick

Has patientpain?

Is patient feeling good?

Is patient feeling good = yes : healthyIs patient feeling good = no ::...Has patient pain = no : :...Patient’s temperature <= 37: healthy : Patient’s temperature > 37: sick Has patient pain = yes : sick

Page 22: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

22

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Winconsin Breast Cancer Data

Citation Request: This breast cancer databases was obtained from the

University of Wisconsin Hospitals, Madison from Dr. William H. Wolberg. If you publish results when using this database, then please include this information in your acknowledgements.

1. Title: Wisconsin Breast Cancer Database (January 8, 1991)

2. Sources: -- Dr. WIlliam H. Wolberg (physician) University of Wisconsin Hospitals Madison, Wisconsin USA -- Donor: Olvi Mangasarian

([email protected]) Received by David W. Aha ([email protected]) -- Date: 15 July 1992...4. Relevant Information: Samples arrive periodically as Dr. Wolberg reports

his clinical cases. The database therefore reflects this chronological grouping of the data. This grouping information appears immediately below, having been removed from the data itself:

Group 1: 367 instances (January 1989) Group 2: 70 instances (October 1989) Group 3: 31 instances (February 1990) Group 4: 17 instances (April 1990) Group 5: 48 instances (August 1990) Group 6: 49 instances (Updated January 1991) Group 7: 31 instances (June 1991) Group 8: 86 instances (November 1991) ----------------------------------------- Total: 699 points (as of the donated datbase on

15 July 1992)

5. Number of Instances: 699 (as of 15 July 1992)

6. Number of Attributes: 10 plus the class attribute

7. Attribute Information: (class attribute has been moved to last column)

# Attribute Domain -- ----------------------------------------- 1. Sample code number id number 2. Clump Thickness 1 - 10 3. Uniformity of Cell Size 1 - 10 4. Uniformity of Cell Shape 1 - 10 5. Marginal Adhesion 1 - 10 6. Single Epithelial Cell Size 1 - 10 7. Bare Nuclei 1 - 10 8. Bland Chromatin 1 - 10 9. Normal Nucleoli 1 - 10 10. Mitoses 1 - 10 11. Class: (2 for benign, 4 for malignant)

8. Missing attribute values: 16

There are 16 instances in Groups 1 to 6 that contain a single missing

(i.e., unavailable) attribute value, now denoted by "?".

9. Class distribution: Benign: 458 (65.5%) Malignant: 241 (34.5%)

Page 23: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

23

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Winconsin Breast Cancer Data

7. Attribute Information: (class attribute has been moved to last column)

# Attribute Domain -- --------------------------------------- 1. Sample code number id number 2. Clump Thickness 1 - 10 3. Uniformity of Cell Size 1 - 10 4. Uniformity of Cell Shape 1 - 10 5. Marginal Adhesion 1 - 10 6. Single Epithelial Cell Size 1 - 10 7. Bare Nuclei 1 - 10 8. Bland Chromatin 1 - 10 9. Normal Nucleoli 1 - 10 10. Mitoses 1 - 10 11. Class: (2 for benign, 4 for malignant)

1000025,5,1,1,1,2,1,3,1,1,2 1002945,5,4,4,5,7,10,3,2,1,2 1015425,3,1,1,1,2,2,3,1,1,2 1016277,6,8,8,1,3,4,3,7,1,2 1017023,4,1,1,3,2,1,3,1,1,2 1017122,8,10,10,8,7,10,9,7,1,4 1018099,1,1,1,1,2,10,3,1,1,2 1018561,2,1,2,1,2,1,3,1,1,2 1033078,2,1,1,1,2,1,1,1,5,2 1033078,4,2,1,1,2,1,2,1,1,2 1035283,1,1,1,1,1,1,3,1,1,2 1036172,2,1,1,1,2,1,2,1,1,2 1041801,5,3,3,3,2,3,4,4,1,4 ...

Page 24: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

24

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Winconsin Breast Cancer Data

Read 699 cases (10 attributes)

Decision Tree:

Uniformity of Cell Size <= 2::...Bare Nuclei <= 3:: :...Uniformity of Cell Shape <= 2: 2 (372.6): : Uniformity of Cell Shape > 2:: : :...Single Epithelial Cell Size <= 3: 2 (30.8): : Single Epithelial Cell Size > 3: 4 (2.0): Bare Nuclei > 3:: :...Clump Thickness <= 3: 2 (11.6): Clump Thickness > 3:: :...Bland Chromatin > 2: 4 (8.1/0.1): Bland Chromatin <= 2:: :...Marginal Adhesion <= 3: 4 (2.0): Marginal Adhesion > 3: 2 (2.0)Uniformity of Cell Size > 2::...Uniformity of Cell Shape <= 2: :...Clump Thickness <= 5: 2 (19.0/1.0) : Clump Thickness > 5: 4 (4.0) Uniformity of Cell Shape > 2: :...Uniformity of Cell Size > 4: 4 (177.0/5.0) Uniformity of Cell Size <= 4: :...Bare Nuclei <= 2: :...Marginal Adhesion <= 3: 2 (11.4/1.2) : Marginal Adhesion > 3: 4 (3.0) Bare Nuclei > 2: :...Clump Thickness > 6: 4 (31.8/1.0) Clump Thickness <= 6: :...Uniformity of Cell Size <= 3: 4 (13/2) Uniformity of Cell Size > 3: :...Marginal Adhesion <= 5: 2 (5.8/1.0) Marginal Adhesion > 5: 4 (5.0)

Evaluation on training data (699 cases):

Decision Tree ---------------- Size Errors 16 11( 1.6%) <<

(a) (b) <-classified as ---- ---- 450 8 (a): class 2 3 238 (b): class 4

Time: 0.2 secs

Page 25: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

25

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Winconsin Breast Cancer Data

Read 699 cases (10 attributes)

Options:Pruning confidence level 75%Test requires two branches with >= 1 items

Decision tree:

Uniformity of Cell Size <= 2::...Bare Nuclei <= 3:: :...Uniformity of Cell Shape <= 2: 2 (372.6): : Uniformity of Cell Shape > 2:: : :...Single Epithelial Cell Size <= 3: 2 (30.8): : Single Epithelial Cell Size > 3: 4 (2.0): Bare Nuclei > 3:: :...Clump Thickness <= 3: 2 (11.6): Clump Thickness > 3:: :...Marginal Adhesion > 8: 2 (1.0): Marginal Adhesion <= 8:: :...Bland Chromatin > 1: 4 (9.1/0.1): Bland Chromatin <= 1:: :...Clump Thickness <= 7: 2 (1.0): Clump Thickness > 7: 4 (1.0)Uniformity of Cell Size > 2::...Uniformity of Cell Shape <= 2: :...Clump Thickness > 5: 4 (4.0) : Clump Thickness <= 5: : :...Bare Nuclei <= 7: 2 (18.0) : Bare Nuclei > 7: 4 (1.0) Uniformity of Cell Shape > 2: :...Uniformity of Cell Size <= 4: :...Bare Nuclei <= 2: : :...Marginal Adhesion > 3: 4 (3.0) : : Marginal Adhesion <= 3: : : :...Normal Nucleoli <= 7: 2 (10.4/0.2) : : Normal Nucleoli > 7: 4 (1.0) : Bare Nuclei > 2: : :...Clump Thickness <= 6: : :...Uniformity of Cell Size <= 3: : : :...Clump Thickness > 5: 2 (1.0) : : : Clump Thickness <= 5: : : : :...Bare Nuclei > 7: 4 (6.0) : : : Bare Nuclei <= 7: : : : :...Single Epithelial Cell Size <= 3: 4 (5.0) : : : Single Epithelial Cell Size > 3: 2 (1.0)

: : Uniformity of Cell Size > 3: : : :...Marginal Adhesion > 5: 4 (5.0) : : Marginal Adhesion <= 5: : : :...Uniformity of Cell Shape <= 4: 2 (3.8) : : Uniformity of Cell Shape > 4: : : :...Marginal Adhesion <= 2: 4 (1.0) : : Marginal Adhesion > 2: 2 (1.0) : Clump Thickness > 6: : :...Uniformity of Cell Size <= 3: 4 (10.0) : Uniformity of Cell Size > 3: : :...Mitoses <= 1: 4 (13.8) : Mitoses > 1: : :...Bare Nuclei > 8: 4 (6.0) : Bare Nuclei <= 8: : :...Clump Thickness <= 9: 2 (1.0) : Clump Thickness > 9: 4 (1.0) Uniformity of Cell Size > 4: :...Clump Thickness > 6: 4 (106.0) Clump Thickness <= 6: :...Marginal Adhesion <= 1: :...Bland Chromatin <= 3: 2 (2.0) : Bland Chromatin > 3: 4 (2.0) Marginal Adhesion > 1: :...Uniformity of Cell Shape > 7: 4 (31.0) Uniformity of Cell Shape <= 7: :...Mitoses > 1: 4 (13.0) Mitoses <= 1: :...Single Epithelial Cell Size <= 4: 4 (11.0) Single Epithelial Cell Size > 4: :...Clump Thickness > 5: :...Normal Nucleoli <= 8: 2 (2.0) : Normal Nucleoli > 8: 4 (1.0) Clump Thickness <= 5: :...Normal Nucleoli <= 8: 4 (7.0) Normal Nucleoli > 8: :...Clump Thickness <= 4: 2 (1.0) Clump Thickness > 4: 4 (1.0)

Evaluation on training data (699 cases): Decision Tree ---------------- Size Errors 38 0( 0.0%) <<

(a) (b) <-classified as ---- ---- 458 (a): class 2 241 (b): class 4

Time: 0.1 secs

Page 26: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

26

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Genetics Data1. Title of Database: Primate splice-junction gene sequences (DNA) with associated imperfect domain theory

2. Sources: (a) Creators: - all examples taken from Genbank 64.1 (ftp site:

genbank.bio.net) - categories "ei" and "ie" include every "split-gene" for primates in Genbank 64.1 - non-splice examples taken from sequences known not to

include a splicing site (b) Donor: G. Towell, M. Noordewier, and J. Shavlik, {towell,shavlik}@cs.wisc.edu, [email protected] (c) Date received: 1/1/92

4. Relevant Information Paragraph: Problem Description: Splice junctions are points on a DNA sequence at which

`superfluous' DNA is removed during the process of protein creation in higher organisms. The problem posed in this dataset is to recognize, given a sequence of DNA, the boundaries between exons (the parts of the DNA sequence retained after splicing) and introns (the parts of the DNA sequence that are spliced out). This problem consists of two subtasks: recognizing exon/intron boundaries (referred to as EI sites), and recognizing intron/exon boundaries (IE sites). (In the biological community, IE borders are referred to a ``acceptors'' while EI borders are referred to as ``donors''.)

Attributes predicted: given a position in the middle of a window60 DNA sequence elements (called "nucleotides" or "base-pairs"),decide if this is a a) "intron -> exon" boundary (ie) [These are sometimes called

"donors"] b) "exon -> intron" boundary (ei) [These are sometimes called

"acceptors"] c) neither (n)

Results of study indicated that machine learning techniques (neural networks, nearest neighbor, contributors' KBANN system) performed as well/better than classification based on canonical pattern matching (method used in biological literature).

5. Number of Instances: 3190

6. Number of Attributes: 62 -- class (one of n, ei, ie) -- instance name -- 60 sequential DNA nucleotide positions

7. Attribute information: Attribute #: Description: ============ ============ 1 One of {n ei ie}, indicating the class. 2 The instance name. 3-62 The remaining 60 fields are the sequence, starting at

position -30 and ending at position +30. Each of these fields is almost always filled by one of

{a, g, t, c}. Other characters indicate ambiguity among the standard characters according to the following table:

character meaning--------- ---------------- D A or G or T N A or G or C or T S C or G R A or G

8. Missing Attribute Values: none

9. Class Distribution: EI: 767 (25%) IE: 768 (25%) Neither: 1655 (50%)

Page 27: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

27

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Genetics Data C,C,A,G,C,T,G,C,A,T,C,A,C,A,G,G,A,G,G,C,C,

A,G,C,G,A,G,C,A,G,G,T,C,T,G,T,T,C,C,A,A,G,G,G,C,C,T,T,C,G,A,G,C,C,A,G,T,C,T,G,EI

A,G,A,C,C,C,G,C,C,G,G,G,A,G,G,C,G,G,A,G,G,A,C,C,T,G,C,A,G,G,G,T,G,A,G,C,C,C,C,A,C,C,G,C,C,C,C,T,C,C,G,T,G,C,C,C,C,C,G,C,EI

G,A,G,G,T,G,A,A,G,G,A,C,G,T,C,C,T,T,C,C,C,C,A,G,G,A,G,C,C,G,G,T,G,A,G,A,A,G,C,G,C,A,G,T,C,G,G,G,G,G,C,A,C,G,G,G,G,A,T,G,EI

...

Page 28: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

28

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Genetics DataRead 3190 cases (60 attributes)

Decision tree:

A29 = N: EI (1.0)A29 in {D,S,R}: N (0.0)A29 = C::...A30 = A: N (125.0/1.0): A30 = T: N (133.0): A30 = C: N (118.0): A30 in {N,D,S,R}: N (0.0): A30 = G:: :...A31 = A: N (7.0): A31 = G: N (13.0): A31 = C: N (13.0): A31 in {N,D,S,R}: N (0.0): A31 = T:: :...A34 = A: N (1.0): A34 = T: N (3.0): A34 = G: EI (26.0/3.0): A34 = C: N (3.0): A34 in {N,D,S,R}: EI (0.0)A29 = T::...A34 = A: N (106.0): A34 = T: N (116.0): A34 = C: N (94.0/1.0): A34 in {N,D,S,R}: N (0.0): A34 = G:: :...A30 = A: N (13.0): A30 = T: N (19.0): A30 = C: N (22.0): A30 in {N,D,S,R}: N (0.0): A30 = G:: :...A31 = A: N (8.0): A31 = G: N (6.0): A31 = C: N (6.0): A31 in {N,D,S,R}: EI (0.0): A31 = T:: :...A33 = A: EI (52.0): A33 = T: N (2.0): A33 = G: N (3.0/1.0): A33 = C: EI (4.0/1.0): A33 in {N,D,S,R}: EI (0.0)

A29 = A::...A31 = A: N (118.0/1.0): A31 = G: N (97.0/1.0): A31 = C: N (102.0): A31 in {N,D,S,R}: N (0.0): A31 = T:: :...A30 = A: N (23.0): A30 = T: N (24.0): A30 = C: N (28.0): A30 in {N,D,S,R}: N (0.0): A30 = G:: :...A34 = A: N (6.0/1.0): A34 = T: N (5.0/1.0): A34 = C: N (8.0): A34 in {N,D,S,R}: EI (0.0): A34 = G:: :...A33 = A: EI (55.0/1.0): A33 = G: N (1.0): A33 = C: N (1.0): A33 in {N,D,S,R}: EI (0.0): A33 = T:: :...A28 = A: EI (4.0): A28 in {T,C,N,D,S,R}: EI (0.0): A28 = G: N (2.0)A29 = G::...A28 in {N,D,S,R}: IE (0.0) (restante da árvore foi omitido)

Evaluation on training data (3190 cases):

Decision Tree ---------------- Size Errors 169 117( 3.7%) <<

(a) (b) (c) <-classified as ---- ---- ---- 1588 19 48 (a): class N 9 752 6 (b): class EI 12 23 733 (c): class IE

Time: 0.7 secs

Page 29: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

29

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Tamanho da Hipótese

Erro

N1 N2 N3

Teste

Treinamento

Relação entre Tamanho da Hipótese e Erro

Page 30: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

30

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

GDM: Genome Data Mining

Tradicionalmente Dados são armazenados em arquivos É possível que um resumo desses dados sejam

colocados em uma base de dados que permita extrair alguns relatórios ou realizar consultas de uma forma limitada

GDM Todas as informações serão mantidas em um

modelo relacional de forma integrada Aplicação de algoritmos de Aprendizado de

Máquina como uma ferramenta de apoio à decisão a consultas relacionadas a modelos biológicos

Page 31: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

31

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Composição

Biblioteca Dados consolidados oriundos de diversos

bancos de dados disponíveis na Internet Dados gerados e consolidados localmente

(projetos locais) Área de Trabalho

Dados gerados e ainda não consolidados (projetos locais)

Page 32: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

32

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Alguns Bancos de Dados considerados no GDM

UniGene OMIM LocusLink HomoloGene Sage GenBank SWISS-PROT

GenPept PIR-Protein PROSITE Restriction Enzymes Pfam GB_New GP_New

Page 33: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

33

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Quais DB a serem consultados?

Dado um gene: qual método utilizado para mapeá-lo? quais seus homólogos? qual a função de sua proteína? a que

superfamília pertence? Domínio funcional? quais as doenças associadas? quais referências biblográficas sobre esse

gene? E referências cruzadas? quais tags associados?

Page 34: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

34

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Quais DB a serem consultados?

Dado um gene: qual método utilizado para mapeá-lo? (OMIM) quais seus homólogos? (HomoloGene) qual a função de sua proteína? a que

superfamília pertence? Domínio funcional? (PIR, SwissProt, GenPept, Pfam)

quais as doenças associadas? (OMIN, SwissProt) quais referências biblográficas sobre esse gene?

E referências cruzadas? (OMIN, PIR, SwissProt) quais tags associados? (Sage)

Page 35: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

35

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

PIR: Protein Information Resource

ENTRY Beginning-of-Entry TITLE ALTERNATE_NAMES CONTAINS ORGANISM #formal_name ... #common_name ... DATE #sequence_revision ... #text_change ... ACCESSIONS REFERENCE <Ref_num> REFERENCE BLOCK (repeated) #authors #journal | #book | #submission | #citation #title | #description #cross-references #contents #note #accession

ACCESSION BLOCK (repeated) ##status ##molecule_type ##residues ##label ##cross-references ##genetics ##note COMMENT COMMENTS (repeated) GENETICS GENETICS BLOCK (repeated) #gene #map_position #genome #genetic_code #start_codon #introns #note CLASSIFICATION #superfamily KEYWORDS FEATURE SUMMARY #length ... #moleculer-weight ... #checksum SEQUENCE ///

Page 36: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

36

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

SwissProtID GRAA_HUMAN STANDARD; PRT; 262 AA.AC P12544;DT 01-OCT-1989 (Rel. 12, Created)DT 01-OCT-1989 (Rel. 12, Last sequence update)DT 16-OCT-2001 (Rel. 40, Last annotation update)DE Granzyme A precursor (EC 3.4.21.78) (Cytotoxic T-lymphocyte proteinaseDE 1) (Hanukkah factor) (H factor) (HF) (Granzyme 1) (CTL tryptase)DE (Fragmentin 1).GN GZMA OR CTLA3 OR HFSP.OS Homo sapiens (Human).OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.OX NCBI_TaxID=9606;RN [1]RP SEQUENCE FROM N.A.RC TISSUE=T-cell;

RX MEDLINE=88125000; PubMed=3257574;RA Gershenfeld H.K., Hershberger R.J., Shows T.B., Weissman I.L.;RT "Cloning and chromosomal assignment of a human cDNA encoding a T...CC -!- FUNCTION: THIS ENZYME IS NECESSARY FOR TARGET CELL LYSIS IN CELL-CC MEDIATED IMMUNE RESPONSES. IT CLEAVES AFTER LYS OR ARG. MAY BECC INVOLVED IN APOPTOSIS.CC -!- CATALYTIC ACTIVITY: HYDROLYSIS OF PROTEINS, INCLUDING FIBRONECTIN,CC TYPE IV COLLAGEN AND NUCLEOLIN. PREFERENTIAL CLEAVAGE: ARG-|-XAA,CC LYS-|-XAA >> PHE-|-XAA IN SMALL MOLECULE SUBSTRATES.CC -!- SUBUNIT: HOMODIMER; DISULFIDE-LINKED.CC -!- SUBCELLULAR LOCATION: CYTOPLASMIC GRANULES.CC -!- SIMILARITY: BELONGS TO PEPTIDASE FAMILY S1; ALSO KNOWN AS THECC TRYPSIN FAMILY. STRONGEST TO OTHER GRANZYMES AND TO MAST CELLCC PROTEASES.DR EMBL; M18737; AAA52647.1; -.DR PIR; A28943; A28943.DR PIR; A30525; A30525.DR PIR; A30526; A30526.DR PIR; A31372; A31372.DR PDB; 1HF1; 15-OCT-94.DR MEROPS; S01.135; -.DR MIM; 140050; -.DR InterPro; IPR001254; Trypsin.DR Pfam; PF00089; trypsin; 1.DR SMART; SM00020; Tryp_SPc; 1.DR PROSITE; PS50240; TRYPSIN_DOM; 1.DR PROSITE; PS00134; TRYPSIN_HIS; 1.DR PROSITE; PS00135; TRYPSIN_SER; 1.KW Hydrolase; Serine protease; Zymogen; Signal; T-cell; Cytolysis;KW Apoptosis; 3D-structure.FT SIGNAL 1 26FT PROPEP 27 28 ACTIVATION PEPTIDE.FT CHAIN 29 262 GRANZYME A.FT ACT_SITE 69 69 CHARGE RELAY SYSTEM (BY SIMILARITY).FT ACT_SITE 114 114 CHARGE RELAY SYSTEM (BY SIMILARITY).FT ACT_SITE 212 212 CHARGE RELAY SYSTEM (BY SIMILARITY).FT DISULFID 54 70 BY SIMILARITY.FT DISULFID 148 218 BY SIMILARITY.FT DISULFID 179 197 BY SIMILARITY.FT DISULFID 208 234 BY SIMILARITY

Page 37: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

37

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

GDM: Genome Data Mining Definir uma estrutura capaz de manter as

informações não só para consultas e relatórios mais simples pelo grupo de pesquisa, mas também atue como uma ferramenta de apoio à decisão a consultas relacionadas a modelos biológicos

Todas as informações serão mantidas em um modelo relacional de forma integrada

Abordagem nova que proporcionará aos usuários um alto nível de automatização interligando dados genômicos de diferentes fontes

Page 38: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

38

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

UniGene

PIR

Sage

GDM

DB externos

Projeto 1

DB locais

Projeto 2

Projeto 3

conversões ligações

Page 39: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

39

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Page 40: Aprendizado de Máquina Simbólico José Augusto Baranauskas augusto@fmrp.usp.br  Departamento de Física e Matemática – DFM.

40

CBAB 2003

Aprendizado de Máquina SimbólicoJosé Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP - USP

Contato

José Augusto Baranauskas

[email protected] http://www.fmrp.usp.br/augusto

Departamento de Física e Matemática – DFM Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto –

FFCLRP Universidade de São Paulo – USP