Aprendizagem de Máquina (Machine Learning)

Aprendizagem de Máquina(Machine Learning)

Marcos Augusto Hochuli Shmeil & Edson Emílio Scalabrin

Um pouco de história sobre a obtenção e a Origem do Conhecimento

Baseadas em Comportamento

Uma das formas mais simples de aprendizagem é a habituação. Ela consiste:

(i) na diminuição da tendência para responder aos estímulos que se tornaram familiares, e

(ii) no efeito das respostas a estes estímulos se tornarem "automáticas“

devido a uma exposição repetida aos mesmos.


No condicionamento clássico:

associações cujo trabalho experimental se iniciou com Ivan P. Pavlov (1849-1936), o qual é conhecido por reflexo condicionado.

aprendizagem instrumental (também chamada de condicionamento operante).

iniciada antes das experiências de Pavlov, por Edward L. Throndike (1874-1949). Ela consistia em levar o animal a executar uma determinada ação estabelecida pelo treinador, em troca de uma recompensa.


Baseadas em Cognição:

Para os teóricos cognitivistas, a essência do que se aprende está dentro do animal e,

sendo um acontecimento reservado, só se conhecerá que o animal aprendeu quando este agir/reagir em conformidade com o novo estado mental.

Este novo estado mental do aprendiz diz respeito a alterações no conhecimento com o surgimento de relações conceituais abstractas.



Vinculado à aprendizagem, encontra-se o conhecimento, cuja origem sempre foi tema de discussão e de pesquisa.

Duas escolas, a empirista e a inatista, mesmo de posições opostas entre si, oferecem uma complementaridade para a compreensão deste fenômeno.



os empiristas concentram-se na idéia de que o conhecimento é adquirido a partir de experiências. John Locke (1632-1704),

todo o conhecimento é proveniente dos sentidos, não havendo idéias inatas,

A mente seria como uma tábua rasa na qual a experiência iria imprimir as sua marcas.



os inatistas, observam que vários aspectos do nosso conhecimento têm origem em características do cérebro (cujas raízes remontam a Platão),

uma das respostas modernas mais influentes ao empirismo foi-nos apresentada por Immanuel Kant (1724-1804),



o conhecimento não pode provir apenas dos dados sensoriais, tendo que existir certas categorias preexistentes (sistema nervoso), em torno das quais esses dados sensoriais são organizados,

As experiências funcionam como fornecedoras de dados sensoriais, os quais são estruturados segundo o sistema nervoso inato.



a integração da informação genética (inatista) e da ambiental (empirista) resulta numa perspectiva psicofísica entre as características dos estímulos físicos e a experiência psicológica a que estes estímulos dão origem.



três passos básicos (modelo simplificado) para que uma sequência de acontecimentos se inicie num estímulo e termine num conceito do objecto observado.

estímulo

distal

estímulo

proximal

(imagem retiniana)

cadeia

neuronal de

acontecimentos resposta

psicológica

(experiência sensorial)

transductor

outrasmodalidadessensoriais

- centros de

processamento

dos estímulos

sensoriais

cognição

- memória

- raciocínio

passo 1passo 2

passo 3

Aprendizagem Automática

a disciplina de Aprendizagem Automática ou Aprendizagem de Máquina ("Machine Learning"), é uma das áreas da Inteligência Artificial,

tem como um dos seus principais objetivos, o estudo e a compreensão dos processos de aprendizagem bem como o desenvolvimento de algoritmos que suportem estes processos, para aplicação em artefatos.


de forma geral estes algoritmos devem proporcionar mudanças de estados mentais, que venham a melhorar o desempenho dos artefactos (em particular os agentes), na execução de atividades


melhorar, significa:

apresentar um comportamento mais eficiente/eficaz (menor tempo de execução da atividade, acréscimo de confiança das relações entre agentes),

obtenção de perícia para novas atividades ou relações no domínio de atuação do artefato ou fora deste,

alcance satisfatório de um objetivo, etc

no desempenho de atividades.


Na história da aprendizagem automática três

paradigmas da sua evolução destacam-se:


a modelagem neural e as técnicas de decisão.

no modelamento neural o interesse recai na

construção de sistemas de aprendizagem de propósito geral, cujo processo de aprendizagem consiste em trocas incrementais das probabilidades nos elementos que representam os neurônios numa rede neural artificial.


a modelagem neural e as técnicas de decisão.

trabalhos pioneiros na aprendizagem computacional destacam-se o “Perceptron” e o “Pandemonium”

Nas técnicas de decisão, dentre outros, o trabalho de Samuel tornou-se um marco, o qual consistia de um programa que aprendia a jogar damas, baseado nas experiências obtidas em jogos anteriores.


O seu programa continha uma série de parâmetros, cada qual com um valor numérico. Estes valores numéricos eram ajustados pela experiência (conjunto de exemplos) considerando a importância do mesmo para um determinado movimento (decisão)


2. aprendizagem simbólica de conceitos

Os conceitos descrevem classes de eventos, objetos ou relações entre eles.

Uma das formas importantes de relacionar conceitos é a de fazer qualquer afirmação sobre eles, por exemplo: o rato roeu a roupa do rei.


Esta afirmação é chamada de proposição, a qual apresenta uma afirmação que relaciona um sujeito (o rato) e um predicado (roeu).

O sujeito e o predicado correspondem respectivamente: ao item em relação ao qual a afirmação é feita, e o que é afirmado em relação ao sujeito.

Independente da veracidade (verdadeiro ou falso) da proposição, são essas proposições que ligam (associam) os elementos mentais. Este paradigma orienta a aquisição de conceitos e conhecimento estruturado


A aprendizagem simbólica tem como uma das bases os modelos humanos de aprendizagem cognitiva, os quais podem utilizar a lógica ou grafos no lugar de métodos numéricos ou estatísticos


3. outros métodos de aprendizagem e sistemas de aprendizagem com conhecimento intensivo.

A partir de meados da década de setenta

por instrução, por analogia, de descoberta de conceitos e classificação, etc.)

e métodos baseados em conhecimento intensivo (métodos de aprendizagem em sistemas os quais a partida possuem uma quantidade expressiva de conhecimento).


Características de um processo de aprendizagem

de Simon:

(i) denota mudanças num sistema,

(ii) estas mudanças capacitam o sistema a executar, numa próxima vez, a mesma atividade ou atividade da mesma população de forma mais eficiente,

Simon, H. A., Why Should Machines Learn?, em Machine Learning: An Artificial Intelligence Approach, R. S. Michalski, J. G., and T. M. Mitchell, editores, Tioga, Palo Alto, California, 1983.



de Minsky:

(i) denota mudanças úteis na nossa mente,

Minsky, M., The Society of Mind, MIT Press, Cambridge, 1985.



de Michalski:

(i) é a construção e a modificação da representação do que está sendo experimentado,

Michalski, R. S., Understanding the Nature of Learning: Issues and Research Directions. Em R.S. Michalski, J. G. Carbonell, and T. M. Mitchell ,editores, Machine Learning: An Artificial Intelligence Approach, Volume II. Los altos, California, Morgan Kaufmann Publishers, Inc, 1986



de Carbonell:

(i) é a habilidade de executar novas tarefas, as quais não eram possíveis anteriormente,

(ii) (ii) é melhorar (maior precisão, menor tempo, etc.) a execução de antigas tarefas.

Carbonell, J. G., Introduction: Paradigms for Machine Learning. Em J. G. Carbonell editor, Machine Learning: Paradigms and Methods, MIT Press, 1990.


A partir das características apresentadas na perspectiva que a aprendizagem está associada à mudança dos estados mentais de um aprendiz (agente), dois tipos de aprendizagem automática apresentam-se:

(i) a aquisição de conhecimento diz respeito à aquisição de novas informações simbólicas acopladas com

a habilidade de aplica-las de maneira útil , e


(ii) o refinamento de habilidades

refere-se à prática repetida e à correção dos desvios do comportamento desejado, e

relaciona-se ao conhecimento chamado de sub-simbólico (conhecimento adquirido, por exemplo pelas redes neurais, o qual não é de fácil entendimento pelo ser humano), cujo processo de geração é encontrado fundamentalmente nos sistemas adaptativos.


Classificação

(i) o critério de propósito principal ou seja o objetivo principal dos métodos de aprendizagem. Este critério conduz à divisão dos métodos em sintéticos e analíticos.

Os sintéticos visam fundamentalmente a criação de novo ou melhor (de acordo com algum objetivo) conhecimento.

Os analíticos estão interessados na reformulação (transformação ou

organização) de um conhecimento existente num melhor (de acordo com algum objetivo),


Classificação

(ii) o critério dos tipos de entrada. Este critério agrupa os métodos de aprendizagem quanto ao tipo da entrada de informação para estes:

A aprendizagem é efetivada a partir de exemplos (positivos ou

negativos), previamente classificados, quando o conhecimento fonte independentemente da sua origem (professor, especialista, modelo simulado, etc.), exemplifica um objecto ou evento,

É efetivada a partir de observações, quando as entradas necessitam

ser estruturadas pelo aprendiz, uma vez que as mesmas não se encontram previamente classificadas.


Classificação

(iii) o critério do principal método de inferência utilizado.

Este critério classifica os métodos de aprendizagem quanto à forma de

raciocínio utilizado na transformação dos estados mentais.

É indutivo quando a partir de dadas consequências gera premissas hipotéticas,

É dedutivo quando deriva consequências a partir de dadas premissas.


Classificação

(iv) o critério do papel do conhecimento já existente

P&BK|>C onde:

P é a premissa,

BK é o conhecimento existente, e

C é a consequência


Classificação

(iv) o critério do papel do conhecimento já existente

Empírico: uso do conhecimento existente de forma não intensiva e com inferência indutiva

Indutivo: e o uso intensivo do conhecimento existente

Abdutivo: utiliza o conhecimento existente para orientar a preferência para uma hipótese

Dedutivo: transformação das descrições de um espaço de representação ou linguagem para outro (abstração/generalização)


Classificação

Métodos de AprendizagemCritérios de classificação

principalPropósito

Tipos de entradas

inferênciaPrincipal

Papel doconhecimentojá existente

Sintético

Exemplos Observações

Indução

Empírica Induçãoconstrutiva

- Generalizaçãoconstrutiva

- Abdução

Analítico

Conduzidopelos exemplos

Conduzidopela especificação

Dedução

- Generalizaçãodedutiva

- Abstração

Deduçãoconstrutiva

- Baseada em explicação

- Síntese automática deprogramas

Axiomática

Analogia

Multi-estratégias

- Redes neuronais

- Generalizaçãoempírica

- Descobertaqualitativa

- Agrupamentoconceptual

- Algoritmos genéticos

Metodologias de Aprendizagem Simbólica Automática

Indução Empírica

baseia-se na estratégia de construção de árvores de decisão, como forma de apresentação das regras inferidas.

Esta estratégia é utilizada pelo grupo de sistemas de aprendizagem denominado de “TDIDT - Top Down Induction Decision Trees”


Indução Empírica

Os exemplos, obtidos a partir da observação do fenômeno, são representados através de um conjunto de atributos e de seus valores, considerando um dos atributos, a classe do exemplo.

atr1 atr2 ... atrn (classe)

observação1 valor1,1 valor1,2 ... valor1,n

observação2 valor2,1 valor2,2 ... valor2,n

... ... ... ... ...

observaçãok valor k,1 valork,2 ... valork,n


Indução Empírica

O algoritmo geral dos sistemas da família “TDIDT” tem como objetivo gerar a menor árvore de decisão que classifique corretamente todos os exemplos.

Para que este objetivo seja alcançado, é necessário escolher o atributo mais relevante, i.e. o atributo que melhor particiona os exemplos, segundo o valor da classe.

A escolha do atributo, potencialmente melhor é obtido através de uma função denominada de função de avaliação (por ex. entropia).


Indução Empírica – entropia (E)

Se uma observação pode ser classificada em n classes diferentes c1, c2, ..., cn e a probabilidade de um objeto pertencer à classe ci é p(i), então a entropia de classificação do ramo é dada por:

atr = vj: o atributo atr possui o valor vj, i.e. a entropria E do ramo correspondente ao valor vj do atributo atr

E(atr=vj)= - p(i) log2p(i)n

n=1


Indução Empírica Condições de parada:

(i) construir a árvore de decisão que classifica exatamente todos

os elementos do conjunto de aprendizagem e domínios completos (“ID3”),

(ii) decidir pela não expansão da árvore, quando a evidência for insuficiente nos exemplos fornecidos. Este mecanismo de pré-poda de uma árvore de decisão é encontrado no sistema “C4” e “ASSISTANT”


Indução Empírica

Algoritmo geral da família “TDIDT”:

dados um conjunto de exemplos de aprendizagem ES, uma função de avaliação a(ES, atributo), e uma condição de parada s(ES),


Indução Empírica

Algoritmo geral da família “TDIDT”:

se todas as instâncias em ES satisfizerem a condição de parada s(ES),

então retornar o valor da classe,

caso contrário

1. para cada atributo atri, determinar o valor da função a(ES, atri),

2. se atrj possuir valores aj1, aj2, ...,ajk, criar o nó:


Indução Empírica Algoritmo geral da família “TDIDT”:

... caso contrário

3. particionar os exemplos do conjunto ES nos subconjuntos E1, E2, ...,Ek segundo os valores de aj na árvore de decisão,

4. aplicar, recursivamente, o algoritmo para cada um dos subconjuntos Ei.

aj

aj1 aj2 ajk


Indução Empírica

EXEMPLO - Slides Empresa


Dedução Axiomática

A metodologia de aprendizagem automática por dedução axiomática é orientada por exemplos.

Estes exemplos são utilizados para apresentar quais novas regras são interessantes serem derivadas a partir do conhecimento de fundo (“background knowledge”).



Uma das metodologias, para a aprendizagem automática por dedução axiomática, é a de aprendizagem baseada em explicações, enquadrada em problemas denominados de especialização de conceito baseado em teoria (“theory-based concept specialization”).

A especialização de conceito baseada em teoria é assim denominada, devido a aprendizagem envolver a especialização indutiva de um conceito definido por uma teoria de um domínio.



três métodos [151, 152] para a obtenção de especialização de conceitos:

(i) generalização baseada em explicação (“EBG - Explanation-based Generalization”),

(ii) generalização baseada em explicações a partir de múltiplos exemplos (mEBG - multiple-example Explanation-based Generalization”), e

(iii) indução sobre as explicações (“IOE - Induction over explanations”).



Para cada um desses métodos são requeridos:

(i) uma teoria do domínio do assunto,

(ii) um conceito a ser obtido, e

(iii) um ou mais exemplos de treino.



dado uma teoria do domínio TC a qual define o conceito a ser

obtido, e um conjunto de exemplos positivos de treino de um conceito

C, onde C é uma especialização da teoria do domínio TC.

encontrar

uma definição correcta do conceito C.


Dedução Axiomática Algoritmo “EBG”:

Dado um exemplo do conceito a ser aprendido

1. construir uma árvore, que explique porque o exemplo é uma instância do conceito a ser aprendido, e


Dedução Axiomática Algoritmo “EBG”:

2. aplicar:

(i) a generalização na árvore resultante, através da substituição das constantes por variáveis, e

(ii) a conjunção das folhas da árvore de explicação, obtendo as “weakest preconditions”

obs: em problemas de especialização de conceito baseado

em teoria, as “weakest preconditions” formam a definição de um novo conceito, o qual é uma especialização do conceito a ser obtido.



EXEMPLO - Paper

Metodologias de AprendizagemLearning by Analogy

Vamos supor: uma informação, representada por (A,B),

onde B depende por causalidade de A, de alguma maneira, chamaremos esta relação de ß,

outra porção de informação (A’,B’), a qual apresenta alguma semelhança entre A e A’ ,chamaremos esta semelhança de ,

vamos chamar ß’ a dependência causal entre A’ e B’, e vamos chamar de ’ a dependência de similaridade entre B e B’


A A’

BB’

ß

’

ß’

semelhança / diferença

(SIMILARITY)

dependência

(CASUALITY)


Nós podemos definir ANALOGIA de várias formas,

Em todos os casos, é suposto que nós conhecemos mais ou menos A, B, A’, e ß e que vamos criar B’ ou justificar sua aceitabilidade,


A= Barney é um humano masculino

B = Barney pode raciocinar

a relação de causalidade entre A e B utiliza uma propriedade herdada de um ancestral.

ß = Barney pode raciocinar porque é uma das características da natureza humana

A’ = Vilma é uma humana feminina

= humanos masculinos e femininos são humanos

B’ = Vilma pode raciocinar


A diferença com o silogismo é que ß não é uma real implicação.

É interessante utilizar quando a propriedade é herdada de ...


EXEMPLO - Paper

WINSTON’s

Metodologias de AprendizagemLearning by Rewards

EXEMPLO - Paper

Sistema Multiagente com a Capacidade de Aprendizagem

MALE (Multi-Agent Learning Environment )

EXEMPLO - Paper

Aprendizagem de Máquina (Machine Learning)

Documents

Transcript of Aprendizagem de Máquina (Machine Learning)