Aprendizado de Máquina (Machine Learning) - Unisulpaginas.unisul.br/max.pereira/ML_Aula01.pdf ·...
Transcript of Aprendizado de Máquina (Machine Learning) - Unisulpaginas.unisul.br/max.pereira/ML_Aula01.pdf ·...
Ciência da Computação
Aprendizado de Máquina(Machine Learning)
Aula 01 Motivação, áreas de aplicação e fundamentos
Max Pereira
Nem todo conhecimento tem o mesmo valor.
Aprendizado de Máquina
O que torna determinado conhecimento mais importante que outro?
O que exatamente fornece ao conhecimento, ou a informação o seu valor?
Aprendizado de Máquina
Resumindo...
O conhecimento que utilizamos tem mais valor do que o conhecimento que não utilizamos.
Aprendizado de Máquina
• Para que os humanos usam o conhecimento?
• Por que sempre queremos mais?
• O que planejamos fazercom tal conhecimento?
Aprendizado de Máquina
Humanos usam o conhecimento para tomar decisões!
Estamos constantemente tentando prever as consequências das escolhas que fazemos.
Por que?
Aprendizado de Máquina
Se podemos prever as consequênciasdas escolhas, então podemos escolher as consequências que queremos.
Aprendizado de Máquina
O valor do conhecimento é a sua utilidade em influenciar as decisões.
Em outras palavras, seu valor é determinado pela sua utilidade em fazer previsões precisas.
Isso pode ser quantificado?
Aprendizado de Máquina
Apesar de ser impraticável a tentativa de quantificar o valor de um determinado conhecimento, torna-se muito mais fácil quando ele é combinado com uma tarefa de previsão.
Aprendizado de Máquina
Ter ou não ter um algoritmo, eis a questão!
Aprendizado de Máquina
Problema: ordenar números
Entrada: uma sequência de números
Saída: uma lista ordenada dos números
Aprendizado de Máquina
Existem vários algoritmos!
Problema: Identificar spam e-mails
Entrada: um e-mail (arquivo de caracteres)
Saída: sim/não
Aprendizado de Máquina
Não sabemos como transformar a entrada para a
saída!
Aprendizado de Máquina
A falta de conhecimento é compensada pelos dados.
Queremos “aprender” o que diferencia os spams de e-mails que não são spams.
Queremos que o computador (máquina) extraia automaticamente o algoritmo.
Os dados armazenados se tornam úteis quando analisados e são transformados em informação que, podemos utilizar para, por exemplo, fazer previsões.
Aprendizado de Máquina
Há um processo que explica os dados que observamos. Os dados não são completamente
randômicos. Há certos padrões nos dados.
Aprendizado de Máquina
Talvez não possamos identificar completamente o processo, mas podemos construir uma boa aproximação. Assim, podemos detectar certos padrões e regularidades.
Esse é o foco do aprendizado de máquina!
Aprendizado de Máquina
Áreas de aplicação
• Aplicações de crédito
• Detecção de fraudes
• Mercado de ações
• Controle e otimização de manufatura
• Diagnóstico médico
• Otimização de redes de telecomunicação
• Análise de dados biológicos e físicos
• Análise de dados na Web
Aprendizado de Máquina
A aplicação de métodos de aprendizado de máquina em grandes bases de dados é chamada de Mineração de Dados (data mining).
Aprendizado de Máquina
Aprendizado de máquina não é apenas um método para problemas de banco de dados; é também uma parte da Inteligência Artificial.
Aprendizado de Máquina
Aprendizado de máquina nos ajuda a resolver problemas nas áreas de:
• Visão computacional;
• Reconhecimento de voz;
• Robótica
• Reconhecimento de padrões.
Aprendizado de Máquina
Aprendizado de máquina é a programação de computadores para otimizar a execução de critériosusando dados de exemplos ou experiências passadas.
Aprendizado de Máquina
Os modelos definidos podem ser preditivos para realizar previsões, ou descritivos para adquirir conhecimento a partir dos dados, ou mesmo ambos.
Aprendizado de Máquina
O aprendizado de máquina usa a teoria estatística para construir modelos matemáticos, porque a tarefa principal é a realização de inferência a partir de uma amostra.
Aprendizado de Máquina
Resumindo...
Basicamente, o aprendizado de máquina trata de prever o futuro com base no passado.
Aprendizado de Máquina
Desafios
Escalabilidade
Alta dimensionalidade
Dados complexos e heterogêneos
Propriedade e Distribuição de Dados
Análises não Tradicionais
Exemplo:
Prever quanto uma determinada pessoa irá gostar de um filme que ela ainda não viu, com base nas notas dos filmes que ela já viu.
Aprendizado de Máquina
E quanto aos dados?
Podem ser palavras em um documento ou pixels em uma imagem.
Pode ser necessário convertê-los em um formato padrão.
Aprendizado de Máquina
Representação dos Dados
Muitos datasets podem ser representados por matrizes, com valores binários, reais, discretos, etc.
Outros podem ser documentos ou imagens com tamanhos diversos.
É importante pensar na representação (estrutura) e transformar os dados caso seja necessário, antes de aplicar os algoritmos.
Aprendizado de Máquina
O que significa aprender?
Uma forma comum de verificar se uma pessoa aprendeu sobre determinado assunto é aplicar uma “prova”.
Aprendizado de Máquina
Espera-se que a pessoa estude (aprenda) exemplos específicos sobre o assunto, e depois possa responder questões novas, porém relacionadas ao assunto.
Dessa forma, pode-se testara habilidade de generalização da pessoa.
Aprendizado de Máquina
A generalização é um dos conceitos mais importantes em aprendizado de máquina.
Overfitting, underfitting....???
Aprendizado de Máquina
Principais tarefas
Classificação
Na classificação, nosso objetivo é prever qual classeuma determinada instância de dados pertence.
Regressão
Na regressão, procuramos prever um valor numérico.
Aprendizado de Máquina
Classificação e regressão são exemplos de aprendizado supervisionado.
Supervisionado porque estamos dizendo ao algoritmo o que ele deve prever.
Aprendizado de Máquina
Em contrapartida, há um conjunto de tarefas conhecido como aprendizado não-supervisionado.
Nesse tipo de aprendizado não há rótulosou valor alvo contidos nos dados.
A tarefa de agrupar dados similares é conhecida como agrupamento(clustering).
Aprendizado de Máquina
No aprendizado não-supervisionado podemos também procurar valores estatísticos que descrevam os dados.
Aprendizado de Máquina
Estimativa de densidade
Aprendizado de Máquina
Aprendizado supervisionado Aprendizado não-
supervisionado
k-Nearest Neighbors k-Means
Naive Bayes DBSCAN
Support vector machines (SVM)
Decision trees
Algoritmos
Como escolher o algoritmo correto?
Primeiro:
Definir qual o seu objetivo.
O que você quer? A probabilidade de chuva amanhã ou encontrar grupos de eleitores com interesses similares?
Aprendizado de Máquina
Segundo:
Quais dados você tem ou pode conseguir?
Aprendizado de Máquina
Desenvolvimento de aplicações de aprendizado de máquina
1. Coletar os dados
2. Preparar os dados de entrada
3. Analisar os dados de entrada
4. Treinar o algoritmo
5. Testar o algoritmo
Aprendizado de Máquina