Mineração da Dados
-
Upload
raymond-abbott -
Category
Documents
-
view
22 -
download
0
description
Transcript of Mineração da Dados
Mineração da Dados
2
Entradas: Conceitos, instâncias, atributos
● Terminologia● O que é um conceito?
Classificação, associação, agrupamento, predição numérica● O que é um exemplo?
Relações, arquivos flats, recursão● O que é um atributo?
Nominal, ordinal, intervalo● Preparando a entrada
ARFF, atributos, valores faltando
3
Terminologia
● Componentes da entrada: Conceitos: tipos
● Propósito: descrição inteligível e operacional Instâncias: o exemplo independente do conceito
● Note:entradas mas complicadas são possíveis Atributos: medindo aspectos de uma instância
● Foco em nominais e numéricos
4
O que é um conceito?● Estilo do aprendizado:
Classificação:predição de uma classe discreta
Associação:detecção de associação entre características
Agrupamento (Clustering):agrupamento de instâncias similares em grupos
Predição numérica:predição de um valor numérico
● Conceito: aquilo que se aprende● Descrição do conceito:
saída do esquema de aprendizado
5
Classificação
● Exemplos de problemas: weather, contact lenses, ● A tarefa de Classificação é supervisionada
Os exemplos são fornecidos com a saída esperada● A saída é chamada de classe● Mede-se o sucesso em dados não vistos anteriormente,● porem conhece se a classe ● Na pratica o sucesso é medido de forma subjetiva
6
Associação
● Pode ser aplicada se nenhuma classe é especificada e qualquer tipo de estrutura é considerada interessante
● Diferenças com a classificação: Podem predizer qualquer atributo e mais de um atributo Portanto: existem muito mais regras de associação do que
regras de classificação Assim: restrições são necessárias
● Cobertura mínima e máxima acuracia
7
Agrupamento (Clustering)
● Encontrar grupos de itens que são similares● Agrupamento é não supervisionado
A classe de um exemplo não é conhecida● O sucesso é subjetivo
…
…
…
Iris virginica1.95.12.75.8102
101
52
51
2
1
Iris virginica2.56.03.36.3
Iris versicolor1.54.53.26.4
Iris versicolor1.44.73.27.0
Iris setosa0.21.43.04.9
Iris setosa0.21.43.55.1
TypePetal widthPetal lengthSepal widthSepal length
Exemplo de descrição (I)
Agrupamento Exemplo:
◦ vector quantization;
renda
déb
ito
++
++
+
+
+
+
++
++
+
+
+
+
t
+
+: exemplo
Análise de crédito
Métodos
9
Predição Numerica● Uma variante da classificação na qual a classe é numérica
(também chamada de regressão)● O aprendizado é supervisionado
Os exemplos são fornecidos com o valor alvo● Medida de sucesso nos dados de teste
……………
40FalseNormalMildRainy
55FalseHighHot Overcast
0TrueHighHotSunny
5FalseHighHotSunny
Play-timeWindyHumidityTemperatureOutlook
10
O que é um exemplo?● Instância: tipo especifico de exemplo
● Algo a ser classificado, associado ou agrupado● Individual, exemplo independente do conceito alvo● Caracterizado por um conjunto pre-determinado de
atributos● Entrada do algoritmo de aprendizado: conjunto de
instâncias/bases● Representados como uma relação simples/arquivo flat
11
Uma arvore de familia
=
Steven
M
Graham
M
Pam
F
Grace
F
Ray
M=
Ian
M
Pippa
F
Brian
M=
Anna
F
Nikki
F
Peggy
F
Peter
M
12
Arvore da familia representado como um arquivo
IanPamFemaleNikki
IanPamFemaleAnna
RayGraceMaleBrian
RayGraceFemalePippa
RayGraceMaleIan
PeggyPeterFemalePam
PeggyPeterMaleGraham
PeggyPeterMaleSteven
??FemalePeggy
??MalePeter
parent2Parent1GenderName
13
A relação “Irmão de”
yesAnnaNikki
………
YesNikkiAnna
………
YesPippaIan
………
YesPamSteven
NoGrahamSteven
NoPeterSteven
………
NoStevenPeter
NoPeggyPeter
Sister of?Second personFirst person
NoAll the rest
YesAnnaNikki
YesNikkiAnna
YesPippaBrian
YesPippaIan
YesPamGraham
YesPamSteven
Sister of?Second personFirst person
Assume-se Closed-world
14
Representação completa numa tabela
Ian
Ian
Ray
Ray
Peggy
Peggy
Parent2
Female
Female
Female
Female
Female
Female
Gender
Pam
Pam
Grace
Grace
Peter
Peter
Parent1NameParent2Parent1GenderName
Ian
Ian
Ray
Ray
Peggy
Peggy
Pam
Pam
Grace
Grace
Peter
Peter
Female
Female
Male
Male
Male
Male
NoAll the rest
YesAnnaNikki
YesNikkiAnna
YesPippaBrian
YesPippaIan
YesPamGraham
YesPamSteven
Sisterof?
Second personFirst person
If second person’s gender = femaleand first person’s parent = second person’s parentthen sister-of = yes
15
O que é um atributo?
● Cada instância é descrita como um predefinido conjunto de características, seus atributos
● Porém: o numero de atributos pode variar na pratica● Possível solução: “valores irrelevantes”
● Possíveis tipos de atributos: Nominal, ordinal, intervalos
16
Atributos Nominais
● Os valores são símbolos diferentes● Exemplo: atributo “outlook” da base weather
Valores: “sunny”,”overcast”, e “rainy”● Não existe relação entre os valores nominais (sem ordem
ou medida de distância)● Somente testes de igualdade podem ser realizados
17
Atributos ordinais● Impõe uma ordem nos valores● Porém: não existe distancia nos valores predefinidos● Exemplo:
atributo “temperature” nos dados weather Valores: “hot” > “mild” > “cool”
● Note: adição e subtração não tem sentido● Exemplo de regra:
temperature < hot Þ play = yes● A diferença entre atributos nominais e ordinais não
sempre é clara
18
Quantidades Intervalos
● Os intervalos são ordenados e medidos em unidades fixas e iguais
● Exemplo 1: atributo “temperature” expresso em graus Fahrenheit
● Exemplo 2: atributo “year”● A diferença entre 2 valores faz sentido● A soma ou produto não fazem sentido
19
Atributos
● A maior parte dos algoritmos diferenciam 2 : nominal e ordinal
● Atributos Nominais são também chamados “categorical”, ”enumerated”, ou “discrete”
Porém: “enumerated” e “discrete” implicam em uma ordem
● Caso especial: dicotomia (“boolean” )● Atributos ordinais são chamados de “numeric”, ou
“continuous” Porém: “continuous” implica em continuidade
matematica
20
O formato ARFF
%
% ARFF file for weather data with some numeric features
%
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {true, false}
@attribute play? {yes, no}
@data
sunny, 85, 85, false, no
sunny, 80, 90, true, no
overcast, 83, 86, false, yes
...
21
Atributos adicionais
● ARFF suporta atributos string:
Similar a os atributos nominais porém uma lista de valores não é pre-especificada
● Suporta dados tipo data:
Usa o formato ISO-8601
yyyy-MM-dd-THH:mm:ss
@attribute description string
@attribute today date