Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof....

32
Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Geoestatística

Transcript of Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof....

Page 1: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

Descrição BivariadaComparando Duas Distribuições

Geoes t at ís t ica

Eng. de Minas João Felipe C.L. CostaProf. Dr. do DEMIN/PPGEM, UFRGS

Eng. de Minas Luis Eduardo de SouzaDoutorando do PPGEM, UFRGS

Page 2: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

• Introdução

• Gráficos q-q plot

• Scatterplots

• Histogramas

• Correlação

• Regressão

• Distribuição condicional

Estrutura da Apresentação

G

Page 3: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira a medir seu grau de associação.

A apresentação dos histogramas com seus respectivos sumários estatísticos vai revelar apenas a existência de diferenças mais evidentes. Infelizmente, se as duas distribuições são muito parecidas, este método de comparação não será útil na descoberta de diferenças mais sutis entre as distribuições.

Dessa forma, o propósito básico dessa apresentação é apresentar ferramentas que permitam entender melhor o comportamento de dois conjuntos de valores e tornar possível fazer algum tipo de predição, usando uma variável para conhecer a outra.

Introdução

Page 4: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G8 7 1 0 0 4 7 1 1 1 1 2 4 1 0 9 0 9 8 1 3 4 1 4 4

7 7 8 4 7 4 1 0 8 1 2 1 1 4 3 9 1 5 2 1 3 6 1 4 4

7 5 8 0 8 3 8 7 9 4 9 9 9 5 4 8 1 3 9 1 4 5

7 4 8 0 8 5 9 0 9 7 1 0 1 9 6 7 2 1 2 8 1 3 0

7 7 8 2 8 6 1 0 1 1 0 9 1 1 3 7 9 1 0 2 1 2 0 1 2 1

8 9 8 8 9 4 1 1 0 1 1 6 1 0 8 7 3 1 0 7 1 1 8 1 2 7

8 8 7 0 1 0 3 1 1 1 1 2 2 6 4 8 4 1 0 5 1 1 3 1 2 3

8 2 7 4 9 7 1 0 5 1 1 2 9 1 7 3 1 1 5 1 1 8 1 2 9

8 2 6 1 1 1 0 1 2 1 1 1 9 7 7 5 2 1 1 1 1 1 7 1 2 4

8 1 7 7 1 0 3 1 1 2 1 2 3 1 9 4 0 1 1 1 1 1 4 1 2 0

2 2 2 8 4 3 2 3 8 2 0 0 1 4 3 1 3 4

1 6 1 7 1 1 2 9 3 7 5 5 1 1 3 3 4 3 5

1 4 1 5 1 5 1 5 1 6 1 7 1 3 2 4 0 3 8

1 4 1 5 1 5 1 6 1 7 1 8 1 4 6 2 8 2 5

1 5 1 6 1 6 2 3 2 4 2 5 7 1 5 2 1 2 0

2 1 1 8 2 0 2 7 2 9 1 9 7 1 6 1 9 2 2

2 1 8 2 7 2 7 3 2 4 1 0 1 5 1 7 1 9

1 6 9 2 2 2 4 2 5 1 0 7 1 9 1 9 2 2

1 6 7 3 4 3 6 2 9 7 4 1 8 1 8 2 0

1 5 1 2 2 4 2 7 3 0 0 2 1 8 1 8 1 8

Mapa de localização de 100 amostras extraídas do banco de dados Walker Lake, com valores de V e U, acima e abaixo do símbolo, respectivamente.

Page 5: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Page 6: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Page 7: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Os histogramas e os sumários estatísticos dos valores de V e U apresentam apenas as principais diferenças entre as distribuições das duas variáveis:

• a distribuição de U apresenta assimetria positiva, enquanto V tem assimetria negativa;

• os valores de V são geralmente maiores que os de U, com um valor médio cinco vezes maior do que o de U;

• a mediana e o desvio padrão de V são também maiores do que os de U.

Page 8: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Uma comparação mais completa pode ser obtida pela análise dos quantis de diversas freqüências acumuladas. Para uma boa comparação visual das duas distribuições, faz-se uso de um gráfico chamado q-q plot, onde os quantis de uma distribuição são plotados contra os quantis da outra.

Freqüência QuantilAcumulada V U

0.05 48.1 3.1 0.10 70.2 7.0 ... ... ... 0.25 81.3 14.0 ... ... ... 0.75 116.8 25.0

Gráficos q-q plot

Page 9: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Page 10: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

• Um q-q plot de duas distribuições idênticas deve ser plotado como uma reta do tipo x = y;

• Para distribuições muito similares, os desvios da reta x = y mostram onde as distribuições são diferentes;

• Se o q-q plot de duas distribuições puder ser aproximado por uma reta diferente de x = y, as duas distribuições tem a mesma forma mas suas localizações e espalhamento podem diferir;

• A similaridade de uma distribuição observada para um modelo de distribuição teórico também pode ser analisada utilizando um gráfico do tipo q-q plot. Por exemplo, plotando os quantis de V contra os quantis de uma distribuição normal ou lognormal padrão.

Page 11: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

ScatterplotsA forma mais comum de apresentar dados bivariados é no gráfico de dispersão ou scatterplot, um gráfico do tipo x-y no qual o eixo x corresponde aos valores de uma variável e a coordenada y aos valores da outra variável.

Page 12: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

• Apesar de haver um espalhamento na nuvem de pontos, os valores altos de V tendem a estar associados com valores altos de U da mesma forma que os valores baixos de V estão associados com os valores baixos de U;

• Além de fornecer uma idéia qualitativa de como as duas distribuições estão relacionadas, o scatterplot é útil para chamar atenção sobre dados discrepantes;

• Em caso de distribuições altamente assimétricas, recomenda-se o uso de dois scatterplots, um mostrando detalhes perto da origem e outro a relação geral;

• O uso de escala logarítmica nos dois eixos permite mostrar adequadamente toda a distribuição em um único gráfico.

Page 13: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Page 14: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Histogramas

As informações de um scatterplot podem ser sumarizadas contando o número de pares de amostras que caem em uma certa classe, definida pelos limites das duas variáveis.

Page 15: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Em um histograma bivariado as distribuições univariadas de cada variável podem ser calculadas somando o número de ocorrências ao longo de colunas e linhas.

Histogramas marginais.

Page 16: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

CorrelaçãoDe forma simplificada, há três padrões que podem ser observados entre as variáveis em um scatterplot:

• correlação positiva;

• correlação negativa;

• ausência de correlação.

O coeficiente de correlação () é o parâmetro estatístico mais freqüentemente utilizado para sumarizar a relação entre duas variáveis e é calculado por:

yx

n1i yixi )my)(mx(n

1

Page 17: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

n1i yixiXY )my)(mx(n

1C

O numerador da equação do coeficiente de correlação () é chamado de covariância:

A covariância entre duas variáveis depende da magnitude dos valores dos dados. Se todos os pares de dados V-U forem multiplicados por 10, enquanto o scatterplot vai permanecer com o mesmo aspecto (apenas com os eixos re-escalonados), a covariância será 100 vezes maior.

Page 18: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Alta covariância positiva:

Covariância próxima de zero:

Grande covariância negativa:

Page 19: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Dividindo a covariância pelo desvio padrão das duas variáveis, garante-se que o coeficiente de correlação estará sempre entre -1 e +1, fornecendo um índice que é independente da magnitude dos valores dos dados.

Page 20: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Freqüentemente chamado na literatura estatística de coeficiente de correlação de Pearson, o coeficiente de correlação () apresenta algumas deficiências:

• é uma medida de dependência linear entre duas variáveis;

• é sensível a pontos que plotem afastados da nuvem principal de pontos.

Page 21: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Utilizado para complementar a informação fornecida pelo coeficiente de correlação linear, o coeficiente de correlação de rank (R) ou coeficiente de correlação de Spearman é calculado por:

RyRx

n1i RyiRxi

rank

)mRy)(mRx(n1

x y rank de x rank de y0.5 100 3 30.1 10 1 10.9 120 5 40.7 400 4 50.3 90 2 2 = 0.563 rank = 0.904

Page 22: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

• Existe correlação (monotônica), porém não necessariamente linear;

• Alguns poucos pares de valores extremos podem arruinar uma possível boa correlação;

• Alguns poucos pares de valores extremos podem levar a uma falsa idéia de existir uma boa correlação.

Page 23: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

RegressãoComo foi salientado anteriormente, uma forte relação entre duas variáveis pode ajudar-nos a inferir uma variável desde que a outra seja conhecida. A forma mais simples para executar esse tipo de previsão é a regressão linear, na qual assumimos que a dependência de uma variável em função da outra pode ser descrita pela equação da reta do tipo:

Os coeficientes a e b são obtidos pelo método dos Mínimos Quadrados (a reta ajustada aos pontos do mapa de dispersão (x versus y) visa minimizar a soma dos quadrados dos erros, sendo erro a diferença entre o valor real e a estimativa de Y).

baxy x e y = valores dos atributos X e Y. Por exemplo, teor de cobre (X) e teor de ouro (Y)

Page 24: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

O ângulo de inclinação, a, e a constante, b, são dados por:

2

x2i

yxii

mnxmmnyxa

xy mamb

n – número de dados usados na regressão

mx – média de x

my – média de y

– coeficiente de correlação

oux

ya

Page 25: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Se usarmos os 100 pares de valores de V-U para calcular a equação de regressão linear para prever os valores de V a partir de U, teremos:

5,11V31,0U5,11)6,97(31,01,19b

31,03,2684,984,0a

84,03,2684,966,216

Page 26: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Intervalo de Confiança Para o Valor de Y

Anteriormente, foi obtida a estimativa (y’) do atributo Y, considerando o valor do atributo X, em um mesmo local.

Considerando a estimativa y’ e o possível erro associado à essa estimativa, pode-se determinar o intervalo que contém o verdadeiro valor de Y. A seguinte equação define o intervalo que contém o valor real de Y, com uma confiança de 100(1-)%

2x

n

1i

2i

2x

xy2n;2 mnx

mxn11St'y

onde: S2

y/x é a variância do erro da regressãoSuposição: Para um dado valor x, a distribuição dos possíveis valores de Y é normal

2nyxaybyS iii

2i2

xy

x = valor de X utilizado na regressão t = distribuição t-student

Page 27: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

GA largura do intervalo de confiança varia com o x utilizado na regressão. Essa largura é mínima quando o x é igual à média de X

63,11)56,97(100102091956,97x

1001143,52'y

0xSe

2

2

43,59882,207934313,0)190947,11(3,46127S

xy

No exemplo: Confiança de 95%

Mesmo exemplo usando 100 pares de U e V

Page 28: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Quando utiliza-se regressões para sumarizar a relação de duas variáveis, deve-se atentar se a curva da função ajustada descreve adequadamente a relação em faixas de valores que nos interesse.

Continuando com a teoria sobre regressão...

Page 29: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

•Embora saiba-se que um polinômio de ordem elevada sempre proverá um melhor ajuste no sentido puramente matemático, deve-se atentar se a curva da função ajustada descreve adequadamente a relação física esperada entre as duas variáveis.

•Algumas vezes pode-se estar somente representando peculiaridades dos dados disponíveis sem nenhum sentido prático/físico

Page 30: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Distribuição condicional

Page 31: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Em caso de termos que analisar um número grande de histogramas condicionais, todos com o sumário estatístico completo, faz-se útil uma ferramenta de análise mais concisa, usar gráficos mostrando como as estatísticas condicionais mudam em função dos dados condicionantes.

Page 32: Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza.

G

Gráficos de estatísticas condicionais podem ser sumarizados ajustando uma função a ele.

Embora a regressão seja comumente utilizada para sumarizar as variações da média de uma das variáveis, na medida que um segundo atributo varia, outras estatísticas também podem ser calculadas usando o mesmo procedimento (desvio padrão, por exemplo).