Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L....

30
Análise Exploratória Análise Exploratória dos Dados dos Dados Estatística Descritiva Estatística Descritiva Univariada Univariada Geoestatística Eng. de Minas João Felipe C.L. Costa Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS

Transcript of Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L....

Page 1: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

Análise Exploratória dos Análise Exploratória dos DadosDadosEstatística Descritiva UnivariadaEstatística Descritiva Univariada

Geoes t at ís t ica

Eng. de Minas João Felipe C.L. CostaEng. de Minas João Felipe C.L. CostaProf. Dr. do DEMIN/PPGEM, UFRGS

Eng. de Minas Luis Eduardo de SouzaEng. de Minas Luis Eduardo de SouzaDoutorando do PPGEM, UFRGS

Page 2: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

• Estatística descritiva e inferencialEstatística descritiva e inferencial

• Tipos de dadosTipos de dados

• Variável aleatóriaVariável aleatória

• Apresentação estatísticaApresentação estatística

• Distribuição de freqüênciasDistribuição de freqüências

• Medidas descritivasMedidas descritivas

• Modelos de distribuiçãoModelos de distribuição

• Populações estatísticasPopulações estatísticas

Estrutura da ApresentaçãoEstrutura da Apresentação

G

Page 3: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

A estatística descritiva tem por objetivo descrever a realidade observada (população ou amostra), usando métodos numéricos e métodos gráficos e realizando comentários simples de maneira mais informativa possível.

Pode-se dizer que a estatística descritiva ocupa-se do tratamento de dados quantitativos (ordenação, exposição e sumarização de registros de dados) do fenômeno em estudo.

A estatística inferencial (ou indutiva) ocupa-se em formular inferências sobre uma população, com base em informações contidas na amostra. Ou seja, através de técnicas inferenciais conclui-se para o todo, a partir da observação de uma parte. Assim, os métodos de estatística inferencial só podem ser utilizados, com algum sentido, sobre dados amostrais.

Estatística descritiva e inferencialEstatística descritiva e inferencial

Page 4: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

A experiência diária mostra a necessidade de se fazer generalizações sobre assuntos e circunstâncias que freqüentemente ultrapassam as fronteiras do quotidiano indicando que, dentro de certos limites, o conhecimento de uma parte do todo é uma informação prática e útil que pode ser aplicável à totalidade. Essa parte representativa do todo é denominada amostra.

O procedimento de obtenção de uma amostra chama-se levantamento por amostragem e é utilizado para diminuir o custo total do levantamento de dados.

As características numéricas de uma população chama-se parâmetros, enquanto que estatísticas são características de uma amostra. Normalmente, as estatísticas são utilizadas como base para se estimar os parâmetros populacionais.

Tipos de dadosTipos de dados

Page 5: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

Variável em estatística, é a atribuição de um número a cada característica da unidade de observação, ou seja, é uma função matemática definida na população. É importante que se saiba distinguir entre variáveis quantitativas e qualitativas. Uma outra distinção importante é entre variáveis discretas e variáveis contínuas. Aditivas e não Aditivas.

Uma variável aleatória é uma variável que tem associada a si as possibilidades de assumir seus diferentes valores (no caso de a variável ser discreta) ou se encontrar dentro de intervalos determinados (no caso de ser contínua).

G

Variável aleatóriaVariável aleatória

Page 6: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

Uma variável aleatória também possui média e variância. A sua média, também chamado valor esperado ou esperança matemática, e que se representa por E(x), é a média aritmética dos valores assumidos pela variável ponderados por suas respectivas probabilidades. Quando a variável é discreta, tais probabilidades são dadas pela chamada função de probabilidade e, para variáveis aleatórias contínuas, pela função distribuição de probabilidade.

G

Page 7: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

Uma vez coletados, os dados devem ser reunidos de forma utilizável. Geralmente isso é feito por meio de tabelas e gráficos, constituindo a chamada apresentação estatística.A forma mais simples de apresentar um banco de dados, por exemplo, é simplesmente listá-lo. A única informação, no entanto, que esse tipo de apresentação fornece é o valor da variável em cada posição espacial. Nenhum conhecimento quanto à natureza da distribuição global é agregado. G

Apresentação estatísticaApresentação estatística

Page 8: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Distribuição de freqüênciasDistribuição de freqüências

A distribuição de freqüências de uma variável é o conjunto das freqüências de todos os diferentes valores observados da variável. O perfil da distribuição de freqüências ajuda a identificar a forma (o padrão, o tipo) de distribuição da variável.

Quando a variável for contínua ou quando houver um grande número de valores observados diferentes, deve-se agrupar as observações em intervalos de classe. As freqüências, no caso, estarão associadas não a valores individuais mas ao intervalo como um todo. Para efeitos de cálculos, supõem-se que todos os valores observados dentro de um mesmo intervalo sejam iguais ao respectivo ponto médio.

Page 9: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Dados5

2116352911282623

Dados5

1116212326282935

Tabela de Freqüência

Intervalos Freqüência Freqüência Freqüência Freqüênciade Classes Absoluta Relativa Percentual Acumulada 0-10 1 0.11 11 1 10-20 2 0.22 22 3 20-30 5 0.56 56 8 30-40 1 0.11 11 9 Total 9 1.00 100

Page 10: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

O histograma é um diagrama de colunas justapostas tal que a área de cada retângulo (coluna) é proporcional à freqüência (absoluta ou relativa) da classe particular. Se os intervalos possuírem todos igual amplitude, o histograma é obtido desenhando-se colunas cujas alturas sejam iguais às freqüências (absolutas ou relativas) da classe respectiva. Uma das ferramentas estatísticas mais amplamente utilizadas, permite representar graficamente a tabela de freqüências.

Page 11: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

• O histograma pode ser construído de maneira a contemplar toda a distribuição dos dados ou somente uma parte que se deseja detalhar;

• Em caso de dados espalhados em um intervalo de várias ordens de magnitude, o uso de escala logarítmica é recomendado permite que se veja toda a distribuição;

• Usando intervalos de classes regulares é possível ver toda a distribuição sem perda de detalhes;

• É útil quando se procura identificar a existência de múltiplas populações.

Page 12: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Walker Lake data set, variável V

Walker Lake data set, variável U

Page 13: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Walker Lake data set,variável U275 dados entre 0,0 e 5190,1

Walker Lake data set, variável U217 dados entre 0,0 e 1000,0

Page 14: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Cluster data set

Escala aritmética (a) e logarítmica (b).(a)

(b)

Page 15: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Walker Lake data set,freqüência acumulada.

Cluster data set, freqüência acumulada.

Page 16: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

Medidas descritivasMedidas descritivas

Medidas de tendência central:Medidas de tendência central:

• Média: aritmética, é o centro de gravidade da distribuição da variável. Requer que a variável seja quantitativa e é pouco sensível a variações nos valores centrais, enquanto que (e esta é sua maior desvantagem) é grandemente afetada pelos valores extremos da variável.

n

1iiv

n1

m

• Mediana: é o valor que divide o conjunto de observações exatamente ao meio, de tal maneira que o número de observações maiores do que a mediana seja igual ao número de observações menores do que a mediana. G

Page 17: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

A aplicação da mediana requer que a variável possa ser ordenável. Uma desvantagem da mediana é ser muito afetada por ligeiras variações nos valores centrais da variável. Em compensação, ela permanece inalterada para mudanças ainda que grandes nos valores extremos da distribuição.

• Moda: é a medida de tendência central mais simples e é aplicável a qualquer variável, seja quantitativa ou qualitativa. É o valor médio do intervalo de freqüência com maior quantidade de valores e é extremamente sensível a pequenas alterações nos valores observados.

Page 18: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

• Em distribuições simétricas:Média = Mediana = Moda

• Em distribuições com assimetria positiva ou para a direita:Moda < Mediana < Média

• Em distribuições com assimetria negativa ou para a esquerda:Média < Mediana < Moda

Assimetria Negativa

Simétrica Assimetria Positiva

Page 19: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Medidas de localização:Medidas de localização:

• Quartis:• Q1: valor no qual temos histograma cumulativo igual a 25%• Q3: valor no qual temos histograma cumulativo igual a 75%

• Mínimo: valor no qual temos histograma cumulativo igual a 0%

• Máximo: valor no qual temos histograma cumulativo igual a 100%

• Quantis:q(p) = valor no qual temos histograma cumulativo igual a p% (divide a distribuição em duas partes)

M=q(0,5) Q1=q(0,25) Q3=q(0,75)min=q(0) max=q(1)

Page 20: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

• Box plot:

Page 21: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Medidas de espalhamento:Medidas de espalhamento:

• Variância: é a diferença quadrática média entre os valores observados e sua média. É muito sensível a valores extremos e é medida na mesma unidades das amostras ao quadrado.

• Desvio padrão: é igual à raiz quadrada da variância. É mais freqüentemente usado, já que tem unidade igual à das amostras.

• Distância interquartil (IQR): não usa a média como centro da distribuição, sendo preferido como medida de espalhamento quando poucos valores extremos influenciam a média.

IQR = Q3 – Q1

n

1i

2i

2 )mv(n1

Page 22: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Medidas de forma:Medidas de forma:

• Coeficiente de assimetria (“skewness”): extremamente sensível a valores extremos, é dado por:

3

n

1i

3i )mv(

n1

CS

CS > 0CS < 0 CS 0

Page 23: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Coeficiente de variação (CV): útil como medida de assimetria para distribuições assimétricas positivas com valor mínimo igual a 0. Fornece uma indicação do grau de dificuldade para estimativas locais:

CV = /m

< 1 problema simples

1-2 alguma dificuldade com valores extremos,

> 2 valores extremos devem gerar grande dificuldade na estimativa

Page 24: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Sumário estatísticoSumário estatístico

VantagensVantagens

• Compacto e portável;• Algumas estatísticas correspondem diretamente a parâmetros físicos relevantes;

• Podem ser usados como parâmetros de um modelo de distribuição.

DesvantagensDesvantagens

• Freqüentemente muito condensados;• Algumas estatísticas são fortemente influenciadas por valores extremos (m, , 2, assimetria, curtosidade);• Certas estatísticas são afetadas por vazios no meio da distribuição (M, Q1, Q3, IQR).

média = concentração esperadaMediana = permeabilidade efetiva

Page 25: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Histograma e sumário estatístico

Função de densidade de probabilidade e dois parâmetros

Modelos de distribuiçãoModelos de distribuição

Page 26: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Enquanto um modelo de distribuição fornece uma completa descrição a partir de poucos parâmetros (usualmente apenas dois), ele pode falhar na representação de importantes padrões da distribuição real dos dados.

O histograma acumulado facilita a inspeção da qualidade do modelo de distribuição.

Page 27: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Os eixos de um gráfico de probabilidade normal são construídos de forma que a percentagem acumulada apresente-se como uma linha reta caso os dados se comportem segundo uma distribuição normal.

Page 28: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

De maneira análoga, um gráfico de probabilidade lognormal permite testar a hipótese dos dados se comportarem segundo um modelo de distribuição lognormal.

Page 29: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

O uso de qualquer procedimento estatístico assume que os dados de alguma forma pertencem a um mesmo grupo ou população estacionaridade.

A meta de um dado estudo irá determinar a escolha das populações relevantes.

A distinção entre valores extremos e outliers necessariamente envolve informações qualitativas normalmente não contidas nas amostras propriamente ditas.

Populações estatísticasPopulações estatísticas

Page 30: Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis.

G

Valores extremosValores extremos: valores erráticos que pertencem à solução do problema e devem ter impacto significativo na estimativa.

OutliersOutliers: valores normalmente elevados que não são relevantes para a solução da meta imposta pelo estudo.

O que fazer com os valores extremos?

i. Declará-los valores errôneos e removê-los?ii. Classificá-los como pertencentes à outra população?iii. Levantar a hipótese de tamanho diferente da

amostra?iv. Estratificação da região?

Utilizar parâmetros estatísticos mais robustos, que não sejam afetados pela média. Ex.: mediana, distância entre quartis (IQR). Trabalhar com dados transformados (ex.: log). Cuidado ao retornar os valores ao espaço original dos dados.