Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L....

Post on 18-Apr-2015

123 views 4 download

Transcript of Análise Exploratória dos Dados Estatística Descritiva Univariada Eng. de Minas João Felipe C.L....

Análise Exploratória dos Análise Exploratória dos DadosDadosEstatística Descritiva UnivariadaEstatística Descritiva Univariada

Geoes t at ís t ica

Eng. de Minas João Felipe C.L. CostaEng. de Minas João Felipe C.L. CostaProf. Dr. do DEMIN/PPGEM, UFRGS

Eng. de Minas Luis Eduardo de SouzaEng. de Minas Luis Eduardo de SouzaDoutorando do PPGEM, UFRGS

• Estatística descritiva e inferencialEstatística descritiva e inferencial

• Tipos de dadosTipos de dados

• Variável aleatóriaVariável aleatória

• Apresentação estatísticaApresentação estatística

• Distribuição de freqüênciasDistribuição de freqüências

• Medidas descritivasMedidas descritivas

• Modelos de distribuiçãoModelos de distribuição

• Populações estatísticasPopulações estatísticas

Estrutura da ApresentaçãoEstrutura da Apresentação

G

G

A estatística descritiva tem por objetivo descrever a realidade observada (população ou amostra), usando métodos numéricos e métodos gráficos e realizando comentários simples de maneira mais informativa possível.

Pode-se dizer que a estatística descritiva ocupa-se do tratamento de dados quantitativos (ordenação, exposição e sumarização de registros de dados) do fenômeno em estudo.

A estatística inferencial (ou indutiva) ocupa-se em formular inferências sobre uma população, com base em informações contidas na amostra. Ou seja, através de técnicas inferenciais conclui-se para o todo, a partir da observação de uma parte. Assim, os métodos de estatística inferencial só podem ser utilizados, com algum sentido, sobre dados amostrais.

Estatística descritiva e inferencialEstatística descritiva e inferencial

G

A experiência diária mostra a necessidade de se fazer generalizações sobre assuntos e circunstâncias que freqüentemente ultrapassam as fronteiras do quotidiano indicando que, dentro de certos limites, o conhecimento de uma parte do todo é uma informação prática e útil que pode ser aplicável à totalidade. Essa parte representativa do todo é denominada amostra.

O procedimento de obtenção de uma amostra chama-se levantamento por amostragem e é utilizado para diminuir o custo total do levantamento de dados.

As características numéricas de uma população chama-se parâmetros, enquanto que estatísticas são características de uma amostra. Normalmente, as estatísticas são utilizadas como base para se estimar os parâmetros populacionais.

Tipos de dadosTipos de dados

Variável em estatística, é a atribuição de um número a cada característica da unidade de observação, ou seja, é uma função matemática definida na população. É importante que se saiba distinguir entre variáveis quantitativas e qualitativas. Uma outra distinção importante é entre variáveis discretas e variáveis contínuas. Aditivas e não Aditivas.

Uma variável aleatória é uma variável que tem associada a si as possibilidades de assumir seus diferentes valores (no caso de a variável ser discreta) ou se encontrar dentro de intervalos determinados (no caso de ser contínua).

G

Variável aleatóriaVariável aleatória

Uma variável aleatória também possui média e variância. A sua média, também chamado valor esperado ou esperança matemática, e que se representa por E(x), é a média aritmética dos valores assumidos pela variável ponderados por suas respectivas probabilidades. Quando a variável é discreta, tais probabilidades são dadas pela chamada função de probabilidade e, para variáveis aleatórias contínuas, pela função distribuição de probabilidade.

G

Uma vez coletados, os dados devem ser reunidos de forma utilizável. Geralmente isso é feito por meio de tabelas e gráficos, constituindo a chamada apresentação estatística.A forma mais simples de apresentar um banco de dados, por exemplo, é simplesmente listá-lo. A única informação, no entanto, que esse tipo de apresentação fornece é o valor da variável em cada posição espacial. Nenhum conhecimento quanto à natureza da distribuição global é agregado. G

Apresentação estatísticaApresentação estatística

G

Distribuição de freqüênciasDistribuição de freqüências

A distribuição de freqüências de uma variável é o conjunto das freqüências de todos os diferentes valores observados da variável. O perfil da distribuição de freqüências ajuda a identificar a forma (o padrão, o tipo) de distribuição da variável.

Quando a variável for contínua ou quando houver um grande número de valores observados diferentes, deve-se agrupar as observações em intervalos de classe. As freqüências, no caso, estarão associadas não a valores individuais mas ao intervalo como um todo. Para efeitos de cálculos, supõem-se que todos os valores observados dentro de um mesmo intervalo sejam iguais ao respectivo ponto médio.

G

Dados5

2116352911282623

Dados5

1116212326282935

Tabela de Freqüência

Intervalos Freqüência Freqüência Freqüência Freqüênciade Classes Absoluta Relativa Percentual Acumulada 0-10 1 0.11 11 1 10-20 2 0.22 22 3 20-30 5 0.56 56 8 30-40 1 0.11 11 9 Total 9 1.00 100

G

O histograma é um diagrama de colunas justapostas tal que a área de cada retângulo (coluna) é proporcional à freqüência (absoluta ou relativa) da classe particular. Se os intervalos possuírem todos igual amplitude, o histograma é obtido desenhando-se colunas cujas alturas sejam iguais às freqüências (absolutas ou relativas) da classe respectiva. Uma das ferramentas estatísticas mais amplamente utilizadas, permite representar graficamente a tabela de freqüências.

G

• O histograma pode ser construído de maneira a contemplar toda a distribuição dos dados ou somente uma parte que se deseja detalhar;

• Em caso de dados espalhados em um intervalo de várias ordens de magnitude, o uso de escala logarítmica é recomendado permite que se veja toda a distribuição;

• Usando intervalos de classes regulares é possível ver toda a distribuição sem perda de detalhes;

• É útil quando se procura identificar a existência de múltiplas populações.

G

Walker Lake data set, variável V

Walker Lake data set, variável U

G

Walker Lake data set,variável U275 dados entre 0,0 e 5190,1

Walker Lake data set, variável U217 dados entre 0,0 e 1000,0

G

Cluster data set

Escala aritmética (a) e logarítmica (b).(a)

(b)

G

Walker Lake data set,freqüência acumulada.

Cluster data set, freqüência acumulada.

Medidas descritivasMedidas descritivas

Medidas de tendência central:Medidas de tendência central:

• Média: aritmética, é o centro de gravidade da distribuição da variável. Requer que a variável seja quantitativa e é pouco sensível a variações nos valores centrais, enquanto que (e esta é sua maior desvantagem) é grandemente afetada pelos valores extremos da variável.

n

1iiv

n1

m

• Mediana: é o valor que divide o conjunto de observações exatamente ao meio, de tal maneira que o número de observações maiores do que a mediana seja igual ao número de observações menores do que a mediana. G

G

A aplicação da mediana requer que a variável possa ser ordenável. Uma desvantagem da mediana é ser muito afetada por ligeiras variações nos valores centrais da variável. Em compensação, ela permanece inalterada para mudanças ainda que grandes nos valores extremos da distribuição.

• Moda: é a medida de tendência central mais simples e é aplicável a qualquer variável, seja quantitativa ou qualitativa. É o valor médio do intervalo de freqüência com maior quantidade de valores e é extremamente sensível a pequenas alterações nos valores observados.

G

• Em distribuições simétricas:Média = Mediana = Moda

• Em distribuições com assimetria positiva ou para a direita:Moda < Mediana < Média

• Em distribuições com assimetria negativa ou para a esquerda:Média < Mediana < Moda

Assimetria Negativa

Simétrica Assimetria Positiva

G

Medidas de localização:Medidas de localização:

• Quartis:• Q1: valor no qual temos histograma cumulativo igual a 25%• Q3: valor no qual temos histograma cumulativo igual a 75%

• Mínimo: valor no qual temos histograma cumulativo igual a 0%

• Máximo: valor no qual temos histograma cumulativo igual a 100%

• Quantis:q(p) = valor no qual temos histograma cumulativo igual a p% (divide a distribuição em duas partes)

M=q(0,5) Q1=q(0,25) Q3=q(0,75)min=q(0) max=q(1)

G

• Box plot:

G

Medidas de espalhamento:Medidas de espalhamento:

• Variância: é a diferença quadrática média entre os valores observados e sua média. É muito sensível a valores extremos e é medida na mesma unidades das amostras ao quadrado.

• Desvio padrão: é igual à raiz quadrada da variância. É mais freqüentemente usado, já que tem unidade igual à das amostras.

• Distância interquartil (IQR): não usa a média como centro da distribuição, sendo preferido como medida de espalhamento quando poucos valores extremos influenciam a média.

IQR = Q3 – Q1

n

1i

2i

2 )mv(n1

G

Medidas de forma:Medidas de forma:

• Coeficiente de assimetria (“skewness”): extremamente sensível a valores extremos, é dado por:

3

n

1i

3i )mv(

n1

CS

CS > 0CS < 0 CS 0

G

Coeficiente de variação (CV): útil como medida de assimetria para distribuições assimétricas positivas com valor mínimo igual a 0. Fornece uma indicação do grau de dificuldade para estimativas locais:

CV = /m

< 1 problema simples

1-2 alguma dificuldade com valores extremos,

> 2 valores extremos devem gerar grande dificuldade na estimativa

G

Sumário estatísticoSumário estatístico

VantagensVantagens

• Compacto e portável;• Algumas estatísticas correspondem diretamente a parâmetros físicos relevantes;

• Podem ser usados como parâmetros de um modelo de distribuição.

DesvantagensDesvantagens

• Freqüentemente muito condensados;• Algumas estatísticas são fortemente influenciadas por valores extremos (m, , 2, assimetria, curtosidade);• Certas estatísticas são afetadas por vazios no meio da distribuição (M, Q1, Q3, IQR).

média = concentração esperadaMediana = permeabilidade efetiva

G

Histograma e sumário estatístico

Função de densidade de probabilidade e dois parâmetros

Modelos de distribuiçãoModelos de distribuição

G

Enquanto um modelo de distribuição fornece uma completa descrição a partir de poucos parâmetros (usualmente apenas dois), ele pode falhar na representação de importantes padrões da distribuição real dos dados.

O histograma acumulado facilita a inspeção da qualidade do modelo de distribuição.

G

Os eixos de um gráfico de probabilidade normal são construídos de forma que a percentagem acumulada apresente-se como uma linha reta caso os dados se comportem segundo uma distribuição normal.

G

De maneira análoga, um gráfico de probabilidade lognormal permite testar a hipótese dos dados se comportarem segundo um modelo de distribuição lognormal.

G

O uso de qualquer procedimento estatístico assume que os dados de alguma forma pertencem a um mesmo grupo ou população estacionaridade.

A meta de um dado estudo irá determinar a escolha das populações relevantes.

A distinção entre valores extremos e outliers necessariamente envolve informações qualitativas normalmente não contidas nas amostras propriamente ditas.

Populações estatísticasPopulações estatísticas

G

Valores extremosValores extremos: valores erráticos que pertencem à solução do problema e devem ter impacto significativo na estimativa.

OutliersOutliers: valores normalmente elevados que não são relevantes para a solução da meta imposta pelo estudo.

O que fazer com os valores extremos?

i. Declará-los valores errôneos e removê-los?ii. Classificá-los como pertencentes à outra população?iii. Levantar a hipótese de tamanho diferente da

amostra?iv. Estratificação da região?

Utilizar parâmetros estatísticos mais robustos, que não sejam afetados pela média. Ex.: mediana, distância entre quartis (IQR). Trabalhar com dados transformados (ex.: log). Cuidado ao retornar os valores ao espaço original dos dados.