Uso da linguagem R para análise de dados em...

22
Uso da linguagem R para análise de dados em ecologia

Transcript of Uso da linguagem R para análise de dados em...

Page 1: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Uso da linguagem R para análise de dados em ecologia

Page 2: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Objetivo da aulaApresentar os princípios básicos de

Análise Exploratória de Dados.

Page 3: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Análise Exploratória de Dados(AED)

O que é AED?

Quem utiliza AED?

Objetivos da AED:

conhecer os dados

detectar padrões

orientar os testes de hipóteses

ajudar a interpretar os testes de hipóteses

Apresentação gráfica é muito útil para AED

Page 4: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Princípios básicos da apresentação gráfica:Ressaltar os padrões de interesse;

Manter a estrutura dos dados, de forma que o leitor possa reconstruir os dados a partir da figura;

A figura deve ter uma razão dado:tinta alta;

As figuras não devem distorcer, exagerar ou aparar os dados.

Análise Exploratória de Dados(AED)

Page 5: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Cleveland (1985)

William S. Cleveland

Page 6: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Mais dicas sobre apresentação gráfica:1. linhas não podem obscurecer os dados

2. dados não devem cair sobre os eixos

3. evitar linhas de grade

4. dados sobrepostos devem ser claramente distinguíveis (diminuir otamanho dos pontos, separar os dados em gráficos diferentes, agitar os pontos etc)

5. o gráfico deve ser legível após redução na publicação ou em projeções em seminários

Análise Exploratória de Dados(AED)

Page 7: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Tabela vs. gráficoGráfico é melhor para mostrar rapidamente relações entre variáveis e dados multidimensionais de forma compreensível.

Tabela mostra melhor valores exatos

Análise Exploratória de Dados(AED)

Page 8: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Dados univariadosHistograma: gráfico de densidade. Não confundir com gráfico de barras

Desvantagens: esconde os dados (mostra apenas intervalos), as classes são arbitrárias e ocupa posição baixa na escala de Cleveland.

Tipos de gráficos para AED

Page 9: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Histograma

Número de nós por planta em 75 indivíduos de Ailanthus altissima.

A) Intervalo = 2

B) Intervalo = 1

C) Intervalo = 4

Page 10: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Haste e folhaDados brutos são apresentados

Mesmo problema visual que o histograma: classes são arbitrárias

Tipos de gráficos para AED

0 81 01111 22233333331H 44444555555551 667771M 8888899992 0000001112H 22222333333332 44455552 677723 0

Cada linha é uma haste

Cada dado é uma folha

Exemplo:

0810, 11, 11, 11

M = medianaH = quartil

Page 11: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

*

Mediana

Quartil superior

Ultimo ponto até 1,5 X a distância entre-quartis

Quartil inferior

Ultimo ponto entre 1,5 X a distância entre-quartis

Dis

tânc

ia e

ntre

-qua

rtis

Valor extremo: + que 1,5 X a distância entre-quartis

Box-and-whisker plot

ou

Diagrama de caixa e bigode de gato

Page 12: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Histogramas e haste e folha podem representar possível bimodalidade nos dados

Box-plot escondem esse padrão

Tipos de gráficos para AED

Page 13: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Exemplos no R

Page 14: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

1.55 1.60 1.65 1.70 1.75 1.80 1.85 1.90

5560

6570

7580

8590

altura

peso

Dados bivariadosDispersão

Permite analisar a relação entre duas variáveis

Page 15: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Tipos de gráficos para AED

Quantil-QuantilPermite comparar a forma de duas distribuições

Muito usado para avaliar se os dados têm distribuição parecidacom alguma distribuição teórica (Normal, Poisson etc).

Page 16: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

-2 -1 0 1 2

100

150

200

250

300

350

Normal Q-Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Quantil-quantil

Page 17: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

1º) Ordenar as variáveis

Mínimo

Máximo

Variável Normal

9

87

-1

1

0

2º) Plotar os quantis uns contra os outros

1º quantil da Variável X o 1º da Normal

2º quantil da Variável X o 2º da Normal

E assim por diante...

-2 -1 0 1 2

100

150

200

250

300

350

Normal Q-Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Quantil-quantil

Page 18: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Exemplos no R

Page 19: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Diagramas 3D

Usar gráficos tridimensionais APENAS se tiver 3 variáveis

Nunca usar em trabalhos científicos:1. Barras com volume

2. Pizza com volume

3. Tiras para série temporais

4. Etc

ABC

0

5

10

15

20

25

30

A B C

12

34

AB

C0

2

4

6

8

10

12

14

16

18

20

Page 20: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Diagramas 3D

Dispesão 3D

Pacote lattice

cloud()

Fórmula: y ~ x * z

EX:cloud(y ~ x * z, data = nome.df, screen=list(x = -90, y = 30), distance = .4, zoom = .6)

Page 21: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

SementesFlores

Vespas

Dispesão 3D

Page 22: Uso da linguagem R para análise de dados em ecologiacmq.esalq.usp.br/wiki/lib/exe/fetch.php?media=biometria:r-tutor:... · 9Mesmo problema visual que o histograma: classes são arbitrárias

Ellison, A. M. 1993. Exploratory data analysis and graphic display. In: Scheiner, S. M. (ed.), Design and analysis of ecological experiments. Chapman & Hall, pp. 14-45.

McGill, R., Tukey, J. W. and Larsen, W. A. 1978. Variations of Box Plots. Am. Statist. 32: 12-16.

Sugestões de leitura