Introdução à análise de dados agronômicos e uso do software...

23

Transcript of Introdução à análise de dados agronômicos e uso do software...

Page 1: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Introdução à análise de dados agronômicos e uso do software R

Anderson R Silva

Programa de Pós-Graduação em Estatística e Experimentação AgronômicaESALQ/USP

25 a 30 de novembro de 2013

Page 2: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Parte 1 - Conteúdo

1 Software R

2 Introdução à análise de dados

3 ANOVADICDBC

4 Transformação Box-Cox

5 Extra: DQL

Page 3: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Software R

• R (http://www.r-project.org/)

• Action = Excel + R (http://www.portalaction.com.br)

Page 4: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Software R

Porque usar o R?

• Gratuito

• Linguagem de programação ⇒ maior �exibilidade de análise

• Grá�cos1 de alta qualidade em 2 e 3D, e animações grá�cas!

• Suporta grandes bancos de dados

• Grande quantidade de pacotes disponíveis (atual: 5027)

• Em geral, há mais de uma opção de função para a mesma análise

• Conexão com a internet (download de pacotes, funções, leitura de dadosonline, e-mails de aviso ...)

• Grande aceitação pela comunidade cientí�ca

1Para demonstrações grá�cas, digite os comandos

demo(graphics) e demo(persp)

Page 5: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Pacotes do R

Alguns pacotes recomendados para análise de dados experimentais:

• ExpDes (Ferreira, et al. 2013)

• agricolae (Mendiburu, 2012)

Use o comando para saber como citar...

• o software R: citation()

• um pacote do R: citation(�nome do pacote�)

Page 6: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Exemplo / Motivação

O limite de liquidez (LL) é o teor em água acima do qual o solo torna-se líquido.

Considere o seguinte problema:

• Determinar o limite de liquidez, por amostra, de 42 amostras de solo.

• O método baseia-se numa regressão linear simples em que y é o teor de águano solo e x é o número de pancadas.

• LL é então um valor de umidade do solo para x = 25 (NBR 6459), isto é, umvalor predito pela equação de regressão.

Page 7: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Bibliogra�as para usuários iniciantes

Para uma introdução ao uso do R, podem ser consultadas:

• PETERNELLI, L. A.; MELLO, M. P. Conhecendo o R: uma visão estatística.Viçosa: Editora UFV, 2011. 185p.

• Manual em .pdf An Introduction to R, disponível na ajuda do software(Ajuda � manuais em PDF).

Page 8: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Tipos de dados: questões iniciais

• Dados observacionais ou experimentais?

• Estatística descritiva ou inferencial?

Dados paramétricos ou não-paramétricos... ?!?!?

Page 9: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Dados observacionais vs. experimentais

• Em dados observacionais se deseja, em geral, apenas conhecer ocomportamento ou o processo de geração destes.

• Dados experimentais são, em geral, provenientes de experimentos comparativos.

Page 10: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Exemplo 1

Considere dados de número de plantas atacadas (NPA) pela lagarta-do-cartucho(Spodoptera frugiperda) e rendimento (kg) de milho por m2.

NPA Rendimento Inseticida NPA Rendimento1 0.86 sim 1 0.862 0.79 não 2 0.795 0.61 não 5 0.612 0.82 não 2 0.820 0.93 vs. sim 0 0.931 0.80 sim 1 0.801 0.88 sim 1 0.880 0.90 sim 0 0.903 0.74 não 3 0.742 0.75 não 2 0.75

Page 11: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Métodos descritivos

• Numéricos: min, max, média, desvio padrão ...

• Grá�cos: Histograma, Barras, Boxplot ...

Page 12: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Métodos inferenciais

• Paramétricos: teste t-Student, F-ANOVA, testes de médias, GLM etc.

• Não paramétricos: Wilcoxon, Kruskal-Wallis, Friedman etc.

Page 13: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Métodos inferenciais: conceitos básicos

• Nível de signi�cância (α): denota a probabilidade máxima de erro tipo I(rejeitar H0 verdadeira) num teste de hipóteses. É �xada pelo pesquisador.

• Valor-p: denota a real (calculada com base nos dados!) probabilidade de errotipo I. Quando p < α, rejeitamos H0.

Page 14: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Análise de variância

• Grande utilidade em experimentos comparativos (inclui delineamentos eesquemas experimentais).

• Comparação de dois ou mais grupos (tratamentos).

• teste F

• Pressuposições2 do modelo: aditividade, independência dos erros,homogeneidade de variâncias, normalidade dos erros.

2As pressuposições devem ser veri�cadas sob pena de se fazer inferências pouco con�áveis.

Page 15: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

DIC

• Aleatorização dos tratamentos às parcelas sem nenhuma restrição

• Robusto ao desbalanceamento

• Maior no possível de graus de liberdade do resíduo

• Não controla nenhuma fonte de variação ambiental

Modelo estatístico:Yij = µ+ ti + εij

Page 16: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Exemplo 2: DIC

A requeima, doença causada por Phytophthora infestans (Mont.), é a principaldoença fúngica da batata (Embrapa, 2011). Em um experimento instalado sob odelineamento inteiramente casualizado, com três repetições por tratamento,envolvendo quatro cultivares, foi medida a produção de tubérculos (em kg),conforme a tabela:

Cultivar Rep.1 Rep.2 Rep.31 50,9 50,6 51,22 49,1 49,3 49,93 49,9 49,8 49,54 49,2 49,1 50,0

Fonte: Embrapa, 2011

Page 17: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

CV

A precisão experimental pode ser calculada em termos do coe�ciente de variaçãoexperimental (CV):

CV (%) = 100×√QMRes

y

Page 18: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

DBC

• Aleatorização dos tratamentos às parcelas com uma restrição (blocagem)

• Estimativa mais precisa da variância residual pelo controle de uma fonte devariação ambiental

• A perda de parcelas impossibilita a análise, a menos de estimação daobservação perdida

Modelo estatístico:Yij = µ+ ti + bj + εij

Page 19: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Exemplo 3: DBCVisando avaliar o comportamento de 9 porta-enxertos especí�co para a laranjeiraValência, foi instalado um experimento casualizado em blocos com 3 repetições(blocos). Foram avaliados os seguintes resultados de produção, em número médiode frutos por planta:

BlocoPorta enxerto I II IIITangerina Sunki 145 155 166Limão Rugoso Nacional 200 190 190Limão Rugoso da Flórida 183 186 208Tangerina Cleópatra 190 175 186Citrange-troyer 180 160 156Trifoliata 130 160 130Tangerina Cravo 206 165 170Laranja Caipira 250 271 230Limão Cravo 164 190 193

Fonte: Teó�lo Sobrinho, 1972

Page 20: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Transformação Box-Cox

Quando as pressuposições do modelo de ANOVA não são atendidas, muitas vezes éútil aplicar a transformação de Box-Cox para obtermos a normalidade.Considerando Y1,Y2, ...,Yn os dados originais, a transformação de Box-Cox consisteem encontrar um λ tal que os dados transformados Y ∗

1 ,Y∗2 , ...,Y

∗n se aproximem de

uma distribuição normal. Esta transformação é dada por:

Y ∗i =

log(Yi ), se λ = 0

Y λi − 1λ

, se λ 6= 0

Page 21: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Exemplo 4: DBC

O grau de impureza (%) de um determinado produto químico é suposta ser afetadapela pressão. Em um ensaio em blocos casualizados três repetições foram utilizadaspara cada um dos níveis de pressão aplicados. A temperatura foi utilizada como umfator de controle local. Os dados referentes são apresentados a seguir:

Pressão (psi)Temperatura (oF) 25 30 35 40 45100 5 4 6 3 5125 3 1 4 2 3150 1 1 3 1 2

Fonte: Abebe, 20??

Page 22: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

DQL

• Aleatorização dos tratamentos às parcelas com duas restrições (linhas ecolunas)

• Estimativa mais precisa da variância residual pelo controle de duas fontes devariação ambiental

• Cada tratamento aparece apenas uma vez em cada linha e em cada coluna

• O número de linhas, colunas e tratamentos é o mesmo (I )

• Em geral I varia de 4 a 10

Modelo estatístico:Yijk = µ+ li + cj + tk + εijk

Page 23: Introdução à análise de dados agronômicos e uso do software Rarsilva.weebly.com/uploads/2/1/0/0/21008856/parte1_slides.pdf · análise de dados agronômicos e uso do softwrea

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Software R

Introdução àanálise dedados

ANOVA

DIC

DBC

TransformaçãoBox-Cox

Extra: DQL

Exemplo 5: DQL

Considere um experimento para investigar o efeito de quatro diferentes dietas (A, B,C e D) na produção de leite de vaca. Há quatro vacas no estudo e o período delactação foi dividido em quatro períodos. Durante cada período de lactação asvacas recebem uma dieta diferente. Assumindo que não haja in�uência da dieta doperíodo anterior, as seguintes observações foram obtidas de um quadrado latino4× 4:

VacaPeríodo 1 2 3 41 A=38 B=39 C=45 D=412 B=32 C=37 D=38 A=303 C=35 D=36 A=37 B=324 D=33 A=30 B=35 C=33

Fonte: Abebe, 20??