Apostila Claudio

19
INVENTÁRIO FLORESTAL EXEMPLOS COM O SOFTWARE R CLÁUDIO ROBERTO THIERSCH MONICA FABIANA BENTO MOREIRA THIERSCH

Transcript of Apostila Claudio

Page 1: Apostila Claudio

INVENTÁRIO FLORESTAL

EXEMPLOS COM O SOFTWARE R

CLÁUDIO ROBERTO THIERSCH

MONICA FABIANA BENTO MOREIRA THIERSCH

Page 2: Apostila Claudio

CLAUDIO ROBERTO THIERSCH

MONICA FABIANA BENTO MOREIRA THIERSCH

INVENTÁRIO FLORESTAL

EXEMPLOS COM O SOFTWARE R

UNIVERSIDADE FEDERAL DE SÃO CARLOS - UFSCar

SOROCABA - SP

2010

Page 3: Apostila Claudio

“A chave para compreender a aleatoriedade e toda a

matemática não é ser capaz de intuir imediatamente

a resposta para qualquer problema, e sim possuir as

ferramentas para encontrar a solução” (MLODINOW,

2009)

Page 4: Apostila Claudio

Sumário

Lista de Tabelas

Lista de Figuras

1 Introdução 7

2 Software R 8

3 Definições básicas 10

3.1 População e amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.2 Exatidão e precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.3 Erros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.4 Planos amostrais probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . 12

3.5 Estatísticas utilizadas na teoria de amostragem . . . . . . . . . . . . . . . 13

3.5.1 Medidas de posição . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.5.2 Medidas de dispersão e precisão . . . . . . . . . . . . . . . . . . . . 14

3.5.3 Fator de correção para populações finitas . . . . . . . . . . . . . . . 17

3.5.4 Intervalo de confiança . . . . . . . . . . . . . . . . . . . . . . . . . 17

Page 5: Apostila Claudio

Lista de Tabelas

1 Volumes por unidade amostral expresso em m3/ha . . . . . . . . . . . . . . 13

Page 6: Apostila Claudio

Lista de Figuras

1 Exatidão vs precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2 Critérios para classificação das amostras probabilísticas . . . . . . . . . . . 12

Page 7: Apostila Claudio

7

1 Introdução

Todo e qualquer estudo em diferentes povoamentos, quer seja para fins de produção

ou de conservação, parte do conhecimento da população presente e do entendimento do

padrão de variação desta população ao longo do tempo. Por este motivo, o uso de técnicas

de amostragem é fato corrente no meio florestal. Dado a sua importância, é fundamental

o uso de técnicas que produzam resultados confiáveis e livres de viéses.

No meio florestal a ciência que trata do uso destas técnicas de amostragem é chamada

de Inventário Florestal. No caso das florestas de produção o principal interesse é

conhecer o estoque presente disponível para consumo e ter informações para previsão dos

estoques futuros de forma a garantir o plano de suprimento das unidades consumidoras.

No caso das florestas destinadas para conservação o conhecimento do estágio atual de

um dado povoamento e da dinâmica do mesmo é de fundamental importância para as

estratégias de conservação e, ou, restauração.

Por sua vez, as técnicas de amostragem, não são conceitos triviais e precisam ser

estabelecidos para o uso científico dos processos amostrais(BOLFARINE; BUSSAB, 2005).

Considerando a não trivialidade dos conceitos associados à necessidade de aplicação de

diferentes expressões matemáticas à bases de dados, normalmente grandes, esta publicação

tem por objetivo apresentar diferentes planos amostrais e, também, o uso do software

estatístico “R” para a análise e processamento dos dados.

Page 8: Apostila Claudio

8

2 Software R

R é um “software livre” para computação estatística e gráficos. Software livre se refere

à liberdade dos usuários executarem, copiarem, distribuírem, estudarem, modificarem e

aperfeiçoarem o software.

O ambiente R inclui:

1. Funções para análise de dados com uma poderosa ferramenta gráfica.

2. Funções e operadores para cálculos matriciais.

3. Vasta coleção de funções para aplicações das mais variadas técnicas estatísticas.

4. Uma linguagem de programação simples e eficiente que permite a inclusão de con-

dições, “loops”, novas funções definidas pelo usuário, diferentes formas de entrada e

saída de dados, conexões com outros sistemas, etc.

O R é um sistema muito bem planejado de forma a permitir o seu desenvolvimento

contínuo. A inclusão de novas funcionalidades não resulta na acumulação de ferramentas

muito específicas e rígidas, como frequentemente ocorrem em outros softwares de análise

de dados. O sistema pode ser estendido facilmente através de pacotes. Há cerca de

oito pacotes fornecidos com a distribuição R e muitos outros estão disponíveis através da

família “CRAN” de sites da Internet que cobrem uma vasta gama de estatísticas modernas.

Todo o sistema, bem como, uma documentação completa pode ser encontrado no www.r-

project.org.

Este capítulo não tem o objetivo de ensinar os passo iniciais de uso do R, o qual, já

possui um vasta opção de literaturas com este fim facilmente encontradas na Internet e

em livros já publicados. O objetivo principal é apresentar e dar créditos a esta poderosa

ferramenta.

Os comandos serão apresentados de forma concomitante aos exemplos demonstrados

nos próximos capítulos. Para facilitar a explicação da implementação de algumas técni-

Page 9: Apostila Claudio

9

cas, o usuário deverá importar o pacote “cmrinvflor ” disponível junto desta publicação.

Vários exemplos que serão apresentados nos próximo capítulos deverão ser precedidos pelo

comando “ library(cmrinvflor)”. Neste pacote estão inseridas algumas funções e bases de

dados de exemplo. Para o uso de outras bases de dados recomendo o usuário estudar a

função “read ” do R. Para acessar a ajuda de uso desta função basta utilizar o comando

“?read ” no R.

Page 10: Apostila Claudio

10

3 Definições básicas

Para o bom entendimento da teoria da amostragem é importante conhecer algumas

definições referentes aos parâmetros populacionais e aos estimadores e estimativas destes

parâmetros.

Função paramétrica populacional é uma característica numérica qualquer da popu-

lação, ou seja, uma expressão numérica que condensa funcionalmente os valores de uma

determinada variável de interesse. É comum utilizar-se para esta definição a expressão

parâmetro populacional de interesse, parâmetro populacional, parâmetro estatístico e me-

dida estatística.

O estimador é a expressão matemática que será utilizada para “estimar” o parâmetro

populacional e o valor numérico do estimador é a estimativa.

3.1 População e amostra

A população é o conjunto de todas as unidades elementares de interesse, sendo que,

duas são as pressuposições de uma população (LOETSCH; HALLER, 1964).

1. Os indivíduos de uma população são da mesma natureza. Por exemplo, florestas

plantadas ou nativas.

2. Os indivíduos de uma população diferem entre si, de acordo com uma feição, atributo

típico ou característica. Por exemplo, as variáveis dendrométricas.

Elemento populacional ou unidade elementar é qualquer elemento da população.

A amostra é uma sequência de n unidades da população que é examinada, permitindo

que se façam inferências sobre a população em estudo (SHIVER; BORDERS,1996).

Page 11: Apostila Claudio

11

3.2 Exatidão e precisão

Os conceitos de exatidão e precisão podem ser facilmente entendidos analisando a

figura 1.

Figura 1: Exatidão vs precisão

Em linhas gerais, a precisão é o grau de variação de resultados de uma medição e, a

exatidão ou acurácia, é a conformidade com o valor real.

3.3 Erros

Por motivos diversos todo levantamento amostral está sujeito a erros. Estes erros

podem ser classificados como erros amostrais e não amostrais.

Um erro amostral é aquele devido apenas ao processo amostral e, os não amostrais,

são os erros que ocorrem mesmo que toda a população fosse amostrada. Estes erros

não amostrais podem ser de ocorrência casual ou consistentes causando tendências, tam-

bém chamadas de viés, vícios ou “bias”. Em linhas gerais, viés é qualquer processo em

qualquer estágio de inferência que tende a produzir resultados ou conclusões que diferem

sistematicamente da verdade (SCOLFORO; MELLO, 2006).

Page 12: Apostila Claudio

12

3.4 Planos amostrais probabilísticos

Muitas são as formas de selecionar e distribuir as amostras e, assim, gerar diferentes

plano amostrais. Kish (1965) propôs alguns critérios resumidos na figura 2.

Figura 2: Critérios para classificação das amostras probabilísticas

Para exemplificar, entre as 32 combinações possíveis apresentadas na figura 2, se

selecionarmos as primeiras opções, teremos o plano amostral denominado amostragem

casual simples. Dentre outras possibilidades iremos trabalhar em capítulos posteriores a

amostragem casual estratificada, amostragem sistemática, amostragem em conglomerado,

amostragem em múltiplos estágios, etc.

Page 13: Apostila Claudio

13

3.5 Estatísticas utilizadas na teoria de amostragem

Para demonstração das estatíticas foram consideradas os resultados dos volumes

(m3/ha) de diferentes unidades amostrais apresentados na tabela 1.

Tabela 1: Volumes por unidade amostral expresso em m3/ha

.

parcela vtcc55 148, 8056 167, 5157 141, 89322 150, 60323 152, 49324 143, 88325 161, 29326 155, 28327 145, 80328 129, 49

Os dados da tabela 1 podem ser observados no R utilizando dos comandos abaixo. O

sinal de atribuição “<-” onde se lê “recebe” pode ser substituído pelo sinal de igual “=”.

tab<-invflor1[1:10, c(’parcela’,’vtcc’)]; tab;

Uma descrição detalhada de toda a tabela “invflor1” pode ser obtida no R utilizando

o comando “?invflor1”.

Para apresentar as parcelas na ordem crescente de suas identificações e, ou, para

retornar os nomes das colunas utilize os comandos abaixo.

tab<-tab[order(tab$parcela),];tab; #Comando de ordenação.

names(tab); #Comando para retornar os nomes das colunas.

3.5.1 Medidas de posição

1. Média aritmética

y =

∑ni=1 yin

(3.1)

onde: y = Média aritmética da amostra

n = Número de unidades amostrais

Page 14: Apostila Claudio

14

yi = Valor da iésima unidade amostral

Considerando os dados da tabela 1 y = 1497,0310

= 149, 703m3.

ymed<-sum(tab$vtcc)/length(tab$vtcc); ymed;

# ou

ymed<-mean(tab$vtcc); ymed;

2. Mediana

É o valor localizado na posição 50% de um vetor de dados ordenado. Para

vetores com número par de registros a mediana é a média dos dois valores centrais.

Considerando os dados da tabela 1 temos: mediana = 148,80+150,602

= 149, 70m3

ymedian<-median(tab$vtcc); ymedian;

3. Moda

É o valor ou valores mais frequentes em um vetor de dados. Considerando a

série {3, 4, 3, 5, 6, 3, 5, 6, 3} a moda é 3.

yt<-table(c(3,4,3,5,6,3,5,6,3));

ymoda<-as.numeric(names(yt)[which.max(yt)]); ymoda;

3.5.2 Medidas de dispersão e precisão

1. Variância

A variância é definida como sendo o “desvio quadrático médio da média”, ou

seja, é uma medida de dispersão que indica o quão longe em geral os valores de uma

variável se encontram em relação à sua própria média.

S2y =

n∑i=1

(yi − y)2

n− 1=

∑ni=1 y

2i −

(∑n

i=1 yi)2

n

n− 1(3.2)

Considerando os dados da tabela 1: S2y = 112, 2875m6

var_y<-var(tab$vtcc); var_y;

Page 15: Apostila Claudio

15

2. Desvio padrão

O desvio padrão é a raiz quadrada da variância. Semelhante à variância esta

estatística expressa a variação dos valores observados em relação à sua própria mé-

dia. Por sua vez, a sua unidade é a mesma da variável de interesse, fato que facilita

o seu entendimento.

Sy =√S2y (3.3)

Considerando os dados da tabela 1: Sy = 10, 60m3

sd_y<-sqrt(var(tab$vtcc)); sd_y;

# ou

sd_y<-sd(tab$vtcc); sd_y;

Se uma variável aleatória (Y) tem distribuição normal com média µ e variância

S2(Y ∼ N(µ, S2)), pode-se dizer que:

(a) 68% dos valores encontram-se a uma distância da média inferior a um desvio

padrão.

(b) 95% dos valores encontram-se a uma distância da média inferior a duas vezes

o desvio padrão.

(c) 99,7% dos valores encontram-se a uma distância da média inferior a três vezes

o desvio padrão.

3. Coeficiente de variação

O coeficiente de variação é a razão entre desvio padrão das unidades amostrais

pela sua média, usualmente expressa em porcentagem. Por ser uma medida de

dispersão relativa permite comparar distribuições com diferentes magnitudes.

CV% =Syy· 100 (3.4)

Considerando os dados da tabela 1: CV% = 10,60149,703

· 100 = 7, 08

cv_y<-sd(tab$vtcc)/mean(tab$vtcc)*100; cv_y;

4. Erro padrão da média

Page 16: Apostila Claudio

16

Esta medida de precisão corresponde ao desvio padrão das médias. Conside-

rando N o número de unidades cabíveis em uma população e n o número de unidades

amostrais da amostra, são muitas as combinações de amostras possíveis de serem

realizadas. Para cada combinação uma média pode ser gerada e, por conseguinte, o

desvio padrão destas médias.

O número de combinações possíveis pode ser calculado pela fórmula:

CNn =

N !

n! (N − n)!(3.5)

ncomb<-choose(N,n);

Utilizando-se das fórmulas 3.2 e 3.3 podemos cálcular o erro padrão da média

utilizando a expressão 3.6.

σy =

√√√√∑mi=1 y

2i −

(∑m

i=1 yi)2

m

m(3.6)

onde:

yi = Média amostral da iésima amostragem

m = Número total de médias amostrais

σy =Erro padrão da média

Por sua vez, esta forma de cálculo não é factível, visto que, apenas uma amos-

tragem é realizada. Para resolver este problema, com apenas uma amostragem é

possível calcular o erro padrão da média utilizando um dos mais importantes teo-

remas estatísticos, o teorema central do limite (TCL). Segue uma demonstração da

TCL utilizando o R.

par(mfrow=c(1,2));

x<-runif(10000, 180, 250); #Distribuição uniforme

#x<-rexp(10000,0.02); #Distribuição exponencial

hist(x, main=’’,ylab=’frequência’,cex.main=0.9);

y<-matrix(,5000,1);

for (i in 1:5000){

y[i]<-mean(sample(x,100));

}

hist(y,main=’’,ylab=’frequência’,cex.main=0.9);

Page 17: Apostila Claudio

17

Pela TCL, uma população finita com média µ e variância σ2y, o erro padrão da

média pode ser estimado como σy√n. Sabendo-se que σy pode ser estimado utilizando

Sy, o erro padrão da média pode ser estimado pela expressão 3.7

Sy =Sy√n

(3.7)

Considerando os dados da tabela 1: Sy = 10,60√10

= 3, 35

sdm_y<- sd(tab$vtcc)/sqrt(length(tab$vtcc)); sdm_y;

3.5.3 Fator de correção para populações finitas

População finita é aquela onde se pode enumerar todas as unidades amostrais cabíveis.

Considerando N o número de unidades cabíveis em uma população e n o tamanho da

amostra, a fração amostral é dada por n/N e, por conseguinte, a fração não amostral

é dada por (1 − n/N). Esta expressão quando associada ao cálculo do erro padrão da

média é denominada fator de correção para populações finitas. Assim, para as populações

finitas, o erro padrão da média é calculado utilizando-se a expressão 3.8. Este fator tende

a 0 quando n tende a N (censo) e tende a 1 quando a relação n/N tende a 0 (população

infinita).

Sy =

√S2y

n

(1− n

N

)(3.8)

Considerando os dados da tabela 1 e um N igual a 100:

Sy =√

112,287510

(1− 10

100

)= 3, 18

n<-length(tab$vtcc);

sdm_y<-sqrt(var(tab$vtcc)/n*(1-n/100)); sdm_y;

3.5.4 Intervalo de confiança

Conforme o teorema central do limite, as estimativas das médias amostrais seguem

uma distribuição normal com média µ e erro padrão da média σy√n. Este fato demonstra que

as variáveis de interesse observadas nas unidades amostrais não precisam ter distribuição

normal, ou melhor, podem apresentar qualquer distribuição.

Page 18: Apostila Claudio

18

Sabendo pelo TCL que as médias amostrais possuem distribuição normal e conhecendo

as propriedades das medidas de dispersão (Seção 3.5.2) desta distribuição, o intervalo de

confiança do erro padrão da média pode ser calculado utilizando o valor t da distribuição

t de Student ou Z da distribuição normal quando para n > 120. Para n tendendo para

o infinito o valor t da distribuição t de Student tende para o valor de Z da distribuição

normal.

O valor t da distribuição t de Student é obtido por:

±t = y − µSy

(3.9)

±t · Sy = y − µ (3.10)

µ = y ± t · Sy (3.11)

[y − t · Sy ≤ µ ≤ y + t · Sy] (3.12)

O intervalo de confiança apresenta as seguintes características:

1. Quanto menor o n, maior sera o valor de t da distribuição t de Student e, por

conseguinte, maior o intervalo de confiança para um mesmo nível de significância.

2. Quanto maior for o grau de heterogeneidade do povoamento, maior será o erro

padrão da média e, por conseguinte, maior o intervalo de confiança para um mesmo

nível de significância.

3. Quanto maior o nível de significância menor será o intervalo de confiança. Normal-

mente os níveis de significância adotados são iguais a 5% ou 1%. Para exemplificar,

caso o nível de significância α seja de 5% a média estimada tem uma probabilidade

de 5% de estar fora do intervalo estimado. Em outras palavras, significa que existe

uma probabilidade de no máximo 5% de que os dados tenham nos iludido em função

do acaso.

Considerando os dados da tabela 1:

t0,05ns(n−1)gl = 2, 26

IC = 149, 703± 2, 26× 3, 18

IC = 149, 703± 7, 19

Page 19: Apostila Claudio

19

A expressão t · Sy é conhecida como o erro do inventário na unidade da variável de

interesse. Outra forma de apresentação do erro é em porcentagem, conforme a expressão

3.13.

erro_perc =t · Syy· 100 (3.13)

Considerando os dados da tabela 1:

erro_unid = 7, 19m3

erro_perc = 7,19149,703

· 100 = 4, 80%

ns<-0.05; #nível de significância

erro_unid<-abs(qt(ns/2,n-1)*sdm_y);erro_unid;

erro_perc<-erro_unid/mean(tab$vtcc)*100;erro_perc;