Comparação de duas populações com distribuição normal utilizando inferência bayesiana

Inferência Bayesiana e aplicação utilizando duas populações com distribuição

normal com priori informativa e variâncias desconhecidas

Schmidt, AV1

Universidade Federal do Rio Grande do Sul, Brasil

Resumo O uso de métodos bayesianos até o último século foi controverso, mas nos dias atuais já são

amplamente utilizados em diferentes áreas de aplicação. O objetivo deste artigo é contextualizar o leitor

quanto às origens da estatística bayesiana e uma breve explicação de seus fundamentos matemáticos,

além de apresentar a distribuição normal para duas populações independentes com variâncias

populacionais desconhecidas no contexto bayesiano e uma aplicação deste modelo em um exemplo

didático. Conclui-se que a estatística bayesiana pode ser utilizada sim, e que seu uso não

necessariamente implica em descartar toda a metodologia clássica existente e desenvolvida até os dias

atuais. É necessário que se compreenda que embora sejam correntes de pensamentos diferentes, a

escola de estatística clássica e a escola bayesiana podem se complementar afim de criar novos

resultados, teoremas e com isso utilizar a ciência para seu fim mais virtuoso: dar retorno à sociedade de

forma a tornar o convívio e a vida das pessoas melhor.

1. Estatística Bayesiana

1.1. História

Atualmente, o uso da estatística bayesiana tem se disseminado pelas diversas

áreas de conhecimento, desde a economia até as áreas da saúde. Isso se deve,

principalmente, pelo avanço da tecnologia computacional que permite que cálculos que

antigamente não eram resolvíveis analiticamente possam ser resolvidos

numericamente.

Mas nem sempre a estatística bayesiana teve boa aceitação. Pensando em um

caso clássico de probabilidades condicionais, pode-se usar como exemplo a situação

da probabilidade de um paciente estar doente dado que seu exame para a doença X

1 UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

INSTITUTO DE MATEMÁTICA

DEPARTAMENTO DE ESTATÍSTICA

Av. Bento Gonçalves, 9500 - Prédio 43-111 - Agronomia

91509-900 Porto Alegre - RS - BRASIL

Fone: (51)3308-6225/3308-6189 FAX: (51)3308-7301

e-mail: [email protected]

tem resultado positivo. Todas as idéias de probabilidades condicionais desenvolvidas

até o século XVIII levavam em consideração que o evento condicionante já ocorrera

antes do evento novo a ser examinado. Por exemplo, a probabilidade de chover hoje

dado que choveu amanhã. Foi então que o Reverendo Thomas Bayes descobriu

simetria interna nas fórmulas de probabilidade condicional. Basicamente isto implica

em, se soubermos que choveu hoje, qual a probabilidade de ter chovido ontem?

Isto aparentemente abalou o reverendo pois ele deixou estas anotações de lado

e só foram encontradas após sua morte. Por muitos anos o uso do chamado Teorema

de Bayes foi condenado, principalmente pelos seguidores da teoria de Fisher, que

considera os parâmetros quantidades desconhecidas, porém fixas, ao contrário da

teoria Bayesiana que os considera quantidades aleatórias.

Durante os primeiros anos do século XX os estatísticos e profissionais afins

foram muito cuidadosos ao utilizar a então chamada “probabilidade inversa”. Fisher foi

acusado em uma conferência de ter utilizado de tal artifício e defendeu-se de tamanha

insinuação e no seu artigo sobre intervalos de confiança Neyman utilizou a

probabilidade inversa como artifício matemático para chegar ao resultado esperado.

Anos mais tarde, ele publicou o mesmo artigo sem utilizar probabilidades inversas.

Apenas em 1960 que os pesquisadores começaram a enxergar as

possibilidades da inferência e dos métodos bayesianos e a publicar artigos utilizando-

os em revistas como a Annals of Statistics e a Biometrika.

Uma das grandes críticas dos estatísticos clássicos aos estatísticos bayesianos

é a necessidade de uma priori, que pode ser mal interpretada como manipulação de

dados. Para os bayesianos, o uso do conhecimento existente é feito com muito

cuidado.

1.2. Fundamentos matemáticos

Podemos enxergar a análise estatística como um retorno à origem do problema,

já que a partir de um conjunto de dados queremos fazer inferências, formular hipóteses

e, principalmente, saber quais os mecanismos probabilísticos que possivelmente

geraram o fenômeno.

Uma descrição geral das probabilidades inversas é dada pelo Teorema de

Bayes: Se A e E são eventos tais que P(E) ≠ 0 então P(A|E) e P(E|A) estão

relacionados da seguinte forma:

Thomas Bayes também provou o teorema para o caso contínuo.

Surge, então, a partir de Bayes e de Laplace, o conceito de posteriori, que é a

probabilidade condicional de um parâmetro desconhecido θ condicionado à amostra x.

Para tanto, é necessário o uso da chamada priori, que nada mais é que o

conhecimento prévio de θ antes de observar os dados. A distribuição a posteriori é

dada por:

Em termos estatísticos, o Teorema de Bayes atualiza a informação de θ

extraindo a informação de θ contida nas observações em x. A polêmica está em

colocar no mesmo nível variável aleatória e parâmetro, atribuindo a ambos uma

distribuição de probabilidade.

Como citado anteriormente, o desenvolvimento da computação foi crucial para o

desenvolvimento da estatística bayesiana. Isto se dá em função do denominador da

posteriori, chamado de preditiva a priori. Nem sempre esta integral tem solução

analítica e então este ramo da estatística ficou estagnado por falta de recursos para a

solução das contas.

1.3. Prioris Conjugadas

Alguns métodos matemáticos foram desenvolvidos de forma a facilitar as contas

para chegar à posteriori de interesse. Uma das descobertas foi a de que o uso de

algumas prioris específicas levavam a posterioris iguais, (dependendo da distribuição

da amostra) com parâmetros bem especificados. Estas prioris são chamadas de prioris

conjugadas. Por exemplo, a família de distribuições Beta(α,β) é conjugada ao modelo

Binomial(n,p), com n conhecido e p desconhecido. Isto quer dizer que se nossa

população tiver distribuição Binomial(n,p), com n conhecido e p desconhecido e

utilizarmos uma priori Beta(α,β) para p, chegaremos a uma posteriori Beta.

Também existem as prioris não informativas mas elas não serão utilizadas no

presente trabalho.

O presente artigo divide-se da seguinte forma: na introdução abordamos

aspectos históricos e teóricos sobre inferência bayesiana de forma superficial a fim de

localizar o leitor, na seção 1 será abordada a distribuição normal sob o enfoque

bayesiano, na seção 2 será apresentada uma aplicação, a seção 3 mostra os

resultados obtidos utilizando a distribuição normal para 2 populações com variâncias

diferentes e a seção 4 trata de uma breve discussão sobre as conclusões da autora

sobre inferência bayesiana.

2. A distribuição normal no contexto bayesiano

A curva em formato de sino, ou curva de Gauss ou simplesmente curva Normal,

é assim chamada pois se acreditava que todos fenômenos da natureza podiam ser

modelados de acordo com esta distribuição.

Atualmente, sabe-se que isso não é verdade, mas nem por isto a distribuição

normal deixa de perder sua importância, pois em muitos casos assintóticos há

convergência para a distribuição normal e ela é extensivamente usada em muitas áreas

de conhecimento. Desta forma, é de interesse estudar detalhes desta distribuição sob o

enfoque bayesiano.

Nestra trabalho abordaremos apenas o caso da priori conjugada ao modelo

Normal para duas populações com variâncias desconhecidas. Maiores detalhes sobre

demais prioris podem ser encontradas em (1).

As contas da citação 1 são para o caso de uma população mas podem ser

estendidas para duas populações.

No caso de 2 populações tem-se que:

E a posteriori para a diferença das médias não pode ser resolvida

analiticamente, sendo necessário utilizar simulação.

3. Aplicação

Os atuais problemas ambientais decorrentes da superpopulação mundial tem

sido amplamente discutidos pois suas conseqüências afetarão a humanidade de forma

geral: escassez de alimentos, derretimento das calotas polares, inversão de climas,

falta de água potável, guerras e muitos outros. Alguns processos já apresentam

estados irreversíveis e a necessidade de medidas de colonização espacial é cada vez

mais urgente.

Citação 1 – Retirado das notas de aula de inferência bayesiana de 2009/1.

O primeiro corpo celeste alcançado pelo homem ou suas criações foi a Lua. A

Lua, por se tratar de um satélite natural, apresenta instabilidade planetária, falta de

atmosfera e também solo e condições climáticas severas e irreversíveis. Não seria

possível, sem uma estrutura tecnológica que ainda é inexistente, iniciar um processo

de colonização na Lua.

Na última década, com a chegada da primeira missão espacial no Planeta Marte

e os dados coletados, várias semelhanças com o Planeta Terra foram encontradas. Os

maiores desafios até o momento eram com relação à falta de água e as condições

climáticas hostis, que incluem ventos fortes e temperaturas abaixo de zero o ano

inteiro.

A última missão da NASA, com a estação marciana Phoenix foi mal sucedida no

sentido de que o robô parou de funcionar, mas descobriu-se um aqüífero no subsolo do

Ma'adim Vallis, um grande desfiladeiro com cerca de 700 km de extensão. Tem 20 km

de largura e 2 km de profundidade em alguns locais. A área norte do Ma'adim Vallis

apresenta um pequeno pedaço de solo protegido dos ventos fortes que fica nas

imediações da parte mais superficial do lençol freático.

Após os achados da Phoenix, o Governo Brasileiro, em parceria com o Instituto

Tecnológico da Aeronáutica, financiou um projeto piloto de testagem de adequabilidade

de plantas em solo arenoso, com temperaturas baixas e oxigênio reduzido. Neste

estudo, constatou-se que as plantas Ficus Carica se adaptam de forma satisfatória às

condições impostas pela atmosfera marciana.

Optou-se pela Carica, da família Ficus pois é a planta da família que fornece

frutos comestíveis, que posteriormente poderão servir de padrão para cultivo de plantas

fora da Terra. No Brasil a técnica de plantio via estaqueamento é a mais utilizada por

não necessitar das plantas macho para a fecundação das plantas fêmeas. O plantio por

estaqueamento é feito a partir de um caule da planta já madura. Os figos das árvores

plantadas por estaqueamento não contém sementes. As estacas continham sensores

que indicavam o crescimento da planta bem como sua avaliação nutricional no

momento. As tabelas das alturas das plantas no final do ano de estudo estão descritas

no anexo A, para o grupo de plantas que recebeu o adubo A e para aquelas adubadas

com o composto B.

Durante o experimento em laboratório, foram plantadas 200 mudas para cada

um dos dois compostos orgânicos enriquecidos com hormônio vegetal que

demonstraram resultados considerados satisfatórios. O adubo enriquecido com ácido

indol-acético (Adubo A) apresentou média de crescimento de 1,68cm enquanto que o

adubo enriquecido com ácido naftaleno-acético (Adubo B) apresentou crescimento

médio de 1,46cm. Os achados laboratoriais foram utilizados para compor as prioris

para a análise utilizando o modelo normal com médias e variâncias populacionais

desconhecidas. 50 plantas para cada composto orgânico foram cultivadas por

máquinas em solo marciano e analizadas após um ano do seu plantio quanto ao

crescimento, em metros.

A tabela 1 contém as descritivas das mudas plantadas no laboratório:

Tabela 1 – Descritivas das plantas cultivadas em laboratório

Adubo A AduboB

Média 1,68 1,46

Erro Padrão 0,07 0,04

Mediana 1,76 1,45

Desvio Padrão 0,47 0,30

Variância 0,23 0,09

A figura 1 apresenta os histogramas das duas populações de plantas:

Figura 1 – Histograma das plantas cultivadas com adubo tipo A e B

Foram utilizados na simulação os seguintes hiperparâmetros neste trabalho:

mi0y <- 1,4586 k0y <- 1000 ni0y <- -1 s20y <- 0,0922 mi0x <- 1,6779 k0x <- 1000 ni0x <- -1 s20x <- 0,2251

4. Resultados

O intervalo de confiança do quociente da variância da altura das plantas que

utilizaram o adubo A e das que utilizaram o adubo B é de (1,37;4,24), o que indica que

as variâncias são consideradas diferentes a 95% e a variabilidade da altura das plantas

com adubo A é maior do que as que utilizaram o adubo B.

Os resultados descritivos obtidos nas duas amostras estão na tabela 2:

Tabela 2 – Resultados descritivos das amostras plantadas em Marte

Adubo A AduboB

Média 1,69 1,52

Erro Padrão 0,07 0,04

Mediana 1,62 1,53 Desvio Padrão 0,47 0,31

Variância 0,22 0,09

A figura 2 mostra os histogramas das duas amostras:

Figura 2 – Histogramas das Alturas das plantas cultivadas em Marte

Temos então, a priori, as seguintes distribuições conjugadas:

MiX ~ Normal( 1.6779 ,Sigma2x / 1000 ) Sigma2X ~ Inv-Qui-Quadrado( -1 , 0.2251 ) MiY ~ Normal( 1.4586 ,Sigma2y / 1000 ) Sigma2Y ~ Inv-Qui-Quadrado( -1 , 0.0922 )

Note que, neste caso, utilizou-se uma certeza muito grande sobre as médias das

alturas das árvores do experimento piloto. Isto se deve ao fato de que o ambiente

criado artificialmente foi feito com as mesmas características de solo e atmosfera

marciana.

A posteriori, após efetuar a simulação (semente=1234), obtivemos os seguintes

resultados descritos na tabela 2:

Tabela 3 – Resultados obtidos a posteriori para o experimento

Média Variância IC 95%

a 1,68 0,00 (1,65; 1,71)

²a 0,23 0,00 (0,15; 0,34)

Preditiva a posteriori de a 1,68 0,23 (0,74; 2,62)

b 1,46 0,00 (1,44; 1,48)

²b 0,09 0,00 (0,07; 0,15)

Preditiva a posteriori de b 1,46 0,09 (0,84; 2,08)

Pelos resultados a posteriori, isto é, após observar a amostra e combinar o

conhecimento a priori obtido em laboratório, conclui-se que, em média, as figueiras

cultivadas com o adubo A apresentam maior crescimento. Esta diferença entre as

médias é significativo a 95% e seu valor é de 0,22m (IC95%=0,18;0,25).

5. Discussão

O uso da inferência bayesiana tem grandes vantagens, principalmente a

atualização dos dados. No caso do estudo aplicado, quando novas mudas forem

enviadas para Marte, pode-se atualizar a posteriori com os novos dados.

O modelo normal com variâncias diferentes parece ser adequado para este tipo

de problema. Não houveram maiores complicações para efetuar os cálculos, graças ao

programa em R disponibilizado em aula.

O uso de priori informativa neste caso é bem adequado pois haviam dados a

priori confiáveis e bem registrados para isto.

Existe uma carência acadêmica na graduação de mais usos de métodos

bayesianos em outras áreas, por exemplo, na regressão, em séries temporais, em

conjunto com a estatística não paramétrica, mas um primeiro curso introdutório com os

conceitos principais de prioris e posterioris somado aos conhecimentos de simulação

como MCMC pode dar aos alunos mais interessados o subsídio para continuarem seus

estudos em outra oportunidade.

6. Bibliografia

1. Notas de aula da disciplina de Inferência Bayesiana da UFRGS 2009/2 e 2009/1.

2. ROBERT PC. The Bayesian Choice – From Decision-Theoretic Foundations to

Computacional Implementation. 2nd Ed. Springer Texts in Statistics, 2007.

3. SALSBURG D. Uma Senhora Toma Chá – como a estatística revolucionou a

ciência no século XX. 1ª Ed. Zahar, 2009.

4. Wikipedia, the free encyclopedia. [http://en.wikipedia.org/wiki/Ma’adim_Vallis].

Último acesso em 22/11/2009.

Comparação de duas populações com distribuição normal utilizando inferência bayesiana

Data & Analytics

Transcript of Comparação de duas populações com distribuição normal utilizando inferência bayesiana