Comparação de duas populações com distribuição normal utilizando inferência bayesiana
-
Upload
aishameriane-schmidt -
Category
Data & Analytics
-
view
152 -
download
3
description
Transcript of Comparação de duas populações com distribuição normal utilizando inferência bayesiana
Inferência Bayesiana e aplicação utilizando duas populações com distribuição
normal com priori informativa e variâncias desconhecidas
Schmidt, AV1
Universidade Federal do Rio Grande do Sul, Brasil
Resumo O uso de métodos bayesianos até o último século foi controverso, mas nos dias atuais já são
amplamente utilizados em diferentes áreas de aplicação. O objetivo deste artigo é contextualizar o leitor
quanto às origens da estatística bayesiana e uma breve explicação de seus fundamentos matemáticos,
além de apresentar a distribuição normal para duas populações independentes com variâncias
populacionais desconhecidas no contexto bayesiano e uma aplicação deste modelo em um exemplo
didático. Conclui-se que a estatística bayesiana pode ser utilizada sim, e que seu uso não
necessariamente implica em descartar toda a metodologia clássica existente e desenvolvida até os dias
atuais. É necessário que se compreenda que embora sejam correntes de pensamentos diferentes, a
escola de estatística clássica e a escola bayesiana podem se complementar afim de criar novos
resultados, teoremas e com isso utilizar a ciência para seu fim mais virtuoso: dar retorno à sociedade de
forma a tornar o convívio e a vida das pessoas melhor.
1. Estatística Bayesiana
1.1. História
Atualmente, o uso da estatística bayesiana tem se disseminado pelas diversas
áreas de conhecimento, desde a economia até as áreas da saúde. Isso se deve,
principalmente, pelo avanço da tecnologia computacional que permite que cálculos que
antigamente não eram resolvíveis analiticamente possam ser resolvidos
numericamente.
Mas nem sempre a estatística bayesiana teve boa aceitação. Pensando em um
caso clássico de probabilidades condicionais, pode-se usar como exemplo a situação
da probabilidade de um paciente estar doente dado que seu exame para a doença X
1 UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE MATEMÁTICA
DEPARTAMENTO DE ESTATÍSTICA
Av. Bento Gonçalves, 9500 - Prédio 43-111 - Agronomia
91509-900 Porto Alegre - RS - BRASIL
Fone: (51)3308-6225/3308-6189 FAX: (51)3308-7301
e-mail: [email protected]
tem resultado positivo. Todas as idéias de probabilidades condicionais desenvolvidas
até o século XVIII levavam em consideração que o evento condicionante já ocorrera
antes do evento novo a ser examinado. Por exemplo, a probabilidade de chover hoje
dado que choveu amanhã. Foi então que o Reverendo Thomas Bayes descobriu
simetria interna nas fórmulas de probabilidade condicional. Basicamente isto implica
em, se soubermos que choveu hoje, qual a probabilidade de ter chovido ontem?
Isto aparentemente abalou o reverendo pois ele deixou estas anotações de lado
e só foram encontradas após sua morte. Por muitos anos o uso do chamado Teorema
de Bayes foi condenado, principalmente pelos seguidores da teoria de Fisher, que
considera os parâmetros quantidades desconhecidas, porém fixas, ao contrário da
teoria Bayesiana que os considera quantidades aleatórias.
Durante os primeiros anos do século XX os estatísticos e profissionais afins
foram muito cuidadosos ao utilizar a então chamada “probabilidade inversa”. Fisher foi
acusado em uma conferência de ter utilizado de tal artifício e defendeu-se de tamanha
insinuação e no seu artigo sobre intervalos de confiança Neyman utilizou a
probabilidade inversa como artifício matemático para chegar ao resultado esperado.
Anos mais tarde, ele publicou o mesmo artigo sem utilizar probabilidades inversas.
Apenas em 1960 que os pesquisadores começaram a enxergar as
possibilidades da inferência e dos métodos bayesianos e a publicar artigos utilizando-
os em revistas como a Annals of Statistics e a Biometrika.
Uma das grandes críticas dos estatísticos clássicos aos estatísticos bayesianos
é a necessidade de uma priori, que pode ser mal interpretada como manipulação de
dados. Para os bayesianos, o uso do conhecimento existente é feito com muito
cuidado.
1.2. Fundamentos matemáticos
Podemos enxergar a análise estatística como um retorno à origem do problema,
já que a partir de um conjunto de dados queremos fazer inferências, formular hipóteses
e, principalmente, saber quais os mecanismos probabilísticos que possivelmente
geraram o fenômeno.
Uma descrição geral das probabilidades inversas é dada pelo Teorema de
Bayes: Se A e E são eventos tais que P(E) ≠ 0 então P(A|E) e P(E|A) estão
relacionados da seguinte forma:
Thomas Bayes também provou o teorema para o caso contínuo.
Surge, então, a partir de Bayes e de Laplace, o conceito de posteriori, que é a
probabilidade condicional de um parâmetro desconhecido θ condicionado à amostra x.
Para tanto, é necessário o uso da chamada priori, que nada mais é que o
conhecimento prévio de θ antes de observar os dados. A distribuição a posteriori é
dada por:
Em termos estatísticos, o Teorema de Bayes atualiza a informação de θ
extraindo a informação de θ contida nas observações em x. A polêmica está em
colocar no mesmo nível variável aleatória e parâmetro, atribuindo a ambos uma
distribuição de probabilidade.
Como citado anteriormente, o desenvolvimento da computação foi crucial para o
desenvolvimento da estatística bayesiana. Isto se dá em função do denominador da
posteriori, chamado de preditiva a priori. Nem sempre esta integral tem solução
analítica e então este ramo da estatística ficou estagnado por falta de recursos para a
solução das contas.
1.3. Prioris Conjugadas
Alguns métodos matemáticos foram desenvolvidos de forma a facilitar as contas
para chegar à posteriori de interesse. Uma das descobertas foi a de que o uso de
algumas prioris específicas levavam a posterioris iguais, (dependendo da distribuição
da amostra) com parâmetros bem especificados. Estas prioris são chamadas de prioris
conjugadas. Por exemplo, a família de distribuições Beta(α,β) é conjugada ao modelo
Binomial(n,p), com n conhecido e p desconhecido. Isto quer dizer que se nossa
população tiver distribuição Binomial(n,p), com n conhecido e p desconhecido e
utilizarmos uma priori Beta(α,β) para p, chegaremos a uma posteriori Beta.
Também existem as prioris não informativas mas elas não serão utilizadas no
presente trabalho.
O presente artigo divide-se da seguinte forma: na introdução abordamos
aspectos históricos e teóricos sobre inferência bayesiana de forma superficial a fim de
localizar o leitor, na seção 1 será abordada a distribuição normal sob o enfoque
bayesiano, na seção 2 será apresentada uma aplicação, a seção 3 mostra os
resultados obtidos utilizando a distribuição normal para 2 populações com variâncias
diferentes e a seção 4 trata de uma breve discussão sobre as conclusões da autora
sobre inferência bayesiana.
2. A distribuição normal no contexto bayesiano
A curva em formato de sino, ou curva de Gauss ou simplesmente curva Normal,
é assim chamada pois se acreditava que todos fenômenos da natureza podiam ser
modelados de acordo com esta distribuição.
Atualmente, sabe-se que isso não é verdade, mas nem por isto a distribuição
normal deixa de perder sua importância, pois em muitos casos assintóticos há
convergência para a distribuição normal e ela é extensivamente usada em muitas áreas
de conhecimento. Desta forma, é de interesse estudar detalhes desta distribuição sob o
enfoque bayesiano.
Nestra trabalho abordaremos apenas o caso da priori conjugada ao modelo
Normal para duas populações com variâncias desconhecidas. Maiores detalhes sobre
demais prioris podem ser encontradas em (1).
As contas da citação 1 são para o caso de uma população mas podem ser
estendidas para duas populações.
No caso de 2 populações tem-se que:
E a posteriori para a diferença das médias não pode ser resolvida
analiticamente, sendo necessário utilizar simulação.
3. Aplicação
Os atuais problemas ambientais decorrentes da superpopulação mundial tem
sido amplamente discutidos pois suas conseqüências afetarão a humanidade de forma
geral: escassez de alimentos, derretimento das calotas polares, inversão de climas,
falta de água potável, guerras e muitos outros. Alguns processos já apresentam
estados irreversíveis e a necessidade de medidas de colonização espacial é cada vez
mais urgente.
Citação 1 – Retirado das notas de aula de inferência bayesiana de 2009/1.
O primeiro corpo celeste alcançado pelo homem ou suas criações foi a Lua. A
Lua, por se tratar de um satélite natural, apresenta instabilidade planetária, falta de
atmosfera e também solo e condições climáticas severas e irreversíveis. Não seria
possível, sem uma estrutura tecnológica que ainda é inexistente, iniciar um processo
de colonização na Lua.
Na última década, com a chegada da primeira missão espacial no Planeta Marte
e os dados coletados, várias semelhanças com o Planeta Terra foram encontradas. Os
maiores desafios até o momento eram com relação à falta de água e as condições
climáticas hostis, que incluem ventos fortes e temperaturas abaixo de zero o ano
inteiro.
A última missão da NASA, com a estação marciana Phoenix foi mal sucedida no
sentido de que o robô parou de funcionar, mas descobriu-se um aqüífero no subsolo do
Ma'adim Vallis, um grande desfiladeiro com cerca de 700 km de extensão. Tem 20 km
de largura e 2 km de profundidade em alguns locais. A área norte do Ma'adim Vallis
apresenta um pequeno pedaço de solo protegido dos ventos fortes que fica nas
imediações da parte mais superficial do lençol freático.
Após os achados da Phoenix, o Governo Brasileiro, em parceria com o Instituto
Tecnológico da Aeronáutica, financiou um projeto piloto de testagem de adequabilidade
de plantas em solo arenoso, com temperaturas baixas e oxigênio reduzido. Neste
estudo, constatou-se que as plantas Ficus Carica se adaptam de forma satisfatória às
condições impostas pela atmosfera marciana.
Optou-se pela Carica, da família Ficus pois é a planta da família que fornece
frutos comestíveis, que posteriormente poderão servir de padrão para cultivo de plantas
fora da Terra. No Brasil a técnica de plantio via estaqueamento é a mais utilizada por
não necessitar das plantas macho para a fecundação das plantas fêmeas. O plantio por
estaqueamento é feito a partir de um caule da planta já madura. Os figos das árvores
plantadas por estaqueamento não contém sementes. As estacas continham sensores
que indicavam o crescimento da planta bem como sua avaliação nutricional no
momento. As tabelas das alturas das plantas no final do ano de estudo estão descritas
no anexo A, para o grupo de plantas que recebeu o adubo A e para aquelas adubadas
com o composto B.
Durante o experimento em laboratório, foram plantadas 200 mudas para cada
um dos dois compostos orgânicos enriquecidos com hormônio vegetal que
demonstraram resultados considerados satisfatórios. O adubo enriquecido com ácido
indol-acético (Adubo A) apresentou média de crescimento de 1,68cm enquanto que o
adubo enriquecido com ácido naftaleno-acético (Adubo B) apresentou crescimento
médio de 1,46cm. Os achados laboratoriais foram utilizados para compor as prioris
para a análise utilizando o modelo normal com médias e variâncias populacionais
desconhecidas. 50 plantas para cada composto orgânico foram cultivadas por
máquinas em solo marciano e analizadas após um ano do seu plantio quanto ao
crescimento, em metros.
A tabela 1 contém as descritivas das mudas plantadas no laboratório:
Tabela 1 – Descritivas das plantas cultivadas em laboratório
Adubo A AduboB
Média 1,68 1,46
Erro Padrão 0,07 0,04
Mediana 1,76 1,45
Desvio Padrão 0,47 0,30
Variância 0,23 0,09
A figura 1 apresenta os histogramas das duas populações de plantas:
Figura 1 – Histograma das plantas cultivadas com adubo tipo A e B
Foram utilizados na simulação os seguintes hiperparâmetros neste trabalho:
mi0y <- 1,4586 k0y <- 1000 ni0y <- -1 s20y <- 0,0922 mi0x <- 1,6779 k0x <- 1000 ni0x <- -1 s20x <- 0,2251
4. Resultados
O intervalo de confiança do quociente da variância da altura das plantas que
utilizaram o adubo A e das que utilizaram o adubo B é de (1,37;4,24), o que indica que
as variâncias são consideradas diferentes a 95% e a variabilidade da altura das plantas
com adubo A é maior do que as que utilizaram o adubo B.
Os resultados descritivos obtidos nas duas amostras estão na tabela 2:
Tabela 2 – Resultados descritivos das amostras plantadas em Marte
Adubo A AduboB
Média 1,69 1,52
Erro Padrão 0,07 0,04
Mediana 1,62 1,53 Desvio Padrão 0,47 0,31
Variância 0,22 0,09
A figura 2 mostra os histogramas das duas amostras:
Figura 2 – Histogramas das Alturas das plantas cultivadas em Marte
Temos então, a priori, as seguintes distribuições conjugadas:
MiX ~ Normal( 1.6779 ,Sigma2x / 1000 ) Sigma2X ~ Inv-Qui-Quadrado( -1 , 0.2251 ) MiY ~ Normal( 1.4586 ,Sigma2y / 1000 ) Sigma2Y ~ Inv-Qui-Quadrado( -1 , 0.0922 )
Note que, neste caso, utilizou-se uma certeza muito grande sobre as médias das
alturas das árvores do experimento piloto. Isto se deve ao fato de que o ambiente
criado artificialmente foi feito com as mesmas características de solo e atmosfera
marciana.
A posteriori, após efetuar a simulação (semente=1234), obtivemos os seguintes
resultados descritos na tabela 2:
Tabela 3 – Resultados obtidos a posteriori para o experimento
Média Variância IC 95%
a 1,68 0,00 (1,65; 1,71)
²a 0,23 0,00 (0,15; 0,34)
Preditiva a posteriori de a 1,68 0,23 (0,74; 2,62)
b 1,46 0,00 (1,44; 1,48)
²b 0,09 0,00 (0,07; 0,15)
Preditiva a posteriori de b 1,46 0,09 (0,84; 2,08)
Pelos resultados a posteriori, isto é, após observar a amostra e combinar o
conhecimento a priori obtido em laboratório, conclui-se que, em média, as figueiras
cultivadas com o adubo A apresentam maior crescimento. Esta diferença entre as
médias é significativo a 95% e seu valor é de 0,22m (IC95%=0,18;0,25).
5. Discussão
O uso da inferência bayesiana tem grandes vantagens, principalmente a
atualização dos dados. No caso do estudo aplicado, quando novas mudas forem
enviadas para Marte, pode-se atualizar a posteriori com os novos dados.
O modelo normal com variâncias diferentes parece ser adequado para este tipo
de problema. Não houveram maiores complicações para efetuar os cálculos, graças ao
programa em R disponibilizado em aula.
O uso de priori informativa neste caso é bem adequado pois haviam dados a
priori confiáveis e bem registrados para isto.
Existe uma carência acadêmica na graduação de mais usos de métodos
bayesianos em outras áreas, por exemplo, na regressão, em séries temporais, em
conjunto com a estatística não paramétrica, mas um primeiro curso introdutório com os
conceitos principais de prioris e posterioris somado aos conhecimentos de simulação
como MCMC pode dar aos alunos mais interessados o subsídio para continuarem seus
estudos em outra oportunidade.
6. Bibliografia
1. Notas de aula da disciplina de Inferência Bayesiana da UFRGS 2009/2 e 2009/1.
2. ROBERT PC. The Bayesian Choice – From Decision-Theoretic Foundations to
Computacional Implementation. 2nd Ed. Springer Texts in Statistics, 2007.
3. SALSBURG D. Uma Senhora Toma Chá – como a estatística revolucionou a
ciência no século XX. 1ª Ed. Zahar, 2009.
4. Wikipedia, the free encyclopedia. [http://en.wikipedia.org/wiki/Ma’adim_Vallis].
Último acesso em 22/11/2009.