Estatística básica e análise de dados Doutorando Felipe Micali Nuvoloni Laboratório de...

Post on 07-Apr-2016

214 views 0 download

Transcript of Estatística básica e análise de dados Doutorando Felipe Micali Nuvoloni Laboratório de...

Doutorando Felipe Micali NuvoloniLaboratório de Acarologia

Programa de Pós Graduação em Bio. Animal

O que é Estatística?

Por que usar estatística?

Preciso mesmo saber isso? Será que o Manzato não pode fazer pra mim?

Qual a importância do planejamento experimental?

Como iniciar uma análise de dados?

Quais caminhos seguir?

Como rodar e interpretar um teste?

Muito mais do que saber “rodar um teste”, é importante entender quais os preceitos básicos de uma análise de dados e planejamento experimental.

Análise de dados e estatística resumem-se em:◦testar hipóteses (método hipopético-dedutivo)

◦encontrar relações entre variáveis

O que é Estatística ?O que é Estatística ?

A Estatística tem por objetivo fornecer métodos e técnicas para lidarmos, racionalmente, com situações sujeitas a incertezas.

Resumindo...é um ferramenta para a análise dos dados!

Pra começar... um pouco de Pra começar... um pouco de filosofiafilosofiaMétodo hipotético-dedutivo

O Método hipotético-dedutivo consiste na construção de conjecturas (hipóteses) que devem ser submetidas a testes, para verificar quais são as hipóteses que persistem como válidas resistindo as tentativas de falseamento, sem o que seriam refutadas.

É um método de tentativas e eliminação de erros, que não leva à certeza, pois o conhecimento absolutamente certo e demonstrável não é alcançado

Teste de Hipóteses.

Explicações potenciais que podem ser retiradas de observações do mundo externo.

A única maneira de “provar” uma hipótese baseia-se na determinação dos resultados esperados que deveriam aparecer se a hipótese fosse realmente verdadeira.

Hipóteses são proposições e podem ser testadas estatisticamente.

Hipóteses e predições

ExemploExemplo

Há 5.000 bolas em uma caixa.

Preciso saber qual a cor delas, como faço?

Realização de uma amostragem

Qual a hipóteses que levantamos nesse caso?

Qual a hipóteses que levantamos nesse caso?

H0 – há uma mesma quantidade de bolinhas amarelas e vermelhas?

Qual a hipóteses que levantamos nesse caso?

H0 – há uma mesma quantidade de bolinhas amarelas e vermelhas?

H1 – há mais bolinhas vermelhas do que amarelas

H2- Há mais bolinhas amarelas do que vermelhas

Teste estatístico adequado pode me dizer se há uma diferença entre o número de bolas vermelhas e amarelas dentro desta amostra.

Planejamento Planejamento experimentalexperimentalAntes de pensar em que teste

deve-se usar, devemos nos preocupar com a qualidade dos dados que estamos coletando;

Como coletar, quando, quantos indivíduos amostrar...

Deve-se ter sempre o objetivo claro, antes de começar a coletar os dados!

Nossa pergunta inicial irá nos nortear quanto à escolha do caminho a seguir

QuestionárioQuestionário“O que você acha da redução das

cargas horárias no curso de ciências biológicas?”

“Há diferença de opiniões quanto ao ano?”

“Há diferença de opiniões quanto ao tempo que se tem livre?”

Quais as hipóteses para cada pergunta?

continuando....

Coleta de dadosColeta de dadosPopulação;

Amostra;

Réplicas;

Identificação das variáveis;

Quais os tipos de Quais os tipos de variáveis?variáveis?Dependentes x Independentes

◦Independente ou preditora: causa o efeito que procuramos confirmar

◦Dependente: é a que mede o efeito sofrido

Para cada pergunta ou hipótese há diferentes variáveis dependentes e independentes

Classificando as variáveisClassificando as variáveisCategórica: apresentam

distinções de qualidade;

◦Nominais: cor dos olhos, tipo de patologia, sexo, parentesco, etc

◦Ordinais: grau de escolaridade, gravidade da lesão, etc

Quantitativa: representam diferenças de quantidades

◦Discretas: n.º de filhos, n.º de fatores de risco, n.º de dependentes, n.º de respostas, etc; 

◦Contínuas: altura, peso, IMC, distância, etc; 

Principais testesPrincipais testesQui2;

Teste T de Student;

Análise de Variância – ANOVA;

Regressão Linear;

Regressão Logística;

Qui Qui 22

Comparando categoriasExemplo

Suponha que uma pesquisadora, interessada em valorar economicamente uma área de preservação, cujo principal atrativo é uma cachoeira muito procurada por turistas, propõe a aplicação de questionários para os usuários da área.

Ela entrevista turistas e moradores dos arredores, e uma de suas perguntas é: “Você estaria disposto a pagar uma taxa mensal para conservar esta área?”

Um dos objetivos é testar se turistas e moradores se diferenciam quanto à sua disposição a pagar (DAP).

Dados Observados x Dados Esperados

H0: não existe diferença entre moradores e turistas quanto à disposição em pagar.

H1: turistas e moradores diferem quanto à disposição em pagar.

Tomada de uma decisão

Adotando um nível de significância de 5%, devemos rejeitar a hipótese nula.

Concluímos que existe uma associação significativa entre a categoria do usuário e a DAP (χ2 = 4.17, gl = 1, p = 0.041): turistas possuem uma disposição maior do que os moradores locais a pagar pela conservação da região

Teste TTeste TTeste para comparação de

médias;Variável categórica (2 fatores)

x Variável quantitativa (contínua)

Objetivo: comparar quantidade da variabilidade entre os dois conjuntos de dados.

Exemplo:

Um estudo interessado em avaliar se a presença de mata nativa nas propriedades com plantação de eucalipto diminui a quantidade de pragas nessa cultura

Variável dependente:

Variável Independente:

Variável independente: presença/ausência de mata;

Variável dependente: densidade (indivíduos/ha) de uma espécie de praga comum nos eucaliptos, a mariposa marrom Thyrinteina arnobia.

ANOVAANOVAFunciona como um teste T, mas

nesse caso envolve mais de 2 níveis;

Testa a variância dentro do grupo e entre os grupos (tratamentos)

Por exemplo:

Uma série de levantamentos da mastofauna no bioma da Mata Atlântica, usando o método de coleta por transecto, com esforço padronizado, registrando-se todos os indivíduos avistados.

O estudo permitiu identificar três tipos principais de ambientes conforme o seu grau de isolamento com o entorno:

1. trechos de mata contínua2. fragmentos florestais3. ilhas

Pergunta-se: a biomassa de mamíferos é afetada pelo grau de isolamento?

Variável independente ?

Variável dependente ?

Pergunta-se: a biomassa de mamíferos é afetada pelo grau de isolamento?

Variável independente: classe de isolamento (3 níveis)

Variável dependente: biomassa (kg/10km)

Se fôssemos aplicar o teste t, teríamos que fazer 3 comparações: ◦Contínuo x Fragmento, ◦Contínuo x Ilha, ◦Fragmento x Ilha.

Nessa situação de múltiplos testes para uma mesma pergunta, corremos mais risco de cometer o erro tipo I.

O teste ANOVA indica se existe diferença, mas não informa onde ela se encontra

É necessário realizar um teste a posteriori para definir entre quais grupos está a diferença.

Regressão LinearRegressão LinearRelação entre variáveis quantitativas

Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas de tal forma que uma variável pode ser predita a partir da outra ou outras.

exemplo:

Em um região, uma unidade de conservação (parque) resta como único grande remanescente de vegetação nativa. No seu entorno, encontram-se uma série de pequenos fragmentos florestais.

O parque é o principal fator de manutenção da avifauna na região, servindo de fonte de espécies, que por migração ajudam a manter a diversidade nos fragmentos.

O objetivo do estudo é testar se a riqueza de aves nos fragmentos é negativamente afetada pela distância dos mesmos ao parque.

Variável dependente: riqueza de aves

Variável independente: distância até o parque

Gráfico da dispersão

O modelo indica um relação linear

A relação linear entre a riqueza e a distância é estabelecida pela equação: riqueza = β0 + β1(distância) + resíduo

O coeficiente β0 é o intercepto de eixo Y (ou a constante do modelo).

O coeficiente β1 é o que determina a associação entre as variáveis.

Regressão LogísticaRegressão LogísticaNesse caso vamos testar a

relação entre uma variável contínua (independente) e uma categórica (dependente);

De maneira geral, vale lembrar que os mesmos princípios lógicos e interpretativos da regressão linear podem ser aplicados aos modelos de regressão logística, incluindo as situações de múltiplas variáveis.

Nessas situações, aplica-se a rotina de avaliação do valor de LR a medida que se adicionam variáveis no modelo.

e agora....

vamos aos testes.