Manual de Métodos Quantitativos de...

"Transformar o país pela Educação, sendo referência em práticas inovadoras de

aprendizagem e gestão, respeito à pluralidade, valorização das pessoas e compromisso com o

desenvolvimento sustentável."

Suporte ao trabalho de conclusão de curso (TCC)

Manual de Métodos Quantitativos de Pesquisa2014/2

COPYRIGHT © 2014

GRUPO ĂNIMA EDUCAÇÃOTodos os direitos reservados ao:

Grupo Ănima Educação

Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização por escrito da detentora dos direitos, poderá ser

reproduzida ou transmitida, sejam quais forem os meios empregados: eletrônicos, mecânicos, fotográficos, gravações ou quaisquer outros.

EdiçãoGrupo Ănima Educação

DiretoriaPedro Luiz Pinto da Cunha

Coordenação e Desenvolvimento de Novos Produtos EaDCláudia Silveira da Cunha

Coordenação de Produção de MateriaisPatrícia Ferreira Alves

Equipe EaD

Newton é bacharel em Medicina Veterinária

(UNIUBE/FAZU) e doutor em Ecologia,

Conservação e Manejo da Vida Silvestre

(UFMG). É professor de Bioestatística no curso

de Ciências Biológicas do Centro Universitário

UNA, em Belo Horizonte, e leciona as

disciplinas de Ecologia Vegetal e Biologia da

Conservação, dentre outras. Tem experiência

de pesquisa na área de ecologia, com ênfase

em ecologia aplicada, atuando principalmente

nos seguintes temas: modelagem de

distribuição de espécies, mudanças globais,

biogeografia e conservação da vida silvestre.

CONHEÇA O AUTOR

APRESENTAÇÃO 02

UNIDADE 11.1 MÉTODOS QUANTITATIVOS DE PESQUISA: A ESTATÍSTICA 03

UNIDADE 22.1 POPULAÇÃO E AMOSTRA 10

UNIDADE 33.1 SÉRIES ESTATÍSTICAS 14

UNIDADE 44.1 GRÁFICOS ESTATÍSTICOS 18

UNIDADE 55.1 MEDIDAS DE POSIÇÃO E DISPERSÃO 24

UNIDADE 66.1 PROBABILIDADE E DISTRIBUIÇÃO NORMAL 30

UNIDADE 77.1 TESTES PARAMÉTRICOS 32

UNIDADE 88.1 TESTES NÃO PARAMÉTRICOS 49

REFERÊNCIAS 50

SUMÁRIO

MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA

Suporte ao Trabalho de Conclusão de Curso (TCC)02

O Manual de Métodos Quantitativos de Pesquisa é resultado de dois anos de ensino de estatística

para alunos de graduação em Ciências Biológicas, no Centro Universitário UNA, em Belo Horizonte.

A maior preocupação durante a elaboração deste manual foi apresentar os principais tópicos em

estatística utilizados pelos alunos de graduação de forma simples e direta. Desta forma, não serão

abordadas definições complicadas ou extensas, e sim formas simples de organização de ideias,

coleta e interpretação de dados.

O autor

APRESENTAÇÃO



UNIDADE 11.1 MÉTODOS QUANTITATIVOS DE

PESQUISA: A ESTATÍSTICA

mais um acidente! vou ter

que diminuir de novo o número de escravos

FIGURA 1 - Estatística na antiguidade

Fonte: Núcleo de Educação a Distância (NEaD), Ănima, 2014.

Desde a antiguidade, vários povos já utilizavam métodos quantitativos para um maior entendimento

da sociedade à sua volta. Os egípcios antigos já realizavam censos populacionais, provavelmente

para facilitar a tributação e organização social. Com esta mesma finalidade, os romanos também

organizavam censos em toda a extensão do seu império. No século XI, na Inglaterra, já eram

realizados levantamentos estatísticos sobre as terras, propriedades, empregados e até mesmo sobre

os animais. Esses antigos estudos estatísticos eram a base de cálculo para a cobrança de impostos

pela coroa. A partir do século XVI, começaram a surgir análises mais complexas de fatos sociais, tais

como os batizados e casamentos, originando as primeiras tabelas descritivas e números relativos

(como por exemplo, as porcentagens).



A palavra “estatística”1 foi proposta pela primeira vez pelo acadêmico alemão Gottfried Achenwall,

por volta da metade do século XVIII. Desde então, as tabelas e interpretações descritivas se tornaram

cada vez mais complexas e complicadas. Surgiram as representações gráficas, o cálculo de

probabilidade, os testes de hipóteses estatísticas e as análises multivariadas, dentre milhares de

outras análises extremamente complexas. Desta forma, a estatística deixou de ser uma simples

catalogação de números coletivos (estatística descritiva) para se tornar o estudo de como chegar

a conclusões sobre o todo (o que chamamos de população), partindo da observação de

partes deste todo (o que chamamos aqui de amostras) (CRESPO, 1989, p. 11).

Esta estatística moderna se tornou essencial para o funcionamento do mundo tal como o

conhecemos. Atualmente, precisamos de métodos estatísticos para entender o mundo financeiro,

os processos industriais, as viagens espaciais, as transmissões de rádio e televisão, os testes de

qualidade de remédios, as pesquisas das áreas da saúde, química, engenharia, biologia, psicologia,

ecologia, etc. A estatística se faz necessária até mesmo para tentarmos entender quem somos e de

onde viemos, por meio das pesquisas em física e astronomia. É essencial para o desenvolvimento

da ciência moderna, sustentada pela estrutura filosófica da metodologia científica.

1 - O termo estatística tem origem no latim statisticum collegium, ou “assuntos sobre o Estado”.

1.1.1 O método científico

Grande parte dos conhecimentos adquiridos pela humanidade foram conquistados em épocas

remotas, muitas vezes como fruto do acaso ou por meio de aplicações práticas, onde os repetitivos

erros e acertos foram a regra básica para o entendimento de um determinado evento. Na antiguidade

não existiam regras ou métodos para que pudéssemos responder às questões e dúvidas impostas pela

observação dos fatos presentes no dia a dia. A utilização do fermento para o crescimento da massa de

pão ou para a produção de cerveja e outros alimentos, não é resultado de pesquisas experimentais,

mas sim, a soma de inúmeros erros e acertos que intuitivamente nos levaram a um determinado

caminho. Entretanto, o conhecimento construído de forma intuitiva pode não resultar em resultados

sólidos, tais como a fabricação (e ingestão) de cerveja. Muitas vezes, explicações embasadas em

deduções ou crenças podem ser um entrave para o desenvolvimento do conhecimento. A humanidade

nunca teria chegado à Lua se ainda acreditasse, por exemplo, que a Terra é o centro do universo.



FIGURA 2 - Geocentrismo


Por centenas de anos, a humanidade acreditou que o Sol girava ao redor do nosso planeta. O

chamado geocentrismo2 (século I d.C.) é um modelo astronômico que acompanhou a humanidade

por muitos séculos. Afinal, se observarmos o Sol durante um dia inteiro, não é difícil imaginar que

ele está realmente dando uma volta ao redor do planeta. Por indução, diríamos que o nosso planeta

está parado e o Sol se movimentando. O geocentrismo é apenas uma provável explicação (uma

hipótese) deste fato natural, e estava baseado nos nossos sentidos (a “sensação” de que o Sol está

em movimento) e em crenças religiosas e antropocêntricas (o homem no centro de tudo). Afinal,

ninguém duvida que o Sol passa todos os dias sobre as nossas cabeças. Mas como isso acontece?

É evidente, hoje em dia, que os nossos sentidos e crenças podem nos levar a acreditar em coisas

que muitas vezes estão distantes da realidade. Ou alguém ainda acredita que o Sol gira ao redor do

planeta Terra? Foi apenas no século XVI que um italiano, chamado Galileu Galilei, conseguiu provar,

por meio de uma série de observações experimentais dos astros usando um telescópio, que o Sol

estava parado e quem girava ao redor dele éramos nós. Os fatos agora estavam sendo explicados por

experimentos e isso era incrível! A nossa busca pela verdade agora não se baseava mais nos nossos

sentidos e crenças, mas sim em explicações lógicas, isentas dos sentidos. Ficava claro, a partir daí, que

o poder da observação depende da experiência. Por isso, Galileu Galilei pode ser considerado

como um dos cientistas pioneiros no uso do método científico baseado na experimentação.

2 - O geocentrismo é a antiga hipótese, criada pelo astrônomo grego Ptolomeu (90-168 d.C.), de que o planeta Terra está localizado no centro do universo e os corpos celestes, inclusive o Sol, giram ao seu redor.



Um fato deve ser algo irrefutável, um fenômeno evidente, um evento claro. Algo sobre o qual

não temos dúvidas a respeito.

Podemos perceber então, que a influência dos nossos sentidos e crenças na construção do

conhecimento era um problema que a humanidade precisava encarar, para que a nossa busca

pela verdade não fosse calcada por inverdades. Foi no século XVIII que diversos pensadores, tais

como John Locke e David Hume, propuseram o que chamamos de empirismo. De forma geral,

esta corrente de pensamento determina que qualquer conhecimento dos processos naturais deve,

de alguma forma, apoiar-se na experiência e na observação dos fatos (claro, para que possamos

“fugir” da fragilidade dos nossos sentidos e crenças). A partir deste momento, a humanidade instituía

o método científico como parte essencial da ciência moderna. É por isso que muitos trabalhos ou

estudos que baseiam-se em experimentos são chamados de trabalhos “empíricos”.

Mas afinal, o que é o método científico? A grosso modo, o método científico baseia-se:

1. na observação de um fato;

2. na formulação de uma hipótese (ou várias) que possa explicar este fato,

3. no delineamento de um desenho experimental e coleta de dados;

4. na realização e interpretação de testes estatísticos que serão utilizados para verificar se a sua

hipótese é verdadeira ou não;

5. na observação da veracidade de sua hipótese. Caso a hipótese seja verdadeira, ela será útil

para o desenvolvimento de teorias e leis, por meio de novas explicações de um fato. Mas se

ela não for corroborada, não será nada mais do que uma hipótese falsa, uma tentativa falha

de se explicar um fato.



FIGURA 3 - O método científico

Observação de um fato

Procedimentos estatísticos

Previsões: insucesso

Novas Hipóteses

Pergunta (por quê?)

Coleta de dados

Previsões: sucesso

Formulação da hipótese

Desenho esperimental: classificação, medidas

Construção de teorias

Explicação dos fatos

Fonte: Elaborado pelo autor.

CONCEITOO que é uma hipótese? Como ela deve ser construída? Uma forma simples de se formular uma hipótese

é respondendo à uma pergunta. Por exemplo, observamos que o leite estraga rapidamente se deixado fora

da geladeira por alguns dias. Este fato nos leva a formular a seguinte pergunta: por que o leite estraga?

As prováveis respostas a esta pergunta serão as suas hipóteses. Uma boa hipótese seria: “O leite estraga

porque há organismos vivendo dentro dele”. Hipóteses são afirmações e só serão bem formuladas caso você

tenha algum conhecimento anterior sobre o tema, por isso é importante ler bastante e sempre estar atento às

novidades de sua área.



Os procedimentos estatísticos (análises quantitativas) ocupam um lugar de grande importância

dentro do método científico. Por meio da estatística é possível testar hipóteses com o objetivo de

saber se elas são verdadeiras ou falsas. Ou seja, testar se elas realmente são explicações válidas para

um fato observado. Como isto é possível? Por meio de testes probabilísticos, podemos determinar

se certa situação apresenta uma probabilidade alta ou baixa de acontecer.

EXEMPLOFIGURA 4 - Exame médico




Vamos observar o seguinte exemplo: ao administrar determinado medicamento em alguns pacientes,

um médico percebeu que a pressão arterial deles aumentava consideravelmente. Entretanto, ele

não tinha certeza se isso acontecia de forma generalizada. Ora, este é um fato observado pelo

médico. Quais seriam as perguntas que poderiam emergir ao se observar este fato? Provavelmente o

médico em questão pensaria: “Este medicamento realmente induz a pressão arterial nas pessoas?”.

Uma provável resposta para esta questão seria: “Sim, este medicamento induz o aumento da pressão

arterial nas pessoas”. Esta última afirmativa é a nossa hipótese. Seguindo a lógica do método científico,

como poderíamos delinear um desenho experimental para testar essa hipótese? Poderíamos medir

a pressão de algumas pessoas que não tomaram o remédio e de algumas que tomaram o remédio,

comparando as médias dos resultados dos dois grupos. Caso os valores de pressão arterial medidos

em cada grupo apresentassem uma baixa probabilidade de serem iguais quando pareados ao acaso

(geralmente levamos em consideração uma probabilidade máxima de 5% de chance), significaria

que as médias dos dois grupos seriam estatisticamente diferentes. Poderíamos dizer, então, que o

medicamento de fato induz a um aumento de pressão arterial nas pessoas. Nossa hipótese seria

então confirmada e os resultados encontrados seriam muito úteis no desenvolvimento de protocolos

de uso deste medicamento.

Interessante frisar que mesmo não medindo a pressão arterial de toda a população, por meio do

estudo de um grupo de pessoas (uma amostra), podemos inferir os resultados para a população

inteira. Chamamos esse tipo de método de estatística inferencial, que se contrapõe ao outro tipo,

a estatística descritiva, cujo objetivo é descrever dados e características de um grupo de dados,

assim como faziam os primeiros estatísticos.



UNIDADE 22.1 POPULAÇÃO E AMOSTRA

Durante as campanhas eleitorais, é muito comum alguns institutos de pesquisa publicarem

com frequência as estimativas de intenção de voto em determinado candidato. De fato, estas

estimativas sempre são relativamente fiéis ao resultado final da eleição, mostrando que estas

pesquisas são, de certa forma, efetivas. Entretanto alguém se lembra de ter recebido algum

dia um telefonema perguntando sobre a sua intenção de voto? Poucas são as pessoas que

se lembrarão, pois uma parcela pequena da população é entrevistada para que as estimativas

sejam feitas. Em uma cidade como Belo Horizonte, com cerca de 3 milhões de habitantes, cada

pesquisa é feita com cerca de 1 a 4 mil pessoas. Podemos dizer, desta forma, que o cálculo

destas estimativas é realizado por meio da coleta de dados de uma amostra da população e

não da população inteira. Seria realmente muito difícil entrevistar milhões de pessoas a cada

pesquisa eleitoral.

O estudo de qualquer fenômeno, seja ele natural, social, econômico ou biológico, exige a coleta

de dados estatísticos referentes ao mesmo. A coleta de dados é, pois, a fase inicial de qualquer

pesquisa. A coleção de todas as observações potenciais sobre determinado fenômeno constitui

a população (como por exemplo, todos os eleitores de Belo Horizonte). O conjunto de dados

efetivamente observados ou extraídos constitui uma amostra da população (como por exemplo,

os eleitores entrevistados em Belo Horizonte). A amostra é, pois, um subconjunto da população.

É sobre os dados da amostra que desenvolvemos nossos estudos, visando fazer inferências

sobre a população.



As amostras não são simplesmente dados coletados ao acaso. Imagine se as pesquisas de

intenção de voto citadas anteriormente fossem realizadas com apenas cinco pessoas, em

uma entrevista rápida numa rua da cidade. Provavelmente, e isto é bem intuitivo, os resultados

desta pesquisa não seriam de forma alguma confiáveis. Para que a pesquisa seja confiável,

é necessário que as amostras sejam replicadas, ou seja, elas devem ser realizadas por

meio de réplicas, que juntas apresentem uma maior representatividade do todo (ou seja, as

amostras devem representar toda a população estatística: em uma pesquisa de intenção

de voto numa determinada cidade, por exemplo, as amostras devem representar todas as

classes sociais da cidade).

É preciso também um volume de dados suficiente, ou seja, cinco pessoas é um número

muito baixo de entrevistados (para cada finalidade teremos um volume de dados mínimo

específico, entretanto, podemos usar o “valor mágico” de 30 a 50 como um número mínimo

aceitável para a maioria dos trabalhos acadêmicos). Para a nossa pesquisa de intenção de

voto, não há dúvidas de que é preciso realizar entrevistas em diversas regiões da cidade, de

forma homogênea. É preciso também representar de forma equilibrada as diversas classes

etárias, o sexo, a escolaridade e a religião, dentre outros fatores. Desta forma, a interpretação

dos dados será extremamente mais rica em detalhes. Precisamos nos ater a estes detalhes

para que “não percamos informações” de nossos dados. Além disso, as réplicas precisam

ser iguais em tamanho. Em nossa pesquisa de intenção de votos, cada réplica amostral deve

apresentar o mesmo número de entrevistados, aproximadamente. Não faria sentido entrevistar

450 pessoas em um bairro nobre e 21 pessoas em um bairro pobre, por exemplo. Provavelmente

os resultados desta pesquisa não seriam confiáveis.

FIGURA 5 – População e amostra

POPULAÇÃO

AMOSTRA




EXEMPLOFIGURA 6 - Programa de ensino




Imaginemos um outro exemplo: a avaliação de um programa de ensino em uma escola. Tomamos

certo número de pares de turmas. A uma delas ensina-se um assunto por meio de uma nova

metodologia; à outra, por meio da metodologia clássica. Aplica-se então uma avaliação para ambas

as turmas. As notas observadas constituem a nossa amostra (a escola inteira é a nossa população).

A nossa hipótese é que a nova metodologia irá melhorar significativamente as notas dos alunos,

caracterizando uma melhor transferência de conhecimento.

Para testar esta hipótese, realizaremos um teste estatístico (neste caso, poderíamos usar, por

exemplo, um teste T de Student3 ), comparando os valores relativos às turmas que receberam uma

nova metodologia aos valores relativos às turmas que receberam o método clássico. O teste irá nos

dizer qual a probabilidade das médias das turmas que receberam uma nova metodologia serem

iguais aos valores relativos às turmas que receberam o método clássico. Caso esta probabilidade

seja maior que 5% (geralmente, é aceitável, na área da saúde, um erro de até 5%), concluiremos

que não existe diferença estatística entre as metodologias. Entretanto, se esta probabilidade for

menor que 5% (vemos isso como p<0.05), concluiremos que existe sim uma diferença estatística

entre os grupos que receberam uma ou outra metodologia. A partir dos resultados encontrados para

esta amostra, estabeleceremos o que é conveniente para a população, ou seja, todas as turmas da

escola. Isso significa que podemos fazer uma inferência sobre a população.

Naturalmente, quando falamos em população e amostra, logo pensamos em inferência estatística!

3 - Veja com detalhes na unidade 7.



UNIDADE 33.1 SÉRIES ESTATÍSTICAS

Denominamos série estatística qualquer tabela que apresente uma distribuição de um conjunto de

dados estatísticos. Estas séries podem ser históricas, espaciais ou categóricas.

TABELA 1 - Produção de medicamentos pela empresa X entre os anos de 2008 e 2012 - Exemplo de série histórica

TABELA 2 - Produção de medicamentos pela empresa X no Brasil no ano de 2012 - Exemplo de série espacial

Anos Quantidade (toneladas)

2008 12

2009 14.6

2010 14.7

2011 13.8

2012 15.9

Região Quantidade (toneladas)

Norte 2

Nordeste 3

Centro-Oeste 4

Sudeste 4

Sul 2.9

Fonte: Elaborado pelo autor. (Dados fictícios).




TABELA 3 - Produção de medicamentos pela empresa X no Brasil no ano de 2012 - Exemplo de série categórica

Categoria Quantidade (toneladas)

Antiparasitários 2

Antiespasmódicos 3

Anti-histamínicos 4

Analgésicos 6.9


Também podemos encontrar tabelas com distribuições de frequência. A frequência tem uma

enorme importância, pois será útil para determinarmos a probabilidade de determinado valor estar

presente em uma população estatística. A frequência nada mais é do que a frequência com que

cada valor se repete em uma amostra de dados.

Vejamos um exemplo.

TABELA 4 - Estaturas de 100 alunos da escola São Brás (2014)

Estatura (cm) Número de alunos (frequência)

140 |---- 150 14

150 |---- 160 80

160 |---- 170 94

170 |---- 180 12

TOTAL 200Fonte: Elaborado pelo autor. (Dados fictícios).

Agora, vamos observar os dados de frequência da TABELA 4. Os valores de cada categoria de

estatura nada mais são do que a frequência com que cada categoria se repete na nossa amostra

estatística (os 100 alunos). Podemos ver que existem 94 alunos, dentro desta amostra, cuja estatura

está entre 160 e 170 cm. A frequência 94 é um valor absoluto. Podemos relativizar estes valores,

construindo uma tabela de valores relativos. Dados relativos são úteis para facilitar a comparação

entre quantidades. Podemos fazer isto por meio de porcentagens, índices, coeficientes e taxas.

Vejamos como podemos relativizar os dados da TABELA 4 por meio de porcentagens.



TABELA 5 - Estaturas de 100 alunos da escola São Brás (2014)

Estatura (cm) % (Fr*100)Número de alunos (frequência absoluta - F)

Número de alunos (frequência relativa - Fr)

140 |---- 150 14 0.07 7

150 |---- 160 80 0.40 40

160 |---- 170 94 0.47 47

170 |---- 180 12 0.06 6

TOTAL 200 1 100%


Os valores de frequência relativa podem ser obtidos facilmente dividindo-se a frequência absoluta

pela soma da frequência absoluta (F / ∑ F). Por exemplo, para a obtenção do primeiro valor de

frequência relativa da TABELA 5, que é de 0.07, dividimos 14 por 200. Para transformar esse valor

de frequência relativa em porcentagem, basta multiplicá-lo por 100. Agora podemos ver com mais

clareza a frequência das estaturas por meio de dados relativos de porcentagem: 47% dos alunos

apresentam altura entre 1,60m e 1,70m, e apenas 6% apresentam estatura entre 1,70 e 1,80m.

Os índices são razões entre duas grandezas, como por exemplo, a densidade demográfica

(população/superfície), o índice cefálico ([diâmetro transverso do crânio/ diâmetro longitudinal do

crânio] x 100), dentre outros. O índice de renda per capita, por exemplo, pode ser calculado por

meio da divisão da receita do país (PIB) pela população. Em um país com PIB de 1 bilhão de dólares

e população estimada em 10 milhões de pessoas, a renda per capita será de:

Índice de renda per capita = 1.000.000.000

Índice de renda per capita = 100 dólares por pessoa

10.000.000

Os coeficientes são razões entre o número de ocorrências com o número total, tais como o

coeficiente de natalidade (número de nascimentos/população total) e o coeficiente de mortalidade

(número de óbitos / população total). Quando multiplicamos estes coeficientes por uma potência

de dez (10, 100, etc.), tornando o resultado mais inteligível, temos então as taxas. O coeficiente

de mortalidade anual em uma cidade, por exemplo, pode ser calculado por meio da razão entre o



número de óbitos que acontecem em um ano pela população total. Em uma cidade de cerca de 3

milhões de habitantes, com cerca de 1.200 óbitos por ano, o coeficiente de mortalidade será de:

Coeficiente de mortalidade = 1200

Coeficiente de mortalidade = 0.0004

3.000.000

Se multiplicarmos esse coeficiente por 100, teremos uma taxa de mortalidade de 0.04 %. Ou seja,

menos de 1% da população vem a óbito anualmente.



UNIDADE 44.1 GRÁFICOS ESTATÍSTICOS

Os gráficos estatísticos são importantes ferramentas que nos permitem ter uma impressão mais rápida

de determinado fenômeno, uma vez que os gráficos transmitem a informação de forma muito mais

dinâmica do que as séries estatísticas. De forma geral, um gráfico deve ser simples (devemos deixar

de lado detalhes secundários, assim como traços e imagens desnecessárias), claro (possibilitando

uma correta interpretação) e verdadeiro (deve expressar verdadeiramente o fenômeno estudado).

Dentre os mais diversos tipos de gráficos, os diagramas talvez sejam aqueles que mais contribuem

para a área da saúde. Incluem aí os gráficos em linha (“gráficos “XY” ou de “dispersão”), os

gráficos em colunas ou barras e o gráfico em setores (“pizza”).

4.1.4 Gráfico em linha

Este tipo de gráfico utiliza dois eixos, o eixo x (eixo das abscissas) e o eixo y (eixo das ordenadas),

por isso é conhecido informalmente como gráfico “XY”. Cada um dos eixos irá apresentar uma série

numérica. Os valores destas séries serão pareados e, desta forma, teremos uma linha ou uma

dispersão de pontos. Vejamos um exemplo.



FIGURA 7 - Tempo de exercício e pressão arterial sistólica

FIGURA 8 - Representação do tempo de exercício versus a pressão arterial sistólica

10 113

20 112

30 110

40 109

50 112

60 117



Tempo de exercício (minutos)

Pressão arterial sistólica

(mmHg)

Por meio deste tipo de gráfico, podemos observar o comportamento dos dados estudados em

relação a outros dados. São muito utilizados para representar testes de correlação (Spearman,

Pearson, regressão linear). Podemos também usar pontos ao invés de linhas:

117

117

116

116

115

115

114

114

113

113

112

112

111

111

110

110

109

109

10

10

15

15

20

20

25

25

30

30

35

35

40

40

45

45

50

50

55

55

Pres

são

arte

rial s

isbóli

ca (m

mHg

)

Pres

são

arte

rial s

isbóli

ca (m

mHg

)





Sala 1 Sala 2 Sala 3

4.1.2 Gráfico em colunas ou barras

Estes gráficos representam uma série estatística por meio de retângulos verticais (colunas) ou

horizontais (barras). Os retângulos devem apresentar a mesma largura e não devem estar conectados

uns aos outros. São muito úteis para comparar séries estatísticas, tais como, por exemplo, médias

de notas de diversas salas.

FIGURA 9 - Dados de notas em diversas salas de aula

10 5.5 4.5

8 6 10

7.5 7.7 10

6.4 10 4.7

9 8 4.9

9 5 7

6.4 5 9

2 4 7

8 8.3 6


8.3

7.2

6.4

5.6

4.8

4.0

3.2

2.4

1.6

0.8

0.0Sala 1 Sala 2 Sala 3

Estes gráficos geralmente estão associados a valores de dispersão, tais como o desvio padrão ou

o erro padrão4 .

4 - Veremos com mais detalhes na unidade 5.



FIGURA 10 - Dados de médias e desvio padrão das notas em diversas salas de aula

9

8

7

6

5

4

3

2

1

0Sala 1 Sala 2 Sala 3


4.1.3 Gráfico em setores

Também conhecido como gráfico “pizza”, é utilizado para ressaltar a participação de determinado dado no total. O total é representado pelo círculo (100%), que fica dividido em partes.

Vejamos a seguinte série estatística referente à escolaridade de pessoas entrevistadas para uma pesquisa.



TABELA 6 - Escolaridade de pessoas entrevistadas para uma pesquisa

TABELA 7 - Escolaridade de pessoas entrevistadas para uma pesquisa

Escolaridade Quantidade

Ensino fundamental 2

Ensino médio 32

Superior completo 23

Mestrado/doutorado 2

TOTAL 59

Escolaridade %

Ensino fundamental 3,39

Ensino médio 54,24

Superior completo 38,98

Mestrado/doutorado 3,39

TOTAL 100



Como representaríamos estes dados em um gráfico “pizza”? Em primeiro lugar, é preciso saber

o número total de pessoas entrevistadas: 59 pessoas. De posse deste valor total, calculamos a

porcentagem de cada grupo em relação ao valor total, por meio de uma simples regra de três.

59 pessoas 100%

2 pessoas com ensino fundamental x %

59 x 100 * 2

x 200 / 59

x 3,39 %

Calculando todas as porcentagens, encontraremos os seguintes valores:



Com esses valores, fica fácil fazer um gráfico de pizza por meio de um software como o Excel.

FIGURA 11 - Escolaridade de pessoas entrevistadas para uma pesquisa


38.98%

3.39% 3.39%

54.24%

Ensino fundamental

Ensino médio

Superior completo

Mestrado/Doutorado



UNIDADE 55.1 MEDIDAS DE POSIÇÃO E DISPERSÃO

As medidas de posição são cálculos que representam uma série de dados, nos orientando quanto à posição da distribuição. As mais importantes medidas de posição são as medidas de tendência central. O uso destas medidas tem o objetivo de representar os dados de uma forma ainda mais condensada do que nas tabelas, ou seja, representam, em valores únicos, conjuntos de informações que variam. A medida de tendência central mais importante para nós, talvez seja a média aritmética ( ˜ ). A média aritmética nada mais é do que a divisão da soma dos valores da variável pelo número deles.

x

x n˜ = Σ xi

x 4

˜ = 2+3+3+10 = 4,5kg

Um dos problemas das medidas de posição, tais como a média aritmética, é que muitas vezes o

valor calculado é abstrato. Vejamos bem, se temos quatro gatos, um com dois quilos, outro com

três quilos, outro com três quilos e outro com dez quilos, a média de peso dos quatro gatos é de

4,5 quilos:

Não é difícil perceber que este valor médio é bastante irreal, uma vez que está longe de representar

de fato a nossa amostra. O que percebemos é que os valores de peso dos gatos são muito diferentes

da média (estão muito “dispersos” da média).



FIGURA 12 - Dispersão dos valores de peso dos gatos a partir da média dos mesmos (4,5 kg)

4,5kg

2 kg

3 kg 3 kg

10 kg


Para que possamos visualizar melhor os nossos conjuntos de dados, agregando valor às medidas de posição, utilizamos as medidas de dispersão. Consideremos os seguintes conjuntos de valores das variáveis x, y e z:

X: 70, 70, 70, 70, 70

Y: 68, 69, 70, 71, 72

Z: 5, 15, 50, 120, 160

Calculando a média para esses três conjuntos, observamos que todos os três grupos apresentam média igual a 70. Podemos perceber que no grupo X, os valores estão muito próximos da média, ou seja, não existe nenhuma dispersão dos valores do grupo com relação à média. No grupo Y, os valores apresentam uma pequena dispersão em relação à média, e no grupo Z os valores apresentam uma alta dispersão em relação à média. Desta forma, percebemos que o grupo X é o mais homogêneo dos três, enquanto o grupo Y é o menos homogêneo.

As principais medidas de dispersão apresentadas aqui são a variância (s2), o desvio padrão (s) e o erro padrão.

s2 = Σ(xi - x)2n - 1

s = √s2

Erro padrão = s√n



Para o grupo X do nosso exemplo anterior, o cálculo da variância será o seguinte:

s2 = Σ(xi - x)2n - 1

s2 = (70 - 70)2 + (70 - 70)2 + (70 - 70)2 + (70 - 70)2 + (70 - 70)2

4

s2 = 0 + 0 + 0 + 0 + 04

s2 = 0

O desvio padrão será:

O erro padrão será:

s = √s2

s = √0

s = 0

Erro padrão = 0

Erro padrão = 0

Erro padrão = 0

Erro padrão = 0

√n

√4

√2



Para o grupo Y do nosso exemplo anterior, o cálculo da variância será o seguinte:

s2 = Σ(xi -x)2n - 1

s2 = (68 - 70)2 + (69 - 70)2 + (70 - 70)2 + (71 - 70)2 + (72 - 70)2

4

s2 = (-2)2 + (-1)2 + 02 + 12 +22

4

s2 = 4 +1 + 0 + 1 + 44

s2 = 104

s2 = 2,5


s = √22

s = 1,58

s = √2,5


Erro padrão = s

Erro padrão = 1,58

Erro padrão = 1,58

Erro padrão = 0,71

√n

√5

2,24



Para o grupo Z do nosso exemplo anterior, o cálculo da variância será o seguinte:

s2 = Σ(xi - x)2n - 1

s2 = (5 - 70)2 + (15 - 70)2 + (50 - 70)2 + (120 - 70)2 + (160 - 70)2

4

s2 = (-65)2 + (-55)2 + (-20)2 + 502 + 902

4

s2 = 4225 + 3025 + 400 + 2500 + 81004

s2 = 182504

s2 = 4562,5


s = √s2

s = 67,55

s = √4562,5


Erro padrão = s

Erro padrão = 67,55

Erro padrão = 67,55

Erro padrão = 30,2

√n

√5

2,24

Vejamos a representação gráfica das médias e erros padrões no exemplo sobre os grupos X,

Y e Z.



FIGURA 13 - Representação gráfica das médias e erros padrões no exemplo sobre os grupos X, Y e Z

180

160

140

120

100

80

60

40

20

0x y z


Verificamos assim a importância de se utilizar medidas de tendência central e de dispersão associadas.

Podemos perceber que, desta forma, podemos analisar e entender grandes grupos de dados por meio de

uma simples representação gráfica. É importante observar que, quando utilizamos o erro padrão ou o desvio

padrão, devemos representar estes valores acima e abaixo da média. Lembrem-se sempre das pesquisas

eleitorais, quando se diz que determinado candidato tem x% de intenção, com erro de, por exemplo, dois

pontos percentuais para cima e dois pontos percentuais para baixo. Esse “erro” é o erro padrão. No nosso

exemplo, o erro padrão foi de ±0.00 para o grupo X, ±0.71 para o grupo Y e de ±30.2 para o grupo Z.

Erro padrão ou desvio padrão? Geralmente usamos o desvio padrão para descrever a variabilidade observada

em uma amostra e o erro padrão para indicar imprecisões associadas às estimativas de um parâmetro, tais

como a média. Nunca devemos usar o desvio padrão no caso dos dados não apresentarem distribuição

normal5 (LUNET et al., 2006).

5 - Veremos com mais detalhes na unidade 6.



UNIDADE 66.1 PROBABILIDADE E DISTRIBUIÇÃO

NORMALComo já foi dito anteriormente, a frequência nada mais é do que o número de vezes que um

determinado valor se repete em uma amostra. Por exemplo, em uma sala de aula de uma escola com

dez pessoas (uma amostra estatística), cinco apresentam a mesma idade, de 23 anos, enquanto o

restante apresenta idades diferentes. A frequência para a idade de 23 anos é de 5, enquanto para

o restante é 1.

TABELA 8 - Alunos e suas respectivas idades em uma escola de segundo grau

Pessoas Idade2008 12

Alaor 45

Aldecir 56

Bruna 23

Carlos 23

Cristina 23

Décio 21

Elano 25

Fábio 19

Juarez 23

Mariana 23




TABELA 9 - Frequência de idades em uma escola de segundo grau

Idade Frequência absoluta Frequência relativa

19 1 10%

21 1 10%

23 5 50%

25 1 10%

45 1 10%

56 1 10%


Vamos então observar que a frequência relativa nada mais é do que a probabilidade de

encontrarmos determinado valor dentro da nossa amostra. Podemos dizer, desta forma, que a

probabilidade de encontrarmos uma pessoa com 23 anos dentro desta sala é de 50%. Podemos

ainda inferir esta probabilidade para toda a escola (população estatística). É claro que essa inferência

nunca é perfeita e para que possamos inferir com mais precisão, a nossa amostra precisa ser

representativa e com um grande número de dados.

É muito interessante observarmos que muitas distribuições na natureza apresentam uma frequência

“padronizada”, onde os valores médios são mais frequentes e os valores extremos menos frequentes.

A distribuição da altura na população humana é um exemplo disso. Encontramos, com muito mais

frequência, pessoas de estatura média e menos frequentemente pessoas com estatura muito alta

ou muito baixa. Esse tipo de distribuição é chamada de distribuição normal, ou distribuição de

Gausse. O fato de muitas coisas na natureza apresentarem esse tipo de distribuição é de suma

importância para a estatística inferencial6 , uma vez que dados que apresentem distribuição normal

poderão, muitas vezes, ser analisados por meio de testes estatísticos que utilizam essa distribuição

“padrão” (a distribuição normal) para realizar seus cálculos (testes estatísticos paramétricos).

Dados que não apresentam distribuição normal serão analisados por meio de testes que não levam

em consideração a distribuição normal dos dados (testes estatísticos não paramétricos).

6 - Ver definição na unidade 2.



UNIDADE 77.1 TESTES PARAMÉTRICOS

Como já dito anteriormente, os testes paramétricos precisam, antes de mais nada, que os dados

a serem trabalhados apresentem distribuição normal, ou seja, que os dados sejam normais. Para

sabermos se os nossos dados são normais, iremos realizar um teste de normalidade. Um dos

testes de normalidade mais utilizados é o teste de Shapiro-Wilk. Por meio da utilização de um

software estatístico específico, podemos realizar esse teste nos dados e desta forma saber se são

normais ou não.

Quando realizamos o teste de Shapiro-Wilk, iremos obter dois resultados: um W e um p (sendo W

o valor calculado de Shapiro-Wilk e p a probabilidade do teste de hipóteses). Esse teste apresenta

a hipótese nula de que a população apresenta distribuição normal. Desta forma, se o nosso p

apresentar um valor menor do que 0,05, significará que a nossa hipótese nula é falsa e os dados não

são normais. Desta forma, o nosso p deve ser sempre maior do que 0,05.

Iremos abordar aqui quatro testes paramétricos muito comuns: o teste T de Student, a análise

de variância (ANOVA), a correlação de Pearson e a regressão linear. O teste T de Student é

utilizado quando queremos comparar duas amostras que devem diferir apenas em relação ao fator

estudado, enquanto a análise de variância é utilizada para mais de duas amostras que também

devem diferir apenas em relação ao fator estudado. A correlação de Pearson e a regressão linear são

análises utilizadas para se correlacionar dois fatores diferentes.



CONCEITOO que é o p?

Para a realização de um teste estatístico, precisamos primeiro de uma hipótese nula, que simplesmente

indica a inexistência de associação (no caso do teste T, por exemplo, a hipótese nula é de que não existe

diferença entre as médias das amostras testadas). O teste estatístico gera, então, uma probabilidade (um valor

de p), que permite saber, a partir de um conjunto de dados, se a hipótese nula está correta. Se o valor de

p gerado é de p = 0,001, significa que o conjunto de dados estudado tem apenas 0,1% de chances de se

adequar à hipótese nula, ou seja, no caso de um teste T, seria 0,1% de chance das amostras serem iguais

ao acaso. Desta forma, se, por exemplo, em uma ANOVA temos um p = 0.034, isto significa que as chances

das amostras não apresentarem diferenças ao acaso são de 3,4%. Muito baixas e menores do que os 5%

aceitáveis dentro da biologia.

7.1.1 Teste T de Student

O teste T é utilizado quando o objetivo de um trabalho é comparar as médias de duas populações quanto a uma variável quantitativa. Geralmente teremos um grupo controle e um grupo experimental. Ambos os grupos são amostras estatísticas e o resultado de nossa análise poderá ser inferido para toda a população. Vamos imaginar o seguinte exemplo: queremos saber se os peixes de duas lagoas apresentam tamanhos diferentes. Como é impossível coletar todos os peixes das duas lagoas, coletaremos amostras de peixes em cada lagoa e depois iremos inferir sobre as populações de peixes.



FIGURA 14 – Peixes da lagoa

Fonte: Núcleo de Educação a Distância, NEaD, Ănima, 2014.

Comprimento dos peixes da lagoa A (cm)

10

9

7

8

9

6

9

8

10

8

7

9

Comprimento dos peixes da lagoa B (cm)

15

12

15

10

7

8

13

15

13

11

7

5


TABELA 10 - Comprimento de peixes amostrados em duas lagoas

Agora, iremos testar a normalidade destes dados. O resultado do teste de Shapiro-Wilk é o seguinte:



TABELA 11 - Resultado do teste de Shapiro-Wilk para o comprimento de peixes amostrados em duas lagoas

TABELA 12 - Resultado do teste T de Student para o comprimento de peixes amostrados em duas lagoas

Lagoa A Lagoa B

Shapiro Wilk W 0.9306 0.9154

p 0.3861 0.2501

F: 8.095 p: 0.0017

t: -2.4107 p: 0.025

uneq. var. t: -2.4107 p: 0.031



Podemos observar que os dados são normais, pois os valores de W e p são maiores que 0,05.

Podemos então realizar o teste T, por meio de um software estatístico. O resultado para os dados

coletados será o seguinte:

Como interpretar estes resultados? Primeiramente, observemos a primeira linha, que é o resultado

de um teste chamado F. Esse teste é importante pois ele irá determinar se as variâncias das suas

amostras são iguais ou diferentes estatisticamente. O valor de 8.905 é utilizado para o cálculo do

teste à mão por meio de tabelas específicas. Entretanto, como geralmente utilizamos um software

estatístico para isso, não iremos entrar em detalhes aqui.

Precisamos nos ater ao p referente ao teste F: se ele for menor que 0.05, significa que as variâncias

são diferentes, e se for maior que 0.05, significa que as variâncias são estatisticamente iguais. As duas

linhas seguintes nos dão o p do teste T para duas situações: a segunda linha para variâncias iguais

e a terceira linha para variâncias diferentes. Como o resultado do nosso teste F foi menor que 0.05

(significativo), as variâncias são diferentes e o p do nosso teste T será aquele observado na terceira

linha (“unequal variances” ou variâncias desiguais). Desta forma, o resultado do nosso teste T apresenta

um p: 0.031, que é menor que 0.05, portanto, significativo. Isso significa que as amostras apresentam

médias significativamente diferentes, ou seja, o tamanho dos peixes é diferente para as duas lagoas.



FIGURA 15 – Médias e erros padrões dos comprimentos de peixes nas lagoas A e B (teste T, t= -2.4107, p= 0.031)

18

16

14

12

10

8

6

4

2

0Lagoa A Lagoa B


7.1.2 Análise de variância (ANOVA)

A análise de variância (ANOVA) é utilizada quando o objetivo de um trabalho é comparar as médias de

mais de duas populações quanto a uma variável quantitativa. Geralmente teremos um grupo controle

e mais de um grupo experimental. Vamos imaginar o seguinte exemplo, similar ao que já vimos para

o teste T: queremos saber se os peixes de quatro lagoas apresentam tamanhos diferentes. Como

é impossível coletar todos os peixes das quatro lagoas, coletaremos amostras de peixes em cada

lagoa e depois iremos inferir sobre as populações de peixes.



TABELA 13 - Comprimento de peixes amostrados em quatro lagoas

Comprimento dos peixes da lagoa A (cm)

Comprimento dos peixes da lagoa B (cm)

Comprimento dos peixes da lagoa C (cm)

Comprimento dos peixes da lagoa D (cm)

10 15 10 14

9 12 12 15

7 15 8 15

8 10 9 12.6

9 7 7 4

6 8 6 16

9 13 6 13

8 15 7.7 14

10 13 8 11

8 11 13 9

7 7 5 10

9 5 7 6


Antes de qualquer coisa, precisamos saber se os dados apresentam distribuição normal. Na análise

de variância, não observamos a normalidade dos dados em si, mas sim dos seus resíduos. A

maioria dos softwares estatísticos disponíveis já apresenta os resíduos, seja em forma de tabela

ou graficamente. O que precisamos fazer é um teste de Shapiro-Wilk destes resíduos. No nosso

exemplo acima, os resíduos são normais.



FIGURA 16 – Resíduos da análise de variância para o comprimento de peixes amostrados em quatro lagoas




6.4

4.8

3.2

1.6

0.0

-1.6

-3.2

-4.8

-6.4

-8.0-3.0 -2.4 -1.8

Normal order statistic medians

-1.2 -0.6 -0.0 0.6 1.2 1.8 2.4

TABELA 14 - Resultado do teste de Shapiro-Wilk para os resíduos da análise de variância para o comprimento de peixes amostrados em quatro lagoas

TABELA 15 - Resultado da análise de variância (ANOVA) para o comprimento de peixes amostrados em quatro lagoas

Shapiro Wilk W 0.9735

p 0.3446

df: 3 F: 4.373 p: 0.00886

Caso os resíduos sejam normais, podemos realizar o teste ANOVA (geralmente utilizamos o ANOVA

“one way”). Os resultados da análise para os nossos dados são os seguintes:

Resid

ual



Como interpretar estes resultados? O primeiro valor, “df: 3”, refere-se ao grau de liberdade

(“degree of freedom”); F se refere ao teste F, e o p é o resultado do nosso teste de hipóteses.

Como o valor de p foi menor que 0.05, significa que existe alguma variação entre as médias

de tamanho dos peixes presentes nas quatro lagoas. Entretanto, esse teste não nos diz quais

grupos são diferentes uns dos outros. Como podemos observar isso? Por meio de um outro

teste, chamado Tukey. Geralmente ele é realizado junto com a análise de variância, por meio de

softwares estatísticos. O resultado é uma matriz.

TABELA 16 - Resultado do teste de Tukey para a análise de variância (ANOVA) para o comprimento de peixes amostrados em quatro lagoas

Lagoa A Lagoa B Lagoa C Lagoa D


Lagoa A 0.1458 0.9998 0.03849

Lagoa B 3.078 (Q de Tukey) 0.1214 0.9304

Lagoa C 0.1291 (Q de Tukey) 3.208 (Q de Tukey) 0.03075

Lagoa D 3.933 (Q de Tukey) 0.854 (Q de Tukey) 4.062 (Q de Tukey)

Nesta matriz, podemos ver os testes comparando cada par de amostras (como se fossem vários

testes T), os valores de p e o valor Q de Tukey. Os valores de p menores que 0,05, significam que

os pares de amostras apresentam médias diferentes. O resultado de nossa análise pode ser melhor

representado em um gráfico de colunas.



FIGURA 16 - Médias e erros padrões dos comprimentos de peixes nas lagoas A, B, C e D (ANOVA, df = 3, F = 4.373, p = 0.00886)

18

16

14

12

10

8

6

4

2

0Lagoa A

a

ab

a

b

Lagoa CLagoa B Lagoa D


Por meio da representação gráfica associada à matriz de Tukey, podemos determinar com clareza

onde estão as diferenças apontadas pelo teste principal. Neste nosso exemplo, podemos ver que:

1. as lagoas A, B e C apresentam peixes com tamanhos similares, sendo que a lagoa B

apresenta alguns peixes ligeiramente maiores na amostra, não havendo, entretanto, diferença

estatística entre os grupos.

2. a lagoa D apresenta peixes maiores, comparáveis apenas a alguns peixes da lagoa B, o que

faz com que, probabilisticamente, estas duas lagoas possam apresentar peixes de tamanhos

similares. Entretanto, esta lagoa apresenta peixes significativamente maiores que os peixes

das lagoas A e C.

Muitas vezes, nossos dados não apresentam distribuição normal e não podemos, então, realizar

testes paramétricos (cujos dados analisados apresentam distribuição normal). Uma saída é realizar

testes não paramétricos. Entretanto, os testes não paramétricos são muito menos eficientes do que os

testes paramétricos. Desta forma, seria muito bom se pudéssemos “transformar” nossos dados para

que eles, de alguma forma, passassem a apresentar distribuição normal. Algumas transformações

podem ser feitas, tais como a logaritimização, soma de um, divisão por um ou raiz quadrada, dentre



outros processos. Sempre que transformarmos os nossos dados, precisamos realizar novamente

um teste de normalidade para verificar a presença de normalidade.

7.1.3 Correlação linear de Pearson

Muitas vezes, o objetivo de um teste estatístico não é comparar amostras, mas sim tentar encontrar

alguma correlação entre duas amostras de variáveis quantitativas diferentes. Por exemplo, podemos

realizar um teste de correlação entre o peso e a altura de alunos para saber se existe correlação entre

estas duas amostras, ou seja, se existe uma correlação entre o peso e a altura dos alunos.

Altura em centímetros (x)

175

169

196

162

175

160

180

Peso em quilos (y)

75

70

89

55

77

50

85


TABELA 17 - Dados de altura e peso dos alunos

Primeiramente, devemos testar a normalidade dos dados. No nosso exemplo acima, os dados são

normais segundo o teste de Shapiro-Wilk.

TABELA 18 - Resultado do teste de Shapiro-Wilk para dados de altura e peso dos alunos

Altura Peso

Shapiro Wilk W 0.9309 0.9324

p 0.5587 0.5711




Agora, podemos fazer um gráfico de dispersão (XY) para visualizar o comportamento dos dados.

FIGURA 17 – Dispersão dos valores de altura e peso dos alunos


84

80

76

72

68

64

60

56

52160 164 168

Altura

172 176 180 184 188 192

Peso

Visivelmente, os nossos dados apresentam um certo tipo de correlação. Mas como quantificar isso?

Será que esta correlação é significativa (ou seja, existe menos de 5% de chance da amostra não

ser significativa ao acaso)? Para responder à estas questões, realizaremos um teste de correlação

de Pearson. A maioria dos softwares estatísticos apresentam este teste no rol de testes básicos. O

resultado do nosso teste é simples.

TABELA 19 - Resultado do teste de correlação de Pearson para dados de altura e peso dos alunos

p = 0.0027732

r = 0.92573


Obtemos os valores de p e de r. O valor de p, como já sabemos, é a probabilidade do teste não

ser significativo, enquanto o valor de r, conhecido como coeficiente de Pearson, nos indica



FIGURA 18 – Correlação entre o consumo de chocolates e o número de Prêmios Nobel por país

a intensidade da correlação. Neste caso, observamos uma correlação significativa (p < 0.05) e alta

(r = 0.92573). Os valores do coeficiente de Pearson variam de -1 a 1. Sendo que de -1 a 0 temos

correlações negativas e de 0 a 1, correlações positivas. No nosso exemplo, a correlação é positiva,

como podemos observar no nosso valor de r e também no gráfico de dispersão.

Uma característica importante da correlação de Pearson é que ela deve ser usada apenas quando

não conhecemos de fato um efeito causa/consequência entre as variáveis. MESSERLI (2012), por

exemplo, realizou um trabalho em que ele correlacionou dados de consumo de chocolate e número

de Prêmios Nobel em diversos países. Ele encontrou uma correlação muito alta (p<0.0001, r = 0.79)

entre estas variáveis, que nitidamente não apresentam um efeito causa/consequência. Ou alguém

poderia dizer que comer mais chocolates nos deixa mais inteligentes? Óbvio que não. Provavelmente,

os países que consomem mais chocolate consomem também muitas outras coisas a mais, por

serem mais ricos e investirem mais em pesquisa e educação.

Fonte: MESSERLI, 2012, p. 2



Quando conhecemos um efeito causa/consequência, podemos realizar uma regressão linear, ao

invés de uma correlação de Pearson. O uso da regressão nos possibilitará realizar projeções.

7.1.4 Regressão linear

Quando o objetivo de um experimento é testar duas amostras de variáveis diferentes, cuja causa/

consequência é conhecida, utilizamos a regressão linear. Ou seja, uma variável “explica” a outra. Por

exemplo, níveis de poluentes e mortalidade de peixes em um rio: a mortalidade de peixes pode ser

explicada pelos níveis de poluição. Geralmente, chama-se a variável dependente (ou variável resposta)

de y e a independente (fator, variável explicativa), de x. Se um pesquisador, por exemplo, deseja

estudar a forma pela qual a pressão arterial depende da idade, pode estudar indivíduos com x=30,

35, 40, 45, etc., anos de idade, e então medir suas pressões arteriais, obtendo a seguinte tabela:

TABELA 20 - Dados de idade e pressão arterial sistólica

Idade Pressão arterial sistólica (mmHg)

30 110

35 112

40 114

45 116

50 118

55 118


O objetivo da regressão linear é avaliar uma possível dependência de y em relação a x; e descrever

esta relação por meio de uma equação matemática. Suponha que um biólogo esteja estudando a

relação entre a quantidade (μg/L) de determinado poluente despejado por uma fábrica em um riacho,

e o dano ecológico nesse curso d’água, medido por um escore de dano.



Quantidade de poluente (μg/L) Escore de dano ecológico

1 2

2 5

3 6

4 12

5 12

6 14


TABELA 21 - Dados de poluentes e escores de danos ecológicos

Primeiramente, assim como na correlação de Pearson, iremos fazer um gráfico de dispersão para

explorar os dados.

FIGURA 19 – Dispersão dos valores de poluentes e danos ecológicos em um riacho


18

16

14

12

10

8

6

4

2

01.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5

Dano

eco

lógico

Poluente



Visualmente, podemos perceber alguma correlação entre as variáveis. Essa correlação é significativa?

Como expressar essa relação matematicamente? Para isso, realizaremos uma regressão linear.

Primeiramente, precisamos conferir a normalidade dos nossos dados.

Para análises de regressão, pelo menos os dados referentes à variável X devem apresentar

normalidade. O resultado do nosso teste, que usou a regressão por meio do método dos mínimos

quadrados, se baseia em um resultado de teste de hipóteses (o nosso famoso p), um coeficiente

de correlação corrigido (r2) e uma equação da reta.

p = 0.0015612

r2 = 0.93618

Coeficiente linear (intercept b) = -0.2

Coeficiente angular (slope a) = 2.4857

Como podemos observar, o nosso p é menor do que 0.05, que significa que o resultado do nosso

teste é significativo, ou seja, existe menos de 5% de chance (0.15612 % de chances, especificamente)

dos dados não apresentarem correlação ao acaso. O nosso coeficiente de Pearson ajustado nos

indica a intensidade desta correlação, ou seja, o valor de 0.93618 indica uma alta correlação entre

os níveis de poluente e os danos ecológicos no riacho. Agora precisamos construir uma equação

matemática que represente essa relação. Primeiramente, vamos relembrar a antiga equação da reta.

y = A + Bx

Onde:

y: a variável dependente;

A: parâmetro ou coeficiente linear (valor de y quando x = 0);

B: parâmetro ou coeficiente angular (inclinação da reta, acréscimo ou decréscimo em y para cada

acréscimo em uma unidade em x);

x: variável independente.



Um dos resultados de nosso teste são os valores de A (coeficiente linear) e B (coeficiente angular).

Podemos então construir a equação da nossa reta de regressão substituindo os valores de A e B na

equação clássica da reta.

Por meio desta equação, podemos calcular os valores de y em função de x. Por exemplo, queremos

saber qual seria o dano ecológico se tivéssemos níveis de poluição de cerca de 10 μg/L:

y = -0.2 + 2.4857*10

y = -0.2 + 24.857

y = -0.2 + 24.857

y = 24.657

Podemos pressupor, por meio da nossa reta de regressão, que níveis de poluição de aproximadamente

10 μg/L poderão acarretar em escores de danos ecológicos de aproximadamente 25. A análise de

regressão pode ser representada graficamente conforme demonstrado abaixo.

y = -0.2 + 2.4857x



FIGURA 20 - Relação entre os níveis de poluentes e os escores de danos ecológicos em um riacho (regressão linear, p= 0.0015612, r2 = 0.93618)


18

16

14

12

10

8

6

4

2

01.2 1.8 2.4 3.0 3.6 4.2 4.8 5.4 6.0 6.6

Dano

eco

lógico

Poluente

Resumidamente, podemos dizer que existe uma forte e significativa correlação entre as variáveis, que

pode ser explicada matematicamente pela equação y = - 0.2 + 2.4857x.



UNIDADE 88.1 TESTES NÃO PARAMÉTRICOS

Como já foi dito anteriormente, os testes não paramétricos só devem ser utilizados em casos

onde os dados não apresentam distribuição normal, mesmo após tentativas de transformação.

Os testes não paramétricos são mais simples e não necessitam, desta forma, que nenhum teste

de normalidade seja feito. Para cada teste paramétrico descrito no capítulo anterior, teremos um

teste não paramétrico referente.

TABELA 22 - Testes paramétricos e seus devidos testes não paramétricos

Teste paramétrico Teste similar não paramétrico

Teste T Mann-Whitney

ANOVA + Tukey pairwise Kruskal-Wallis + Mann-Whitney pairwise

Correlação linear de Pearson Correlação de Spearman

Regressão linear Correlação de Spearman


De forma geral, o único resultado que cada um destes testes irá nos proporcionar é um p, ou seja, a

probabilidade de nossa hipótese nula ser verdadeira. Entretanto, a facilidade destes testes esconde

uma menor especificidade e precisão. Desta forma, é necessário que tenhamos em mente que o

melhor caminho é sempre aquele dos testes paramétricos.



REFERÊNCIASCRESPO, Antônio Arnot. Estatística fácil. São Paulo: Saraiva, 1989.

LUNET, Nuno; SEVERO, Milton; BARROS, Henrique. Desvio padrão ou erro padrão. Arquivos de

Medicina, 20: 55-59. 2006.

MESSERLI, Franz H. Chocolate consumption, cognitive function, and nobel laureates. The New

England Journal of Medicine, 367 (16): 1562 – 1564. 2012.

"Transformar o país pela Educação, sendo referência em práticas inovadoras de

aprendizagem e gestão, respeito à pluralidade, valorização das pessoas e compromisso com o

desenvolvimento sustentável."

Suporte ao trabalho de conclusão de curso (TCC)

Manual de Normas de Publicação para as Principais Revistas Científicas Brasileiras da Área da Saúde2014/2

Manual de Métodos Quantitativos de...

Documents

Transcript of Manual de Métodos Quantitativos de...