Manual de Métodos Quantitativos de...
Transcript of Manual de Métodos Quantitativos de...
"Transformar o país pela Educação, sendo referência em práticas inovadoras de
aprendizagem e gestão, respeito à pluralidade, valorização das pessoas e compromisso com o
desenvolvimento sustentável."
Suporte ao trabalho de conclusão de curso (TCC)
Manual de Métodos Quantitativos de Pesquisa2014/2
COPYRIGHT © 2014
GRUPO ĂNIMA EDUCAÇÃOTodos os direitos reservados ao:
Grupo Ănima Educação
Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização por escrito da detentora dos direitos, poderá ser
reproduzida ou transmitida, sejam quais forem os meios empregados: eletrônicos, mecânicos, fotográficos, gravações ou quaisquer outros.
EdiçãoGrupo Ănima Educação
DiretoriaPedro Luiz Pinto da Cunha
Coordenação e Desenvolvimento de Novos Produtos EaDCláudia Silveira da Cunha
Coordenação de Produção de MateriaisPatrícia Ferreira Alves
Equipe EaD
Newton é bacharel em Medicina Veterinária
(UNIUBE/FAZU) e doutor em Ecologia,
Conservação e Manejo da Vida Silvestre
(UFMG). É professor de Bioestatística no curso
de Ciências Biológicas do Centro Universitário
UNA, em Belo Horizonte, e leciona as
disciplinas de Ecologia Vegetal e Biologia da
Conservação, dentre outras. Tem experiência
de pesquisa na área de ecologia, com ênfase
em ecologia aplicada, atuando principalmente
nos seguintes temas: modelagem de
distribuição de espécies, mudanças globais,
biogeografia e conservação da vida silvestre.
CONHEÇA O AUTOR
APRESENTAÇÃO 02
UNIDADE 11.1 MÉTODOS QUANTITATIVOS DE PESQUISA: A ESTATÍSTICA 03
UNIDADE 22.1 POPULAÇÃO E AMOSTRA 10
UNIDADE 33.1 SÉRIES ESTATÍSTICAS 14
UNIDADE 44.1 GRÁFICOS ESTATÍSTICOS 18
UNIDADE 55.1 MEDIDAS DE POSIÇÃO E DISPERSÃO 24
UNIDADE 66.1 PROBABILIDADE E DISTRIBUIÇÃO NORMAL 30
UNIDADE 77.1 TESTES PARAMÉTRICOS 32
UNIDADE 88.1 TESTES NÃO PARAMÉTRICOS 49
REFERÊNCIAS 50
SUMÁRIO
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)02
O Manual de Métodos Quantitativos de Pesquisa é resultado de dois anos de ensino de estatística
para alunos de graduação em Ciências Biológicas, no Centro Universitário UNA, em Belo Horizonte.
A maior preocupação durante a elaboração deste manual foi apresentar os principais tópicos em
estatística utilizados pelos alunos de graduação de forma simples e direta. Desta forma, não serão
abordadas definições complicadas ou extensas, e sim formas simples de organização de ideias,
coleta e interpretação de dados.
O autor
APRESENTAÇÃO
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)03
UNIDADE 11.1 MÉTODOS QUANTITATIVOS DE
PESQUISA: A ESTATÍSTICA
mais um acidente! vou ter
que diminuir de novo o número de escravos
FIGURA 1 - Estatística na antiguidade
Fonte: Núcleo de Educação a Distância (NEaD), Ănima, 2014.
Desde a antiguidade, vários povos já utilizavam métodos quantitativos para um maior entendimento
da sociedade à sua volta. Os egípcios antigos já realizavam censos populacionais, provavelmente
para facilitar a tributação e organização social. Com esta mesma finalidade, os romanos também
organizavam censos em toda a extensão do seu império. No século XI, na Inglaterra, já eram
realizados levantamentos estatísticos sobre as terras, propriedades, empregados e até mesmo sobre
os animais. Esses antigos estudos estatísticos eram a base de cálculo para a cobrança de impostos
pela coroa. A partir do século XVI, começaram a surgir análises mais complexas de fatos sociais, tais
como os batizados e casamentos, originando as primeiras tabelas descritivas e números relativos
(como por exemplo, as porcentagens).
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)04
A palavra “estatística”1 foi proposta pela primeira vez pelo acadêmico alemão Gottfried Achenwall,
por volta da metade do século XVIII. Desde então, as tabelas e interpretações descritivas se tornaram
cada vez mais complexas e complicadas. Surgiram as representações gráficas, o cálculo de
probabilidade, os testes de hipóteses estatísticas e as análises multivariadas, dentre milhares de
outras análises extremamente complexas. Desta forma, a estatística deixou de ser uma simples
catalogação de números coletivos (estatística descritiva) para se tornar o estudo de como chegar
a conclusões sobre o todo (o que chamamos de população), partindo da observação de
partes deste todo (o que chamamos aqui de amostras) (CRESPO, 1989, p. 11).
Esta estatística moderna se tornou essencial para o funcionamento do mundo tal como o
conhecemos. Atualmente, precisamos de métodos estatísticos para entender o mundo financeiro,
os processos industriais, as viagens espaciais, as transmissões de rádio e televisão, os testes de
qualidade de remédios, as pesquisas das áreas da saúde, química, engenharia, biologia, psicologia,
ecologia, etc. A estatística se faz necessária até mesmo para tentarmos entender quem somos e de
onde viemos, por meio das pesquisas em física e astronomia. É essencial para o desenvolvimento
da ciência moderna, sustentada pela estrutura filosófica da metodologia científica.
1 - O termo estatística tem origem no latim statisticum collegium, ou “assuntos sobre o Estado”.
1.1.1 O método científico
Grande parte dos conhecimentos adquiridos pela humanidade foram conquistados em épocas
remotas, muitas vezes como fruto do acaso ou por meio de aplicações práticas, onde os repetitivos
erros e acertos foram a regra básica para o entendimento de um determinado evento. Na antiguidade
não existiam regras ou métodos para que pudéssemos responder às questões e dúvidas impostas pela
observação dos fatos presentes no dia a dia. A utilização do fermento para o crescimento da massa de
pão ou para a produção de cerveja e outros alimentos, não é resultado de pesquisas experimentais,
mas sim, a soma de inúmeros erros e acertos que intuitivamente nos levaram a um determinado
caminho. Entretanto, o conhecimento construído de forma intuitiva pode não resultar em resultados
sólidos, tais como a fabricação (e ingestão) de cerveja. Muitas vezes, explicações embasadas em
deduções ou crenças podem ser um entrave para o desenvolvimento do conhecimento. A humanidade
nunca teria chegado à Lua se ainda acreditasse, por exemplo, que a Terra é o centro do universo.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)05
FIGURA 2 - Geocentrismo
Fonte: Núcleo de Educação a Distância (NEaD), Ănima, 2014.
Por centenas de anos, a humanidade acreditou que o Sol girava ao redor do nosso planeta. O
chamado geocentrismo2 (século I d.C.) é um modelo astronômico que acompanhou a humanidade
por muitos séculos. Afinal, se observarmos o Sol durante um dia inteiro, não é difícil imaginar que
ele está realmente dando uma volta ao redor do planeta. Por indução, diríamos que o nosso planeta
está parado e o Sol se movimentando. O geocentrismo é apenas uma provável explicação (uma
hipótese) deste fato natural, e estava baseado nos nossos sentidos (a “sensação” de que o Sol está
em movimento) e em crenças religiosas e antropocêntricas (o homem no centro de tudo). Afinal,
ninguém duvida que o Sol passa todos os dias sobre as nossas cabeças. Mas como isso acontece?
É evidente, hoje em dia, que os nossos sentidos e crenças podem nos levar a acreditar em coisas
que muitas vezes estão distantes da realidade. Ou alguém ainda acredita que o Sol gira ao redor do
planeta Terra? Foi apenas no século XVI que um italiano, chamado Galileu Galilei, conseguiu provar,
por meio de uma série de observações experimentais dos astros usando um telescópio, que o Sol
estava parado e quem girava ao redor dele éramos nós. Os fatos agora estavam sendo explicados por
experimentos e isso era incrível! A nossa busca pela verdade agora não se baseava mais nos nossos
sentidos e crenças, mas sim em explicações lógicas, isentas dos sentidos. Ficava claro, a partir daí, que
o poder da observação depende da experiência. Por isso, Galileu Galilei pode ser considerado
como um dos cientistas pioneiros no uso do método científico baseado na experimentação.
2 - O geocentrismo é a antiga hipótese, criada pelo astrônomo grego Ptolomeu (90-168 d.C.), de que o planeta Terra está localizado no centro do universo e os corpos celestes, inclusive o Sol, giram ao seu redor.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)06
Um fato deve ser algo irrefutável, um fenômeno evidente, um evento claro. Algo sobre o qual
não temos dúvidas a respeito.
Podemos perceber então, que a influência dos nossos sentidos e crenças na construção do
conhecimento era um problema que a humanidade precisava encarar, para que a nossa busca
pela verdade não fosse calcada por inverdades. Foi no século XVIII que diversos pensadores, tais
como John Locke e David Hume, propuseram o que chamamos de empirismo. De forma geral,
esta corrente de pensamento determina que qualquer conhecimento dos processos naturais deve,
de alguma forma, apoiar-se na experiência e na observação dos fatos (claro, para que possamos
“fugir” da fragilidade dos nossos sentidos e crenças). A partir deste momento, a humanidade instituía
o método científico como parte essencial da ciência moderna. É por isso que muitos trabalhos ou
estudos que baseiam-se em experimentos são chamados de trabalhos “empíricos”.
Mas afinal, o que é o método científico? A grosso modo, o método científico baseia-se:
1. na observação de um fato;
2. na formulação de uma hipótese (ou várias) que possa explicar este fato,
3. no delineamento de um desenho experimental e coleta de dados;
4. na realização e interpretação de testes estatísticos que serão utilizados para verificar se a sua
hipótese é verdadeira ou não;
5. na observação da veracidade de sua hipótese. Caso a hipótese seja verdadeira, ela será útil
para o desenvolvimento de teorias e leis, por meio de novas explicações de um fato. Mas se
ela não for corroborada, não será nada mais do que uma hipótese falsa, uma tentativa falha
de se explicar um fato.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)07
FIGURA 3 - O método científico
Observação de um fato
Procedimentos estatísticos
Previsões: insucesso
Novas Hipóteses
Pergunta (por quê?)
Coleta de dados
Previsões: sucesso
Formulação da hipótese
Desenho esperimental: classificação, medidas
Construção de teorias
Explicação dos fatos
Fonte: Elaborado pelo autor.
CONCEITOO que é uma hipótese? Como ela deve ser construída? Uma forma simples de se formular uma hipótese
é respondendo à uma pergunta. Por exemplo, observamos que o leite estraga rapidamente se deixado fora
da geladeira por alguns dias. Este fato nos leva a formular a seguinte pergunta: por que o leite estraga?
As prováveis respostas a esta pergunta serão as suas hipóteses. Uma boa hipótese seria: “O leite estraga
porque há organismos vivendo dentro dele”. Hipóteses são afirmações e só serão bem formuladas caso você
tenha algum conhecimento anterior sobre o tema, por isso é importante ler bastante e sempre estar atento às
novidades de sua área.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)08
Os procedimentos estatísticos (análises quantitativas) ocupam um lugar de grande importância
dentro do método científico. Por meio da estatística é possível testar hipóteses com o objetivo de
saber se elas são verdadeiras ou falsas. Ou seja, testar se elas realmente são explicações válidas para
um fato observado. Como isto é possível? Por meio de testes probabilísticos, podemos determinar
se certa situação apresenta uma probabilidade alta ou baixa de acontecer.
EXEMPLOFIGURA 4 - Exame médico
Fonte: Núcleo de Educação a Distância (NEaD), Ănima, 2014.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)09
Vamos observar o seguinte exemplo: ao administrar determinado medicamento em alguns pacientes,
um médico percebeu que a pressão arterial deles aumentava consideravelmente. Entretanto, ele
não tinha certeza se isso acontecia de forma generalizada. Ora, este é um fato observado pelo
médico. Quais seriam as perguntas que poderiam emergir ao se observar este fato? Provavelmente o
médico em questão pensaria: “Este medicamento realmente induz a pressão arterial nas pessoas?”.
Uma provável resposta para esta questão seria: “Sim, este medicamento induz o aumento da pressão
arterial nas pessoas”. Esta última afirmativa é a nossa hipótese. Seguindo a lógica do método científico,
como poderíamos delinear um desenho experimental para testar essa hipótese? Poderíamos medir
a pressão de algumas pessoas que não tomaram o remédio e de algumas que tomaram o remédio,
comparando as médias dos resultados dos dois grupos. Caso os valores de pressão arterial medidos
em cada grupo apresentassem uma baixa probabilidade de serem iguais quando pareados ao acaso
(geralmente levamos em consideração uma probabilidade máxima de 5% de chance), significaria
que as médias dos dois grupos seriam estatisticamente diferentes. Poderíamos dizer, então, que o
medicamento de fato induz a um aumento de pressão arterial nas pessoas. Nossa hipótese seria
então confirmada e os resultados encontrados seriam muito úteis no desenvolvimento de protocolos
de uso deste medicamento.
Interessante frisar que mesmo não medindo a pressão arterial de toda a população, por meio do
estudo de um grupo de pessoas (uma amostra), podemos inferir os resultados para a população
inteira. Chamamos esse tipo de método de estatística inferencial, que se contrapõe ao outro tipo,
a estatística descritiva, cujo objetivo é descrever dados e características de um grupo de dados,
assim como faziam os primeiros estatísticos.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)10
UNIDADE 22.1 POPULAÇÃO E AMOSTRA
Durante as campanhas eleitorais, é muito comum alguns institutos de pesquisa publicarem
com frequência as estimativas de intenção de voto em determinado candidato. De fato, estas
estimativas sempre são relativamente fiéis ao resultado final da eleição, mostrando que estas
pesquisas são, de certa forma, efetivas. Entretanto alguém se lembra de ter recebido algum
dia um telefonema perguntando sobre a sua intenção de voto? Poucas são as pessoas que
se lembrarão, pois uma parcela pequena da população é entrevistada para que as estimativas
sejam feitas. Em uma cidade como Belo Horizonte, com cerca de 3 milhões de habitantes, cada
pesquisa é feita com cerca de 1 a 4 mil pessoas. Podemos dizer, desta forma, que o cálculo
destas estimativas é realizado por meio da coleta de dados de uma amostra da população e
não da população inteira. Seria realmente muito difícil entrevistar milhões de pessoas a cada
pesquisa eleitoral.
O estudo de qualquer fenômeno, seja ele natural, social, econômico ou biológico, exige a coleta
de dados estatísticos referentes ao mesmo. A coleta de dados é, pois, a fase inicial de qualquer
pesquisa. A coleção de todas as observações potenciais sobre determinado fenômeno constitui
a população (como por exemplo, todos os eleitores de Belo Horizonte). O conjunto de dados
efetivamente observados ou extraídos constitui uma amostra da população (como por exemplo,
os eleitores entrevistados em Belo Horizonte). A amostra é, pois, um subconjunto da população.
É sobre os dados da amostra que desenvolvemos nossos estudos, visando fazer inferências
sobre a população.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)11
As amostras não são simplesmente dados coletados ao acaso. Imagine se as pesquisas de
intenção de voto citadas anteriormente fossem realizadas com apenas cinco pessoas, em
uma entrevista rápida numa rua da cidade. Provavelmente, e isto é bem intuitivo, os resultados
desta pesquisa não seriam de forma alguma confiáveis. Para que a pesquisa seja confiável,
é necessário que as amostras sejam replicadas, ou seja, elas devem ser realizadas por
meio de réplicas, que juntas apresentem uma maior representatividade do todo (ou seja, as
amostras devem representar toda a população estatística: em uma pesquisa de intenção
de voto numa determinada cidade, por exemplo, as amostras devem representar todas as
classes sociais da cidade).
É preciso também um volume de dados suficiente, ou seja, cinco pessoas é um número
muito baixo de entrevistados (para cada finalidade teremos um volume de dados mínimo
específico, entretanto, podemos usar o “valor mágico” de 30 a 50 como um número mínimo
aceitável para a maioria dos trabalhos acadêmicos). Para a nossa pesquisa de intenção de
voto, não há dúvidas de que é preciso realizar entrevistas em diversas regiões da cidade, de
forma homogênea. É preciso também representar de forma equilibrada as diversas classes
etárias, o sexo, a escolaridade e a religião, dentre outros fatores. Desta forma, a interpretação
dos dados será extremamente mais rica em detalhes. Precisamos nos ater a estes detalhes
para que “não percamos informações” de nossos dados. Além disso, as réplicas precisam
ser iguais em tamanho. Em nossa pesquisa de intenção de votos, cada réplica amostral deve
apresentar o mesmo número de entrevistados, aproximadamente. Não faria sentido entrevistar
450 pessoas em um bairro nobre e 21 pessoas em um bairro pobre, por exemplo. Provavelmente
os resultados desta pesquisa não seriam confiáveis.
FIGURA 5 – População e amostra
POPULAÇÃO
AMOSTRA
Fonte: Elaborado pelo autor.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)12
EXEMPLOFIGURA 6 - Programa de ensino
Fonte: Núcleo de Educação a Distância (NEaD), Ănima, 2014.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)13
Imaginemos um outro exemplo: a avaliação de um programa de ensino em uma escola. Tomamos
certo número de pares de turmas. A uma delas ensina-se um assunto por meio de uma nova
metodologia; à outra, por meio da metodologia clássica. Aplica-se então uma avaliação para ambas
as turmas. As notas observadas constituem a nossa amostra (a escola inteira é a nossa população).
A nossa hipótese é que a nova metodologia irá melhorar significativamente as notas dos alunos,
caracterizando uma melhor transferência de conhecimento.
Para testar esta hipótese, realizaremos um teste estatístico (neste caso, poderíamos usar, por
exemplo, um teste T de Student3 ), comparando os valores relativos às turmas que receberam uma
nova metodologia aos valores relativos às turmas que receberam o método clássico. O teste irá nos
dizer qual a probabilidade das médias das turmas que receberam uma nova metodologia serem
iguais aos valores relativos às turmas que receberam o método clássico. Caso esta probabilidade
seja maior que 5% (geralmente, é aceitável, na área da saúde, um erro de até 5%), concluiremos
que não existe diferença estatística entre as metodologias. Entretanto, se esta probabilidade for
menor que 5% (vemos isso como p<0.05), concluiremos que existe sim uma diferença estatística
entre os grupos que receberam uma ou outra metodologia. A partir dos resultados encontrados para
esta amostra, estabeleceremos o que é conveniente para a população, ou seja, todas as turmas da
escola. Isso significa que podemos fazer uma inferência sobre a população.
Naturalmente, quando falamos em população e amostra, logo pensamos em inferência estatística!
3 - Veja com detalhes na unidade 7.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)14
UNIDADE 33.1 SÉRIES ESTATÍSTICAS
Denominamos série estatística qualquer tabela que apresente uma distribuição de um conjunto de
dados estatísticos. Estas séries podem ser históricas, espaciais ou categóricas.
TABELA 1 - Produção de medicamentos pela empresa X entre os anos de 2008 e 2012 - Exemplo de série histórica
TABELA 2 - Produção de medicamentos pela empresa X no Brasil no ano de 2012 - Exemplo de série espacial
Anos Quantidade (toneladas)
2008 12
2009 14.6
2010 14.7
2011 13.8
2012 15.9
Região Quantidade (toneladas)
Norte 2
Nordeste 3
Centro-Oeste 4
Sudeste 4
Sul 2.9
Fonte: Elaborado pelo autor. (Dados fictícios).
Fonte: Elaborado pelo autor. (Dados fictícios).
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)15
TABELA 3 - Produção de medicamentos pela empresa X no Brasil no ano de 2012 - Exemplo de série categórica
Categoria Quantidade (toneladas)
Antiparasitários 2
Antiespasmódicos 3
Anti-histamínicos 4
Analgésicos 6.9
Fonte: Elaborado pelo autor. (Dados fictícios).
Também podemos encontrar tabelas com distribuições de frequência. A frequência tem uma
enorme importância, pois será útil para determinarmos a probabilidade de determinado valor estar
presente em uma população estatística. A frequência nada mais é do que a frequência com que
cada valor se repete em uma amostra de dados.
Vejamos um exemplo.
TABELA 4 - Estaturas de 100 alunos da escola São Brás (2014)
Estatura (cm) Número de alunos (frequência)
140 |---- 150 14
150 |---- 160 80
160 |---- 170 94
170 |---- 180 12
TOTAL 200Fonte: Elaborado pelo autor. (Dados fictícios).
Agora, vamos observar os dados de frequência da TABELA 4. Os valores de cada categoria de
estatura nada mais são do que a frequência com que cada categoria se repete na nossa amostra
estatística (os 100 alunos). Podemos ver que existem 94 alunos, dentro desta amostra, cuja estatura
está entre 160 e 170 cm. A frequência 94 é um valor absoluto. Podemos relativizar estes valores,
construindo uma tabela de valores relativos. Dados relativos são úteis para facilitar a comparação
entre quantidades. Podemos fazer isto por meio de porcentagens, índices, coeficientes e taxas.
Vejamos como podemos relativizar os dados da TABELA 4 por meio de porcentagens.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)16
TABELA 5 - Estaturas de 100 alunos da escola São Brás (2014)
Estatura (cm) % (Fr*100)Número de alunos (frequência absoluta - F)
Número de alunos (frequência relativa - Fr)
140 |---- 150 14 0.07 7
150 |---- 160 80 0.40 40
160 |---- 170 94 0.47 47
170 |---- 180 12 0.06 6
TOTAL 200 1 100%
Fonte: Elaborado pelo autor. (Dados fictícios).
Os valores de frequência relativa podem ser obtidos facilmente dividindo-se a frequência absoluta
pela soma da frequência absoluta (F / ∑ F). Por exemplo, para a obtenção do primeiro valor de
frequência relativa da TABELA 5, que é de 0.07, dividimos 14 por 200. Para transformar esse valor
de frequência relativa em porcentagem, basta multiplicá-lo por 100. Agora podemos ver com mais
clareza a frequência das estaturas por meio de dados relativos de porcentagem: 47% dos alunos
apresentam altura entre 1,60m e 1,70m, e apenas 6% apresentam estatura entre 1,70 e 1,80m.
Os índices são razões entre duas grandezas, como por exemplo, a densidade demográfica
(população/superfície), o índice cefálico ([diâmetro transverso do crânio/ diâmetro longitudinal do
crânio] x 100), dentre outros. O índice de renda per capita, por exemplo, pode ser calculado por
meio da divisão da receita do país (PIB) pela população. Em um país com PIB de 1 bilhão de dólares
e população estimada em 10 milhões de pessoas, a renda per capita será de:
Índice de renda per capita = 1.000.000.000
Índice de renda per capita = 100 dólares por pessoa
10.000.000
Os coeficientes são razões entre o número de ocorrências com o número total, tais como o
coeficiente de natalidade (número de nascimentos/população total) e o coeficiente de mortalidade
(número de óbitos / população total). Quando multiplicamos estes coeficientes por uma potência
de dez (10, 100, etc.), tornando o resultado mais inteligível, temos então as taxas. O coeficiente
de mortalidade anual em uma cidade, por exemplo, pode ser calculado por meio da razão entre o
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)17
número de óbitos que acontecem em um ano pela população total. Em uma cidade de cerca de 3
milhões de habitantes, com cerca de 1.200 óbitos por ano, o coeficiente de mortalidade será de:
Coeficiente de mortalidade = 1200
Coeficiente de mortalidade = 0.0004
3.000.000
Se multiplicarmos esse coeficiente por 100, teremos uma taxa de mortalidade de 0.04 %. Ou seja,
menos de 1% da população vem a óbito anualmente.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)18
UNIDADE 44.1 GRÁFICOS ESTATÍSTICOS
Os gráficos estatísticos são importantes ferramentas que nos permitem ter uma impressão mais rápida
de determinado fenômeno, uma vez que os gráficos transmitem a informação de forma muito mais
dinâmica do que as séries estatísticas. De forma geral, um gráfico deve ser simples (devemos deixar
de lado detalhes secundários, assim como traços e imagens desnecessárias), claro (possibilitando
uma correta interpretação) e verdadeiro (deve expressar verdadeiramente o fenômeno estudado).
Dentre os mais diversos tipos de gráficos, os diagramas talvez sejam aqueles que mais contribuem
para a área da saúde. Incluem aí os gráficos em linha (“gráficos “XY” ou de “dispersão”), os
gráficos em colunas ou barras e o gráfico em setores (“pizza”).
4.1.4 Gráfico em linha
Este tipo de gráfico utiliza dois eixos, o eixo x (eixo das abscissas) e o eixo y (eixo das ordenadas),
por isso é conhecido informalmente como gráfico “XY”. Cada um dos eixos irá apresentar uma série
numérica. Os valores destas séries serão pareados e, desta forma, teremos uma linha ou uma
dispersão de pontos. Vejamos um exemplo.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)19
FIGURA 7 - Tempo de exercício e pressão arterial sistólica
FIGURA 8 - Representação do tempo de exercício versus a pressão arterial sistólica
10 113
20 112
30 110
40 109
50 112
60 117
Fonte: Elaborado pelo autor. (Dados fictícios).
Fonte: Elaborado pelo autor. (Dados fictícios).
Tempo de exercício (minutos)
Pressão arterial sistólica
(mmHg)
Por meio deste tipo de gráfico, podemos observar o comportamento dos dados estudados em
relação a outros dados. São muito utilizados para representar testes de correlação (Spearman,
Pearson, regressão linear). Podemos também usar pontos ao invés de linhas:
117
117
116
116
115
115
114
114
113
113
112
112
111
111
110
110
109
109
10
10
15
15
20
20
25
25
30
30
35
35
40
40
45
45
50
50
55
55
Pres
são
arte
rial s
isbóli
ca (m
mHg
)
Pres
são
arte
rial s
isbóli
ca (m
mHg
)
Tempo de exercício (minutos)
Tempo de exercício (minutos)
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)20
Sala 1 Sala 2 Sala 3
4.1.2 Gráfico em colunas ou barras
Estes gráficos representam uma série estatística por meio de retângulos verticais (colunas) ou
horizontais (barras). Os retângulos devem apresentar a mesma largura e não devem estar conectados
uns aos outros. São muito úteis para comparar séries estatísticas, tais como, por exemplo, médias
de notas de diversas salas.
FIGURA 9 - Dados de notas em diversas salas de aula
10 5.5 4.5
8 6 10
7.5 7.7 10
6.4 10 4.7
9 8 4.9
9 5 7
6.4 5 9
2 4 7
8 8.3 6
Fonte: Elaborado pelo autor. (Dados fictícios).
8.3
7.2
6.4
5.6
4.8
4.0
3.2
2.4
1.6
0.8
0.0Sala 1 Sala 2 Sala 3
Estes gráficos geralmente estão associados a valores de dispersão, tais como o desvio padrão ou
o erro padrão4 .
4 - Veremos com mais detalhes na unidade 5.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)21
FIGURA 10 - Dados de médias e desvio padrão das notas em diversas salas de aula
9
8
7
6
5
4
3
2
1
0Sala 1 Sala 2 Sala 3
Fonte: Elaborado pelo autor. (Dados fictícios).
4.1.3 Gráfico em setores
Também conhecido como gráfico “pizza”, é utilizado para ressaltar a participação de determinado dado no total. O total é representado pelo círculo (100%), que fica dividido em partes.
Vejamos a seguinte série estatística referente à escolaridade de pessoas entrevistadas para uma pesquisa.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)22
TABELA 6 - Escolaridade de pessoas entrevistadas para uma pesquisa
TABELA 7 - Escolaridade de pessoas entrevistadas para uma pesquisa
Escolaridade Quantidade
Ensino fundamental 2
Ensino médio 32
Superior completo 23
Mestrado/doutorado 2
TOTAL 59
Escolaridade %
Ensino fundamental 3,39
Ensino médio 54,24
Superior completo 38,98
Mestrado/doutorado 3,39
TOTAL 100
Fonte: Elaborado pelo autor. (Dados fictícios).
Fonte: Elaborado pelo autor. (Dados fictícios).
Como representaríamos estes dados em um gráfico “pizza”? Em primeiro lugar, é preciso saber
o número total de pessoas entrevistadas: 59 pessoas. De posse deste valor total, calculamos a
porcentagem de cada grupo em relação ao valor total, por meio de uma simples regra de três.
59 pessoas 100%
2 pessoas com ensino fundamental x %
59 x 100 * 2
x 200 / 59
x 3,39 %
Calculando todas as porcentagens, encontraremos os seguintes valores:
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)23
Com esses valores, fica fácil fazer um gráfico de pizza por meio de um software como o Excel.
FIGURA 11 - Escolaridade de pessoas entrevistadas para uma pesquisa
Fonte: Elaborado pelo autor. (Dados fictícios).
38.98%
3.39% 3.39%
54.24%
Ensino fundamental
Ensino médio
Superior completo
Mestrado/Doutorado
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)24
UNIDADE 55.1 MEDIDAS DE POSIÇÃO E DISPERSÃO
As medidas de posição são cálculos que representam uma série de dados, nos orientando quanto à posição da distribuição. As mais importantes medidas de posição são as medidas de tendência central. O uso destas medidas tem o objetivo de representar os dados de uma forma ainda mais condensada do que nas tabelas, ou seja, representam, em valores únicos, conjuntos de informações que variam. A medida de tendência central mais importante para nós, talvez seja a média aritmética ( ˜ ). A média aritmética nada mais é do que a divisão da soma dos valores da variável pelo número deles.
x
x n˜ = Σ xi
x 4
˜ = 2+3+3+10 = 4,5kg
Um dos problemas das medidas de posição, tais como a média aritmética, é que muitas vezes o
valor calculado é abstrato. Vejamos bem, se temos quatro gatos, um com dois quilos, outro com
três quilos, outro com três quilos e outro com dez quilos, a média de peso dos quatro gatos é de
4,5 quilos:
Não é difícil perceber que este valor médio é bastante irreal, uma vez que está longe de representar
de fato a nossa amostra. O que percebemos é que os valores de peso dos gatos são muito diferentes
da média (estão muito “dispersos” da média).
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)25
FIGURA 12 - Dispersão dos valores de peso dos gatos a partir da média dos mesmos (4,5 kg)
4,5kg
2 kg
3 kg 3 kg
10 kg
Fonte: Elaborado pelo autor. (Dados fictícios).
Para que possamos visualizar melhor os nossos conjuntos de dados, agregando valor às medidas de posição, utilizamos as medidas de dispersão. Consideremos os seguintes conjuntos de valores das variáveis x, y e z:
X: 70, 70, 70, 70, 70
Y: 68, 69, 70, 71, 72
Z: 5, 15, 50, 120, 160
Calculando a média para esses três conjuntos, observamos que todos os três grupos apresentam média igual a 70. Podemos perceber que no grupo X, os valores estão muito próximos da média, ou seja, não existe nenhuma dispersão dos valores do grupo com relação à média. No grupo Y, os valores apresentam uma pequena dispersão em relação à média, e no grupo Z os valores apresentam uma alta dispersão em relação à média. Desta forma, percebemos que o grupo X é o mais homogêneo dos três, enquanto o grupo Y é o menos homogêneo.
As principais medidas de dispersão apresentadas aqui são a variância (s2), o desvio padrão (s) e o erro padrão.
s2 = Σ(xi - x)2n - 1
s = √s2
Erro padrão = s√n
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)26
Para o grupo X do nosso exemplo anterior, o cálculo da variância será o seguinte:
s2 = Σ(xi - x)2n - 1
s2 = (70 - 70)2 + (70 - 70)2 + (70 - 70)2 + (70 - 70)2 + (70 - 70)2
4
s2 = 0 + 0 + 0 + 0 + 04
s2 = 0
O desvio padrão será:
O erro padrão será:
s = √s2
s = √0
s = 0
Erro padrão = 0
Erro padrão = 0
Erro padrão = 0
Erro padrão = 0
√n
√4
√2
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)27
Para o grupo Y do nosso exemplo anterior, o cálculo da variância será o seguinte:
s2 = Σ(xi -x)2n - 1
s2 = (68 - 70)2 + (69 - 70)2 + (70 - 70)2 + (71 - 70)2 + (72 - 70)2
4
s2 = (-2)2 + (-1)2 + 02 + 12 +22
4
s2 = 4 +1 + 0 + 1 + 44
s2 = 104
s2 = 2,5
O desvio padrão será:
s = √22
s = 1,58
s = √2,5
O erro padrão será:
Erro padrão = s
Erro padrão = 1,58
Erro padrão = 1,58
Erro padrão = 0,71
√n
√5
2,24
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)28
Para o grupo Z do nosso exemplo anterior, o cálculo da variância será o seguinte:
s2 = Σ(xi - x)2n - 1
s2 = (5 - 70)2 + (15 - 70)2 + (50 - 70)2 + (120 - 70)2 + (160 - 70)2
4
s2 = (-65)2 + (-55)2 + (-20)2 + 502 + 902
4
s2 = 4225 + 3025 + 400 + 2500 + 81004
s2 = 182504
s2 = 4562,5
O desvio padrão será:
s = √s2
s = 67,55
s = √4562,5
O erro padrão será:
Erro padrão = s
Erro padrão = 67,55
Erro padrão = 67,55
Erro padrão = 30,2
√n
√5
2,24
Vejamos a representação gráfica das médias e erros padrões no exemplo sobre os grupos X,
Y e Z.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)29
FIGURA 13 - Representação gráfica das médias e erros padrões no exemplo sobre os grupos X, Y e Z
180
160
140
120
100
80
60
40
20
0x y z
Fonte: Elaborado pelo autor. (Dados fictícios).
Verificamos assim a importância de se utilizar medidas de tendência central e de dispersão associadas.
Podemos perceber que, desta forma, podemos analisar e entender grandes grupos de dados por meio de
uma simples representação gráfica. É importante observar que, quando utilizamos o erro padrão ou o desvio
padrão, devemos representar estes valores acima e abaixo da média. Lembrem-se sempre das pesquisas
eleitorais, quando se diz que determinado candidato tem x% de intenção, com erro de, por exemplo, dois
pontos percentuais para cima e dois pontos percentuais para baixo. Esse “erro” é o erro padrão. No nosso
exemplo, o erro padrão foi de ±0.00 para o grupo X, ±0.71 para o grupo Y e de ±30.2 para o grupo Z.
Erro padrão ou desvio padrão? Geralmente usamos o desvio padrão para descrever a variabilidade observada
em uma amostra e o erro padrão para indicar imprecisões associadas às estimativas de um parâmetro, tais
como a média. Nunca devemos usar o desvio padrão no caso dos dados não apresentarem distribuição
normal5 (LUNET et al., 2006).
5 - Veremos com mais detalhes na unidade 6.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)30
UNIDADE 66.1 PROBABILIDADE E DISTRIBUIÇÃO
NORMALComo já foi dito anteriormente, a frequência nada mais é do que o número de vezes que um
determinado valor se repete em uma amostra. Por exemplo, em uma sala de aula de uma escola com
dez pessoas (uma amostra estatística), cinco apresentam a mesma idade, de 23 anos, enquanto o
restante apresenta idades diferentes. A frequência para a idade de 23 anos é de 5, enquanto para
o restante é 1.
TABELA 8 - Alunos e suas respectivas idades em uma escola de segundo grau
Pessoas Idade2008 12
Alaor 45
Aldecir 56
Bruna 23
Carlos 23
Cristina 23
Décio 21
Elano 25
Fábio 19
Juarez 23
Mariana 23
Fonte: Elaborado pelo autor. (Dados fictícios).
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)31
TABELA 9 - Frequência de idades em uma escola de segundo grau
Idade Frequência absoluta Frequência relativa
19 1 10%
21 1 10%
23 5 50%
25 1 10%
45 1 10%
56 1 10%
Fonte: Elaborado pelo autor. (Dados fictícios).
Vamos então observar que a frequência relativa nada mais é do que a probabilidade de
encontrarmos determinado valor dentro da nossa amostra. Podemos dizer, desta forma, que a
probabilidade de encontrarmos uma pessoa com 23 anos dentro desta sala é de 50%. Podemos
ainda inferir esta probabilidade para toda a escola (população estatística). É claro que essa inferência
nunca é perfeita e para que possamos inferir com mais precisão, a nossa amostra precisa ser
representativa e com um grande número de dados.
É muito interessante observarmos que muitas distribuições na natureza apresentam uma frequência
“padronizada”, onde os valores médios são mais frequentes e os valores extremos menos frequentes.
A distribuição da altura na população humana é um exemplo disso. Encontramos, com muito mais
frequência, pessoas de estatura média e menos frequentemente pessoas com estatura muito alta
ou muito baixa. Esse tipo de distribuição é chamada de distribuição normal, ou distribuição de
Gausse. O fato de muitas coisas na natureza apresentarem esse tipo de distribuição é de suma
importância para a estatística inferencial6 , uma vez que dados que apresentem distribuição normal
poderão, muitas vezes, ser analisados por meio de testes estatísticos que utilizam essa distribuição
“padrão” (a distribuição normal) para realizar seus cálculos (testes estatísticos paramétricos).
Dados que não apresentam distribuição normal serão analisados por meio de testes que não levam
em consideração a distribuição normal dos dados (testes estatísticos não paramétricos).
6 - Ver definição na unidade 2.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)32
UNIDADE 77.1 TESTES PARAMÉTRICOS
Como já dito anteriormente, os testes paramétricos precisam, antes de mais nada, que os dados
a serem trabalhados apresentem distribuição normal, ou seja, que os dados sejam normais. Para
sabermos se os nossos dados são normais, iremos realizar um teste de normalidade. Um dos
testes de normalidade mais utilizados é o teste de Shapiro-Wilk. Por meio da utilização de um
software estatístico específico, podemos realizar esse teste nos dados e desta forma saber se são
normais ou não.
Quando realizamos o teste de Shapiro-Wilk, iremos obter dois resultados: um W e um p (sendo W
o valor calculado de Shapiro-Wilk e p a probabilidade do teste de hipóteses). Esse teste apresenta
a hipótese nula de que a população apresenta distribuição normal. Desta forma, se o nosso p
apresentar um valor menor do que 0,05, significará que a nossa hipótese nula é falsa e os dados não
são normais. Desta forma, o nosso p deve ser sempre maior do que 0,05.
Iremos abordar aqui quatro testes paramétricos muito comuns: o teste T de Student, a análise
de variância (ANOVA), a correlação de Pearson e a regressão linear. O teste T de Student é
utilizado quando queremos comparar duas amostras que devem diferir apenas em relação ao fator
estudado, enquanto a análise de variância é utilizada para mais de duas amostras que também
devem diferir apenas em relação ao fator estudado. A correlação de Pearson e a regressão linear são
análises utilizadas para se correlacionar dois fatores diferentes.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)33
CONCEITOO que é o p?
Para a realização de um teste estatístico, precisamos primeiro de uma hipótese nula, que simplesmente
indica a inexistência de associação (no caso do teste T, por exemplo, a hipótese nula é de que não existe
diferença entre as médias das amostras testadas). O teste estatístico gera, então, uma probabilidade (um valor
de p), que permite saber, a partir de um conjunto de dados, se a hipótese nula está correta. Se o valor de
p gerado é de p = 0,001, significa que o conjunto de dados estudado tem apenas 0,1% de chances de se
adequar à hipótese nula, ou seja, no caso de um teste T, seria 0,1% de chance das amostras serem iguais
ao acaso. Desta forma, se, por exemplo, em uma ANOVA temos um p = 0.034, isto significa que as chances
das amostras não apresentarem diferenças ao acaso são de 3,4%. Muito baixas e menores do que os 5%
aceitáveis dentro da biologia.
7.1.1 Teste T de Student
O teste T é utilizado quando o objetivo de um trabalho é comparar as médias de duas populações quanto a uma variável quantitativa. Geralmente teremos um grupo controle e um grupo experimental. Ambos os grupos são amostras estatísticas e o resultado de nossa análise poderá ser inferido para toda a população. Vamos imaginar o seguinte exemplo: queremos saber se os peixes de duas lagoas apresentam tamanhos diferentes. Como é impossível coletar todos os peixes das duas lagoas, coletaremos amostras de peixes em cada lagoa e depois iremos inferir sobre as populações de peixes.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)34
FIGURA 14 – Peixes da lagoa
Fonte: Núcleo de Educação a Distância, NEaD, Ănima, 2014.
Comprimento dos peixes da lagoa A (cm)
10
9
7
8
9
6
9
8
10
8
7
9
Comprimento dos peixes da lagoa B (cm)
15
12
15
10
7
8
13
15
13
11
7
5
Fonte: Elaborado pelo autor. (Dados fictícios).
TABELA 10 - Comprimento de peixes amostrados em duas lagoas
Agora, iremos testar a normalidade destes dados. O resultado do teste de Shapiro-Wilk é o seguinte:
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)35
TABELA 11 - Resultado do teste de Shapiro-Wilk para o comprimento de peixes amostrados em duas lagoas
TABELA 12 - Resultado do teste T de Student para o comprimento de peixes amostrados em duas lagoas
Lagoa A Lagoa B
Shapiro Wilk W 0.9306 0.9154
p 0.3861 0.2501
F: 8.095 p: 0.0017
t: -2.4107 p: 0.025
uneq. var. t: -2.4107 p: 0.031
Fonte: Elaborado pelo autor. (Dados fictícios).
Fonte: Elaborado pelo autor. (Dados fictícios).
Podemos observar que os dados são normais, pois os valores de W e p são maiores que 0,05.
Podemos então realizar o teste T, por meio de um software estatístico. O resultado para os dados
coletados será o seguinte:
Como interpretar estes resultados? Primeiramente, observemos a primeira linha, que é o resultado
de um teste chamado F. Esse teste é importante pois ele irá determinar se as variâncias das suas
amostras são iguais ou diferentes estatisticamente. O valor de 8.905 é utilizado para o cálculo do
teste à mão por meio de tabelas específicas. Entretanto, como geralmente utilizamos um software
estatístico para isso, não iremos entrar em detalhes aqui.
Precisamos nos ater ao p referente ao teste F: se ele for menor que 0.05, significa que as variâncias
são diferentes, e se for maior que 0.05, significa que as variâncias são estatisticamente iguais. As duas
linhas seguintes nos dão o p do teste T para duas situações: a segunda linha para variâncias iguais
e a terceira linha para variâncias diferentes. Como o resultado do nosso teste F foi menor que 0.05
(significativo), as variâncias são diferentes e o p do nosso teste T será aquele observado na terceira
linha (“unequal variances” ou variâncias desiguais). Desta forma, o resultado do nosso teste T apresenta
um p: 0.031, que é menor que 0.05, portanto, significativo. Isso significa que as amostras apresentam
médias significativamente diferentes, ou seja, o tamanho dos peixes é diferente para as duas lagoas.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)36
FIGURA 15 – Médias e erros padrões dos comprimentos de peixes nas lagoas A e B (teste T, t= -2.4107, p= 0.031)
18
16
14
12
10
8
6
4
2
0Lagoa A Lagoa B
Fonte: Elaborado pelo autor.
7.1.2 Análise de variância (ANOVA)
A análise de variância (ANOVA) é utilizada quando o objetivo de um trabalho é comparar as médias de
mais de duas populações quanto a uma variável quantitativa. Geralmente teremos um grupo controle
e mais de um grupo experimental. Vamos imaginar o seguinte exemplo, similar ao que já vimos para
o teste T: queremos saber se os peixes de quatro lagoas apresentam tamanhos diferentes. Como
é impossível coletar todos os peixes das quatro lagoas, coletaremos amostras de peixes em cada
lagoa e depois iremos inferir sobre as populações de peixes.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)37
TABELA 13 - Comprimento de peixes amostrados em quatro lagoas
Comprimento dos peixes da lagoa A (cm)
Comprimento dos peixes da lagoa B (cm)
Comprimento dos peixes da lagoa C (cm)
Comprimento dos peixes da lagoa D (cm)
10 15 10 14
9 12 12 15
7 15 8 15
8 10 9 12.6
9 7 7 4
6 8 6 16
9 13 6 13
8 15 7.7 14
10 13 8 11
8 11 13 9
7 7 5 10
9 5 7 6
Fonte: Elaborado pelo autor. (Dados fictícios).
Antes de qualquer coisa, precisamos saber se os dados apresentam distribuição normal. Na análise
de variância, não observamos a normalidade dos dados em si, mas sim dos seus resíduos. A
maioria dos softwares estatísticos disponíveis já apresenta os resíduos, seja em forma de tabela
ou graficamente. O que precisamos fazer é um teste de Shapiro-Wilk destes resíduos. No nosso
exemplo acima, os resíduos são normais.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)38
FIGURA 16 – Resíduos da análise de variância para o comprimento de peixes amostrados em quatro lagoas
Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor.
6.4
4.8
3.2
1.6
0.0
-1.6
-3.2
-4.8
-6.4
-8.0-3.0 -2.4 -1.8
Normal order statistic medians
-1.2 -0.6 -0.0 0.6 1.2 1.8 2.4
TABELA 14 - Resultado do teste de Shapiro-Wilk para os resíduos da análise de variância para o comprimento de peixes amostrados em quatro lagoas
TABELA 15 - Resultado da análise de variância (ANOVA) para o comprimento de peixes amostrados em quatro lagoas
Shapiro Wilk W 0.9735
p 0.3446
df: 3 F: 4.373 p: 0.00886
Caso os resíduos sejam normais, podemos realizar o teste ANOVA (geralmente utilizamos o ANOVA
“one way”). Os resultados da análise para os nossos dados são os seguintes:
Resid
ual
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)39
Como interpretar estes resultados? O primeiro valor, “df: 3”, refere-se ao grau de liberdade
(“degree of freedom”); F se refere ao teste F, e o p é o resultado do nosso teste de hipóteses.
Como o valor de p foi menor que 0.05, significa que existe alguma variação entre as médias
de tamanho dos peixes presentes nas quatro lagoas. Entretanto, esse teste não nos diz quais
grupos são diferentes uns dos outros. Como podemos observar isso? Por meio de um outro
teste, chamado Tukey. Geralmente ele é realizado junto com a análise de variância, por meio de
softwares estatísticos. O resultado é uma matriz.
TABELA 16 - Resultado do teste de Tukey para a análise de variância (ANOVA) para o comprimento de peixes amostrados em quatro lagoas
Lagoa A Lagoa B Lagoa C Lagoa D
Fonte: Elaborado pelo autor. (Dados fictícios).
Lagoa A 0.1458 0.9998 0.03849
Lagoa B 3.078 (Q de Tukey) 0.1214 0.9304
Lagoa C 0.1291 (Q de Tukey) 3.208 (Q de Tukey) 0.03075
Lagoa D 3.933 (Q de Tukey) 0.854 (Q de Tukey) 4.062 (Q de Tukey)
Nesta matriz, podemos ver os testes comparando cada par de amostras (como se fossem vários
testes T), os valores de p e o valor Q de Tukey. Os valores de p menores que 0,05, significam que
os pares de amostras apresentam médias diferentes. O resultado de nossa análise pode ser melhor
representado em um gráfico de colunas.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)40
FIGURA 16 - Médias e erros padrões dos comprimentos de peixes nas lagoas A, B, C e D (ANOVA, df = 3, F = 4.373, p = 0.00886)
18
16
14
12
10
8
6
4
2
0Lagoa A
a
ab
a
b
Lagoa CLagoa B Lagoa D
Fonte: Elaborado pelo autor. (Dados fictícios).
Por meio da representação gráfica associada à matriz de Tukey, podemos determinar com clareza
onde estão as diferenças apontadas pelo teste principal. Neste nosso exemplo, podemos ver que:
1. as lagoas A, B e C apresentam peixes com tamanhos similares, sendo que a lagoa B
apresenta alguns peixes ligeiramente maiores na amostra, não havendo, entretanto, diferença
estatística entre os grupos.
2. a lagoa D apresenta peixes maiores, comparáveis apenas a alguns peixes da lagoa B, o que
faz com que, probabilisticamente, estas duas lagoas possam apresentar peixes de tamanhos
similares. Entretanto, esta lagoa apresenta peixes significativamente maiores que os peixes
das lagoas A e C.
Muitas vezes, nossos dados não apresentam distribuição normal e não podemos, então, realizar
testes paramétricos (cujos dados analisados apresentam distribuição normal). Uma saída é realizar
testes não paramétricos. Entretanto, os testes não paramétricos são muito menos eficientes do que os
testes paramétricos. Desta forma, seria muito bom se pudéssemos “transformar” nossos dados para
que eles, de alguma forma, passassem a apresentar distribuição normal. Algumas transformações
podem ser feitas, tais como a logaritimização, soma de um, divisão por um ou raiz quadrada, dentre
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)41
outros processos. Sempre que transformarmos os nossos dados, precisamos realizar novamente
um teste de normalidade para verificar a presença de normalidade.
7.1.3 Correlação linear de Pearson
Muitas vezes, o objetivo de um teste estatístico não é comparar amostras, mas sim tentar encontrar
alguma correlação entre duas amostras de variáveis quantitativas diferentes. Por exemplo, podemos
realizar um teste de correlação entre o peso e a altura de alunos para saber se existe correlação entre
estas duas amostras, ou seja, se existe uma correlação entre o peso e a altura dos alunos.
Altura em centímetros (x)
175
169
196
162
175
160
180
Peso em quilos (y)
75
70
89
55
77
50
85
Fonte: Elaborado pelo autor. (Dados fictícios).
TABELA 17 - Dados de altura e peso dos alunos
Primeiramente, devemos testar a normalidade dos dados. No nosso exemplo acima, os dados são
normais segundo o teste de Shapiro-Wilk.
TABELA 18 - Resultado do teste de Shapiro-Wilk para dados de altura e peso dos alunos
Altura Peso
Shapiro Wilk W 0.9309 0.9324
p 0.5587 0.5711
Fonte: Elaborado pelo autor. (Dados fictícios).
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)42
Agora, podemos fazer um gráfico de dispersão (XY) para visualizar o comportamento dos dados.
FIGURA 17 – Dispersão dos valores de altura e peso dos alunos
Fonte: Elaborado pelo autor.
84
80
76
72
68
64
60
56
52160 164 168
Altura
172 176 180 184 188 192
Peso
Visivelmente, os nossos dados apresentam um certo tipo de correlação. Mas como quantificar isso?
Será que esta correlação é significativa (ou seja, existe menos de 5% de chance da amostra não
ser significativa ao acaso)? Para responder à estas questões, realizaremos um teste de correlação
de Pearson. A maioria dos softwares estatísticos apresentam este teste no rol de testes básicos. O
resultado do nosso teste é simples.
TABELA 19 - Resultado do teste de correlação de Pearson para dados de altura e peso dos alunos
p = 0.0027732
r = 0.92573
Fonte: Elaborado pelo autor.
Obtemos os valores de p e de r. O valor de p, como já sabemos, é a probabilidade do teste não
ser significativo, enquanto o valor de r, conhecido como coeficiente de Pearson, nos indica
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)43
FIGURA 18 – Correlação entre o consumo de chocolates e o número de Prêmios Nobel por país
a intensidade da correlação. Neste caso, observamos uma correlação significativa (p < 0.05) e alta
(r = 0.92573). Os valores do coeficiente de Pearson variam de -1 a 1. Sendo que de -1 a 0 temos
correlações negativas e de 0 a 1, correlações positivas. No nosso exemplo, a correlação é positiva,
como podemos observar no nosso valor de r e também no gráfico de dispersão.
Uma característica importante da correlação de Pearson é que ela deve ser usada apenas quando
não conhecemos de fato um efeito causa/consequência entre as variáveis. MESSERLI (2012), por
exemplo, realizou um trabalho em que ele correlacionou dados de consumo de chocolate e número
de Prêmios Nobel em diversos países. Ele encontrou uma correlação muito alta (p<0.0001, r = 0.79)
entre estas variáveis, que nitidamente não apresentam um efeito causa/consequência. Ou alguém
poderia dizer que comer mais chocolates nos deixa mais inteligentes? Óbvio que não. Provavelmente,
os países que consomem mais chocolate consomem também muitas outras coisas a mais, por
serem mais ricos e investirem mais em pesquisa e educação.
Fonte: MESSERLI, 2012, p. 2
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)44
Quando conhecemos um efeito causa/consequência, podemos realizar uma regressão linear, ao
invés de uma correlação de Pearson. O uso da regressão nos possibilitará realizar projeções.
7.1.4 Regressão linear
Quando o objetivo de um experimento é testar duas amostras de variáveis diferentes, cuja causa/
consequência é conhecida, utilizamos a regressão linear. Ou seja, uma variável “explica” a outra. Por
exemplo, níveis de poluentes e mortalidade de peixes em um rio: a mortalidade de peixes pode ser
explicada pelos níveis de poluição. Geralmente, chama-se a variável dependente (ou variável resposta)
de y e a independente (fator, variável explicativa), de x. Se um pesquisador, por exemplo, deseja
estudar a forma pela qual a pressão arterial depende da idade, pode estudar indivíduos com x=30,
35, 40, 45, etc., anos de idade, e então medir suas pressões arteriais, obtendo a seguinte tabela:
TABELA 20 - Dados de idade e pressão arterial sistólica
Idade Pressão arterial sistólica (mmHg)
30 110
35 112
40 114
45 116
50 118
55 118
Fonte: Elaborado pelo autor. (Dados fictícios).
O objetivo da regressão linear é avaliar uma possível dependência de y em relação a x; e descrever
esta relação por meio de uma equação matemática. Suponha que um biólogo esteja estudando a
relação entre a quantidade (μg/L) de determinado poluente despejado por uma fábrica em um riacho,
e o dano ecológico nesse curso d’água, medido por um escore de dano.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)45
Quantidade de poluente (μg/L) Escore de dano ecológico
1 2
2 5
3 6
4 12
5 12
6 14
Fonte: Elaborado pelo autor. (Dados fictícios).
TABELA 21 - Dados de poluentes e escores de danos ecológicos
Primeiramente, assim como na correlação de Pearson, iremos fazer um gráfico de dispersão para
explorar os dados.
FIGURA 19 – Dispersão dos valores de poluentes e danos ecológicos em um riacho
Fonte: Elaborado pelo autor.
18
16
14
12
10
8
6
4
2
01.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
Dano
eco
lógico
Poluente
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)46
Visualmente, podemos perceber alguma correlação entre as variáveis. Essa correlação é significativa?
Como expressar essa relação matematicamente? Para isso, realizaremos uma regressão linear.
Primeiramente, precisamos conferir a normalidade dos nossos dados.
Para análises de regressão, pelo menos os dados referentes à variável X devem apresentar
normalidade. O resultado do nosso teste, que usou a regressão por meio do método dos mínimos
quadrados, se baseia em um resultado de teste de hipóteses (o nosso famoso p), um coeficiente
de correlação corrigido (r2) e uma equação da reta.
p = 0.0015612
r2 = 0.93618
Coeficiente linear (intercept b) = -0.2
Coeficiente angular (slope a) = 2.4857
Como podemos observar, o nosso p é menor do que 0.05, que significa que o resultado do nosso
teste é significativo, ou seja, existe menos de 5% de chance (0.15612 % de chances, especificamente)
dos dados não apresentarem correlação ao acaso. O nosso coeficiente de Pearson ajustado nos
indica a intensidade desta correlação, ou seja, o valor de 0.93618 indica uma alta correlação entre
os níveis de poluente e os danos ecológicos no riacho. Agora precisamos construir uma equação
matemática que represente essa relação. Primeiramente, vamos relembrar a antiga equação da reta.
y = A + Bx
Onde:
y: a variável dependente;
A: parâmetro ou coeficiente linear (valor de y quando x = 0);
B: parâmetro ou coeficiente angular (inclinação da reta, acréscimo ou decréscimo em y para cada
acréscimo em uma unidade em x);
x: variável independente.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)47
Um dos resultados de nosso teste são os valores de A (coeficiente linear) e B (coeficiente angular).
Podemos então construir a equação da nossa reta de regressão substituindo os valores de A e B na
equação clássica da reta.
Por meio desta equação, podemos calcular os valores de y em função de x. Por exemplo, queremos
saber qual seria o dano ecológico se tivéssemos níveis de poluição de cerca de 10 μg/L:
y = -0.2 + 2.4857*10
y = -0.2 + 24.857
y = -0.2 + 24.857
y = 24.657
Podemos pressupor, por meio da nossa reta de regressão, que níveis de poluição de aproximadamente
10 μg/L poderão acarretar em escores de danos ecológicos de aproximadamente 25. A análise de
regressão pode ser representada graficamente conforme demonstrado abaixo.
y = -0.2 + 2.4857x
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)48
FIGURA 20 - Relação entre os níveis de poluentes e os escores de danos ecológicos em um riacho (regressão linear, p= 0.0015612, r2 = 0.93618)
Fonte: Elaborado pelo autor.
18
16
14
12
10
8
6
4
2
01.2 1.8 2.4 3.0 3.6 4.2 4.8 5.4 6.0 6.6
Dano
eco
lógico
Poluente
Resumidamente, podemos dizer que existe uma forte e significativa correlação entre as variáveis, que
pode ser explicada matematicamente pela equação y = - 0.2 + 2.4857x.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)49
UNIDADE 88.1 TESTES NÃO PARAMÉTRICOS
Como já foi dito anteriormente, os testes não paramétricos só devem ser utilizados em casos
onde os dados não apresentam distribuição normal, mesmo após tentativas de transformação.
Os testes não paramétricos são mais simples e não necessitam, desta forma, que nenhum teste
de normalidade seja feito. Para cada teste paramétrico descrito no capítulo anterior, teremos um
teste não paramétrico referente.
TABELA 22 - Testes paramétricos e seus devidos testes não paramétricos
Teste paramétrico Teste similar não paramétrico
Teste T Mann-Whitney
ANOVA + Tukey pairwise Kruskal-Wallis + Mann-Whitney pairwise
Correlação linear de Pearson Correlação de Spearman
Regressão linear Correlação de Spearman
Fonte: Elaborado pelo autor. (Dados fictícios).
De forma geral, o único resultado que cada um destes testes irá nos proporcionar é um p, ou seja, a
probabilidade de nossa hipótese nula ser verdadeira. Entretanto, a facilidade destes testes esconde
uma menor especificidade e precisão. Desta forma, é necessário que tenhamos em mente que o
melhor caminho é sempre aquele dos testes paramétricos.
MANUAL DE MÉTODOS QUANTITATIVOS DE PESQUISA
Suporte ao Trabalho de Conclusão de Curso (TCC)50
REFERÊNCIASCRESPO, Antônio Arnot. Estatística fácil. São Paulo: Saraiva, 1989.
LUNET, Nuno; SEVERO, Milton; BARROS, Henrique. Desvio padrão ou erro padrão. Arquivos de
Medicina, 20: 55-59. 2006.
MESSERLI, Franz H. Chocolate consumption, cognitive function, and nobel laureates. The New
England Journal of Medicine, 367 (16): 1562 – 1564. 2012.
"Transformar o país pela Educação, sendo referência em práticas inovadoras de
aprendizagem e gestão, respeito à pluralidade, valorização das pessoas e compromisso com o
desenvolvimento sustentável."
Suporte ao trabalho de conclusão de curso (TCC)
Manual de Normas de Publicação para as Principais Revistas Científicas Brasileiras da Área da Saúde2014/2