ACH2021 Tratamento e Análise de Dados e Informações (TADI) · de Matemática, 2002. • Para...
Transcript of ACH2021 Tratamento e Análise de Dados e Informações (TADI) · de Matemática, 2002. • Para...
ACH2021 Tratamento e Análise de Dados e
Informações (TADI)
Marcelo de Souza Lauretto
www.each.usp.br/lauretto
1º sem 2015 – sala 116
Apresentação da disciplina
• Conteúdo geral: – Ciência e conhecimento científico
• Formas de aquisição de conhecimento
• A questão do método: indutivo e dedutivo
– Dados: Tipos, formas, coleta
– Estatística descritiva:
• Medidas resumo
• Tabelas
• Gráficos
– Comunicação científica
Apresentação da disciplina
• Avaliação – Prova 1: 27/04;
– Prova 2: 22/06
– Prova substitutiva (mediante atestado médico ou de trabalho): 29/06
– Atividades complementares (AC):
• Exercícios e análises de dados específicas.
– Média semestral = (2 P1 + 2 P2 + AC) / 5
– Bônus:
• Realização de mini-seminário: incremento de ATÉ 0.5 pontos na média semestral.
– Recuperação: Para quem teve média entre 3 e 5.
• Nota final: (Rec + Média)/2
• Mini-seminário: – Apresentações de até 10min
– Tema: um pensador ou uma corrente filosófica a respeito da ciência.
– Bônus de até 1/2 ponto na média semestral (equivale a 1.3 pontos a mais em uma das provas)
– Sugestões:
Fonte: F. Apolinário, Metodologia da Ciência. Cengage Learning, 2006.
Bibliografia (em construção)
• S. Vieira. Bioestatística. Ed. Campus, 2003.
• J. F. Healey. Statistics: A Tool for Social Research. 5ª Edição, Wadsworth, 1999.
• M. J. Fontelles. Bioestatística aplicada à pesquisa experimental. Ed. Livraria da Física, 2012.
• L. D. A. Ferreira, M. D. Oliveira, A. M. O. Sant'anna. Apostila 1: Estatística Descritiva. Universidade Federal da Bahia, Instituto de Matemática, 2002.
• Para lista mais atualizada das referências, verifique a página da disciplina: – www.each.usp.br/lauretto/ACH0021_2015
INTRODUÇÃO
"A Ciência faz-se com fatos assim como uma casa se faz com pedras; mas um acúmulo de fatos é tão ciência como um montão de pedras é uma casa. Os fatos simples não bastam, não se dispensa a ciência organizada."
Henri Poincaré (1854-1912) Matémático, físico e filósofo francês.
(extraído de Fontelles, 2012)
Pesquisa científica e o papel da estatística
• Pesquisa científica: – Processo pelo qual informação é sistemática e cuidadosamente
coletada com o objetivo de responder questões, examinar ideias, ou testar teorias aquisição de conhecimento científico.
• Análise estatística: – Relevante em projetos de pesquisa onde a informação coletada pode
ser representada quantitativamente (em números).
• Estatística: área do conhecimento voltada para o estudo da coleta, análise, interpretação, apresentação e organização de dados, com o objetivo de responder questões e testar teorias.
O papel da estatística na pesquisa científica
• A roda da ciência de Wallace:
• Roda da ciência de Wallace: uma representação de como a base de conhecimento científico se desenvolve. – Teoria científica e pesquisa continuamente se modelam mutuamente.
– Estatística é um dos mais importantes meios pelos quais a pesquisa e a teoria interagem.
• Uma teoria é uma explicação dos relacionamentos entre fenômenos. – Pessoas sempre levantam questionamentos sobre fenômenos
naturais, problemas sociais, etc.
– Na tentativa de compreender tais fenômenos, são desenvolvidas explicações "teorias" informais.
– Diferença fundamental entre nossas explicações cotidianas informais sobre fenômenos sociais/naturais e teoria científica é que a última está sujeita a um rigoroso procedimento de validação.
Um exemplo ilustrativo:
• O que causa o preconceito racial?
• Uma possível explicação para esse fenômeno é fornecida pela teoria denominada hipótese do contato: – Teoria desenvolvida por Gordon Allport na década de 50 e testada em
algumas ocasiões;
– Estabelece uma ligação entre preconceito racial e o volume de interação entre membros de diferentes grupos étnicos:
• Hipótese: Situações de contato em que diferentes grupos possuem posições (status) iguais e estão engajados em comportamentos cooperativos e não competitivos resultam na redução de preconceitos de quaisquer partes.
• Quanto maior a extensão em que o contato é igualitário e cooperativo, mais provável será que as pessoas se vejam como mutuamente como indivíduos e não como "representantes" de grupos.
– Exemplo: times esportivos com composição étnica mista
• Por outro lado, quando grupos distintos competem por empregos, moradia ou outros recursos, o preconceito tende a aumentar.
Um exemplo ilustrativo (continuação):
• Suponha que, inicialmente, tenhamos uma teoria para o preconceito, e duas variáveis*: – Contato (causa, ou variável independente)
– Preconceito (efeito, ou variável dependente)
• O que não sabemos é se a teoria é verdadeira ou falsa.
• Para descobrir, precisamos comparar a teoria com os fatos pesquisa.
* Uma variável é qualquer característica (também chamada atributo) que possa mudar de caso para caso. Descreveremos adiante os tipos de variáveis.
• Os próximos passos no processo seriam definir nossos argumentos e ideias em termos mais específicos e exatos.
• Teorias científicas são usualmente muito complexas e abstratas para serem conduzidas para serem completamente testadas em um único projeto de pesquisa.
• Para conduzir uma pesquisa, uma ou mais hipóteses necessitam ser derivadas da teoria.
• Uma hipótese é uma afirmação a respeito da relação entre variáveis a qual, enquanto derivada logicamente da teoria, é muito mais específica e exata. – Para testar a hipótese do contato, necessitaríamos dizer exatamente o
que queremos dizer por "preconceito", e precisaríamos definir "posições iguais, contato cooperativo" em detalhes.
– Considerando que já existe uma extensa pesquisa sobre o efeito do contato sobre o preconceito, necessitaríamos pesquisar a literatura científica para desenvolver e clarificar nossas definições sobre esses conceitos.
• Uma vez que tenhamos desenvolvido nossas definições e nossa hipótese tenha sido estabelecida, iniciamos a próxima etapa Observação.
• Para a etapa da observação, necessitamos inicialmente fazer o planejamento do experimento: – Como os dados serão coletados?
– Como os casos serão testados? Como serão selecionados?
– Quais e como as variáveis serão medidas?
– Sob quais condições os casos serão observados?
– etc.
Em suma: devemos ter uma ideia muito clara do que estamos procurando, bem como uma estratégia para conduzir a busca.
Voltando ao nosso exemplo:
– Deveríamos conduzir a pesquisa com pessoas de diferentes grupos étnicos;
– Voluntários deveriam ser submetidos a situações distintas:
• Situações que demandam cooperação entre pessoas de diferentes grupos;
• Situações competitivas
– Deveríamos medir os níveis de preconceito antes e depois de cada tipo de contato.
• Ex: questionário perguntando se voluntários concordam ou discordam de afirmações do tipo:
– "É muito importante que esforços sejam feitos para integrar eticamente o sistema escolar/universitário;"
– "A cor da pele é irrelevante: pessoas são simplesmente pessoas."
• A meta seria verificar se pessoas expostas a situações de contato cooperativo de fato passam por uma redução no preconceito.
• Após a coleta dos dados, passamos para a análise estatística dos dados. – Para transformar os dados brutos em conhecimento, é necessário ter
alguma forma sistemática de organizar e analisar esses dados.
• Papel da análise estatística (bem feita) é crucial, mas limitado: – Antes que qualquer análise estatística possa ser legitimamente
conduzida, as fases anteriores do processo precisam ser completadas com sucesso.
– Falhas típicas:
• Hipóteses mal formuladas
• Falhas no planejamento ou coleta dos dados.
"Chamar o especialista em estatística depois que o experimento foi feito pode ser o mesmo que pedir a ele para fazer um exame post-mortem. Talvez ele consiga dizer de que foi que o experimento morreu.
Ronald Aylmer Fisher (1890 – 1962) Biólogo, geneticista e estatístico inglês
• Após o encerramento da análise estatística, movemos para o próximo estágio do processo.
• Nesse novo estágio, estaremos preocupados principalmente em avaliar nossa teoria (ou validar nossa hipótese original).
• Mas também procuraremos outras tendências nos dados. – No exemplo da hipótese do contato: Supondo que as observações
corroborem que contatos cooperativos e igualitários diminuem o grau de preconceito, há diferenças de padrões entre:
• homens/mulheres?
• respondentes mais jovens / mais velhos?
• A análise dos dados pode ajudar a desenvolver algumas generalizações baseadas nos padrões empíricos observados. – Por exemplo, e se descobríssemos que o contato tivesse reduzido o
preconceito em respondentes mais jovens mas não nos mais velhos?
– Seria possível que pessoas mais jovens possuem atitudes e sentimentos que as tornam mais abertas a mudanças?
• Na medida em que desenvolvemos tentativas de explicações, podemos iniciar uma revisão ou elaborar melhor nossa teoria.
• Se alteramos a teoria para levar em conta novas descobertas, um novo projeto de pesquisa se inicia
inicia-se um novo ciclo da roda da ciência.
Origem da Estatística
• Estatística: palavra derivada do latim status, que significa "estudo do estado". – Segundo o dicionário Webster, o primeiro uso conhecido do termo
data de 1770.
• Termo empregado, de início, para designar o conjunto de dados referentes a assuntos de interesse do estado, com a finalidade de controle fiscal ou de segurança nacional. Os dados referiam-se, particularmente: – à população;
– às transações comerciais internas ou com outros países;
– ao controle de mortalidade;
– aos problemas de taxação e de proporcionalidade de tarifas e impostos.
• A prática de descrever quantitativamente seus aspectos socioeconômicos das civilizações é muito antiga: – Os censos (demográficos, agropecuários ou socioeconômicos), nos
moldes como conhecemos hoje, foram implantadas em cidades antigas da Grécia, Roma e Palestina;
– Inglaterra: em 1085 e 1086 foi realizado um grande estudo para conhecer o dono e o valor de cada propriedade, para fins de taxação e eliminação de disputas locais.
• Este censo deu origem ao livro conhecido como "Domesday Book", ou livro do juízo final. http://nationalarchives.gov.uk/documents/education/domesday.pdf
• Estatística – definições gerais:
– "A branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data." (Merriam-Webster)
– "Ciência que tem por objetivo a coleção, análise e interpretação de dados numéricos a respeito de fenômenos coletivos ou de massa, bem como a indução das leis a que tais fenômenos cabalmente obedecem e, ainda, a representação numérica e comparativa, em tabelas ou gráficos, dos resultados da análise desses fenômenos." (Michaelis)
• Exercício para entrega em 09/03:
– Faça uma busca por definições da Estatística, transcrevendo a definição que mais achar apropriada.
• Apresente a referência bibliográfica da fonte.
– Abaixo da definição transcrita, escreva uma resenha própria contendo um dois parágrafos sobre a definição de Estatística, com base em sua pesquisa realizada.
– Entregar impresso, na aula. Não esquecer de colocar nome e número USP.
Classes de técnicas estatísticas
• A estatística engloba um grande leque de técnicas de análise, que podem ser divididas em duas classes gerais: – Estatística descritiva: destina-se a duas finalidades principais:
• Estatística descritiva univariada: utilizada quando se necessita sumarizar ou descrever a distribuição de uma única variável;
• Estatística descritiva bivariada ("duas variáveis") ou multivariada ("mais de duas variáveis"): utilizada quando se necessita descrever a associação entre duas ou mais variáveis.
– Inferência estatística: consiste em obter e generalizar conclusões; ou seja, inferir propriedades a respeito da população de interesse, a partir da amostra analisada.
(Definições básicas de população e amostra serão apresentadas nos próximos slides.)
Estatística descritiva
• Estatística descritiva univariada: – É muito difícil captar intuitivamente informações relevantes pela
observação direta dos dados brutos coletados. É necessário, portanto, que as informações sejam resumidas até o ponto em que as informações possam ser interpretadas mais claramente.
– As funções da estatística descritiva univariada:
• Organização e classificação dos dados
• Sua apresentação através de gráficos e tabelas;
• Cálculos de medidas resumo (médias, porcentagens, etc).
– O processo de usar poucos números para sumarizar vários é chamado frequentemente de redução de dados.
Exemplo: Suponha que lhe fossem fornecidas as informações de rendas anuais de uma comunidade de 10.000 famílias para analisar.
• Você simplesmente listaria as rendas em uma tabela e a divulgaria?
• Que tipos de resumos informativos seria possível obter?
• Estatística descritiva multivariada: – Essa classe de técnicas é voltada a ajudar-nos a compreender os
relacionamentos entre duas ou mais variáveis.
– Medidas de associação: permitem quantificar a força e a direção do relacionamento entre variáveis.
– Tais medidas podem ajudar a investigar duas questões de grande importância teórica e prática:
• Causalidade (relações de causa e efeito);
• Previsão: quando duas variáveis têm uma alta medida de associação, é possível prever (com certo grau de convicção) o valor de uma a partir da outra.
– Importante: forte associação entre dois fatores não implica imediatamente em relação causal entre os fatores.
• Mas ajuda o investigador a pesquisar possíveis causas para essa associação.
Exemplo: – Suponha que estejamos analisando os dados de um grupo de
estudantes, e o interesse seja analisar o desempenho de duas variáveis: Quantidade de tempo de estudo e nota final obtida.
– Suponha que tenhamos encontrado uma associação positiva forte entre essas duas variáveis.
• Isso indicaria que "tempo de estudo" e "nota" teriam relação próxima (força do relacionamento) e à medida em que uma variável aumentasse de valor, a outra também aumentaria (direção do relacionamento).
• Você poderia fazer previsões de uma variável a partir de outra:
– "Quanto maior o tempo de estudo, maior a nota final"
• Todavia, seria possível estabelecer uma relação causal?
"Um maior tempo de estudo leva a uma maior nota final"
– Resp: não, pois outras variáveis podem interferir, e precisariam ser analisadas em conjunto com "tempo de estudo" e "nota final".
Inferência estatística • Essa classe de técnicas estatísticas se torna relevante quando
se deseja generalizar os resultados da amostra para a respectiva população em estudo.
• Técnicas baseadas na Teoria das Probabilidades.
• Inferência (definição geral): – the act of passing from statistical sample data to generalizations (as of
the value of population parameters) usually with calculated degrees of certainty. (Merriam-Webster)
• População: coleção de casos (unidades individuais), que podem ser pessoas, animais, resultados experimentais, com uma ou mais características em comum, que se pretende analisar. – Congrega todas as variáveis que sejam relevantes para o estudo de
uma ou mais características dos casos.
– Populações podem ser muito grandes (p.ex. toda a humanidade) ou muito pequenas (alunos do 1º ano do curso de Lazer e Turismo da EACH).
– Definição da população depende, naturalmente, do escopo da pesquisa.
• Amostra: subconjunto de casos cuidadosamente obtido da população, que se observa com o objetivo de se fazer as inferências para a população. – Importante: representatividade, ausência de viés de escolha.
(Princípios de amostragem serão vistos futuramente)
População e amostra
• Esquema geral das etapas de uma pesquisa estatística:
Fonte: Ferreira et al., 2002.
Variáveis
• Uma variável é qualquer atributo/característica que: – possa mudar de caso para caso;
– possa exercer influência no fenômeno estudado.
• As técnicas estatísticas variam de acordo com o tipo de variável.
• Por essa razão, veremos inicialmente as principais classes de variáveis.
Classificação de variáveis
• Qualitativas: se os resultados das observações são expressos por categorias que se distinguem por alguma característica não numérica. – Ex: Sexo, nível de escolaridade, cor da pele, marca (do produto).
– Podem ser de dois tipos: • Nominais
• Ordenadas
• Quantitativas: se os resultados das observações são sempre expressos por números que representam contagens ou medidas. – Ex: Idade, altura, renda, concentração de metano.
– Podem ser de dois tipos: • Contínuas
• Discretas
Classificação de variáveis qualitativas
• Nominais: – Caracterizam-se por dados que consistem apenas em nomes, rótulos
ou categorias;
– Nesse nível mais básico de mensuração, a única operação matemática permitida é comparar os tamanhos relativos das categorias
• Ex: "Há mais alunos do sexo masculino do que do sexo feminino nesta turma".
– Categorias não podem ser:
• dispostas de acordo com um sistema de ordenação.
• adicionadas, divididas ou manipuladas matematicamente;
– Exemplos: Estado civil, religião, marca (do produto), sexo
• Ordinais: – Envolvem dados que podem ser dispostos em alguma ordem, mas as
diferenças entre os seus valores não podem ser determinados ou não fazem sentido;
– Operações matemáticas (adição, subtração, etc) e estatísticas como média não são, a rigor permitidas.
– Exemplos:
• Nível de escolaridade
• Classe social (A, B, C, D, E)
• Grau de satisfação ou de concordância
– Incluindo os graus numerados:
1=discorda totalmente
2=discorda
3=nem discorda nem concorda
4=concorda
5=concorda totalmente
• Para a maior parte das técnicas de estatística descritiva, as variáveis qualitativas (nominais ou ordinais) precisam satisfazer algumas condições: 1. As categorias precisam ser mutuamente exclusivas entre si, de forma
que não haja ambiguidade sobre a categoria (ou nível) de nenhum caso;
• Cada caso precisa possuir um e somente uma categoria/nível.
2. As categorias precisam ser exaustivas, ou seja, deve haver uma categoria para cada caso que possa ser observado
• Mesmo que seja uma categoria "Outros".
3. Categorias deveriam ser relativamente homogêneas
• Deve-se evitar criar categorias excessivamente gerais ou que incorporem elementos muito distintos.
• Exemplo abaixo apresenta alguns erros na categorização das preferências religiosas. – Três primeiros exemplos correspondem à violação das condições 1, 2
e 3, respectivamente;
– Exemplo 4 é um exemplo de categorização adequada.
Classificação de variáveis quantitativas
• Contínuas: – Podem ser vistas como resultantes de um processo de mensuração,
assumindo, portanto, valores pertencentes a um determinado intervalo de números reais. • Precisão do valor só depende da forma/instrumento de mensuração
– Ex: tempo, distância, área, etc.
– Todas as operações matemáticas são permitidas.
– Exemplos: Altura, peso, velocidade, idade (em dias)
• Discretas: – Podem ser vistas como resultantes de um processo de contagem,
assumindo, assim, valores inteiros não negativos.
– Todas as operações matemáticas são permitidas.
– Exemplos: Número de filhos, número de alunos