ACH2021 Tratamento e Análise de Dados e Informações (TADI) · de Matemática, 2002. • Para...

ACH2021 Tratamento e Análise de Dados e

Informações (TADI)

Marcelo de Souza Lauretto

[email protected]

www.each.usp.br/lauretto

1º sem 2015 – sala 116

Apresentação da disciplina

• Conteúdo geral: – Ciência e conhecimento científico

• Formas de aquisição de conhecimento

• A questão do método: indutivo e dedutivo

– Dados: Tipos, formas, coleta

– Estatística descritiva:

• Medidas resumo

• Tabelas

• Gráficos

– Comunicação científica

Apresentação da disciplina

• Avaliação – Prova 1: 27/04;

– Prova 2: 22/06

– Prova substitutiva (mediante atestado médico ou de trabalho): 29/06

– Atividades complementares (AC):

• Exercícios e análises de dados específicas.

– Média semestral = (2 P1 + 2 P2 + AC) / 5

– Bônus:

• Realização de mini-seminário: incremento de ATÉ 0.5 pontos na média semestral.

– Recuperação: Para quem teve média entre 3 e 5.

• Nota final: (Rec + Média)/2

• Mini-seminário: – Apresentações de até 10min

– Tema: um pensador ou uma corrente filosófica a respeito da ciência.

– Bônus de até 1/2 ponto na média semestral (equivale a 1.3 pontos a mais em uma das provas)

– Sugestões:

Fonte: F. Apolinário, Metodologia da Ciência. Cengage Learning, 2006.

Bibliografia (em construção)

• S. Vieira. Bioestatística. Ed. Campus, 2003.

• J. F. Healey. Statistics: A Tool for Social Research. 5ª Edição, Wadsworth, 1999.

• M. J. Fontelles. Bioestatística aplicada à pesquisa experimental. Ed. Livraria da Física, 2012.

• L. D. A. Ferreira, M. D. Oliveira, A. M. O. Sant'anna. Apostila 1: Estatística Descritiva. Universidade Federal da Bahia, Instituto de Matemática, 2002.

• Para lista mais atualizada das referências, verifique a página da disciplina: – www.each.usp.br/lauretto/ACH0021_2015

http://www.each.usp.br/lauretto/ACH0021_2015

INTRODUÇÃO

"A Ciência faz-se com fatos assim como uma casa se faz com pedras; mas um acúmulo de fatos é tão ciência como um montão de pedras é uma casa. Os fatos simples não bastam, não se dispensa a ciência organizada."

Henri Poincaré (1854-1912) Matémático, físico e filósofo francês.

(extraído de Fontelles, 2012)

Pesquisa científica e o papel da estatística

• Pesquisa científica: – Processo pelo qual informação é sistemática e cuidadosamente

coletada com o objetivo de responder questões, examinar ideias, ou testar teorias aquisição de conhecimento científico.

• Análise estatística: – Relevante em projetos de pesquisa onde a informação coletada pode

ser representada quantitativamente (em números).

• Estatística: área do conhecimento voltada para o estudo da coleta, análise, interpretação, apresentação e organização de dados, com o objetivo de responder questões e testar teorias.

O papel da estatística na pesquisa científica

• A roda da ciência de Wallace:

• Roda da ciência de Wallace: uma representação de como a base de conhecimento científico se desenvolve. – Teoria científica e pesquisa continuamente se modelam mutuamente.

– Estatística é um dos mais importantes meios pelos quais a pesquisa e a teoria interagem.

• Uma teoria é uma explicação dos relacionamentos entre fenômenos. – Pessoas sempre levantam questionamentos sobre fenômenos

naturais, problemas sociais, etc.

– Na tentativa de compreender tais fenômenos, são desenvolvidas explicações "teorias" informais.

– Diferença fundamental entre nossas explicações cotidianas informais sobre fenômenos sociais/naturais e teoria científica é que a última está sujeita a um rigoroso procedimento de validação.

Um exemplo ilustrativo:

• O que causa o preconceito racial?

• Uma possível explicação para esse fenômeno é fornecida pela teoria denominada hipótese do contato: – Teoria desenvolvida por Gordon Allport na década de 50 e testada em

algumas ocasiões;

– Estabelece uma ligação entre preconceito racial e o volume de interação entre membros de diferentes grupos étnicos:

• Hipótese: Situações de contato em que diferentes grupos possuem posições (status) iguais e estão engajados em comportamentos cooperativos e não competitivos resultam na redução de preconceitos de quaisquer partes.

• Quanto maior a extensão em que o contato é igualitário e cooperativo, mais provável será que as pessoas se vejam como mutuamente como indivíduos e não como "representantes" de grupos.

– Exemplo: times esportivos com composição étnica mista

• Por outro lado, quando grupos distintos competem por empregos, moradia ou outros recursos, o preconceito tende a aumentar.

Um exemplo ilustrativo (continuação):

• Suponha que, inicialmente, tenhamos uma teoria para o preconceito, e duas variáveis*: – Contato (causa, ou variável independente)

– Preconceito (efeito, ou variável dependente)

• O que não sabemos é se a teoria é verdadeira ou falsa.

• Para descobrir, precisamos comparar a teoria com os fatos pesquisa.

* Uma variável é qualquer característica (também chamada atributo) que possa mudar de caso para caso. Descreveremos adiante os tipos de variáveis.

• Os próximos passos no processo seriam definir nossos argumentos e ideias em termos mais específicos e exatos.

• Teorias científicas são usualmente muito complexas e abstratas para serem conduzidas para serem completamente testadas em um único projeto de pesquisa.

• Para conduzir uma pesquisa, uma ou mais hipóteses necessitam ser derivadas da teoria.

• Uma hipótese é uma afirmação a respeito da relação entre variáveis a qual, enquanto derivada logicamente da teoria, é muito mais específica e exata. – Para testar a hipótese do contato, necessitaríamos dizer exatamente o

que queremos dizer por "preconceito", e precisaríamos definir "posições iguais, contato cooperativo" em detalhes.

– Considerando que já existe uma extensa pesquisa sobre o efeito do contato sobre o preconceito, necessitaríamos pesquisar a literatura científica para desenvolver e clarificar nossas definições sobre esses conceitos.

• Uma vez que tenhamos desenvolvido nossas definições e nossa hipótese tenha sido estabelecida, iniciamos a próxima etapa Observação.

• Para a etapa da observação, necessitamos inicialmente fazer o planejamento do experimento: – Como os dados serão coletados?

– Como os casos serão testados? Como serão selecionados?

– Quais e como as variáveis serão medidas?

– Sob quais condições os casos serão observados?

– etc.

Em suma: devemos ter uma ideia muito clara do que estamos procurando, bem como uma estratégia para conduzir a busca.

Voltando ao nosso exemplo:

– Deveríamos conduzir a pesquisa com pessoas de diferentes grupos étnicos;

– Voluntários deveriam ser submetidos a situações distintas:

• Situações que demandam cooperação entre pessoas de diferentes grupos;

• Situações competitivas

– Deveríamos medir os níveis de preconceito antes e depois de cada tipo de contato.

• Ex: questionário perguntando se voluntários concordam ou discordam de afirmações do tipo:

– "É muito importante que esforços sejam feitos para integrar eticamente o sistema escolar/universitário;"

– "A cor da pele é irrelevante: pessoas são simplesmente pessoas."

• A meta seria verificar se pessoas expostas a situações de contato cooperativo de fato passam por uma redução no preconceito.

• Após a coleta dos dados, passamos para a análise estatística dos dados. – Para transformar os dados brutos em conhecimento, é necessário ter

alguma forma sistemática de organizar e analisar esses dados.

• Papel da análise estatística (bem feita) é crucial, mas limitado: – Antes que qualquer análise estatística possa ser legitimamente

conduzida, as fases anteriores do processo precisam ser completadas com sucesso.

– Falhas típicas:

• Hipóteses mal formuladas

• Falhas no planejamento ou coleta dos dados.

"Chamar o especialista em estatística depois que o experimento foi feito pode ser o mesmo que pedir a ele para fazer um exame post-mortem. Talvez ele consiga dizer de que foi que o experimento morreu.

Ronald Aylmer Fisher (1890 – 1962) Biólogo, geneticista e estatístico inglês

• Após o encerramento da análise estatística, movemos para o próximo estágio do processo.

• Nesse novo estágio, estaremos preocupados principalmente em avaliar nossa teoria (ou validar nossa hipótese original).

• Mas também procuraremos outras tendências nos dados. – No exemplo da hipótese do contato: Supondo que as observações

corroborem que contatos cooperativos e igualitários diminuem o grau de preconceito, há diferenças de padrões entre:

• homens/mulheres?

• respondentes mais jovens / mais velhos?

• A análise dos dados pode ajudar a desenvolver algumas generalizações baseadas nos padrões empíricos observados. – Por exemplo, e se descobríssemos que o contato tivesse reduzido o

preconceito em respondentes mais jovens mas não nos mais velhos?

– Seria possível que pessoas mais jovens possuem atitudes e sentimentos que as tornam mais abertas a mudanças?

• Na medida em que desenvolvemos tentativas de explicações, podemos iniciar uma revisão ou elaborar melhor nossa teoria.

• Se alteramos a teoria para levar em conta novas descobertas, um novo projeto de pesquisa se inicia

inicia-se um novo ciclo da roda da ciência.

Origem da Estatística

• Estatística: palavra derivada do latim status, que significa "estudo do estado". – Segundo o dicionário Webster, o primeiro uso conhecido do termo

data de 1770.

• Termo empregado, de início, para designar o conjunto de dados referentes a assuntos de interesse do estado, com a finalidade de controle fiscal ou de segurança nacional. Os dados referiam-se, particularmente: – à população;

– às transações comerciais internas ou com outros países;

– ao controle de mortalidade;

– aos problemas de taxação e de proporcionalidade de tarifas e impostos.

• A prática de descrever quantitativamente seus aspectos socioeconômicos das civilizações é muito antiga: – Os censos (demográficos, agropecuários ou socioeconômicos), nos

moldes como conhecemos hoje, foram implantadas em cidades antigas da Grécia, Roma e Palestina;

– Inglaterra: em 1085 e 1086 foi realizado um grande estudo para conhecer o dono e o valor de cada propriedade, para fins de taxação e eliminação de disputas locais.

• Este censo deu origem ao livro conhecido como "Domesday Book", ou livro do juízo final. http://nationalarchives.gov.uk/documents/education/domesday.pdf

http://nationalarchives.gov.uk/documents/education/domesday.pdf

http://nationalarchives.gov.uk/documents/education/domesday.pdf

• Estatística – definições gerais:

– "A branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data." (Merriam-Webster)

– "Ciência que tem por objetivo a coleção, análise e interpretação de dados numéricos a respeito de fenômenos coletivos ou de massa, bem como a indução das leis a que tais fenômenos cabalmente obedecem e, ainda, a representação numérica e comparativa, em tabelas ou gráficos, dos resultados da análise desses fenômenos." (Michaelis)

• Exercício para entrega em 09/03:

– Faça uma busca por definições da Estatística, transcrevendo a definição que mais achar apropriada.

• Apresente a referência bibliográfica da fonte.

– Abaixo da definição transcrita, escreva uma resenha própria contendo um dois parágrafos sobre a definição de Estatística, com base em sua pesquisa realizada.

– Entregar impresso, na aula. Não esquecer de colocar nome e número USP.

Classes de técnicas estatísticas

• A estatística engloba um grande leque de técnicas de análise, que podem ser divididas em duas classes gerais: – Estatística descritiva: destina-se a duas finalidades principais:

• Estatística descritiva univariada: utilizada quando se necessita sumarizar ou descrever a distribuição de uma única variável;

• Estatística descritiva bivariada ("duas variáveis") ou multivariada ("mais de duas variáveis"): utilizada quando se necessita descrever a associação entre duas ou mais variáveis.

– Inferência estatística: consiste em obter e generalizar conclusões; ou seja, inferir propriedades a respeito da população de interesse, a partir da amostra analisada.

(Definições básicas de população e amostra serão apresentadas nos próximos slides.)

Estatística descritiva

• Estatística descritiva univariada: – É muito difícil captar intuitivamente informações relevantes pela

observação direta dos dados brutos coletados. É necessário, portanto, que as informações sejam resumidas até o ponto em que as informações possam ser interpretadas mais claramente.

– As funções da estatística descritiva univariada:

• Organização e classificação dos dados

• Sua apresentação através de gráficos e tabelas;

• Cálculos de medidas resumo (médias, porcentagens, etc).

– O processo de usar poucos números para sumarizar vários é chamado frequentemente de redução de dados.

Exemplo: Suponha que lhe fossem fornecidas as informações de rendas anuais de uma comunidade de 10.000 famílias para analisar.

• Você simplesmente listaria as rendas em uma tabela e a divulgaria?

• Que tipos de resumos informativos seria possível obter?

• Estatística descritiva multivariada: – Essa classe de técnicas é voltada a ajudar-nos a compreender os

relacionamentos entre duas ou mais variáveis.

– Medidas de associação: permitem quantificar a força e a direção do relacionamento entre variáveis.

– Tais medidas podem ajudar a investigar duas questões de grande importância teórica e prática:

• Causalidade (relações de causa e efeito);

• Previsão: quando duas variáveis têm uma alta medida de associação, é possível prever (com certo grau de convicção) o valor de uma a partir da outra.

– Importante: forte associação entre dois fatores não implica imediatamente em relação causal entre os fatores.

• Mas ajuda o investigador a pesquisar possíveis causas para essa associação.

Exemplo: – Suponha que estejamos analisando os dados de um grupo de

estudantes, e o interesse seja analisar o desempenho de duas variáveis: Quantidade de tempo de estudo e nota final obtida.

– Suponha que tenhamos encontrado uma associação positiva forte entre essas duas variáveis.

• Isso indicaria que "tempo de estudo" e "nota" teriam relação próxima (força do relacionamento) e à medida em que uma variável aumentasse de valor, a outra também aumentaria (direção do relacionamento).

• Você poderia fazer previsões de uma variável a partir de outra:

– "Quanto maior o tempo de estudo, maior a nota final"

• Todavia, seria possível estabelecer uma relação causal?

"Um maior tempo de estudo leva a uma maior nota final"

– Resp: não, pois outras variáveis podem interferir, e precisariam ser analisadas em conjunto com "tempo de estudo" e "nota final".

Inferência estatística • Essa classe de técnicas estatísticas se torna relevante quando

se deseja generalizar os resultados da amostra para a respectiva população em estudo.

• Técnicas baseadas na Teoria das Probabilidades.

• Inferência (definição geral): – the act of passing from statistical sample data to generalizations (as of

the value of population parameters) usually with calculated degrees of certainty. (Merriam-Webster)

• População: coleção de casos (unidades individuais), que podem ser pessoas, animais, resultados experimentais, com uma ou mais características em comum, que se pretende analisar. – Congrega todas as variáveis que sejam relevantes para o estudo de

uma ou mais características dos casos.

– Populações podem ser muito grandes (p.ex. toda a humanidade) ou muito pequenas (alunos do 1º ano do curso de Lazer e Turismo da EACH).

– Definição da população depende, naturalmente, do escopo da pesquisa.

• Amostra: subconjunto de casos cuidadosamente obtido da população, que se observa com o objetivo de se fazer as inferências para a população. – Importante: representatividade, ausência de viés de escolha.

(Princípios de amostragem serão vistos futuramente)

População e amostra

• Esquema geral das etapas de uma pesquisa estatística:

Fonte: Ferreira et al., 2002.

Variáveis

• Uma variável é qualquer atributo/característica que: – possa mudar de caso para caso;

– possa exercer influência no fenômeno estudado.

• As técnicas estatísticas variam de acordo com o tipo de variável.

• Por essa razão, veremos inicialmente as principais classes de variáveis.

Classificação de variáveis

• Qualitativas: se os resultados das observações são expressos por categorias que se distinguem por alguma característica não numérica. – Ex: Sexo, nível de escolaridade, cor da pele, marca (do produto).

– Podem ser de dois tipos: • Nominais

• Ordenadas

• Quantitativas: se os resultados das observações são sempre expressos por números que representam contagens ou medidas. – Ex: Idade, altura, renda, concentração de metano.

– Podem ser de dois tipos: • Contínuas

• Discretas

Classificação de variáveis qualitativas

• Nominais: – Caracterizam-se por dados que consistem apenas em nomes, rótulos

ou categorias;

– Nesse nível mais básico de mensuração, a única operação matemática permitida é comparar os tamanhos relativos das categorias

• Ex: "Há mais alunos do sexo masculino do que do sexo feminino nesta turma".

– Categorias não podem ser:

• dispostas de acordo com um sistema de ordenação.

• adicionadas, divididas ou manipuladas matematicamente;

– Exemplos: Estado civil, religião, marca (do produto), sexo

• Ordinais: – Envolvem dados que podem ser dispostos em alguma ordem, mas as

diferenças entre os seus valores não podem ser determinados ou não fazem sentido;

– Operações matemáticas (adição, subtração, etc) e estatísticas como média não são, a rigor permitidas.

– Exemplos:

• Nível de escolaridade

• Classe social (A, B, C, D, E)

• Grau de satisfação ou de concordância

– Incluindo os graus numerados:

1=discorda totalmente

2=discorda

3=nem discorda nem concorda

4=concorda

5=concorda totalmente

• Para a maior parte das técnicas de estatística descritiva, as variáveis qualitativas (nominais ou ordinais) precisam satisfazer algumas condições: 1. As categorias precisam ser mutuamente exclusivas entre si, de forma

que não haja ambiguidade sobre a categoria (ou nível) de nenhum caso;

• Cada caso precisa possuir um e somente uma categoria/nível.

2. As categorias precisam ser exaustivas, ou seja, deve haver uma categoria para cada caso que possa ser observado

• Mesmo que seja uma categoria "Outros".

3. Categorias deveriam ser relativamente homogêneas

• Deve-se evitar criar categorias excessivamente gerais ou que incorporem elementos muito distintos.

• Exemplo abaixo apresenta alguns erros na categorização das preferências religiosas. – Três primeiros exemplos correspondem à violação das condições 1, 2

e 3, respectivamente;

– Exemplo 4 é um exemplo de categorização adequada.

Classificação de variáveis quantitativas

• Contínuas: – Podem ser vistas como resultantes de um processo de mensuração,

assumindo, portanto, valores pertencentes a um determinado intervalo de números reais. • Precisão do valor só depende da forma/instrumento de mensuração

– Ex: tempo, distância, área, etc.

– Todas as operações matemáticas são permitidas.

– Exemplos: Altura, peso, velocidade, idade (em dias)

• Discretas: – Podem ser vistas como resultantes de um processo de contagem,

assumindo, assim, valores inteiros não negativos.

– Todas as operações matemáticas são permitidas.

– Exemplos: Número de filhos, número de alunos

ACH2021 Tratamento e Análise de Dados e Informações (TADI) · de Matemática, 2002. • Para...

Documents

Transcript of ACH2021 Tratamento e Análise de Dados e Informações (TADI) · de Matemática, 2002. • Para...