Aula 3 - Nocoes de Estatistica

Post on 20-Jan-2016

24 views 0 download

Transcript of Aula 3 - Nocoes de Estatistica

BC-0005

Bases Computacionais da Ciência

Aula 03Noções de Estatística

Profa. Cristiane Salum

2011

Introdução• Ferramentas de Estatística

Usadas para visualizar e extrair características de dados experimentais: sujeitos a erros, incertezas ouincompletos (caso sejam parte de um conjunto maior de dados).

• BrOffice CalcPrograma de planilha: permite organizar dados emtabelasPossui ferramentas de análise estatística para

fazer gráficos (vizualizar) e calcular medidas estatísticas (extraircaracterísticas).

Conceitos Básicos• Pesquisa Científica:

• processo de aprendizagem onde o cientista:• determina o objetivo de uma investigação,• coleta as informações relevantes, • analisa os dados, • tira as conclusões e • decide sobre os próximos planos com base nestas

conclusões.

• Envolve a coleta , a organização e a análise de dados com o objetivo de corroborar uma hipótese inicial.

Conceitos Básicos• População (ou Universo de Dados)

Conjunto total de dados alvo da pesquisa. • Amostra

Subconjunto (finito) da população usado na análiseestatística, por meio do qual se estabelecem ou se estimam as características desta população.

Conceitos Básicos• Estatística Descritiva:

• cuida da apresentação, organização e resumo dos dados. apresentação, organização e resumo dos dados .

• Pode incluir gráficos, tabelas e computação de várias medidas, tais como, medidas de tendência central, medidas de dispersão entre outras.

• Propósito de fazer com que os dados coletados sejam compreendidos mais facilmente

• Estatística Inferencial (ou Indutiva): • tira conclusões sobre a população a partir da amostra.

métodos estatísticos são usados para estimações, predições e generalizações sobre todo um conjunto de dados, estudando apenas parte dele

Variáveis

Independente (preditor, experimental): Valores manipulados ou selecionados pelo pesquisador e/ou percebida como “causa”

Dependente (variável resposta): Valores observados, contados, medidos, que não estejam sob controle direto do pesquisador“provocados” pela variável independente

Tipos de Dados• Categóricos (ou Qualitativos)

• Numéricos (ou Quantitativos)

– Nominais: rótulos sem ordenação; especificar característica. Ex.: sexo, idade, nacionalidade etc.

– Ordinais: definem ordem (posição) sem indicar magnitude (valor). Ex.: classe (baixa, média, alta).

– Intervalares: definem intervalo (compartimento); não especificam valor exato. Ex.: Faixa de QI: [100; 110), [110; 120) etc. Ponto zero éarbitrário.

– Razão: o ponto zero é significativo. Podemos afirmar: “O corpo A éduas vezes mais pesado do que B".

Tipos de Dados

• Contínuos: valores na reta real. Ex.: Altura = 1,65 m.– ex. grandezas físicas ou químicas: força, probabilidade,

concentração, acidez; juros, taxa de câmbio

• Discretos: conjunto discreto de valores. Ex.: Número de Nascimentos = 10.000.– ex. classe sócio-econômica (A-E ou “baixa”, “média”, “alta”), avaliação

em escala Likert (nota 1-5), {PP, P, M, G, GG}, número de acidentes

Medidas de tendência central

São estatísticas que representam de maneira quantitativa o valor ‘médio’ ou ‘típico’ de um conjunto de dados:

Média (aritmética):

Mediana

Moda

Média aritméticaSoma dos valores dividida pelo número de elementos :

1

N

ii

XX

N==∑

N

iX

é o número total de observações

é um dado valor

Aluno (i) Nota (x)

1 3,0

2 5,0

3 6,0

4 4,0

5 5,0

6 8,0

7 9,0

8 6,0

9 2,0

10 5,0

Total 53

Média 5,3

(3,0 5,0 ... 2,0 5,0) /10 5,3X = + + + + =

1 2 3 4 5 6 7 8 9

5,3 No Calc, usar a função: MÉDIA

MedianaDivide a distribuição em duas partes iguais.

Os valores devem estar ordenados

Posição da mediana ->

Procedimento “manual”:1) ordenar valores2) procurar valor “no meio”

21+

=Ni

Notas (x)

3,0

5,0

6,0

4,0

5,0

8,0

9,0

6,0

2,0

7,0

5,0

3;5;6;4;5;8;9;6;2;7;5

Valores ordenados:2;3;4;5;5;5;6;6;7; 8; 9Posição:1;2;3;4;5;6;7;8;9;10;11

1)

2)

i= (11 + 1)/2 = 6

Meio = sexta posição

Mediana = 5

2;3;4;5;5; 5 ;6;6;7;8;9

No Calc, usar a função: MED

Notas FreqüênciaSimples

FreqüênciaAcumulada

2 1 1

3 1 2

4 1 3

5 3 6

6 2 8

7 1 9

8 1 10

9 1 11

i= (11 + 1)/2 = 6 Posição 6 Xi=X6= 5

1 2 3 4 5 6 7 8 9

Mediana

Caso haja um número PAR de elementos, a mediana será dada pela média dos dois valores centrais.

1 2 3 4 5 6 7 8 9{

5,5

Ex.:Dadas as alturas: 62 54 82 49 75 64Ordene: 49 54 62 64 75 82iMediana=(6+1)/2=3,5? => terceira e quarta posição→ Mediana = (62+64)/2= 63

ModaÉ o valor que ocorre com maior frequência.Ex.:

Sujeito Nota

2 1

3 1

4 1

5 3

6 2

7 1

8 1

9 1 1 2 3 4 5 6 7 8 9

No Calc, usar a função: MODO

A moda pode não existir OU pode não ser única. 

Exemplos: 1,1,3,3,5,7,7,7,11,13   moda 7 3,5,8,11,13,18  não tem moda 3,5,5,5,6,6,7,7,7,11,12  tem duas modas: 5,7 (bimodal).

Distribuição Unimodal

01234

2 3 4 5 6 7 8 9Nota

Freq

üênc

ia

Distribuição Bimodal

01234

2 3 4 5 7 8 9Nota

Freq

üênc

ia

Sujeitos Notas

2 13 34 15 17 38 19 1

Características das medidas de tendência central

Abaixo de 100100

300500

700900

10003000

5000acima de 5000

0

20000

40000

60000

80000

100000

120000

140000

160000

Renda Média Mensal (R$)

Freq

uênc

iaMédia influenciada pelas extremidades;

Mediana Valor central

Mediana e Moda ignoram extremidades

MédiaMediana

Moda

Medidas de dispersão ou variabilidade

quanto os dados numéricos dispersam-se em torno de um valor médio São estatísticas que representam de maneira quantitativa a variabilidade dos números em uma amostra ou população.

Variância

Desvio-padrão

VariânciaMédia dos quadrados dos desvios, onde desvio é a diferença entre

cada dado e a média do conjunto.É o valor quadrático médio da dispersão com respeito à média.

22 ( )

40 / 4 101

X Xs

N−

= = =−

Dados)(X

Desvios)( XX −

Quadrados dos Desvios2)( XX −

0 -5 254 -1 16 1 18 3 97 2 4

5=X ∑ =− 0)( XX ∑ =− 40)( 2XX

No Calc, usar a função: VAR

Desvio Padrão

Estatística que representa de maneira quantitativa a variação (dispersão) dos dados em relação ao valor médio. Tem a vantagem de ter a mesma unidade que os dados.

Calculado pela raiz quadrada da variância

2( )² 10 3,16

1X X

s sN−

= = = =−

Obs.: tem a vantagem de ter a mesma unidade que os dados. Neste exemplo, se X é dado em metros, s também será dado em metros.

No Calc, usar a função: DESVPAD

DistribuiçãoExemploPara obter uma estimativa da altura média do brasileiro adulto, foi coletada uma amostra com 5000 pessoas (N=5000).

À direita: resultados por faixa (intervalo) de altura.

Frequência relativa (em %) = freq. absoluta / freq. total * 100(%)

= proporção em 100

Gráfico da Distribuição

Média: 1,653

DesvioPadrão: 0,173

Frequência(em %)

Faixa de altura (em m)

Exemplo: Gráfico de Distribuição Assimétrica

Distribuição Assimétrica

0

1

2

3

4

5

2 3 4 7 8 9 10Nota

Fre

ênci

a

Moda

Mediana

Média

Apresentação gráfica – Estrutura de um gráfico

Ordenada (eixo-Y)var dependente Título (identificação)

Abscissa (eixo-X)var independente

Série 1Série 2

Série

Legenda (se necessária)1

2

3

4

Escala

Rót

ulo

Y (i

dent

ifica

ção)

OrigemRótulo X (identificação)

Gráfico de colunas

Holmes EA, James EL, Coode-Bate T, Deeprose C 2009 Can Playing the Computer Game “Tetris” Reduce the Build-Up of Flashbacks for Trauma? A Proposal from Cognitive Science. PLoS ONE 4(1): e4153 doi:10.1371/journal.pone.0004153

Número derevivênciastraumáticas

(“flashbacks”)por semana

var. dependente:

numéricadiscreta

var. independente:

categóricaCondição Experimental

Média(Valor Central)

+/- Erro (Barra de Erro)

Depois de jogar Tetris

Semjogar Tetris

Gráfico de colunas

dependente:contínua

Área dePlantação

(ópio)

Ano independente:ordinal

Gráfico de linhas

dependente:contínua

independente:ordinal

Compare: Gráfico de linhas destaca evoluçãoGráfico de colunas destaca níveis absolutos

-0,6

-0,4

-0,2

0

0,2

0,4

0,6

0,8

1880 1900 1920 1940 1960 1980 2000

ano

varia

ção

(°C

)

Ano

Variação em temperatura relativa a uma referência

(Cº)

Fonte: Goddard Institute for Space Studies - http://data.giss.nasa.gov/gistemp/

Histograma

Frequênciaem %

dependente:contagem

(frequência, porcentagemou proporção)

Diâmetro (nm) de nanotubo de carbono

independente:Intervalar

(contínua discretizada)

Li Y, Kim W, Zhang Y, Rolandi M, Dai H 2001 Growth of Single-Walled Carbon Nanotubes from Discrete Catalytic Nanoparticles of Various Sizes. The Journal of Physical Chemistry B, 105, 11424-11431

Gráfico de dispersão

Índice de sucesso financeiro

Razão indicador/anular independente:

contínua

dependente:contínua Pontos de dados

Linha de tendência:opcional

John M. Coates, Mark Gurnell, and Aldo RustichiniSecond-to-fourth digit ratio predicts success among high-frequency financial tradersPNAS 2009 106:623-628; published online before print January 12, 2009, doi:10.1073/pnas.0810907106

• Parte prática

• Cálculos e gráficos em programas de planilhas

• Todos os procedimentos apresentados aqui podem ser realizados emqualquer programa de planilha. O pacote BrOffice pode ser baixado para uso livre em casa do endereço http://broffice.org/.

• Abre (botão início) • → programas • → BrOffice.org• → BrOffice.org Calc•

Planilhas

Linhas

Colunas

Célula (A1)

Planilha

Acesso a outras planilhas

Cálculo de funções estatísticas em uma planilha

2) Digite ‘=‘ para identificar o conteúdo da célula como fórmula e não texto ou número. Ó que for digitado aparecerá na linha de entrada e na célula selecionada.

1) Clique onde quer calcular a fórmula 3) Clique no ‘assistente de funções’

(fx) para encontrar uma função específica.

4) Procure ‘média’ na lista, selecione

5) Clique em ‘Próximo’

6) Clicar em uma outra célula na entrada de uma função geraráuma referência simples. Para dar um conjunto de células adjacentes como argumento, clique na primeira célula com botão esquerdo do mouse, segure o botão enquanto arrastando o cursor até a última célula. Solte o botão. (Também é possível digitar o alcance da função no campo de texto.)

7) Clique em “OK” para calcular a função e voltar para a planilha.

Menu / “Arquivo”: salvar, abrir etc.Botão “Salvar”

Botão “Assistente de gráfico”

Botão “Salvar”

Dados (p. ex. nº de homens e mulheres em uma turma)

Representação gráfica da turma porgênero

(1) Selecione os dados

(2) Clique botão “Gráfico”

Menu e barras específicas

GráficoGráfico

Assistente degráfico

Clique em “Concluir”

Referências e funções

(1) Preencha com os dados

(3) Digite “=” para indicar que segue uma 'fórmula'

Digite “SOMA(“(4) Selecione B2:B8 (mouse)

(5) Digite Enter para 'fechar' a fórmula

(2) Selecionecélula B9

Porcentagem = Frequência / Total x 100

(1) Clique em C2, digite “=” e a fórmula

(2) Certifique-se que a referência para o total é B$9 (mude se necessário)

(3) Aperte “Enter”, selecione C2, e “arraste” sobre C2:C8

Referências relativas Referências absolutas

Referência B$9 Referência B9

Ao copiar uma fórmula, programas de planilha presumem que as referências são relativas – que referem sempre para a mesma posição relativa (x células acima/abaixo e y células esquerda/direita) de uma célula-alvo. Para deixar claro que uma linha ou coluna é constante (não relativa), use $ antes da referência.

(1) Os números em C são porcentagens

(2) Selecione A1:A8 e C1:C8(segure Ctrl para áreas separadas)

(3) Aperte botão “Assistente de gráfico”

Passo 2

Passo 3

Mude as referências para excluir linha 2 e linha 8, com freqüência 0

Várias séries podem ser incluídas.

Passo 4

150-160 160-170 170-180 180-190 190-2000

5

10

15

20

25

30

35

altura (cm)

%

Abrir a planilhaaula03_dados_doenca_coronariana.ods

Calcular MÉDIA e DESVPADPara alguns parâmetros.

Exemplo de REGRESSÃO LINEAR:determinar a reta

y = m.x + b,na qual as constantes “m” e “b” proporcionam ajuste “ótimo”.

Fazer o gráfico de dispersão dos pontos dados.

Ajustar reta aos pontos (REGRESSÃO LINEAR)

Determinar o quanto os dados se relacionam de maneira LINEAR por meio de r, COEFICIENTE DE CORRELAÇÃO (LINEAR)

( )( )( ) YX

iiXY ssn

YyXxr

1−−−

= ∑

48

Determinar ajuste dos dados à reta por meio do parâmetro R2 (COEFICIENTE DE DETERMINAÇÃO)

Atividade 1 para Casa

-Na ferramenta “Atividades” do Tidia, depositar a resolução de 3 exercícios da

Lista03_Exercicios.pdfdisponível no “Repositório”.

-Fornecer a planilha (arquivo “.ods”) usada na resolução dos seus exercícios.

Atividade 2 para Casa

- Assistir o vídeo

Noções de estatística, Correlação e Regressão no BrCalc..flv

disponível dentro da pasta da Aula 3 no “Repositório” do Tidia.