Sumarização Estatística 2D: Variáveis Nominais

24
SUMARIZAÇÃO ESTATÍSTICA (2D) PARTE 2: VARIÁVEIS NOMINAIS Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad

description

Aula sobre sumarização estatística de variáveis nominais

Transcript of Sumarização Estatística 2D: Variáveis Nominais

Page 1: Sumarização Estatística 2D: Variáveis Nominais

SUMARIZAÇÃO ESTATÍSTICA (2D)PARTE 2: VARIÁVEIS NOMINAIS

Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad

Page 2: Sumarização Estatística 2D: Variáveis Nominais

AGENDA

• Tabelas de Contingência

• Probabilidade Condicional

• Índice de Quetelet

• Coeficiente Chi-Quadrado

Page 3: Sumarização Estatística 2D: Variáveis Nominais

TABELA DE CONTINGÊNCIARegião Mulheres Homens Total

Centro-Oeste 1029 2300 3329

Nordeste 1819 3960 5779

Norte 1377 3056 4433

Sudeste 2935 6607 9542

Sul 940 2061 3001

Total 8100 17984 26084

Page 4: Sumarização Estatística 2D: Variáveis Nominais

VARIÁVEIS NOMINAIS

Região Sexo

Estado Nível de Instrução

Cargo Estado Civil

Partido Raça

Page 5: Sumarização Estatística 2D: Variáveis Nominais

TABELA DE CONTINGÊNCIA: CO-OCORRÊNCIAS

Raça Centro-Oeste

Nordeste Norte Sudeste Sul Total

Amarela 6 29 26 58 0 119

Branca 1828 2466 1416 5987 2630 14327

Indígena 15 21 30 14 4 84

Parda 1215 2662 2582 2481 198 9138

Preta 265 601 379 1002 169 2416

Total 3329 5779 4433 9542 3001 26084

Page 6: Sumarização Estatística 2D: Variáveis Nominais

TABELA DE CONTINGÊNCIA: CO-OCORRÊNCIAS

Frequências marginais: soma das linhas = Frequência por Região (Re) soma das colunas = Frequência da Raça (Ra)

Page 7: Sumarização Estatística 2D: Variáveis Nominais

CONTINGÊNCIA RELATIVA

Frequência relativa: proporção entre o número de entidades em uma célula e total de entidades

Raça Centro-Oeste

Nordeste Norte Sudeste Sul Total

Amarela 0.000 0.001 0.001 0.002 0.000 0.005

Branca 0.070 0.095 0.054 0.230 0.101 0.549

Indígena 0.001 0.001 0.001 0.001 0.000 0.003

Parda 0.047 0.102 0.099 0.095 0.008 0.350

Preta 0.010 0.023 0.015 0.038 0.006 0.093

Total 0.128 0.222 0.170 0.366 0.115 1

Page 8: Sumarização Estatística 2D: Variáveis Nominais

PROBABILIDADE CONDICIONAL

Probabilidade condicional p(Ra/Re): probabilidade do candidato ser da raça Ra dado que ele é da Região Re

Raça Centro-Oeste

Nordeste Norte Sudeste Sul Total

Amarela 6/3329 29/5779 26/4433 58/9542 0/3001 119

Branca 1828/3329 2466/5779 1416/4433 5987/9542 2630/3001 14327

Indígena 15/3329 21/5779 30/4433 14/9542 4/3001 84

Parda 1215/3329 2662/5779 2582/4433 2481/9542 198/3001 9138

Preta 265/3329 601/5779 379/4433 1002/9542 169/3001 2416

Total 3329 5779 4433 9542 3001 26084

Page 9: Sumarização Estatística 2D: Variáveis Nominais

PROBABILIDADE CONDICIONAL

As células em destaque são indicativas, especialmente p(Branca/Sul)

Raça Centro-Oeste

Nordeste Norte Sudeste Sul Total

Amarela 0.002 0.005 0.006 0.006 0.000 119

Branca 0.549 0.427 0.319 0.627 0.876 14327

Indígena 0.005 0.004 0.007 0.001 0.001 84

Parda 0.365 0.461 0.582 0.260 0.066 9138

Preta 0.080 0.104 0.085 0.105 0.056 2416

Total 3329 5779 4433 9542 3001 26084

Page 10: Sumarização Estatística 2D: Variáveis Nominais

CUIDADO!

Porém, é preciso tomar cuidado com conclusões precipitadas! P(Branca) = 0.549!

Raça Centro-Oeste

Nordeste Norte Sudeste Sul Total

Amarela 0.002 0.005 0.006 0.006 0.000 119

Branca 0.549 0.427 0.319 0.627 0.876 14327

Indígena 0.005 0.004 0.007 0.001 0.001 84

Parda 0.365 0.461 0.582 0.260 0.066 9138

Preta 0.080 0.104 0.085 0.105 0.056 2416

Total 3329 5779 4433 9542 3001 26084

Page 11: Sumarização Estatística 2D: Variáveis Nominais

ÍNDICE DE QUETELET

• Em casos como este, a probabilidade condicional pode não ser a melhor forma de analisar os dados

• Existe uma característica mais sensível: Índice de Quetelet!

Page 12: Sumarização Estatística 2D: Variáveis Nominais

ÍNDICE DE QUETELET

• Permite medir a alteração na frequência relativa de Ra a partir da média de Re

• q(Ra/Re) = [p(Ra/Re) - P(Ra)] / p(Ra)

Page 13: Sumarização Estatística 2D: Variáveis Nominais

ÍNDICE DE QUETELET

• Condicional: p(Branca, CO) = 0.549 > p(Indígena, CO) = 0.005

• Quetelet: q(Branca, CO) = (0.549 - 0.549) / 0.549 = 0 <

q(Indígena, CO) = (0.005 - 0.003) / 0.003 = 0.399

Raça CO NE NO SE SU P

Branca 0.549 0.427 0.319 0.627 0.876 0.549

Indígena 0.005 0.004 0.007 0.001 0.001 0.003

Total 3329 5779 4433 9542 3001 26084

Page 14: Sumarização Estatística 2D: Variáveis Nominais

ÍNDICE DE QUETELETRaça Centro-

OesteNordeste Norte Sudeste Sul P(Re)

Amarela -60% 10% 29% 33% -100% 0.005

Branca 0% -22% -42% 14% 60% 0.549

Indígena 40% 13% 110% -54% -59% 0.003

Parda 4% 31% 66% -26% -81% 0.350

Preta -14% 12% -8% 13% -39% 0.093

Um candidato ser da raça Branca na região Sul é 60% mais provável do que ele ser da raça Branca se considerarmos todo o país.

Page 15: Sumarização Estatística 2D: Variáveis Nominais

COEFICIENTE CHI-QUADRADORaça Centro-

OesteNordeste Norte Sudeste Sul Total

Amarela 6 29 26 58 0 119

Branca 1828 2466 1416 5987 2630 14327

Indígena 15 21 30 14 4 84

Parda 1215 2662 2582 2481 198 9138

Preta 265 601 379 1002 169 2416

Total 3329 5779 4433 9542 3001 26084

linha e coluna marginal

Page 16: Sumarização Estatística 2D: Variáveis Nominais

CONTINGÊNCIA RELATIVA

Dividindo tudo por N

Raça Centro-Oeste

Nordeste Norte Sudeste Sul Total

Amarela 0.000 0.001 0.001 0.002 0.000 0.005

Branca 0.070 0.095 0.054 0.230 0.101 0.549

Indígena 0.001 0.001 0.001 0.001 0.000 0.003

Parda 0.047 0.102 0.099 0.095 0.008 0.350

Preta 0.010 0.023 0.015 0.038 0.006 0.093

Total 0.128 0.222 0.170 0.366 0.115 1

Page 17: Sumarização Estatística 2D: Variáveis Nominais

CONTINGÊNCIA RELATIVA

Karl Pearson (1867-1936): Teste de independência entre duas variáveis

Raça Centro-Oeste

Nordeste Norte Sudeste Sul Total

Amarela 0.000 0.001 0.001 0.002 0.000 0.005

Branca 0.070 0.095 0.054 0.230 0.101 0.549

Indígena 0.001 0.001 0.001 0.001 0.000 0.003

Parda 0.047 0.102 0.099 0.095 0.008 0.350

Preta 0.010 0.023 0.015 0.038 0.006 0.093

Total 0.128 0.222 0.170 0.366 0.115 1

Page 18: Sumarização Estatística 2D: Variáveis Nominais

COEFICIENTE CHI-QUADRADO

• Duas variáveis são independente se e somente se, para qualquer k e l :

• p(Hk ∩ Gl) = p(Hk)p(Gl)

• p(Hk): coluna marginal

• p(Gl) linha marginal

Page 19: Sumarização Estatística 2D: Variáveis Nominais

COEFICIENTE CHI-QUADRADO

• Vamos checar se p(S ∩ Branca) = P(s)P(Branca) 0.101 0.115 * 0.549 = 0.063

• A diferença 0.101 - 0.063 = 0.038, moderada, indica que ser da raça branca e da região sul do país ocorre mais frequentemente do que ocorreria se as variáveis fossem independentes: uma relação positiva

Raça CO NE NO SE S TotalAmarela 0.000 0.001 0.001 0.002 0.000 0.005Branca 0.070 0.095 0.054 0.230 0.101 0.549

Indígena 0.001 0.001 0.001 0.001 0.000 0.003Parda 0.047 0.102 0.099 0.095 0.008 0.350Preta 0.010 0.023 0.015 0.038 0.006 0.093Total 0.128 0.222 0.170 0.366 0.115 1

Page 20: Sumarização Estatística 2D: Variáveis Nominais

Raça CO NE NO SE S

Amarela 0.000 0.001 0.001 0.002 0.000Branca 0.070 0.095 0.054 0.230 0.101

Indígena 0.001 0.001 0.001 0.001 0.000Parda 0.047 0.102 0.099 0.095 0.008Preta 0.010 0.023 0.015 0.038 0.006

Raça CO NE NO SE S

Amarela 0.001 0.001 0.001 0.002 0.001Branca 0.070 0.122 0.093 0.201 0.063

Indígena 0.000 0.001 0.001 0.001 0.000Parda 0.045 0.078 0.060 0.128 0.040Preta 0.012 0.021 0.016 0.034 0.011

p(Região ∩ Raça)

p(Região)p(Raça)

Correlação fraca: apenas 3 valores diferem em cerca de 0.04

Page 21: Sumarização Estatística 2D: Variáveis Nominais

COEFICIENTE CHI-QUADRADO• O coeficiente Chi-Quadrado de Pearson mede a

diferença entre o valor medido e o valor esperado na hipótese de independência utilizando a seguinte expressão:

X 2 = (p(Hk∩Gl)− p(Hk)p(Gl))2

p(Hk)p(Gl);l=1

L∑k=1

K∑

Page 22: Sumarização Estatística 2D: Variáveis Nominais

COEFICIENTE CHI-QUADRADO

• Por que X2?

• Pearson: Na hipótese das variáveis serem independentes na população e de que a amostra tenha sido coletada de forma aleatória, a função de densidade de probabilidade NX2 tende a seguir uma distribuição χ2 com f=(K-1)(L-1) graus de liberdade

Page 23: Sumarização Estatística 2D: Variáveis Nominais

COEFICIENTE CHI-QUADRADO• Aplicando ao nosso caso, temos K=5 e L=5, portanto f = 16.

• Com f = 16, na hipótese de independência das variáveis, há 1% de chance de o valor NX2 ser maior do que 32

• No nosso caso X2 = 0.122962 , N = 26084, portanto, NX2 = 3207.3

• Portanto, podemos rejeitar com 99% de confiança a hipótese da independência.

• Se tivéssemos apenas 250 candidatos não seria possível rejeitar a hipótese da independência entre as variáveis

Page 24: Sumarização Estatística 2D: Variáveis Nominais

Raça CO NE NO SE S

Amarela 0.000 0.001 0.001 0.002 0.000Branca 0.070 0.095 0.054 0.230 0.101

Indígena 0.001 0.001 0.001 0.001 0.000Parda 0.047 0.102 0.099 0.095 0.008Preta 0.010 0.023 0.015 0.038 0.006

Raça CO NE NO SE S

Amarela 0.001 0.001 0.001 0.002 0.001Branca 0.070 0.122 0.093 0.201 0.063

Indígena 0.000 0.001 0.001 0.001 0.000Parda 0.045 0.078 0.060 0.128 0.040Preta 0.012 0.021 0.016 0.034 0.011

Não se recomenda utilizar o Chi-Quadrado como medida para a associação entre duas variáveis.