Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas:...

53
Análise Análise Exploratória de Exploratória de Dados Dados R – LIG/08 R – LIG/08

Transcript of Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas:...

Page 1: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Análise Exploratória Análise Exploratória de Dadosde Dados

R – LIG/08 R – LIG/08

Page 2: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

ObjetivosObjetivos

►Análise de duas variáveis quantitativas:Análise de duas variáveis quantitativas:

►traçar diagramas de dispersão, para traçar diagramas de dispersão, para avaliar possíveis relações entre as duas avaliar possíveis relações entre as duas variáveis;variáveis;

►calcular o coeficiente de correlação entre calcular o coeficiente de correlação entre as duas variáveis;as duas variáveis;

►obter uma reta que se ajuste aos dados obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados.segundo o critério de mínimos quadrados.

Page 3: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

DIAGRAMAS DE DISPERSÃO E CORRELAÇÃODIAGRAMAS DE DISPERSÃO E CORRELAÇÃO

►DADOS: Começaremos a aula de hoje DADOS: Começaremos a aula de hoje trabalhando com dados referentes à trabalhando com dados referentes à porcentagem da população porcentagem da população economicamente ativa empregada no economicamente ativa empregada no setor primário e o respectivo índice de setor primário e o respectivo índice de analfabetismo para algumas regiões analfabetismo para algumas regiões metropolitanas brasileiras (exercício metropolitanas brasileiras (exercício 11 do capítulo 4).11 do capítulo 4).

Page 4: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

DADOS:DADOS:REGIÃO SET. PRIM. IND_ANALF.SÃO PAULO 2.0 17.5RIO DE JANEIRO 2.5 18.5BELÉM 2.9 19.5BELO HORIZONTE 3.3 22.2SALVADOR 4.1 26.5PORTO ALEGRE 4.3 16.6RECIFE 7.0 36.6FORTALEZA 13.0 38.4

Fonte: Indicadores Sociais para Áreas Urbanas - IBGE - 1977.

volta

Page 5: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

PROBLEMAPROBLEMA

►Será que existe alguma relação entre Será que existe alguma relação entre as variáveis porcentagem da as variáveis porcentagem da população economicamente ativa no população economicamente ativa no setor primário e índice de setor primário e índice de analfabetismo?analfabetismo?

►Em caso afirmativo, como quantificar Em caso afirmativo, como quantificar esta relação?esta relação?

Page 6: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Diagrama de dispersãoDiagrama de dispersão

► Vejamos como obter o diagrama de dispersão Vejamos como obter o diagrama de dispersão destes dados usando o destes dados usando o R.R.

► Primeiro, vamos ler os dados:Primeiro, vamos ler os dados:

►dados<-read.table(“m:\\natalie\\aed\\dados<-read.table(“m:\\natalie\\aed\\analfab.txt”)analfab.txt”)

►names(dados)<-c(“RM”,”SP”,”AN”) names(dados)<-c(“RM”,”SP”,”AN”) #comando que fornece nomes para as #comando que fornece nomes para as variáveisvariáveis

Page 7: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

DIAGRAMA DE DISPERSÃODIAGRAMA DE DISPERSÃO

► plot(dados$SP, dados$AN, xlab="Porc. da PEA plot(dados$SP, dados$AN, xlab="Porc. da PEA no Setor Primario", ylab="Indice de no Setor Primario", ylab="Indice de

Analfabetismo", main= "Diagrama de Analfabetismo", main= "Diagrama de Dispersao”,col=“blue”)Dispersao”,col=“blue”)

Page 8: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

DIAGRAMA DE DISPERSÃODIAGRAMA DE DISPERSÃO

Page 9: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Análise dos dadosAnálise dos dados

► Você diria que há dependência linear Você diria que há dependência linear entre estas variáveis? entre estas variáveis?

► Calcule a correlação entre elas.Calcule a correlação entre elas.► cor(dados$SP,dados$AN)cor(dados$SP,dados$AN)► 0.866561 (0.867)0.866561 (0.867)

n

i

ii

i

n

i

ii

i

n

i

n

ii

n

iiii

n

ii

n

ii

n

iii

n

y

yn

x

x

yxn

yx

yyn

xxn

yyxxn

r

1

2

2

1

2

2

1 11

1

2

1

2

1

)()(

1

)(1

)(1

))((1

Page 10: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

CORRELAÇÃOCORRELAÇÃO

► Há alguma região com comportamento diferente Há alguma região com comportamento diferente das demais? das demais?

► Em caso afirmativo, retire-a da base de dados e Em caso afirmativo, retire-a da base de dados e recalcule a correlação.recalcule a correlação.

dados

Page 11: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.
Page 12: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Porto AlegrePorto Alegre

► Retirando os dados da região metropolitana de Porto Retirando os dados da região metropolitana de Porto Alegre temos a seguinte correlação: (observe que Porto Alegre temos a seguinte correlação: (observe que Porto Alegre está na linha 6 da base de dados).Alegre está na linha 6 da base de dados).

► dad<-matrix(0,7,2)dad<-matrix(0,7,2)► dad[,1]<-c(dados[1:5,2],dados[7:8,2])dad[,1]<-c(dados[1:5,2],dados[7:8,2])► dad[,2]<-c(dados[1:5,3],dados[7:8,3])dad[,2]<-c(dados[1:5,3],dados[7:8,3])► cor(dad[,1],dad[,2])cor(dad[,1],dad[,2])► 0.9081915 (0.908)0.9081915 (0.908)► porcentagem de variação em relação à porcentagem de variação em relação à

correlação inicial: 4,8% (em valor absoluto)correlação inicial: 4,8% (em valor absoluto)

Page 13: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

A porcentagem de variação foi calculada da seguinte forma:

r

rr i )(100

r é a correlação calculada com base em todas as observações

r(i) é a correlação calculada retirando-se a i-ésima observação.

Page 14: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.
Page 15: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

FortalezaFortaleza

►dad[,1]<-c(dados[1:7,2])dad[,1]<-c(dados[1:7,2])►dad[,2]<-c(dados[1:7,3])dad[,2]<-c(dados[1:7,3])►cor(dad[,1],dad[,2])cor(dad[,1],dad[,2])►0.8581972 (0.858)0.8581972 (0.858)► porcentagem de variação em relação à porcentagem de variação em relação à

correlação inicial: 0,96% (em valor correlação inicial: 0,96% (em valor absoluto)absoluto)

Page 16: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.
Page 17: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

RecifeRecife

►dad[,2]<-c(dados[1:6,3],dados[8,3])dad[,2]<-c(dados[1:6,3],dados[8,3])►dad[,1]<-c(dados[1:6,2],dados[8,2])dad[,1]<-c(dados[1:6,2],dados[8,2])►cor(dad[,1],dad[,2])cor(dad[,1],dad[,2])►0.9158657 (0.916)0.9158657 (0.916)► porcentagem de variação em relação à porcentagem de variação em relação à

correlação inicial: 5,7% (em valor correlação inicial: 5,7% (em valor absoluto)absoluto)

Page 18: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.
Page 19: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

SalvadorSalvador

►dad[,1]<-c(dados[1:4,2],dados[6:8,2])dad[,1]<-c(dados[1:4,2],dados[6:8,2])►dad[,2]<-c(dados[1:4,3],dados[6:8,3])dad[,2]<-c(dados[1:4,3],dados[6:8,3])►cor(dad[,1],dad[,2])cor(dad[,1],dad[,2])►0.8822678 (0.882)0.8822678 (0.882)► porcentagem de variação em relação à porcentagem de variação em relação à

correlação inicial: 1,8% (em valor correlação inicial: 1,8% (em valor absoluto)absoluto)

Page 20: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

ResumoResumo

RM retirada variação %

Porto Alegre 4,8Fortaleza 0,96Salvador 1,8Recife 5,7

Page 21: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

ComentáriosComentários

►As regiões metropolitanas que mais As regiões metropolitanas que mais influenciaram no valor da correlação influenciaram no valor da correlação foram Porto Alegre e Recife.foram Porto Alegre e Recife.

►Porto Alegre tem um comportamento Porto Alegre tem um comportamento diferente, pois sua taxa de diferente, pois sua taxa de analfabetismo é pequena comparada a analfabetismo é pequena comparada a sua PEA e as demais regiões.sua PEA e as demais regiões.

Page 22: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

ComentáriosComentários

Page 23: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

ComentáriosComentários

►Recife, ao contrário, tem uma taxa de Recife, ao contrário, tem uma taxa de analfabetismo alta demais comparada analfabetismo alta demais comparada a sua PEA e as demais regiões.a sua PEA e as demais regiões.

►Fortaleza, apesar de ser um ponto Fortaleza, apesar de ser um ponto afastado dos demais, mantém o afastado dos demais, mantém o padrão da maior parte dos pontos. padrão da maior parte dos pontos.

Page 24: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

ComentáriosComentários

Page 25: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Gráficos de ilustraçãoGráficos de ilustração

Page 26: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Gráficos de ilustraçãoGráficos de ilustração

Page 27: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Gráficos de ilustraçãoGráficos de ilustração

Page 28: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Cuidados na interpretaçãoCuidados na interpretação

► Uma correlação alta (próxima de 1 ou -1) pode Uma correlação alta (próxima de 1 ou -1) pode indicar forte dependência linear entre as indicar forte dependência linear entre as variáveis. Nesse caso, os pontos no diagrama variáveis. Nesse caso, os pontos no diagrama de dispersão espalham-se em torno de uma de dispersão espalham-se em torno de uma reta.reta.

► Pode haver variáveis cuja correlação é próxima Pode haver variáveis cuja correlação é próxima de 1 (ou -1), mas, na verdade, não são de 1 (ou -1), mas, na verdade, não são diretamente relacionadas. (correlação espúria) diretamente relacionadas. (correlação espúria)

► Uma correlação zero ou próxima de zero indica Uma correlação zero ou próxima de zero indica ausência de linearidade, podendo significar ausência de linearidade, podendo significar ausência de relação entre as variáveis ou outro ausência de relação entre as variáveis ou outro tipo de dependência entre elas.tipo de dependência entre elas.

Page 29: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

ExemploExemplo► dados<-read.table(“m:\\natalie\\aed\\dados<-read.table(“m:\\natalie\\aed\\

relquadratica.txt",header=T)relquadratica.txt",header=T)► cor(dados$x,dados$y)cor(dados$x,dados$y)► 00

Observe que existerelação de dependênciaentre x e y, porém essa.relação NÃO é linear.

Page 30: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Correlação: Cuidados na Correlação: Cuidados na interpretaçãointerpretação

►Uma correlação amostral entre duas Uma correlação amostral entre duas variáveis próxima de 1 ou -1 pode só variáveis próxima de 1 ou -1 pode só indicar que as variáveis crescem no indicar que as variáveis crescem no mesmo sentido (ou em sentidos mesmo sentido (ou em sentidos contrários), e não que, aumentos contrários), e não que, aumentos sucessivos em uma, acarretarão sucessivos em uma, acarretarão aumentos sucessivos (ou diminuições aumentos sucessivos (ou diminuições sucessivas) na outra.sucessivas) na outra.

Page 31: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Reta de mínimos quadradosReta de mínimos quadrados

► Quando as variáveis em análise são altamente Quando as variáveis em análise são altamente correlacionadas e de fato pode haver uma relação correlacionadas e de fato pode haver uma relação de causa e efeito entre elas, o problema de fazer de causa e efeito entre elas, o problema de fazer previsão do valor de uma delas dado o valor da previsão do valor de uma delas dado o valor da outra variável pode ser resolvido através de uma outra variável pode ser resolvido através de uma regressão linear simples (ajuste pela reta de regressão linear simples (ajuste pela reta de mínimos quadrados). mínimos quadrados).

► Em geral, uma das variáveis é considerada como Em geral, uma das variáveis é considerada como variável que pode ser controlada de alguma forma variável que pode ser controlada de alguma forma variável explicativa (independente - preditora)variável explicativa (independente - preditora) e a e a outra, sobre a qual deseja-se fazer previsões, é outra, sobre a qual deseja-se fazer previsões, é chamada chamada variável resposta (dependente)variável resposta (dependente). .

Page 32: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

EXEMPLO 2:EXEMPLO 2:

►Fonte:Fonte: http://lib.stat.cmu.edu/DASL/

►Trabalharemos com uma base de Trabalharemos com uma base de dados sobre o hábito de fumar e dados sobre o hábito de fumar e mortalidade por câncer de pulmão.mortalidade por câncer de pulmão.

Page 33: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Exemplo 2 (cont.)Exemplo 2 (cont.)

►Descrição:Descrição: Os dados sumariam um Os dados sumariam um estudo entre homens distribuídos em estudo entre homens distribuídos em 25 grupos classificados por tipo de 25 grupos classificados por tipo de ocupação na Inglaterra. ocupação na Inglaterra.

►Dois índices são apresentados para Dois índices são apresentados para cada grupo.cada grupo.

Page 34: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Exemplo 2: variáveisExemplo 2: variáveis

► índice de fumo:índice de fumo: razão do número médio de cigarros razão do número médio de cigarros fumados por dia por homem no particular grupo de fumados por dia por homem no particular grupo de ocupação sobre a média global de cigarros fumados ocupação sobre a média global de cigarros fumados por dia, calculada levando-se em conta todos os por dia, calculada levando-se em conta todos os homens. (média do grupo sobre média global)homens. (média do grupo sobre média global)

► índice de mortalidade:índice de mortalidade: razão da taxa de mortes razão da taxa de mortes causadas por câncer de pulmão entre os homens de causadas por câncer de pulmão entre os homens de um particular grupo de ocupação sobre a taxa global um particular grupo de ocupação sobre a taxa global de mortes por câncer de pulmão, calculada levando-de mortes por câncer de pulmão, calculada levando-se em conta todos os homens. (taxa no grupo sobre se em conta todos os homens. (taxa no grupo sobre taxa global)taxa global)

► Número de observações: Número de observações: 25 25

Page 35: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Fumo versus câncerFumo versus câncer

►Nomes das variáveis:Nomes das variáveis: ►1.1. Grupo de ocupação: grupoGrupo de ocupação: grupo

►2.2. Índice de fumo: ifumo (100 = base)Índice de fumo: ifumo (100 = base)► ifumo=100: número médio de cigarros por dia ifumo=100: número médio de cigarros por dia

para o grupo é igual ao número médio global de para o grupo é igual ao número médio global de cigarros fumados por dia. cigarros fumados por dia.

► ifumo>100 indica grupo que fuma em média ifumo>100 indica grupo que fuma em média mais que o geral;mais que o geral;

► ifumo<100, grupo que fuma em média menos ifumo<100, grupo que fuma em média menos que o geral.que o geral.

Page 36: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Fumo versus câncerFumo versus câncer

►3.3. Índice de Mortalidade: imorte (100 = Índice de Mortalidade: imorte (100 = base) base)

► imorte=100, número médio de mortes por câncer imorte=100, número médio de mortes por câncer de pulmão para o grupo é igual ao número médio de pulmão para o grupo é igual ao número médio global de mortes por câncer de pulmão.global de mortes por câncer de pulmão.

► imorte>100 indica grupo com incidência de imorte>100 indica grupo com incidência de mortes por câncer de pulmão maior que o geral; mortes por câncer de pulmão maior que o geral;

► imorte<100, incidência menor que o geral.imorte<100, incidência menor que o geral.

►arquivo: fumo.txt no diretório m:\\natalie\\arquivo: fumo.txt no diretório m:\\natalie\\aedaed

Page 37: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Fumo versus câncerFumo versus câncer

►Analise estes dados avaliando se há Analise estes dados avaliando se há relação entre estes índices. relação entre estes índices.

►Construa o diagrama de dispersão e Construa o diagrama de dispersão e calcule a correlação.calcule a correlação.

Page 38: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.
Page 39: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

ablineabline

Para inserir as retas tracejadas em x=100 e em y=100 após ter construído o diagrama, use os comandos:

abline(h=100,lty=2)abline(v=100,lty=2)

Page 40: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Indice de fumo versus mortalidade por Indice de fumo versus mortalidade por câncer de pulmãocâncer de pulmão

A partir do diagrama de dispersão é possível perceber claramente uma correlação positiva entre as duas variáveis em análise.

cor(dados$ifumo,dados$imorte)

[1] 0.7162398

No contexto deste exemplo faz sentido prever o índice de mortalidade porcâncer de pulmão num particular grupo, dado o índice de fumo do grupo.

Page 41: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Reta de mínimos quadradosReta de mínimos quadrados

►O comando no O comando no RR que calcula os que calcula os coeficientes da reta de mínimos coeficientes da reta de mínimos quadrados é quadrados é lm(...)lm(...), de , de linear model.linear model.

►No caso específico deste exemplo No caso específico deste exemplo podemos pedir podemos pedir

reta<-reta<-lm(dados$imorte~dados$ifumo)lm(dados$imorte~dados$ifumo)

Page 42: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Reta de mínimos quadradosReta de mínimos quadrados

►Obtém-se Obtém-se Coefficients:Coefficients:(Intercept) dados$ifumo(Intercept) dados$ifumo -2.885 1.088 -2.885 1.088

É o coeficiente linear da reta de mínimos quadrados

É o coeficiente angular da reta de mínimos quadrados

Modelo ajustado:

Indice de morte=-2.885+1.088x(indice de fumo)

Page 43: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Gráfico da reta obtidaGráfico da reta obtida

Para inserir o gráfico da reta obtida no ajuste de mínimos quadrados nodiagrama de dispersão dos pontos, basta, após obter o diagrama de dispersão,pedir abline(reta$coefficients)

Page 44: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

pointspoints

Para inserir o ponto médio no gráfico use o comando:

points(mean(dados$ifumo),mean(dados$imorte),pch=“*”,col=“red”,cex=2)

Page 45: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

ComentáriosComentários

►Depois de proposto um modelo é Depois de proposto um modelo é fundamental realizar a etapa de fundamental realizar a etapa de validação do modelo em que boa parte validação do modelo em que boa parte consiste numa análise exploratória consiste numa análise exploratória detalhada dos resíduos do modelo. detalhada dos resíduos do modelo.

►Apenas após a etapa de validação e a Apenas após a etapa de validação e a escolha do modelo é que podemos escolha do modelo é que podemos partir para a etapa de previsões.partir para a etapa de previsões.

Page 46: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Valores ajustadosValores ajustados

►Após ajustar a reta, usando a função Após ajustar a reta, usando a função lmlm várias informações ficam várias informações ficam disponíveis, entre elas os valores disponíveis, entre elas os valores ajustados da variável resposta pela ajustados da variável resposta pela reta obtida.reta obtida.

►reta$fitted (#usando reta<-reta$fitted (#usando reta<-lm(dados$imorte~dados$ifumo lm(dados$imorte~dados$ifumo fornece os valores ajustados)fornece os valores ajustados)

Page 47: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

ResíduosResíduos

Resíduos da reta de mínimos quadrados: reta$residuals

round(reta$residuals,digits=2) 1 2 3 4 5 6 7 8 9 10 11 3.15 -30.11 -1.36 28.66 31.73 -7.04 0.17 14.74 11.18 -20.04 7.92 12 13 14 15 16 17 18 19 20 21 22 18.78 -27.48 -22.92 23.99 22.26 -20.06 4.24 5.82 3.69 -12.73 -11.08 23 24 25 14.13 -19.77 -17.89

O resíduo do modelo é definido pela diferença entreO valor observado da variável resposta e o valorAjustado pelo modelo.

Page 48: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Análise dos resíduosAnálise dos resíduos

> stem(round(reta$residuals,digits=2))

-2 | 073000 -0 | 83171 0 | 0344681459 2 | 2492

Ramo-e-folhas dos resíduos:

Também avaliamos o histograma, e o gráficodos resíduos versus os valores ajustados.

Page 49: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Valores ajustadosValores ajustados

Valores ajustados da reta de mínimos quadrados: reta$fitted

round(reta$fitted,digits=2)

80.85 146.11 124.36 99.34 123.27 108.04 117.83 98.26 92.82 108.04 96.08 110.22 113.48 118.92 120.01 116.74 133.06 141.76 122.18 111.31 91.73 96.08 105.87 79.77 68.89

Page 50: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Critério de mínimos Critério de mínimos quadradosquadrados

►Como são obtidos os coeficientes da Como são obtidos os coeficientes da reta de mínimos quadrados?reta de mínimos quadrados?

Nossos dados podem ser pensados como uma coleção bivariada: ),(),...,,(),,( 2211 nn yxyxyx

Foi considerado adequado o modelo x

para explicar y .

Page 51: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Critério de mínimos Critério de mínimos quadradosquadrados

► Critério de Mínimos quadrados: Critério de Mínimos quadrados: escolha escolha e e de tal maneira que seja minimizada de tal maneira que seja minimizada a soma de quadrados dos resíduos: a soma de quadrados dos resíduos:

2

11

2 )( i

n

ii

n

ii xyr

Page 52: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Critério de mínimos Critério de mínimos quadradosquadrados

►Solução:Solução:

2

1

1

)(

))((

n

ii

n

iii

xx

xxyyb

xbya

Coeficiente de inclinação da reta

Coeficiente linear da reta (intercepto)

Page 53: Análise Exploratória de Dados R – LIG/08. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas.

Resumo: lista de novas Resumo: lista de novas funçõesfunções

►cor: cor: calcula a correlação;calcula a correlação;► lm: lm: ajustaajusta a reta de mínimos a reta de mínimos

quadrados;quadrados;►abline: abline: insere uma reta num insere uma reta num plotplot;;►points: points: insere pontos(x,y) num insere pontos(x,y) num plotplot;;►round(x,digits=n);round(x,digits=n); arredonda os arredonda os

valores em valores em xx para n casas decimais. para n casas decimais.