IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)

10
INSTITUTO DE EDUCAÇÃO SUPERIOR DE BRASÍLIA PROGRAMA DE PÓS-GRADUAÇÃO LATO SENSU EM LOGÍSTICA EMPRESARIAL Apostila 03: Análise de Regressão Disciplina: Estatística e modelos de otimização aplicados à logística Prof. Rafael José Rorato VERSÃO PRELIMINAR - INCOMPLETA Brasília, abril de 08

Transcript of IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)

Page 1: IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)

INSTITUTO DE EDUCAÇÃO SUPERIOR DE BRASÍLIA

PROGRAMA DE PÓS-GRADUAÇÃO LATO SENSU EM LOGÍSTICA EMPRESARIAL

Apostila 03: Análise de Regressão

Disciplina: Estatística e modelos de otimização aplicados à logística

Prof. Rafael José Rorato

VERSÃO PRELIMINAR - INCOMPLETA

Brasília, abril de 08

Page 2: IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)

INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial

Módulo: Estatística e modelos de otimização aplicados à logística

2

c2008 INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Campus Jovanina Rimoli SGAN Quadra 609 – Módulo D – Avenida L2 Norte Brasília – DF CEP:70850-090 Este exemplar é de propriedade do Instituto de Educação de Brasília, que poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento. É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado, para ensino, comentários e citações, desde que sem finalidade comercial e que seja feita a referência bibliográfica completa. Os conceitos expressos neste trabalho são de responsabilidade do autor.

Page 3: IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)

INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial

Módulo: Estatística e modelos de otimização aplicados à logística

3

ÍNDICE

Page 4: IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)

INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial

Módulo: Estatística e modelos de otimização aplicados à logística

4

1) Análise de Regressão Origem histórica: o termo regressão foi introduzido por Francis Galton (1886). Em um ensaio, Galton verificou que embora houvesse tendência de pais altos terem filhos altos e de pais baixos terem filhos baixoa a altura média dos filhos de pais de uma dada altura tendia a se deslocar ou “regredir” até a altura média da população como um todo. Assim, a altura de filhos de pais muito altos ou baixos tende a se mover para a altura mpedia da população. A lei de regressão universal de Galton foi confirmada por Karl Pearson (1903) em experimentação que envolveu a coleta de mas de mil registros das alturas dos menbros de famílias. A conclusão obtida por Pearson foi que a altura média dos filhos de um grupo de pais altos era inferior à altura de seus pais, e que a altura média dos filhos de um grupo de pais baixos era superior à altura de seus pais. Inferia-se a conclusão que filhos altos como baixo “regrediam” em direção à altura média de todos os homens. Interpretação moderna (definição): A Análise de Regressão ocupa-se do estudo da dependência de uma variável, a variável dependente, em relação a uma ou mais variáveis, as variáveis explicativas, com o objetivo de estimar e/ou prever a média (da população) ou o valor médio da dependente em termos dos valores conhecidos ou fixos (em amostragem repetida) das explicativas. Relações estatísticas versus deterministicas: em Análise de Regressão o objetivo concentra-se no conhecimento da dependência estatística entre as variáveis investigadas (e não funcional ou determinista), tais como na física clássica. Nas relações estatísticas focam-se em variáveis aleatórias ou estocásticas, que têm distribuições de probabilidade. Regressão versus causação: embora a Análise de Regressão lide com a dependência de uma variável em relação a outras, ela não implica em causação. Uma relação estatística, por mais forte e sugestiva que seja, jamais pode estabelecer uma relação causal: as idéias sobre causação devem vir de fora da estatística, enfim, de outra teoria. Regressão versus correlação: intimamente relacionada, porém conceitualmente diferente da Análise de Regressão, a Análise de Correlação apresenta com o objetivo em medir a intensidade ou o grau de associação linear entre duas variáveis. Menciona-se algumas diferenças fundamentais entre regressão e correlação. Na Análise de Regressão há uma assimetria na forma como as variáveis dependente e explicativa são tratadas. Supõe-se que a variável dependente seja estatística, aleatória, com distribuição de probabilidade. E as variáveis explicativas tenham valores fixados (o valor de Xi é assumido igualmente para várias amostras de Yi). Na Análise de Correlação tratam-se duas variáveis simetricamente, sendo que não há distinção entre as variáveis dependente e explicativas (a correlação entre X e Y é igual a correlação de Y e X). Também é suposto na Análise de Correlação que tanto as variáveis X e Y são aleatórias.

Page 5: IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)

INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial

Módulo: Estatística e modelos de otimização aplicados à logística

5

80 100 120 140 160 180 200 220 240 26055 65 79 80 102 110 120 135 137 15060 70 84 93 107 115 136 137 145 15265 74 90 95 110 120 140 140 155 17570 80 94 103 116 130 144 152 165 17875 85 98 108 118 135 145 157 175 180

88 113 125 140 160 189 185115 162 191

Total 325 462 445 707 678 750 685 1043 966 1211

Renda

Consumo

Y \ X

80 100 120 140 160 180 200 220 240 2600.20 0.17 0.20 0.14 0.17 0.17 0.20 0.14 0.17 0.140.20 0.17 0.20 0.14 0.17 0.17 0.20 0.14 0.17 0.140.20 0.17 0.20 0.14 0.17 0.17 0.20 0.14 0.17 0.14

0.20 0.17 0.20 0.14 0.17 0.17 0.20 0.14 0.17 0.140.20 0.17 0.20 0.14 0.17 0.17 0.20 0.14 0.17 0.14

0.17 0.14 0.17 0.17 0.14 0.17 0.140.14 0.14 0.14

Média Condicional Y 65 77 89 101 113 125 137 149 161 173

Consumo

P(Y|Xi) \ XRenda

Função de Regressão Populacional: Vamos considerar o exemplo de um bairro hipotético de Brasília que apresente uma população de 60 famílias (N=60). Estamos intressados em entender a relação de despesa de consumo familiar semanal (variável depentende Y) e renda familiar semanal (variável explicativa X). Segentou-se as famílias em 10 grupos com valores identicos de renda, conforme mostrado na Tabela 1.

Tabela 1: Tabela de agrupamento de Renda e Consumo de 60 famílias em Brasília

A Tabela 1 corresponde a distribuição condicional de Y, consumo, sobre os valores de consumo X. Dessa tabela pode-se calcular as probabilidades condicionais de Y, p(Y|X), isto é, a probabilidade de Y para um dado valor de X. Assim para o cada valor de consumo X para o perfil de renda Y = 80 existe uma probabilidade condicional de 1/5. A Tabela 2 representa as probabilidades condiconais para o exemplo dado.

Tabela 2: Tabela probabilidade condicional da Renda e Consumo Para cada uma das distribuições de probabilidade condicional Y pode ser calculado o valor médio, determinado como média condicional ou a expectativa condicional, conhecido como o valor esperado de Y dado que X assuma o valor específico de X: E(Y|X = Xi). A última linha da Tabela 2 representa as médias condicionais de Y. Uma reta de regressão é ajustada geometricamente por uma reta passando pelas médias ou expectativas condicionais das variáveis dependentes para os valores fixados da variável explicativas. Isso pode ser verficado na Figura 1 nos pontos no círculo vermelho.

Page 6: IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)

INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial

Módulo: Estatística e modelos de otimização aplicados à logística

6

Figura 1: Reta de regressão linear para as variáveis Renda e Consumo Neste contexto a Função de Regressão Populacional (FRP) é determinada como a expecitativa condicional E(Y|Xi), definida como:

)()|( xfXYE i = Equação 1

Sendo,

ii XXYE 21)|( ββ += Equação 2

Os termos β1 e β2 são chamados de coeficientes de regressão. β1 é conhecido como intercepto e β2 conhecido como coeficiente de inclinação. A Equação 2 como função de regressão linear da população. A linearidade de uma equação de regressão é atingida quando ocorre a linearidade das variáveis Xi e pelos parâmetos β1 e β2 .Isto significa que as variáveis e parâmetros não podem ser elevados a função potência, raiz ou fração (ex.: ii XXYE 21)|( ββ += , 3

21)|( ii XXYE ββ += ) Perturbação estocástica (ui): também conhecida como termo de erro estocástico é uma variável aleatória não-observável que consiste no erro entre o valor assumido por Yi e a estimativa de cada categoria Xi verificado em E(Y|Xi). Assim temos que a perturbação estocástica, com terminologia conhecida como ui,

Page 7: IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)

INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial

Módulo: Estatística e modelos de otimização aplicados à logística

7

é um substituto de todas as variáveis omitidas do modelo mas que coletivamente afetam Y. A não introdução de todas essas variáveis no modelo dá-se por:

� Imprecisão da Teoria: a teoria que determina o comportamento de Y em função de X geralmente é incompleta. (ex.: pode-se concluir que a renda semanal X influencie o consumo Y, mas podemos ignorar ou não estarmos seguros sobre outras variáveis que afetam Y.

� Indisponibilidade de Dados: mesmo se soubermos quais são algumas variáveis das variáveis excluidas ou não consideradas, e admitirmos uma regressão múltipla em vez de uma regressão simples, podemos não termos informações quantitativas suficientes sobre os Xs que afetam o Y.

� Variáveis Essenciais versus Variáveis Periféricas: É possível que a influência conjunta de variáveis periféricas seja tão pequena que por questão prática e de custos não vale a pena introduzi-las no modelo. (ex.: para o exemplo de Renda e Consumo, talvez itens como, número de crianças na família, gênero, religião, grau de escolaridade, endereço de residência, etc sejam aderentes ou não ao modelo preditivo).

� Casualidade Intrínseca no Comportamento Humano: mesmo que se consiga introduzir no modelo todas as variáveis relevantes, há uma certa natureza aleatória intrínseca em cada Y que não podemos explicar. As perturbações us podem muito bem refletir a aleatroriedade intrínseca.

� Variáveis proxy fracas: a perturbação u pode representar erros de medida entre as variáveis Y e X (não ocorrer relação entre elas), o que implica em estimativas imprecisas dos coeficientes de regressão β.

� Princípio da Parcimônia: deseja-se que o modelo seja o mais simples possível. Assim, como o termo u pode-se mensurar a não necessidade de introduzir mais variáveis Xs ao modelo.

� Forma Funcional Errada: a relação entre :Y e X não se comporta com uma função linear e sim por alguma outra função matemática.

Função de Regressão: Dizemos então, que as equações de Função de Regressão Populacional e Amostral são escritas com as seguintes equações:

FRP: iii uXY ++= 21 ββ Equação 3

FRA: iii uXY ˆˆˆ21 ++= ββ Equação 4

A geometria e componentes de uma Função de Regressão Linear simples configura-se conforme a Figura 2 apresentada a seguir:

Page 8: IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)

INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial

Módulo: Estatística e modelos de otimização aplicados à logística

8

( )( )( ) ∑

∑=

−−= 222

ˆi

ii

i

ii

x

yx

XX

YYXXβ

XY 21ˆˆ ββ −=

Figura 2: Geometria e componentes de uma reta de regressão linear Método dos Mínimos Quadrados: é o método utilizado para calcular a equação de Regressão Linear, tendo como objetivo minimizar a perturbação estocástica através do critério:

∑∑ −= 22 )ˆmin()ˆmin( iii YYu Equação 5

Os coeficientes de regressão β1 e β2, para uma equação de regressão linear, são estimados através das seguintes equações:

Equação 6

Equação 7

A Figura 3 ilustra os erros minimizados ui para cada estimativa da variável y em relação a variável x.

Page 9: IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)

INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial

Módulo: Estatística e modelos de otimização aplicados à logística

9

∑= 2

2

2 )ˆvar(ix

σβ

22

2

1)ˆvar( σβ∑

∑=

i

i

xn

X

Figura 3: Mínimos Quadrados Ordinários – estimativas de ui Precisão e ajuste do modelo: para verificar o quão bom ou ruim encontra-se o modelo estimado são realizados testes para verificar a precisão da estimativa dos coeficientes de regressão β1 e β2 e o “nível” de ajuste da reta de regressão. Para mensurar a precisão dos coeficientes de regressão β1 e β2 temos: Variância:

Equação 8

Equação 9

Erro-padrão: desvio-padrão da distribuição da amostragem do estimador, e a distribuição da amostragem de um estimador é simplesmente a disbribuição da probabilidade ou freqüência do estimador. Isto é, a distribuição do conjunto de valores do estimador obtida de todas as possíveis amostras de mesmo tamanho de uma dada população. As distribuições da amostragem são usadas para fazer inferências sobre os valores dos parâmetros da população, com base nos valores dos estimadores calculados a partir de uma ou mais amostras.

Page 10: IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)

INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial

Módulo: Estatística e modelos de otimização aplicados à logística

10

∑=

22 )ˆ(ix

epσ

β

σβ∑∑

=2

2

1)ˆ(i

i

xn

Xep

Equação 10

Equação 11

Teste F Qui-quadrado