cysneiros/mestrado.pdf

Click here to load reader

  • date post

    22-Jul-2019
  • Category

    Documents

  • view

    213
  • download

    0

Embed Size (px)

Transcript of cysneiros/mestrado.pdf

  • Estimacao e Testes em Modelos

    Lineares Generalizados com

    Restricoes nos Parametros na

    Forma de Desigualdades Lineares

    Francisco Jose de Azevedo Cysneiros

    Dissertacao apresentada

    ao

    Instituto de Matematica e Estatstica

    da

    Universidade de Sao Paulo

    para

    obtencao do grau

    de

    Mestre em Estatstica

    Area de Concentracao: Estatstica

    Orientador: Prof. Dr. Gilberto Alvarenga Paula

    Sao Paulo - junho - 1997

  • Estimacao e Testes em Modelos

    Lineares Generalizados com

    Restricoes nos Parametros na

    Forma de Desigualdades Lineares

    Francisco Jose de Azevedo Cysneiros

    Este exemplar corre-sponde a redacao finalda dissertacao devida-mente corrigida e de-fendida por Francis-co Jose de AzevedoCysneiros e aprova-da pela comissao jul-gadora.

    Aprovado em : 20 de junho de 1997

    Comissao julgadora:

    Prof. Dr. Gilberto Alvarenga Paula (Orientador) IME/USP

    Prof. Dr. Jose Galvao Leite IME/USP

    Prof. Dra Ciclia Wada IMECC/UNICAMP

  • A minha mae e irmaos,

    com gratidao,

    Ao meu pai Gilberto (in memorian),

    com saudade,

    A minha esposa

    Audrey

    com eterna paixao,

    Ao meu filho

    Rafael

    com admiracao,

    dedico com carinho e amor.

  • Agradecimentos

    Ao Professor Gilberto pela confianca e excelente orientacao dedicada na elabo-racao deste trabalho.

    A minha esposa, pelo grande apoio a mim concedido, em especial, ao meu filho,Rafael, pela compreensao e carinho por ele oferecido.

    Aos meu Pais, Gilberto e Gilvanete, que me forneceram princpios basicos efundamentais para minha formacao moral e dedicacao integral ao meu objetivo.

    Aos professores do Instituto de Matematica e Estatstica que ajudaram na minhaformacao academica.

    Ao Professor Dr. Jose Galvao Leite pela sua contribuicao nos resultados doCaptulo 2 desta dissertacao.

    Aos meus amigos que me apoiaram e ajudaram permitindo que este passo daminha vida fosse dado.

    Aos colegas do Depto. de Matematica e Estatstica da Universidade Federal daParaba (campus II) pelo apoio dado durante este curso, em especial, aos amigos

    e professores da Area de Estatstica.

    A Alba, Chico, Rosana, Cardoso, Gil, Lili, Claudia Lima e Manoel Sennano qual sempre me incentivaram nesta caminhada .

    A CAPES pelo apoio finaceiro.

  • Resumo

    O objetivo deste trabalho e apresentar de maneira formal, numa primeira eta-

    pa, a distribuicao nula bem como a equivalencia assintotica de alguns testes es-

    tatsticos, tais como razao de verossimilhanca, Wald e escore, para dois casos gerais

    de hipoteses restritas na forma de desigualdades lineares. Numa segunda etapa, dis-

    cutimos a aplicacao da teoria em modelos lineares generalizados e apresentamos

    alguns casos particulares em que simplificacoes interessantes sao obtidas. Algorit-

    mos para a obtencao das estimativas restritas dos parametros bem como cinco

    exemplos ilustrativos sao apresentados. Um programa original em S-Plus para a

    obtencao das estimavas restritas em modelos lineares generalizados e desenvolvido

    e apresentado num dos apendices.

    Abstract

    The aim of the work is to present, in the first part, a formal demonstration of the

    asymptotic null distribution as well as the asymptotic equivalence among several

    statistical tests, such as likelihood ratio, Wald and score, for testing hypotheses

    of linear inequality parameter constraints. Further, we discuss the application of

    the metodology in generalized linear models. Some particular cases with relevant

    simplifications are discussed. Algorithms for obtaining the restricted estimates and

    five illustrative examples are given. An original program in S-Plus is developed for

    obtaining the restricted estimates in generalized linear models.

  • Conteudo

    Lista de Figuras viii

    Lista de Tabelas ix

    1 Introducao 1

    2 Testes de Hipoteses com Restricoes Lineares 6

    2.1 Introducao 6

    2.2 Conceitos e definicoes 6

    2.3 Algumas propriedades assintoticas 8

    2.4 Teste de hipoteses H0 : C = 0H1 : {C 0} H0 92.5 Equivalencia assintotica dos problemas de otimizacao 16

    2.6 Distribuicao nula assintotica da estatstica D 18

    2.7 Teste de hipoteses H0 : C 0H1 : IRp H0 27

    3 Modelos Lineares Generalizados 33

    3.1 Introducao 33

    3.2 Hipotese em igualdades lineares 42

    3.3 Estimacao sob desigualdades lineares 45

    3.4 Teste de hipotese em desigualdades lineares 49

    3.5 Aplicacoes 51

    4 Alguns Casos Particulares 61

    4.1 Introducao 61

    4.2 Modelo de analise de variancia 61

  • CONTEUDO vii

    4.3 Modelo de regressao linear 62

    4.4 Ordem simples 63

    4.5 Retas paralelas 65

    4.6 Aplicacoes 67

    Conclusoes 77

    A Probabilidades de Nvel 78

    A.1 Caso de k = 3 restricoes 78

    A.2 Caso de k = 4 restricoes 78

    B Processo Infeccioso Pulmonar 80

    C Vrus da Poliomyelitis 83

    D Estudo da Relacao de Abortos com Casamentos Consanguneos 85

    E Estudo de Cancer Respiratorio em Metalurgicos 86

    E.1 Valores observados 86

    E.2 Valores esperados 87

    F Estudo de Toxidade de Inseticidas em Insetos da Farinha 88

    G Implementacao do Algoritmo no S-Plus 89

    H PAVA (pool adjacent violator algorithm) 95

    Referencias 96

  • Lista de Figuras

    2.1 Construcoes dos cones 21

    2.2 Projecoes no Cone C 21

    2.3 Projecoes de 26

    2.4 Regiao crtica do teste de Haussman-Wald 26

    2.5 Probabilidades de rejeicao sob a hipotese nula 32

    4.1 Grafico de retas separadas 71

    4.2 Retas paralelas da proporcao de insetos mortos segundo a dose 74

  • Lista de Tabelas

    3.1 Caractersticas de algumas distribuicoes da famlia exponencial 35

    3.2 Modelo logstico para a proporcao de abortos naturais 52

    3.3 Estatsticas do teste de H0 : C = 0H1 : {C 0} H0 533.4 Modelo de Poisson para o estudo dos metalurgicos 55

    3.5 Estatsticas do teste para o arsenico moderado 56

    3.6 Estatsticas do teste para o arsenico pesado 56

    3.7 Estimativas irrestrita e restrita dos parametros para o modelo (3.15) 59

    3.8 Estatsticas do teste de para a celula Hl 60

    3.9 Estatsticas do teste para a celula Ff 60

    4.1 Estimativas irrestrita e restrita dos parametros do modelo (4.6) 70

    4.2 Estatstica do teste para os dados da Poliomyelitis 71

    4.3 Estatstica do teste para os dados da Poliomyelitis 72

    4.4 Estatsticas do teste de H0 : C = 0H1 : {C 0} H0 744.5 Estatsticas do teste para o modelo de retas paralelas 75

    B.1 Estudo de cancer no processo infeccioso pulmonar 80

    C.1 Dados correspondentes ao vrus da Poliomyelitis 83

    D.1 Dados referentes ao numero de abortos em 6358 casos em Shizuoka

    City no Japao 85

    E.1 Numero observado de mortes para metalurgicos expostos ao arsenico 86

    E.2 Numero esperado de mortes para metalurgicos expostos ao arsenico 87

    F.1 Toxidade de inseticidas nos besouros da farinha 88

  • CAPITULO 1

    Introducao

    Nos anos de 1959 e 1961 deram-se as primeiras publicacoes sobre testes para

    hipoteses na forma de desigualdades. Esses trabalhos devidos a Bartholomew, a-

    presentaram resultados importantes para o caso de ordem simples (1 . . . k)em k populacoes normais independentes. Entretanto, foram Kudo (1963) e Nuesch

    (1964,1966) que mostraram que a distribuicao nula do teste da razao de verossi-

    milhanca para testar hipoteses de igualdades lineares contra desigualdades lineares

    para os coeficientes de um modelo normal linear e uma mistura de distribuicoes

    do tipo qui-quadrado, ponderadas por pesos, diferindo do caso usual, isto e, o ca-

    so em que nao ha restricoes sobre os parametros do modelo. Quando a variancia

    das observacoes e desconhecida, a distribuicao nula da estatstica da razao de ve-

    rossimilhanca e uma mistura de distribuicoes do tipo beta ou F. Os pesos para

    o calculo dessas distribuicoes no caso de k populacoes, sob a hipotese nula, nao

    dependem dos parametros. Perlman (1969) mostrou que a distribuicao nula do

    teste da razao de verossimilhanca para testar hipoteses de desigualdades lineares,

    em que a hipotese nula e composta por desigualdades e tambem uma mistura de

    qui-quadrados e propos um lema no qual define a situacao menos favoravel quando

    os pesos nao dependem dos parametros. Porem, a medida que o numero de re-

    stricoes aumenta, esses pesos tomam formas complexas. Existem formas fechadas

    para os pesos ate quatro restricoes. Bohrer e Chow (1978) escreveram um programa

    computacional para calcular os pesos ate 10 restricoes. Esse programa faz o uso

    de integracao numerica utilizando o enfoque dado em Childs (1967). No caso de

    termos uma estrutura de regressao, os pesos geralmente dependem dos parametros

    do modelo sob a hipotese nula. E importante notar que como os pesos dependem

    dos parametros, a distribuicao nula nao e mais unica como ocorre no caso de k

  • INTRODUCAO 2

    populacoes. Em Shapiro (1985) encontra-se um resumo sobre a obtencao desses

    pesos. Todas as dificuldades em calcular os pesos tem motivado o desenvolvimento

    de varias linhas de pesquisa nesta area.

    Naturalmente, os resultados de k populacoes foram estendidos para a famlia

    exponencial e tambem para outras distribuicoes tais como a multinomial. Nesses

    casos, sob condicoes gerais de regularidade, o teste da razao de verossimilhanca tem

    distribuicao nula assintotica que e uma mistura de qui-quadrados ponderadas com

    pesos similares aos do caso normal. Lee et al. (1993) fazem uma revisao das diversas

    aproximacoes desenvolvidas para os pesos e apresentam limites mais precisos que

    podem ser usados quando os pesos nao tomam formas fechadas. Barlow et al.

    (1972) e Robertson et al. (1988) lancaram livros sobre este assunto, os quais sao

    excelentes referencias para leitura.

    O estudo do poder para os testes de hipoteses com restricoes e feito atraves

    de metodos de Monte Carlo ou de aproximacoes em torno da hipotese nula, uma

    vez que os pesos assumem expressoes bem mais complexas na hipotese alternativa.

    Somente em alguns casos particulares essas funcoes tem forma fechada. Sabe-se que

    os testes restritos sao em geral mais poderosos do que outros testes competitivos

    (Hillier, 1986).

    Nessa ultima decada o estudo de testes para hipoteses com restricoes, com en-

    foque em regressao, teve um grande numero de artigos publicados. Kodde e Palm

    (1986) estenderam os resultados de Kudo (1963) para o caso de hipoteses nao-

    lineares e propuseram o uso de um teste do tipo Wald que, sob certas condicoes de

    regularidade, pode ser aplicado para situacoes em que a funcao de verossimilhanca

    e desconhecida. Gourieroux e Monford (1995) mostram a equivalencia assintotica

    da estatstica do tipo Wald com algumas estatsticas usuais. Wolak (1987,1989a)

    trata o problema de teste de hipoteses com restricao para o modelo de regressao

    linear com estruturas gerais para a matriz de variancia-covariancia dos erros. Wolak

    (1987) propoe uma estatstica da razao de verossimilhanca modificada quando a

    matriz de correlacao e conhecida, porem as variancias sao desconhecidas, e mostra

    que a distribuicao nula e uma mistura de distribuicoes do tipo F. Wolak (1989a)

  • INTRODUCAO 3

    estende os resultados de Gourieroux et al. (1982) para o caso da matriz de variancia-

    covariancia ser desconhecida e depende de um numero finito de parametros.

    Piegorch (1990) apresenta aplicacoes desta teoria em modelos lineares generali-

    zados com resposta binaria e alguns estudos de simulacao comparando o poder do

    teste da razao de verossimilhaca com restricoes nos parametros com o poder de al-

    guns metodos de comparacoes multiplas. Silvapulle (1991,1994) estuda a aplicacao

    desse tipo de teste em modelos de regressao com funcao de verossimilhanca concava,

    que englobam os modelos lineares generalizados com ligacao canonica e os modelos

    de regressao de Cox. Wolak (1991) demonstra para uma classe ampla de modelos de

    regressao, que a distribuicao nula menos favoravel nao e necessariamente atingida

    quando todas as restricoes sao satisfeitas na forma de igualdades. Nesse artigo, ele

    propoe um lema, estendendo o resultado encontrado por Perlman, no qual define

    um subconjunto da hipotese nula que contem a situacao menos favoravel. Para

    determinar a situacao menos favoravel deve-se pecorrer todo esse subconjunto no

    qual computacionalmente pode ser muito dispendioso. Wolak (1989b) sugere o uso

    de testes locais que sob condicoes adicionais de regularidade possam levar a solucao

    do problema. Farhmeir e Klinger (1994) tratam da estimacao e teste em modelos

    lineares generalizados para hipoteses de restricao em desigualdades lineares e a-

    presentam estudos numericos em que propoem um metodo para a determinacao

    da situacao menos favoravel definida no lema de Wolak. Paula e Sen (1995) verifi-

    cam que os pesos envolvidos na distribuicao nula assintotica do teste da razao de

    verossimilhanca, para algumas subclasses de modelos lineares generalizados e para

    algumas hipoteses com restricao de ordem, nao dependem dos parametros sob a

    hipotese nula quando estruturas particulares sao assumidas para a matriz modelo.

    Paula e Rojas (1997) aplicam esta teoria em modelos de regressao com distribuicao

    do valor extremo com parametro de dispersao desconhecido.

    Na pratica, podemos encontrar varios estudos em que e assumido algum tipo

    de informacao a priori, isto e, algum tipo de restricao nos parametros do modelo.

    Existe varios artigos na area de Estatstica, Econometria e Farmacologia onde

  • INTRODUCAO 4

    encontramos este tipo de abordagem. Para ilustrar, apresentamos a seguir dois

    exemplos que serao discutidos mais detalhadamente no texto.

    McDonald e Diamond (1983) propuseram modelos logsticos para explicar a

    chance de abortos naturais entre pais com algum grau de consaguinidade. Usando

    conhecimentos de genetica humana, eles levantaram a hipotese de que essa chance

    tende a aumentar com o grau de consanguinidade entre os pais. Em particular,

    para um conjunto de gestantes em tres distritos da Cidade de Shizuoka no Japao,

    descrito no Apendice D, um modelo logstico restrito foi proposto para explicar a

    proporcao de abortos naturais. As seguintes variaveis explicaticas dicotomicas (sim

    =1, nao =0) foram utilizadas :

    (i) C2 primos de 2o grau;

    (ii) C12 primos de 112

    o grau;

    (iii) C1 primos de 1o grau;

    (iv) INT vive no distrito intermediario e

    (v) URB vive no distrito urbano.

    O modelo adotado e

    log{/(1 )} = 1 + 2C2 + 3C12 + 4C1 + 5INT + 6URB

    sujeito a 4 3 2 0 , onde e a proporcao de abortos naturais.Sera que a proporcao de abortos naturais permance constante em cada distrito,

    isto e, 4 = 3 = 2 = 0? Na Subsecao 3.5.1 encontramos tanto a estimacao como

    a solucao deste problema de teste de hipoteses com restricoes nos parametros na

    forma de desigualdades lineares.

    Como segunda ilustracao, apresentamos um experimento (Finney, 1978) envol-

    vendo uma preparacao padrao do vrus da poliomyelitis e quatro preparacoes teste.

    Podemos neste caso estar interessados em verificar se a preparacao padrao nao e

    menos eficiente do que as preparacoes teste. Em outras palavras, se nao ha nen-

    huma preparacao mais potente do que a padrao no sentido de causar a doenca no

    animal num menor tempo medio possvel. As preparacoes foram combinadas em

  • INTRODUCAO 5

    doses os quais foram inoculadas em cinco ratos machos e cinco femeas. Foi ob-

    servado como resposta, o numero de dias decorridos ate o aparecimento de algum

    sintoma da doenca, denotado por Y . Esse tipo de experimento induz o seguinte

    modelo (Paula, 1997)

    log ijk` = i + ixij,

    onde xij denota a dose no nvel (i, j) e sera assumido que Y segue uma distribuicao

    gama de media e parametro de dispersao 1. Como sera discutido na Subsecao

    4.6.1, a comparacao da preparacao padrao com as demais e equivalente a testarmos

    1 [2, . . . , 5] e 1 = . . . = 5. Dois outros exemplos praticos e dois teoricos comhipoteses restritas em desigualdades sao apresentados no texto.

  • CAPITULO 2

    Testes de Hipoteses com Restricoes Lineares

    2.1 Introducao

    Neste captulo, discutiremos a distribuicao nula assintotica de algumas es-

    tatsticas para o problema de testar hipoteses do tipo H0 : C = 0 H1 : {C 0} H0 e do tipo H0 : C 0 H1 : IRp H0 onde C e uma matriz (k p)de posto completo e = (1, . . . p)

    t e um vetor de parametros pdimensional.Definimos o vetor {C 0}, formado por todas as componentes Ctj 0, onde Ctje a jesima linha da matriz C com j = 1, . . . , k. E importante salientar que a dis-tribuicao assintotica das estatsticas de teste sob H0 deixa de ser uma distribuicao

    2 sendo agora uma mistura de 2 ponderadas por probabilidades. Trataremos em

    particular de modelos parametricos cuja verossimilhanca seja concava. Dentre esses

    modelos podemos citar os modelos lineares generalizados (Nelder e Wedderburn,

    1972, 1976), modelos de regressao de Cox (Cox, 1974) e modelos de regressao com

    distribuicao log-gama generalizada (Lawless, 1980).

    2.2 Conceitos e definicoes

    Consideramos uma sequencia de variaveis aleatorias Yi, i = 1, . . . , n. Assumimos

    que as variaveis Yi, i = 1, . . . , n, sao independentemente distribudas com densidade

    f(y; ), IRp. O logaritmo da funcao de verossimilhanca denotado por L(),

    L() = L(y; ) =n

    i=1

    log f(yi; ),

    e assumido ser uma funcao contnua em . Consideramos como funcao objetivo,

    L(), que deve satisfazer as condicoes usuais de regularidade e mais as condicoes

    dadas abaixo :

  • CONCEITOS E DEFINICOES 7

    (a)1nU(0)

    D Np(0, I0) ;

    (b) 1nK(0)

    q.c J0;

    (c) U() + Ct = 0;

    (d) Ctj 0, j 0, j = 1, . . . , k;

    (e) j{Ctj } = 0, j = 1, . . . , k,

    onde I0 e J0 sao matrizes definidas positivas, U() =

    L(), K() =

    2

    tL(),

    e o estimador de maxima verossimilhanca obtido maximizando-se L() sujeito

    a C 0, e = (1, . . . k)t sao os multiplicadores de Kuhn-Tucker associadosa . Denotamos , o estimador de maxima verossimilhanca resultante do prob-

    lema de maximizacao de L() sujeito a , denominado estimador irrestritode e 0, como o verdadeiro valor do parametros . As condicoes (a) e (b) sao

    usuais no caso de modelos irrestritos, porem as condicoes (c)-(e) sao necessarias

    para as demonstracoes que serao apresentadas nesta secao e sao decorrentes das

    condicoes de Kuhn-Tucker. A condicao (d) e conhecida como condicao do sinal e

    (e) como condicao de exclusao. Estamos assumindo que sob condicoes usuais de

    regularidade

    n( 0)D Np(0,J 10 I0J 10 ). Como e assumido que I0 = J0,

    logo

    n( 0)D Np(0,J 10 ). Esse resultado somente e valido para o estimador

    restrito quando 0 pertencer ao interior do conjunto C 0, isto e, quandoC0 > 0. Se 0 esta na fronteira do conjunto, C0 = 0, a distribuicao assintotica de

    e muito mais complexa de ser obtida, tendo em geral a forma de um normal multi-

    variada truncada na origem (Wang, 1996). Porem, para demonstrar a equivalencia

    assintotica das varias estatsticas que serao descritas mais adiante precisamos ape-

    nas das condicoes (a)-(e) e das suposicoes de que L() e contnua em torno de 0 e

    que os estimadores , e 0 sao consistentes, onde 0 e o estimador resultante do

    problema de maximizacao de L() sujeito a C = 0. No entanto, como observam

  • ALGUMAS PROPRIEDADES ASSINTOTICAS 8

    Gourieroux e Monford (1995, Cap.21) a consistencia dos estimadores independe da

    forma de maximizacao. Isso quer dizer que se for consistente entao e 0 tambem

    serao. Assumimos entao que P 0.

    Propriedade 2.1 Tem-se que

    = (C0Ct)1C0U()

    onde 0 e uma matriz definida positiva arbitraria de posto k.

    Prova. Vimos que

    U() + Ct = 0.

    Logo, pre-multiplicando a expressao acima por C0 obtemos

    C0U() + C0Ct = 0, entao (2.1)

    = (C0Ct)1C0U().

    2.3 Algumas propriedades assintoticas

    Como foi mencionado anteriormente a consistencia do estimador obtido como

    a solucao do problema de maximizacao da funcao objetivo L() nao depende da

    existencia das restricoes. Logo, o estimador e consistente para o verdadeiro valor

    0 desde que o estimador irrestrito seja tambem consistente. Da segue que

    1

    n = (C0Ct)1C0

    1

    nU(0)

    P 0,

    pois a condicao assintotica usual de identificabilidade dada em Gourieroux e Mon-

    ford (1995, pg.89, Cap.3; pg. 246, Cap 21) em 0 implica que

    0, limn

    Prob{| 1nU(0) | } = 0.

    Portanto1

    n

    P 0. O estudo da distribuicao assintotica de

    n

    n =

    1n

    e tao

    complicado quanto o estudo da distribuicao assintotica de e nao sera objeto de

    estudo neste trabalho

  • TESTE DE HIPOTESES H0 : C = 0H1 : {C 0} H0 9

    2.4 Teste de hipoteses H0 : C = 0H1 : {C 0} H0

    Nesta secao, pretendemos descrever algumas estatsticas para testar a hipotese

    H0 : C = 0 H1 : {C 0} H0 e mostrar a equivalencia assintotica entreelas. Seja 0, o vetor de multiplicadores de Lagrange associado as restricoes de

    igualdades C = 0 e U(0) a funcao escore avaliada em 0. Similarmente para0, mostra-se que

    1

    n0

    P 0. Definimos agora varias estatsticas para testar ashipoteses H0 e H1 descritas acima.

    2.4.1 Estatstica do teste da razao de verossimilhanca

    A estatstica do teste da razao de verossimilhanca e definida por

    R = 2{L() L(0)} (2.2)

    = 2{ max:C0

    L() max:C=0

    L()}.

    Sob a hipotese nula H0 : C = 0, os estimadores e 0 sao consistentes para o

    verdadeiro valor 0. Expandindo em serie de Taylor a funcao L() em torno de 0,

    obtemos

    L() = L(0) +

    {1n

    L(0)

    }tn( 0)

    +n

    2( 0)t

    {1

    n

    2

    tL(0)

    }( 0) + Rn, (2.3)

    onde Rn = op( 0 2). Como 0P 0 0 2

    P 0, logo 0 2=

    op(1). Entao podemos escrever Rn =

    op(1) Rn

    0 2 0 2

    op(1)

    = op(1). Temos que,

    pela condicao de regularidade (b), o segundo termo entre { } na expressao (2.3)converge em probabilidade para J0. Podemos considerar J0 = I0, entao

    R = 2

    {1nU t(0)

    n( 0)

    n

    2( 0)tI0( 0) +

    n

    2( 0)tI0( 0)

    +n

    2( 0)t

    K(0)n

    ( 0) + op(1)[

    1nU t(0)

    n(0 0)

  • TESTE DE HIPOTESES H0 : C = 0H1 : {C 0} H0 10

    n2(0 0)tI0(0 0) +

    n

    2(0 0)tI0(0 0)

    +n

    2(0 0)t

    K(0)n

    (0 0) + op(1)]}

    Observe que

    n

    2( 0)tI0( 0) +

    n

    2( 0)t

    K(0)n

    ( 0) + op(1)

    =n

    2( 0)t

    (I0 +

    K(0)n

    )( 0) + op(1)

    =

    n

    2( 0)t

    (I0 +

    K(0)n

    )

    n( 0) + op(1)

    =1

    2op(1) + op(1)

    Similarmente, podemos mostrar que

    n

    2(0 0)tI0(0 0) +

    n

    2(0 0)t

    K(0)n

    (0 0) + op(1) =1

    2op(1) + op(1).

    Portanto,

    R = 2

    {1nU t(0)

    n( 0)

    n

    2( 0)tI0( 0) + op(1)

    [

    1nU t(0)

    n(0 0)

    n

    2(0 0)tI0(0 0) + op(1)

    ]}

    = 2

    [1nU t(0)

    n( 0)

    1nU t(0)

    n(0 0) op(1)

    n2( 0)tI0( 0) +

    n

    2(0 0)tI0(0 0) + op(1)

    ]+ op(1). (2.4)

    Implicitamente, assumimos que L() esta bem definida na vizinhanca de 0. Ex-

    pandindo em serie de Taylor a funcao U() em torno de 0, obtemos

    U() = U(0) +K(0)( 0) + op(1),

    e pelas condicoes de regularidade iniciais e como

    U() + Ct = 0.

  • TESTE DE HIPOTESES H0 : C = 0H1 : {C 0} H0 11

    Temos,

    U() = U(0) +K(0)( 0) + op(1) + Ct = 01nU(0) +

    1nK(0)( 0) +

    1n

    Ct +1n

    op(1) = 0

    1nU(0) I0

    n( 0) + I0

    n( 0)

    +1nK(0)( 0) +

    1n

    Ct +1n

    op(1) = 0.

    Temos que

    I0

    n( 0) +

    n

    nK(0)( 0) +

    1n

    op(1)

    =

    (I0 +

    K(0)n

    )

    n( 0) +1n

    op(1) = op(1).

    Assim,1nU(0) I0

    n( 0) +

    1n

    Ct + op(1) = 0. (2.5)

    Similarmente para 0, temos que U(0) + Ct0 = 0. Logo,

    1nU(0) I0

    n(0 0) +

    1n

    Ct0 + op(1) = 0. (2.6)

    Substituindo as expressoes (2.5) e (2.6) em (2.4) , chegamos ao seguinte :

    R = 2

    {[

    n( 0)tI0 1n

    tC op(1)]

    n( 0)

    [

    n(0 0)tI0 1n

    (0)tC op(1)]

    n(0 0) op(1)

    n2( 0)tI0( 0) +

    n

    2(0 0)tI0(0 0) + op(1)

    }+ op(1)

    = n( 0)tI0( 0) n(0 0)tI0(0 0)

    2{

    1n

    tC

    n( 0) + op(1)[

    1n

    (0)tC

    n(0 0) + op(1)]

    op(1)

    n(0 0) + op(1)

    n( 0)}

    + op(1).

  • TESTE DE HIPOTESES H0 : C = 0H1 : {C 0} H0 12

    Agora, usaremos a condicao de exclusao {Ctj }j = 0, j. Note que Ctj0 = 0,logo temos as igualdades

    tC =tn

    C

    n( 0) + op(1) = 0. (2.7)

    Por outro lado, temos que C0 = C0 = 0. Portanto,

    (0)tC0 =(0)t

    nC

    n(0 0) + op(1) = 0. (2.8)

    Logo, a estatstica do teste R satisfaz

    R = n( 0)tI0( 0) n(0 0)tI0(0 0)

    n(0 0)top(1) +

    n( 0)top(1) + op(1), (2.9)

    e pelo teorema de Slutsky podemos concluir que

    R n( 0)tI0( 0) n(0 0)tI0(0 0), (2.10)

    onde significa assintoticamente equivalente.

    2.4.2 Estatstica do teste tipo Hausman-Wald

    A ideia aqui e comparar os estimadores e 0. A estatstica do teste Hausman-

    Wald e definida por

    H = n( 0)tI( 0), (2.11)

    onde I e estimador consistente de I0.

    Propriedade 2.2 As estatsticas R e H sao assintoticamente equivalentes sob a

    hipotese nula, H0.

    Prova. Substituindo ( 0) por ( 0 + 0 0) na expressao (2.9), obtemos

    R = n( 0)tI0( 0) n(0 0)tI0(0 0) + op[g(0, , 0)]

    = n( 0 + 0 0)tI0( 0 + 0 0) n(0 0)tI0(0 0)

    +op[g(0, , 0)]

    = n( 0)tI0( 0) + 2n( 0)tI0(0 0) + op[g(0, , 0)], (2.12)

  • TESTE DE HIPOTESES H0 : C = 0H1 : {C 0} H0 13

    onde op[g(0, , 0)] =

    n( 0)top(1)

    n(0 0)top(1)+ op(1). Por outro lado,

    fazendo a diferenca (2.6) (2.5) obtemos

    I0

    n( 0) = 1n

    Ct( 0) + op(1) op(1). (2.13)

    Entao,

    R = n( 0)tI0( 0) + 2{[

    1n

    ( 0)tC + op(1) op(1)]

    n(0 0)}

    +op[g(0, , 0)]

    = n( 0)tI0( 0) + 21n

    ( 0)tC

    n(0 0) + op(1)

    n(0 0)

    op(1)

    n(0 0) + op[g(0, , 0)]

    = n( 0)tI0( 0) + 21n

    ( 0)tC

    n(0 0) + op[b(0, , 0)].

    onde op[b(0, , 0)] = op(1)

    n(0 0) op(1)

    n(0 0) + op[g(0, , 0)]. De

    (2.7) e (2.8), temos que1n

    ( 0)tC

    n(00)P 0 e pelo teorema de Slutsky

    op[g(0, , 0)] vai em probabilidade para zero. Logo,

    R n( 0)tI0( 0)

    e substituindo I0 por I, um estimador consistente, temos que R H .

    2.4.3 Estatstica do teste de multiplicadores de Kuhn-Tucker

    Seja a estatstica do teste de multiplicadores Kuhn-Tucker definida por

    KT =1

    n( 0)tCI1Ct( 0) (2.14)

    =1

    n

    [U() U(0)

    ]tI1

    [U() U(0)

    ].

    Propriedade 2.3 Sob a hipotese nula H0, a estatstica KT e assintoticamente

    equivalente a R e H .

    Prova.

    R = n( 0)tI0I10 I0( 0) +2n

    ( 0)tC

    n(0 0)

    +op[b(0, , 0)]

  • TESTE DE HIPOTESES H0 : C = 0H1 : {C 0} H0 14

    e substituindo a expressao (2.13) na expressao acima obtemos

    R =

    [1n

    ( 0)tC + op(1) op(1)]I10

    [1n

    Ct( 0) + op(1) op(1)]

    +2n

    ( 0)tC

    n(0 0) + op[b(0, , 0)]

    =1

    n( 0)tCI10 Ct( 0) +

    1n

    ( 0)tCI10 [op(1) op(1)]

    + [op(1) op(1)] I101n

    Ct( 0) + [op(1) op(1)]tI10 [op(1) op(1)]

    +2n

    ( 0)tC

    n(0 0) + op[b(0, , 0)]

    e pelo teorema de Slutsky podemos dizer que

    R 1n

    ( 0)tCI10 Ct( 0). (2.15)

    Como I e um estimador consistente de I0 entao KT e assintoticamente equivalentea R e H .

    2.4.4 Estatstica do teste de Wald

    Seja a estatstica do teste de Wald definida por

    W = n(C)t(CI1Ct)1C. (2.16)

    Propriedade 2.4 Sob a hipotese nula, a estatstica KT e assintoticamente equi-

    valente a R, H e KT .

    Prova. Pela expressao (2.13), temos que

    ( 0) = 1nI10 Ct( 0) +

    1nI10 [op(1) op(1)].

    Entao, desde que C0 = 0, obtemos

    C = C1nI10 Ct

    1n

    ( 0) + C 1nI10 [op(1) op(1)].

  • TESTE DE HIPOTESES H0 : C = 0H1 : {C 0} H0 15

    Logo,

    nC CI10 Ct

    1n

    ( 0) (2.17)

    e substituindo a expressao (2.17) em (2.15) obtemos

    n(C)t(CI0Ct)1

    nC

    [CI10 Ct

    1n

    ( 0)]t

    (CI10 Ct)1[CI10 Ct

    1n

    ( 0)]

    =1

    n( 0)tCI10 Ct(CI10 Ct)1CI10 Ct( 0)

    =1

    n( 0)tCI10 Ct( 0),

    segue-se imediatamente as expressoes KT e W substituindo I0 por um estimadorconsistente I.

    Em particular se I0 = I, a matriz identidade, e se a hipotese nula e da formaH0 : = 0 entao a estatstica do teste de Wald reduz a

    W = n 2 .

    2.4.5 Estatstica do teste escore

    A estatstica do teste escore e definida por

    S =1

    n[U(0) U()]tI1Ct(CI1Ct)1CI1[U(0) U()]. (2.18)

    Propriedade 2.5 A estatstica S, sob H0, e assintoticamente equivalente a R, H , KT

    e W .

    Prova. Utilizando (2.1) com 0 = I10 , obtemos

    1n

    = (CI10 Ct)1CI101nU().

    Obtem-se uma relacao similar para1n

    0 e1nU(0). Logo,

    KT =1n

    ( 0)tCI10 Ct1n

    ( 0) + op[v(0, , 0)]

  • EQUIVALENCIA ASSINTOTICA DOS PROBLEMAS DE OTIMIZACAO 16

    =

    [(CI10 Ct)1CI10

    1nU() + (CI10 Ct)1CI10

    1nU(0)

    ]tCI10 Ct[

    (CI10 Ct)1CI101nU() + (CI10 Ct)1CI10

    1nU(0)

    ]+ op[v(0, ,

    0)]

    =1n

    [U(0) U()

    ]t[(CI10 Ct)1CI10 ]t (CI10 Ct)(CI10 Ct)1

    I

    CI101n

    [U(0) U()

    ]+ op[v(0, ,

    0)]

    1n

    [U(0) U()

    ]tI10 Ct(CI10 Ct)1CI10

    [U(0) U()

    ].

    onde op[v(0, , 0)] =

    1n

    (0)tCI10 [op(1) op(1)]+[op(1) op(1)] I101n

    Ct(

    0)+ [op(1) op(1)]tI10 [op(1) op(1)]+2n

    ( 0)tC

    n(0 0)+ op[b(0, , 0)]

    2.5 Equivalencia assintotica dos problemas de otimizacao

    Sem perda de generalidade, seja a funcao objetivo L() = n2( )tI( ),

    onde e o estimador irrestrito de . Podemos definir os seguintes problemas de

    otimizacao :

    P :{

    max

    L()

    sujeito a C 0

    e

    P0 :{

    max

    L()

    sujeito a C = 0.

    Propriedade 2.6 As estatsticas S, R, H , KT e W , que sao baseadas nos

    problemas de otimizacao P0 e P sao assintoticamente equivalentes as estatsticasS, R, H , KT e W sob H0.

    Prova. A prova e semelhante as provas anteriores.

    Considere agora os seguintes problemas de otimizacao

    P :

    max n

    2( )tI( )

    sujeito a C0 + C( 0) 0

  • EQUIVALENCIA ASSINTOTICA DOS PROBLEMAS DE OTIMIZACAO 17

    e

    P0 :

    max n

    2( )tI( )

    sujeito a C0 + C( 0) = 0.Observamos que a estatstica para o teste estatstico da razao de verossimilhanca

    sob as hipoteses H0 : C = 0 H1 : {C 0} H0 e o valor otimo da funcaoobjetivo do problema de otimizacao

    P :

    max n( )tI( ) + n( 0)tI( 0)

    sujeito a C0 + C( 0) 0,

    onde 0 e a solucao do problema P0. Isto e, o valor otimo da funcao objetivo doproblema de otimizacao P e dado por

    2

    [maxP

    L()maxP0

    L()

    ].

    Entao, usando a teoria de dualidade para otimizacao quadratica sob restricoes

    lineares (vide Luenberger, 1969, Cap.8; Avriel, 1976, Cap.7), temos que o valor

    otimo da funcao objetivo do problema P e tambem o valor otimo da funcao objetivodo problema de otimizacao abaixo

    D :

    min1

    n( 0)tCI1Ct( 0)

    sujeito a 0,

    onde 0 e o vetor de multiplicadores de Lagrange no problema de otimizacao P0.Logo, substituindo a matriz associada a forma quadratica definida na funcao obje-

    tivo por um estimador consistente sob H0 nada modifica nos resultados assintoticos

    obtidos.

    Propriedade 2.7 Considere entao o problema de otimizacao

    D :

    min1

    n( 0)tCI(0)1Ct( 0)

    sujeito a 0.

    Seja D o valor otimo da funcao objetivo do problema acima. Essa estatstica, que

    e chamada de estatstica dual do problema P , e assintoticamente equivalente aS, R, H , KT e W sob H0.

  • DISTRIBUICAO NULA ASSINTOTICA DA ESTATSTICA D 18

    2.6 Distribuicao nula assintotica da estatstica D

    Como foi mostrado anteriormente, as estatsticas do teste sao assintoticamente

    equivalentes a D sob H0. Logo, e suficiente encontrarmos a distribuicao nula

    assintotica de D.

    Note que a variancia assintotica de1n

    0 e dada por V ar(1n

    0) = 10 =

    (CI10 Ct)1 (Gourieroux e Monfort, Cap. 18). O problema reduz entao a encontrara distribuicao assintotica de

    = min:0

    1

    n( 0)t0( 0).

    Seja 0 = 1/20

    0n

    e = 1/20

    n

    . Entao, encontrar a distribuicao nula assintotica

    de e equivalente a encontrar a distribuicao assintotica de

    = min:

    1/20 0

    0 2,

    onde 0 e assintoticamente distribuda como uma normal padrao.

    Lema 2.1 Seja X um vetor de variaveis aleatorias normais padrao de dimensao

    k, isto e , X Nk(0, I). Seja R uma matriz simetrica nao-singular de posto k.Entao, a distribuicao de

    = minx:Rx0

    X x 2

    e uma mistura de distribuicoes do tipo qui-quadrado, isto e

    k

    j=0

    j2j ,

    onde j, j = 1, . . . , k, e uma sequencia de pesos satisfazendo

    j 0, ek

    j=0

    j = 1,

    onde 20 denota o ponto de massa da distribuicao na origem.

    Prova. Vamos provar inicialmente para o caso de duas restricoes. Primeiro vamos

  • DISTRIBUICAO NULA ASSINTOTICA DA ESTATSTICA D 19

    apresentar algumas definicoes:

    1. p denota o espaco euclidiano p-dimensional e nos escrevemos x 0 (x > 0)para indicar que cada componente de x e nao-negativa (positiva);

    2. Um conjunto C em p e positivo homogeneo se x C cx C para todo realpositivo c e assumiremos que esses conjuntos sao fechados e convexos;

    3. O conjuntoA que contem pelo menos um ponto diferente de zero e dito unilateral,se existe um ponto z? diferente de zero tal que a

    tz? > 0,a A nao nulo;4. Um conjunto C positivo homogeneo fechado e unilateral e chamado de coneconvexo.

    Sejam as restricoes Rx 0 para as componentes do vetor Rx, x = [x1, x2]t.Desde que R seja uma matriz simetrica entao essas condicoes podem ser escritas

    como Rt1x 0 e Rt2x 0, onde

    R1 =

    [R11R21

    ]e R2 =

    [R12R22

    ].

    Entao, o conjunto de pontos C(12) = {x : Rt1x 0, Rt2x 0} constitue um coneconvexo em IR2. Para determinarmos tal cone e suficiente encontrarmos dois vetores

    R1 e R2 tais que

    Rt1R1 > 0, Rt2R2 > 0, R

    t1R2 = 0 e R

    t2R1 = 0.

    Prova. Considere R = [R1, R2] = R1, entao o conjunto de pontos C(12) pode ser

    escrito da forma {x : x = 1R1 + 2R2 com 1 0, 2 0} = C?(12). Neste caso ademonstracao segue facilmente.

    ()Seja x0 C?(12), entao x0 pode ser escrito na forma x0 = 1R1 + 2R2 com

    1 0, 2 0. Temos entao que

    Rt1x0 = Rt1(1R1+2R2) = 1R

    t1R1+2R

    t1R2 = 1(R

    t1R1)+2(R

    t2R1)

    t Rt1x0 0, (1)

    Rt2x0 = Rt2(1R1+2R2) = 1R

    t2R1+2R

    t2R2 = 1(R

    t1R2)

    t+2(Rt2R2) Rt2x0 0, (2).

    De (1) e (2) segue-se x0 C(12).

  • DISTRIBUICAO NULA ASSINTOTICA DA ESTATSTICA D 20

    ()Como Rt1x 0 e Rt2x 0 entao y = [y1, y2]t onde y 0 tal que{

    y1 = R11x1 + R21x2y2 = R12x1 + R22x2.

    Tomando R que e a inversa de R temos Ry = RRtx Ry = x. Isto e,{x1 = R11y1 + R12y2x2 = R21y1 + R22y2.

    Portanto {x = 1R1 + 2R2 com 1 0 e 2 0} C?(12).

    Definindo agora os cones convexos, similarmente ao anterior

    C(1) = {x : Rt1x 0, Rt2x 0} = {x : x = 1R1 + 2R2, 1 0, 2 0};C(2) = {x : Rt1x 0, Rt2x 0} = {x : x = 1R1 + 2R2, 1 0, 2 0} eC = {x : Rt1x 0, Rt2x 0} = {x : x = 1R1 + 2R2, 1 0, 2 0}.

    Seja

    = minx:Rx0

    X x 2= X ProjC(12)X 2,

    onde ProjC(12)X denota a projecao de X no cone C(12).

    Teorema 2.1 Se C = L e um subespaco linear em IR2 entao C = L e o comple-

    mento ortogonal de L denominado cone dual, com L = {y : xty = 0, x L}.Se C e convexo e fechado entao (C) = C, x, x ProjCX = ProjCX.

    Prova. A demonstracao e encontrada em Shapiro (1985b)

    Logo,

    = X ProjC(12)X 2= ProjCX 2 .

    Entao, sex C(12); ProjCX 2= 0, pois ProjC(12)X = Xx C(1); ProjCX 2= ProjR2X 2x C(2); ProjCX 2= ProjR1X 2x C; ProjCX 2= X 2, pois ProjC(12)X 2= 0.

    Pelas Figuras 2.1 e 2.2, podemos ver que se X C(12), entao ProjX em Ccoincide com a projecao no subespaco de dimensao zero. Se X C(1) C(2), entaoProjX coincide com a projecao no subespaco de dimensao 1 e se X C, entaoProjX coincide com a projecao no subespaco de dimensao 2.

  • DISTRIBUICAO NULA ASSINTOTICA DA ESTATSTICA D 21

    Figura 2.1 Construcoes dos cones

    Figura 2.2 Projecoes no Cone C

    Para calcular Prob{ A}, onde A e um subconjunto arbitrario, temos oseguinte :

    Prob{ A} = Prob{ A | X C(12)}Prob{X C(12)}

    +Prob{ A | X C(1)}Prob{X C(1)}

    +Prob{ A | X C(2)}Prob{X C(2)}

    +Prob{ A | X C}Prob{X C}.

    Se X C, entao = X 2= X21 + X22 . Logo, Prob{ A | X C} =Prob{X21 + X22 A | X C} = Prob{X21 + X22 A | X1 0, X2 0}, pois(X1, X2) C entao Rt1X 0, Rt2X 0 RX 0 RRX 0 X 0.Como X N(0, I) e fazendo uma transformacao em coordenadas polares comX1 = d cos e X2 = d sen temos que Prob{X21 + X22 A | X1 0, X2 0} =Prob{d2 A | d cos 0, d sen 0} = Prob{d2 A | cos 0, sen 0}.Como d e sao independentes (Rossi, pg.231) obtemos Prob{X21 +X22 A}, ondeX21 + X

    22 22.

    Se X C(12) = 0. Logo, Prob{ A | X C(12)} = Prob{0 A | X C(12)} = Prob0{A}, onde Prob0{A} e a distribuicao do ponto de massa na origem.

    Se X C(1) = ProjR2X 2= X21 . Logo, Prob{ A | X C(1)} =Prob{X21 A | X1 0, X2 0}. Como a distribuicao normal e invariante a trans-

  • DISTRIBUICAO NULA ASSINTOTICA DA ESTATSTICA D 22

    formacoes ortogonais, podemos assumir que cada cone C(1) e C(2), que tem um

    angulo ortogonal ao seu vertice, coincide com o quadrante positivo generalizado.

    Entao, temos que Prob{X21 A | X1 0, X2 0} = Prob{X21 A | X1 0}. Pe-lo teorema da probabilidade total podemos escrever Prob{X21 A} = Prob{X21 A | X1 0}Prob{X1 0} + Prob{X21 A | X1 0}Prob{X1 0}. E pelasimetria da distribuicao normal,

    Prob{X21 A} = Prob{X21 A | X1 0}/2 + Prob{X21 A | X1 0}/2. Logo,Prob{X21 A | X1 0} = Prob{X21 A}, onde X21 21.

    Similarmente, se X C(2) = ProjR1X 2= X22 . Logo, Prob{X22 A |X1 0, X2 0} = Prob{X22 A | X2 0} = Prob{X22 A}, onde X2 21.Portanto,

    Prob{ A} = 222 + 121 + 020,

    onde

    0 = Prob{X C(12)}

    1 = Prob{X C(1)}+ Prob{X C(2)}

    2 = Prob{X C}

    e 20 denota a distribuicao degenerada na origem. Para o caso geral, isto e, quando k

    e arbitrario, a prova acompanha esses passos. E necessario que definamos Rj, j =

    1, . . . , k, vetores coluna da matriz R e Rj, j = 1, . . . , k, vetores coluna da matriz

    R1. Entao, para cada subconjunto A de {1, . . . , k} , definimos o cone

    CA = {x =jA

    jRj +j /A

    jRj, com j 0 se j A, e j 0 se j / A}.

    Entao, segue o resultado que

    k

    j=0

    j2j ,

    onde

    j =

    {A:cardinal de A=kj}Prob{X CA}. (2.19)

  • DISTRIBUICAO NULA ASSINTOTICA DA ESTATSTICA D 23

    Propriedade 2.8 As estatiststica R, H , W , KT , S e D, sob H0 sao todas as-

    sintoticamente distribudas como uma mistura de qui-quadrados, isto e,

    D k

    j=0

    j2j ,

    onde os pesos sao dados por (2.19) e a matriz R = (CI10 Ct)1/2.

    Prova. A prova e a utilizacao imediata do Lema 2.1.

    2.6.1 Pesos

    Nas secoes anteriores, vimos que a distribuicao nula da estatstica do teste de-

    pende de pesos. Esses pesos sao conhecidos como probabilidades de nvel pois

    significa a probabilidade do vetor C ter exatamente ` componentes maiores que

    zero, e dependem da matriz R2 que pode depender dos parametros. Um caso es-

    pecial verifica-se quando R2 e uma matriz identidade de ordem k. Nesse caso, os

    pesos ficam dados por

    `(k, Ik) =

    (k

    `

    )2k, ` = 0, . . . k.

    No caso normal linear com uma unica restricao, k = 1, a estatstica da razao de

    verossimilhanca que coincide com as demais estatsticas fica dada por

    R =(C)2

    V ar(C).

    Seja

    C =

    {C se C > 0

    0 se C 0.

    Fazendo z = C/{V ar(C)}1/2, obtem-se

    R =

    {z2 se z > 00 se z 0

    e como foi mostrado anteriormente sob a hipotese nula, H0 : C = 0, a distribuicao

    nula de R para c > 0 e dada por 1221 e a regiao crtica de nvel de significancia

    fica dada por {R > c}, onde c e tal que Prob{21 > c} = 2. Podemos ver

  • DISTRIBUICAO NULA ASSINTOTICA DA ESTATSTICA D 24

    que, se aplicarmos um teste tradicional bicaudal, a regiao crtica seria definida por

    {R > c?} = , onde c? e tal que Prob{21 > c?} = . Observe que c? e sempremaior do que c, logo o teste irrestrito tradicional induz a uma aceitacao mais

    frequente do que o teste restrito.

    Suponha agora o caso de k = 2 restricoes. Como a distribuicao de X e invariante

    sob transformacoes ortogonais, mostra-se que Prob{X CA} = a/2, onde ae o angulo formado pelo vertice do cone CA. Temos entao que 1 = 1/2. Temos

    ainda que

    cos 12 =Rt1R2

    Rt1R1

    Rt2R2

    .

    Desde que R1 e uma matriz simetrica, essa razao e igual a

    r12r11

    r22,

    onde rij e o termo generico de R2 = CI1(0)Ct. Logo, o resultado

    cos 12 =Ct1I1(0)C2

    Ct1I1(0)C1

    Ct2I1(0)C2,

    onde Cti e i-esima linha de C. Assim,

    0 =122

    e 2 =1

    2 12

    2.

    Entao, 0 pode ser calculado como

    0 =1

    2cos1(as(C

    t1, C

    t2)),

    onde as denota o coeficiente de correlacao linear assintotico entre Ct1 e C

    t2.

    Portanto, para calcular os pesos devemos calcular a probabilidade do quadrante

    positivo generalizado de uma normal k-variada de media zero e matriz de variancia-

    covariancia R2. Podemos comentar que ha forma explcita para ate tres restricoes

    (Apendice A). No caso de quatro ou mais restricoes sao utilizados metodos numericos

    de integracao. Childs (1967) apresenta uma formula reduzida para calcular as pro-

    babilidades do quadrante e tambem uma metodologia para a simplificacao dessa

  • DISTRIBUICAO NULA ASSINTOTICA DA ESTATSTICA D 25

    probabilidade em uma unica integral no intervalo [0, 1] para o caso de k = 4. Sun

    (1988a) mostra que essa metodologia pode ser estendida para o caso k 4, e quea probabilidade do quadrante positivo generalizado e calculada como uma combi-

    nacao linear de integrais de ordem ([k/2] 1) no intervalo [0, 1]. Vemos que parao caso de que k = 4 e k = 5, somente e preciso calcular uma integral no intervalo

    [0, 1]. Para os casos de k = 6 e k = 7, calculamos uma integral dupla em [0, 1][0, 1]e assim por diante. Bohrer e Chow (1978) desenvolveram um programa em For-

    tran para o calculo das probabilidades de nvel ate k = 10 restricoes. Sun (1988b)

    tambem desenvolveu um programa para o calculo dessas probabilidades. A difi-

    culdade no calculo dessas probabilidades tem motivado o surgimento de pesquisas

    com o objetivo de encontrar aproximacoes para os coeficientes de `(k, R2)s.

    Podemos citar o livro de Robertson et al. (1988, Cap.3) onde encontra-se uma

    excelente revisao sobre a abordagem e procedimentos para simplificar o calculo

    desses pesos. Em alguns casos particulares, tais como hipoteses de quase-ordem

    (i j e j ` entao i `) para as medias de k populacoes normais inde-pendentes. Tambem encontra-se em Kodde e Palm (1986) limites superior e inferior

    para as probabilidades de nvel os quais valem para situacoes mais gerais,

    1

    2Prob{21 c} Prob{R c}

    1

    2Prob{2k1 c}+

    1

    2Prob{2k c},

    onde c > 0. Kodde e Palm (1986) apresentam tambem valores crticos para os

    limites acima para alguns nveis de significancia usuais. Com o aumento do numero

    de restricoes essa banda fica imprecisa, dificultando a decisao.

    2.6.2 Exemplo

    Suponha que o nosso problema seja fazer inferencias sobre o parametro =

    [1, 2]t. Assumimos que o problema tenha sido normalizado tal como o estimador

    de maxima verossimilhanca de satisfaz

    n( 0)D N(0, 2I). Esse e o caso

    do modelo y = X + u, u N(0, 2I), onde X e uma matriz n 2 satisfazendoX tX = I. Nos impomos as seguintes restricoes :

    (i)

    {1 0

    2 r1 0,

  • DISTRIBUICAO NULA ASSINTOTICA DA ESTATSTICA D 26

    onde r e uma constante.

    O interesse e testar H0 : = 0H1 : {C 0} H0, onde

    C =

    [1 0

    r 1

    ].

    Um estimador, que e assintoticamente equivalente ao estimador restrito por de-

    sigualdades pode ser considerado como a projecao ortogonal de no conjunto

    definido pelas inequacoes (i) (Fig. 2.3).

    Figura 2.3 Projecoes de

    Entao, a regiao crtica do teste Hausman-Wald fica dada por

    RC ={ IR2; n

    2

    2 c

    },

    onde c e o percentil (1 ) da mistura de qui-quadrados(12

    2

    )20 +

    1

    221 +

    222,

    onde denota o angulo das linhas dados por 1 = 0, 2r1 = 0, 2 e um estimadorconsistente de 2 e

    =1

    2Prob{21 > c}+

    2Prob{22 > c}.

    Figura 2.4 Regiao crtica do teste de Haussman-Wald

  • TESTE DE HIPOTESES H0 : C 0H1 : IRP H0 27

    2.7 Teste de hipoteses H0 : C 0H1 : IRp H0

    Quando nao existe uma lei que justifique a restricao populacional e sim uma

    suspeita da existencia das restricoes e interessante testar hipoteses do tipo H0 :

    C 0 H1 : IRp H0. Podemos observar que a hipotese nula e composta comrestricoes nos parametros enquanto que a hipotese alternativa e irrestrita. Podemos

    tambem, definir algumas estatsticas do teste similarmente ao caso anterior. Por

    exemplo, a estatstica da razao de verossimilhanca fica agora dada por

    R = 2{L() L()

    },

    ja a estatstica do tipo Wald toma a forma

    W = min:C0

    {n( )tI()( )}.

    Como a hipotese nula e composta, devemos salientar a seguinte observacao :

    A distribuicao nula assintotica de W pode nao existir e depende do verdadeiro

    valor do parametro 0 que satisfaz C 0. Trabalhando sobre um regiao crticado tipo {W c}, o erro tipo I fica dado por

    sup0:C00

    Prob0{W c} .

    Wolak (1991) propos um lema no qual apresenta uma metodologia para encontrar

    a situacao nula menos favoravel.

    2.7.1 Lema de Wolak

    Antes de apresentarmos o lema de Wolak, vamos mostrar alguns resultados

    encontrados por Perlman (1969), que propos uma maneira de resolver o teste de

    hipoteses da forma H0 : 0H1 : IRkH0 levando em conta que Nk(, 0),onde 0 e uma matriz definida positiva conhecida. Seja

    W Pn = mint:t0

    ( t)t10 ( t). (2.20)

    Como a hipotese nula e composta, devemos procurar a situacao menos favoravel

  • TESTE DE HIPOTESES H0 : C 0H1 : IRP H0 28

    no conjunto determinado sob H0 para determinar o valor crtico exato de nvel .

    Perlman (1969) mostrou, para c > 0, que

    sup0

    Prob{W Pn c | , 0} = Prob{W Pn c | 0, 0},

    onde Prob{W Pn c | , 0} e a probabilidade do evento [W Pn c] dado que em (2.20) e Nk(, 0). E importante salientar que esse resultado somente e valido

    quando nao ha dependencia funcional entre 0 e o vetor de parametros .

    Para o caso da dependencia funcional entre 0 e o vetor de parametros , Wolak

    (1991) propos um lema. Para mostrar esse lema, precisamos de algumas suposicoes

    adicionais de regularidade que sao os Teoremas 4.1.2 e 4.1.3 dados em Amemiya

    (1985) e mais

    n( 0)D Np(0, I1(0)) 0 interior onde I() =

    limn

    E0[ 1

    n

    2

    tL()

    ].

    Pelas condicoes de regularidade iniciais que permitem uma aplicacao do teorema

    da convergencia dominada podemos considerar I(0) = J0. Assumindo que J0 seja

    estimada consistentemente por V () = 1n

    2

    tL() e que 0 e o verdadeiro valor

    de , entao V ()P J0, tal como V 1() e um estimador consistente da matriz

    de covariancia assintotica de

    n( 0). Para n suficientemente grande temos oseguinte modelo :

    = + , Nk(0, ()), (2.21)

    onde =

    n(C) e () = CV 1()Ct. Seja agora a estatstica

    Wn = mint:t0

    ( t)t1()( t), (2.22)

    onde () = CV 1()Ct e (0) = CV1(0)C

    t. Para enunciar o lema, precisamos

    definir alguns conjuntos : seja S = { : C 0}, Si = { : C > 0} e Sb = S Si.Seja A = { : Sbonde exatamente um restricao em igualdades Cti = 0, i =1, . . . , k e satisfeita } e B = Sb A, onde pelo menos duas desigualdades saosatisfeitas na forma de igualdades. Seja o conjunto E = { | C = 0} que e oconjunto onde todas as desigualdades sao satisfeitas em forma de igualdades. E

    mais, para todo Sb = A B, seja Cb a submatriz de C com m k linhas taisque Cti = 0.

  • TESTE DE HIPOTESES H0 : C 0H1 : IRP H0 29

    Lema 2.2 Para testar a hipotese H0 : C 0H1 : IRp H0 temos os seguintesresultados :

    (i) para todo 0 Si,lim

    nProb{Wn = 0 | 0} = 1; (2.23)

    (ii) para algum c > 0 e 0 Sb,

    limn

    Prob{Wn c | 0} =m

    j=0

    jProb{2mj c}, (2.24)

    onde j = j(m, b), b = CbJ 10 Ctb;

    (iii) para todo 0 B e 0 A,

    limn

    Prob{Wn c | 0} limn

    Prob{Wn c | 0}. (2.25)

    Podemos perceber que a parte (i) deste lema reduz o numero de elementos de

    Si que podem ser levados em consideracao. Essa parte nos diz que WnP 0. A

    segunda parte caracteriza a distribuicao assintotica de Wn para os valores 0 Sb

    e a terceira parte seleciona alguns elementos de Sb como possveis valores que

    resultam na situacao menos favoravel de 0. Este lema especifica que B S deveconter o valor menos favoravel de 0 sob H0, mas, em geral, ele nao fornece a

    solucao de 0 tal que

    sup0S

    limn

    Prob{Wn c | 0}, (2.26)

    para um dado c > 0. Para resolver o problema (2.26), Wolak propos um algoritmo

    que devido as dificuldades computacionais e usado somente para demonstrar que

    o valor menos favoravel existe. Seja c > 0 um valor crtico arbitrario. Para um

    valor fixo de 0 B, o primeiro passo e determinar os elementos C que contem ovetor Cb descrito na parte (ii) do lema. Aplica-se Cb em 0 e pela equacao (2.24)

    calcula-se limn

    Prob{Wn c | 0} utilizando a parte (ii) do lema. Esse processoe repetido para todo 0 B. O valor de 0 B que maximiza as probabilidades

  • TESTE DE HIPOTESES H0 : C 0H1 : IRP H0 30

    e o valor menos favoravel de 0 determinando assintoticamente o tamanho exato

    do teste para o valor crtico de c. Pela dependencia funcional desse valor menos

    favoravel de 0 em c, denotamos o mesmo por 0(c). Entao, o valor crtico para

    tamanho exato de um teste assintotico irrestrito e o c que resolve

    limn

    Prob{Wn c | 0(c)} = .

    Como ja mencionado, o valor de j(k, ) na parte (ii) do lema tem forma fechada

    para k 4. Kudo (1963) fornece as expressoes para esses pesos para um valorarbitrario de k como sendo a soma de produtos de probabilidades de normais mul-

    tivariadas. Consequentemente, o principal problema e determinar a matriz b(0).

    Wolak salienta que existem duas situacoes em que ha unicidade no valor menos

    favoravel de 0 para o teste. Quando a matriz J0 e uma matriz diagonal para to-do 0 B e quando as restricoes de desigualdades tomam formas simples. Nessescasos, o valor menos favoravel e o unico 0 que satisfaz todas as restricoes em

    igualdades.

    2.7.2 Exemplo

    Considere o modelo linear com observacoes independentes e igualmente dis-

    tribudas de uma distribuicao normal bivariada

    Xi N2(, ),

    onde = [0, 0]t e =

    [2 2

    ]. Temos que = [2, 2, ]t e = { :

    1 0, 2 0,1 3 1}. Os estimadores de maxima verossimilhanca saodados por = [X1, X2, r12]

    t, onde X representam as medias amostrias e r12 a

    correlacao amostral entre X1 e X2 (Lehmann, 1983, pg.439-440). Sob condicoes

    usuais de regularidade temos que

    n( 0),D N3(0,J 10 ), onde J 10 e dada

    em Lehmann (1983, pg.441).

  • TESTE DE HIPOTESES H0 : C 0H1 : IRP H0 31

    A matriz J () e dada por

    (1 2)J () =

    2 2

    442

    42 222

    2

    42 22 2

    4 42 2

    22

    2 2

    1 + 2

    1 2

    .

    A matriz de variancia - covariancia de

    n( 0) fica expressa na forma

    J ()1 =

    24 222 2 (1 2)2

    222 2 2 4 (1 2) 2(1 2)2 (1 2) 2 (1 2)2

    .Nosso interesse e testar

    H0 : V = [1, 0; 1, 0; 0.95]t H1 : IR3 H0,

    onde podemos observar que queremos testar a suspeita de estrutura linear mais

    fraca. A matriz e dada por

    =

    1 2

    2

    2 1

    2

    2

    2 1

    ,

    C =

    1 0 00 1 00 0 1

    e d = [1, 0; 1, 0; 0.95]t.

    Uma das estatsticas do teste toma a forma

    Wn = mint:tV

    [n( t)J ()( t)],

    onde = C d. Para 0 = V a distribuicao limite exata de W e dada por

    limn

    Prob{W c} = 0, 015263Prob{23 c}+ 0, 168204Prob{22 c}

    +0, 484737Prob{21 c},

    onde os pesos sao calculados de acordo com a matriz avaliada em = V e as

  • TESTE DE HIPOTESES H0 : C 0H1 : IRP H0 32

    formulas sao dadas no Apendice A. Para o caso em especial em que 0, 95avaliada em 0 =

    B = [1, 0; 1, 0; 0, 0]t, a matriz fica dada por

    =

    [1 2

    2 1

    ],

    onde os pesos sao calculados de acordo com a matriz avaliada em = B e as

    formulas sao dadas no Apendice A. Tomando 0 = B = [1, 0; 1, 0; 0, 0]t a dis-

    tribuicao assintotica fica expressa por

    limn

    Prob{W c} = 14Prob{22 c}+

    1

    2Prob{21 c},

    com os pesos calculados de acordo com a matriz . Wolak (1991) mostra que B e a

    situacao menos favoravel. Podemos ver atraves da Figura 2.5 que a distribuicao nula

    assintotica menos favoravel para este teste de hipoteses nem sempre e alcancada

    quando todas as restricoes sao satisfeitas em igualdades. Denotando (c | ) =lim

    nProb{W c | }, onde na Figura V e B referem-se a (c | V ) e (c | B),

    respectivamente. Vimos na Figura que para todo valor de c, (c | B) > (c | V ),apesar do fato de que V e o valor de que satisfaz todas as restricoes na forma

    de igualdades. Observamos que neste caso, por causa da dependencia funcional da

    matriz de variancia-covariancia assintotica de

    n( 0) em 0, o valor menosfavoravel de 0 S somente satisfaz 2 das 3 desigualdades na forma de igualdades.

    Figura 2.5 Probabilidades de rejeicao sob a hipotese nula

  • CAPITULO 3

    Modelos Lineares Generalizados

    3.1 Introducao

    3.1.1 Definicao

    Suponha Y1, , Yn variaveis aleatorias independentes, cada uma com densidadena forma

    f(y; i, ) = exp{[yi b(i)] + c(y, )}, (3.1)

    onde c(.) e uma funcao conhecida, E(Yi) = i = b(i), V ar(Yi) =

    1Vi, V =

    d/d e a funcao de variancia e 1 > 0 e o parametro de dispersao conhecido. A

    funcao de variancia determina de uma forma biunvoca a classe correspondente de

    distribuicoes. Essa propriedade e muito importante, pois permite a comparacao de

    distribuicoes atraves de um teste simples para a funcao de variancia. Os modelos lin-

    eares generalizados (MLGs) sao definidos por (3.1) e pela componente sistematica

    g(i) = i, (3.2)

    onde = xt e o preditor linear, = (1, , p)t, p < n, e um vetor de parametrosdesconhecidos a serem estimados, xi = (xi1, , xip)t representa os valores de pvariaveis explicativas e g(.) e uma funcao monotona e diferenciavel, denominada

    funcao de ligacao.

    3.1.2 Casos particulares

    Podemos citar algumas distribuicoes pertencentes a famlia exponencial de

    distribuicoes :

  • INTRODUCAO 34

    Normal

    Seja Y uma variavel aleatoria com distribuicao normal com media e variancia

    2, Y N(, 2). A densidade de Y e da forma

    1

    2exp

    { 1

    22(y )2

    }= exp

    {1

    2(y

    2

    2) 1

    2

    [log 22 +

    y2

    2

    ]},

    onde < , y < e 2 > 0. E facil ver que = , b() = 2/2, = 2 e

    c(y, ) =1

    2log /2 y

    2

    2e a funcao de variancia e dada por V () = 1.

    Poisson

    Para Y P (), a densidade fica dada por

    ey/y! = exp{y log log y!},

    onde > 0 e y = 0, 1, . . . . Fazendo log = , b() = e, = 1 e c(y, ) = log y!e a funcao de variancia fica dada por V () = .

    Binomial

    Seja Y a proporcao de sucessos em n ensaios de Bernoulli com probabilidade de

    sucesso . Assumiremos que nY B(n, ). A densidade de Y fica definida por(n

    ny

    )ny

    (1 )nny = exp

    {log

    (n

    ny

    )+ ny log

    [

    1

    ]+ n log(1 )

    },

    onde 0 < , y < 1. Temos (3.1) fazendo = n, = log{/(1)}, b() = log(1 +e) e c(y, ) = log

    (

    y

    ). A funcao de variancia fica dada por V () = (1 ).

    Outras distribuicoes sao apresentadas na Tabela 3.1

  • INTRODUCAO 35

    Tabela 3.1 Caractersticas de algumas distribuicoes da famlia exponencial

    Normal Poisson Binomial Gama Normal Inversa

    Notacao N(, 1) P () B(n, ) G(, ) N(, )

    Suporte de y (,) 0(1) 0(1)nn

    (0,) (0,)

    Dipersao 2 1 n1 1 1

    c(y, ) 1

    2(y

    2+ log

    2

    ) log(y)!

    (log nny

    )( 1) log(y) + log log ()

    1

    2(log

    2y3

    y)

    b() 2/2 e log(1 + e) log() (2)1/2

    = E(y) e e/1 + e 1/ (2)1/2V () 1 (1 ) 2 3

    Nota : No modelo binomial, a variavel aleatoria corresponde a proporcao de sucessos em n ensaios de

    Bernoulli e = n

    A parametrizacao do modelo gama e tal que a sua variancia seja dada por2

    .

  • INTRODUCAO 36

    3.1.3 Estatsticas suficientes e ligacoes canonicas

    O log da funcao de verossimilhanca de um MLG com respostas independentes

    pode ser expresso na forma

    L(; y) =n

    i=1

    [yii b(i)] +n

    i=1

    c(yi, ).

    Um caso importante dos MLGs e quando o parametro natural da famlia expo-

    nencial () coincide com o preditor linear, isto e, i = i =p

    j=1

    xijij. Nesse caso,

    L(; y) fica definida por

    L(; y) =n

    i=1

    {yi

    pj=1

    xijij b( p

    j=1

    xijij)}

    +n

    i=1

    c(yi, ).

    Seja a estatstica S?j = n

    i=1

    Yixij, entao L(; y) fica dada por

    L(; y) =p

    j=1

    s?jj n

    i=1

    b( p

    j=1

    xijij)

    +n

    i=1

    c(yi, ).

    Logo pelo teorema da fatorizacao a estatstica S? = (S?1 , , S?p) e suficiente mini-mal para . As ligacoes que correspodem a estatsticas suficientes sao chamadas de

    ligacoes canonicas. Os MLGs com essa caracterstica possuem propriedades impor-

    tantes tais como a concavidade de L(; y) que garante a unicidade da estimativa de

    maxima verossimilhanca (m.v.) de , quando essa estimativa existe. Outra conse-

    quencia e que os resultados assintoticos sao derivados mais facilmente. As ligacoes

    canonicas para os modelos normal, Poisson, binomial, gama e normal inversa sao

    dadas, respectivamente, por

    = , = log , = log{

    1 }, = 1 e = 2.

    Algumas ligacoes usuais sao:

    Potencia: = , onde e um numero real. Casos importantes da ligacao

    potencia sao identidade, recproca e raiz quadrada, correspondentes a = 1,1 e1/2, respectivamente;

  • INTRODUCAO 37

    Probit: = 1() sendo () a funcao distribuicao normal padrao;Logstica: = log[/(1 )];Complemento log-log: = log[ log(1 )];Logaritmo: = log .

    Os MLGs podem ser ajustados pelos aplicativos GLIM (Payne, 1986) e S-Plus

    (Chambers e Hastie, 1992). Mais detalhes sobre como ajustar MLGs no GLIM e

    no S-Plus sao encontrados em Aitkin et al (1990) e Chambers e Hastie (1992),

    respectivamente.

    3.1.4 Funcao desvio

    Sem perda de generalidade, suponha que o log da funcao de verossimilhanca

    seja agora definido por

    L(; y) =n

    i=1

    L(; yi),

    onde i = g1(i) e i = x

    ti. Para o modelo saturado (p = n) a funcao L(; y) e

    estimada por

    L(y; y) =n

    i=1

    L(y; yi).

    Temos que a estimativa de m.v. de i fica nesse caso dada por is = yi. Quando

    p < n, denotaremos a estimativa de L(; y) por L(; y). Aqui, a estimativa de

    m.v. sera dada por i = g1(i), onde i = x

    ti. A qualidade do ajuste do MLG e

    avaliada atraves da funcao desvio

    D(y; ) = D(y; ) = 2{L(y; y) L(; y)}.

    Se denotarmos i = i(i) e si = i(

    si ), as estimativas de m.v. de para os

    modelos com p parametros (p < n) e saturado (p = n), respectivamente, temos

    que a funcao D(y; ) fica dada por

    D(y; ) = 2n

    i=1

    {yi(si i) + [b(i) b(si )]}.

  • INTRODUCAO 38

    Apresentamos abaixo a expressao da funcao desvio para alguns casos particulares.

    Normal

    Neste caso, temos i = i entao si = yi e i = i. A funcao desvio fica definida por

    D(y; ) = 2n

    i=1

    {yi(yi i) + i2/2 y2i /2} =n

    i=1

    (yi i)2.

    Poisson

    Temos aqui i = log i, entao si = log yi e i = log i. Assim,

    D(y; ) = 2n

    i=1

    {yi log(yi/i) (yi i)}.

    Binomial

    No caso binomial temos si = log{yi/(ni yi)} para 0 < yi < ni e si = 0 em casocontrario. Analogamente, i = log{i/(1 i)} para 0 < yi < ni , e i = log(1 i)para yi = ni e yi=0, respectivamente. A funcao desvio fica dada por

    D(y; i) = 2n

    i=1

    Di(y; ) com

    Di(y; ) =

    ni log(1 i) , se yi = 0

    ni log(i) , se yi = niD1(y; ) , caso contrario,

    onde D1(y; ) = yi log(yi/nii) + (ni yi) log[(1 yi/ni)/(1 i)]}.Usualmente compara-se os valores observados da funcao desvio com os percentis

    da distribuicao qui-quadrado com np graus de liberdade. No entanto D(y; ) naosegue assintoticamente uma 2np. No caso da binomial quando k e fixo e ni para cada i, D(y; ) segue sob a hipotese de que o modelo e verdadeiro uma 2kp.

    Porem, isso nao vale quando n e nii(1 i) permanece limitado. Parao modelo de Poisson, quando i para todo i, tem-se que D(y; ) 2np.No caso normal, para 2 fixo, D(y; ) 22np. Quando D(y; ) depende doparametro de dispersao 1, temos o seguinte resultado (Jrgensen, 1987) para a

    distribuicao nula da funcao desvio :

    D(y; ) 2np, quando .

  • INTRODUCAO 39

    Logo, quando a dispersao e pequena, e razoavel comparar os valores observados

    de D(y; ) com os percentis da 2np. Em particular, para o caso normal linear,

    temos D(y; ) 2np quando 2 0.

    3.1.5 Funcao de escore, matriz de informacao e processo iterativo para osparametros

    A funcao de escore e a matriz de informacao de Fisher para o parametro sao,

    respectivamente, dadas por

    U() =

    L(; y) = X tW 1/2V 1/2(y )

    e

    K() = E{

    2

    tL(; y)

    }= X tWX,

    onde X e uma matriz n p de posto completo cujas linhas serao denotadas porxti, i = 1, . . . , n, W = diag(w1, . . . , wn) com

    wi =(didi

    )2 1Vi

    ,

    onde V = diag(V1, . . . , Vn), y = [y1, . . . , yn]t e = [1, . . . , n]

    t. Para ligacoes

    canonicas, as expressoes ficam simplificadas U() = X t(y) e K() = X tV X,respectivamente.

    Para obtencao da estimativa de m.v. de , utilizamos o processo iterativo de

    Newton-Raphson expandindo a funcao escore U() em serie de Taylor em torno

    de um valor inicial (0), tal que

    U() = U((0)) + U ((0))( (0)),

    onde U () e a primeira derivada de U() com respeito a . Repetindo-se o proce-

    dimento acima, obtem-se o processo iterativo abaixo

    (m+1) = (m) + [U ((m))]1U((m)),

    m = 0, 1, . . .. Como a matriz U () pode nao ser positiva definida, a aplicacao do

  • INTRODUCAO 40

    metodo scoring de Fisher substituindo a matriz U () pelo correspondente valoresperado, pode ser mais apropriado. Isso resulta no seguinte processo iterativo:

    (m+1) = (m) + K1((m))U((m)),

    m = 0, 1, . . .. Pode-se reescrever o processo iterativo acima como um processo

    iterativo de mnimos quadrados reponderados

    (m+1) = (XT W (m)X)1XT W (m)z(m), (3.3)

    m = 0, 1, . . ., onde z = + W1/2V 1/2(y ). Observe que z faz o papel de umavariavel dependente modificada, enquanto que W e uma matriz de pesos que muda

    a cada passo do procedimento iterativo. Alguns estudos de convergencia para o

    processo (3.3) podem ser encontrados em Wedderburn (1976) que para algumas

    combinacoes da distribuicao da variavel resposta e da funcao de ligacao mostra

    que o processo converge em um numero finito de passos independentemente dos

    valores iniciais utilizados. E usual iniciar o processo (3.3) com (0)i = g(yi) para

    i = 1, . . . , n. Sob condicoes gerais de regularidade (Sen e Singer, 1993, Cap. 7)

    mostra-se que e um estimador consistente e eficiente de e que

    n( ) D N(0, 1()),

    onde

    () = limn

    K()

    n

    sendo () uma matriz positiva definida. Nem sempre e facil verificar a existencia

    da matriz (), as vezes e necessario supor condicoes de suficiencia tais que levem

    a existencia dessa matriz. Como exemplo suponha um MLG com respostas Yij, i =

    1, . . . , g e j = 1, . . . , ni, tais que E(Yij) = ij e g(ij) = xti. Tais condicoes

    suficientes sao que ni/n ai > 0 quando n e queg

    i=1

    xixti seja de posto

    completo, onde n = n1+n2+ +ng. Uma importante referencia sobre consistenciae normalidade assintotica dos estimadores de maxima verossimilhanca em MLGs

    e descrito por Fahrmeir e Kaufmann (1985), que garantem que K1/2U()D

  • INTRODUCAO 41

    Np(0, I) no qual implica em1n

    U()D N(0, ()) assegurando a condicao (a)

    do Captulo 2. Vale ressaltar que a estimacao do parametro de dispersao 1,

    quando e desconhecido, pode ser encontrada em Cordeiro e McCullagh (1991).

    3.1.6 Teste de hipoteses

    Suponha a particao para o vetor de parametros = (t1, t2)

    t, onde 1 e 2 sao

    vetores q-dimensional e (pq)-dimensional, respectivamente. Suponha conhecido.Seja a hipotese de interesse H0 : 1 =

    (0)1 H1 : 1 6=

    (0)1 . Nesse caso, a estatstica

    da razao de verossimilhanca fica definida por

    R = {D(y; (0))D(y; )},

    onde (0) e a estimativa de m.v. do modelo sob H0. A estatstica de Wald fica

    definida por

    W = [1 (0)1 ]tV ar1(1)[1 (0)1 ].

    onde V ar(1) = [Xt1W

    1/2{IH2}W 1/2X1]1 com H2 = W 1/2X2(X t2WX2)1X t2W 1/2.O teste de escore e expresso na forma

    S = U1(0)tV ar0(1)U1(

    0)

    onde U1() = Xt1W

    1/2V 1/2(y ) e a funcao escore de 1, 0 e a estimativa dem.v. de sob H0, V ar

    0(1) e avaliada em 0 e X1 tem dimensao nq e provem da

    particao X = (X1, X2), enquanto X2 tem dimensao n(pq). Sob a hipotese nula,assintoticamente as estatsticas R, W , e S tem distribuicao nula 2q. Quando e

    desconhecido, essa aproximacao tambem e valida. Uma alternativa para contornar

    a estimacao de e usar a estatstica F dada abaixo

    F ={D(y; (0))D(y; )}/q

    D(y; )/(n p),

    cuja distribuicao nula assintotica e uma F com q e n p graus de liberdade.

  • HIPOTESE EM IGUALDADES LINEARES 42

    3.2 Hipotese em igualdades lineares

    Na pratica, existem situacoes em que o interesse e testar hipoteses na forma

    de igualdades lineares, ou melhor, H0 : C = d H1 : C 6= d, onde C e umamatriz k p de posto completo e d e um vetor k 1 de escalares. Podemos ver quea estimativa de maxima verossimilhanca, sob a hipotese alternativa, coincide com

    a estimativa de maxima verossimilhanca , porem, sob H0, e necessario o uso de

    algum processo iterativo, que pode ser mais complexo. Nyquist (1991) propos um

    processo iterativo para encontrar as estimativas de m.v. dos parametros restritos

    por C = d em MLGs. O processo consiste em maximizar o logaritmo da verossimi-

    lhanca sujeito as restricoes C = d. Uma das abordagens utilizadas em problemas

    de otimizacao e o metodo da funcao penalizada (Fiacco e McComick, 1968; Ryan,

    1974). Considera-se a funcao quadratica penalizada por

    P (, ) =n

    i=1

    {yii b(i)

    }+

    ni=1

    c(yi, )1

    2

    kj=1

    j(dj Ctj)2

    e procura-se a solucao do problema irrestrito max

    P (, ) para valores de j, j =

    1, . . . , k, fixados e positivos. O estimador restrito bc e definido por

    bc = lim1,...,k

    b(),

    onde b() e um estimador irrestrito para cada finito e b(0) e igual ao estimador

    irrestrito de m.v. dos MLGs. Para o calculo de b() e similiar a abordagem do

    problema de estimacao irrestrita. Primeiro, diferenciamos P (, ) com respeito

    aos js

    Qj(, ) =

    jP (, ) =

    ni=1

    yi iv

    1/2i

    w1/2i xij+

    k`=1

    C`j`(d`Ct`), j = 1, . . . , p

    e a matriz esperada das derivadas de 2a ordem tem o elemento comum dado por

    sj`(, ) = E

    (

    2

    j`P (, )

    )=

    ni=1

    xijxi`wi +k

    i=1

    iCijCi`, `, j = 1, . . . , p,

    onde Cij e o elemento comum da matriz C. Utilizando o metodo scoring de Fisher

    obtemos o processo iterativo

    b()(m+1) = b()(m) + S1(b(m), )Q(b(m), ), (3.4)

  • HIPOTESE EM IGUALDADES LINEARES 43

    onde S(b(m), ) e uma matrix pp com elementos sj`(b(m), ) e Q(b(m), ) e o vetorp 1 com elementos Qj(b(m), ), ambos avaliados nas estimativas preliminares deb()(m). Podemos escrever S(, ) = X tWX + CtC com sendo uma matriz

    diagonal com j, j = 1, . . . k. Sem perda de generalidade vamos supor que esta

    includo em W . Entao a equacao (3.4) pode ser escrita como

    (X tW (m)X + CtC)b()(m+1) = X tW (m)z(m) + Ctd.

    Se e X tWX sao aplicacoes inversveis do teorema da binomial inversa (Wood-

    bury, 1950) temos

    b()(m+1) = [(X tW (m)X)1 (X tW (m)X)1Ct{I

    +C(X tW (m)X)1Ct}1C(X tW (m)X)1]{X tW (m)z(m) + Ctd}

    = (X tW (m)X)1X tW (m)z(m) + (X tW (m)X)1Ct

    {I + C(X tW (m)X)1Ct}1{I + C(X tW (m)X)1Ct}d

    (X tW (m)X)1Ct{I + C(X tW (m)X)1Ct}1C(X tW (m)X)1

    Ctd

    = (X tW (m)X)1X tW (m)z(m) + (X tW (m)X)1Ct

    {1 + C(X tW (m)X)1Ct}1{d C(X tW (m)X)1X tW (m)z(m)}.

    A (m + 1)-esima aproximacao de bc(m+1) da estimativa restrita de bc e dada por

    bc(m+1) = lim1,...,k

    b()(m+1)

    = (X tW (m)X)1X tW (m)z(m) + (X tW (m)X)1Ct{C(X tW (m)X)1Ct}1

    {d C(X tW (m)X)1X tW (m)z(m)}.

    Note que o termo e cancelado nao interferindo no processo de estimacao. E mais,

    bc(m+1) pode ser considerado como uma estimativa de mnimos quadrados repon-

    derados, sendo dado por b(m+1) = (X tW (m)X)1X tW (m)z(m) (com pesos avaliados

    na estimativa restrita de passos anteriores) mais um termo de correcao. O termo

    adicionado e o produto de dois fatores, uma constante e um sendo a diferenca entre

  • HIPOTESE EM IGUALDADES LINEARES 44

    d e Cb(m+1),

    bc(m+1) = b(m+1) + (X tW (m)X)1Ct{C(X tW (m)X)1Ct}1(d Cb(m+1)). (3.5)

    Agora, para valores nao nulos em , temos que

    lim1,...,k

    (X tWX + CtC)1 (3.6)

    = 1(X tWX)1[I Ct{C(X tWX)1Ct}1C(X tWX)1].

    Supondo que as condicoes de regularidade de Fahrmeir e Kaufmann (1985) sao

    satisfeitas sob as restricoes C = d, mostra-se que bc e consistente e assintotica-

    mente normal com matriz de covariancia dada pela equacao (3.6). Esse algorit-

    mo encontra-se implementado na linguagem S-Plus no Apendice G. Os testes es-

    tatsticos sao similares aos do caso irrestrito. O teste da razao de verossimilhanca

    fica aqui expresso por

    R = {D(y; (0))D(y; )},

    onde (0) denota a estimativa de m.v. de sob H0 : C = d. O teste de escore e

    Wald ficam, respectivamente, dados por

    W = (C d)t{V ar(C)}1(C d)

    = (C d)t{C(X tWX)1Ct}1(C d),

    S = [U(0) U()]tV ar0()[U(0) U()]

    = 1U(0)t(X tW 0X)1U(0)

    = 1(z0 0)t{W 0}1/2H0{W 0}1/2(z0 0),

    onde H = W 1/2X(X tWX)1X tW 1/2 e a matriz de projecao (Cook e Weisberg,

    1982; Pregibon, 1981), z0, 0 e W 0 sao avaliados sob a hipotese nula. Sob H0 e

    para amostras grandes, as estatsticas R, S e W tem uma distribuicao 2 com k

    graus de liberdade. Podemos ver que no caso em que C = 0 o modelo pode ser

    reparametrizado como

    i = xti = x

    tiF

    1F = x?i ?1 + x

    ?i

    ?2

  • ESTIMACAO SOB DESIGUALDADES LINEARES 45

    tal que ?2 = C. Isso e obtido fazendo com que as ultimas k linhas da matriz F de

    dimensao p p sejam iguais a C e selecionando as p k primeiras linhas tal queF seja inversvel. Entao, o teste H0 : C = 0 e equivalente a testar H0 :

    ?2 = 0.

    3.3 Estimacao sob desigualdades lineares

    Theil e Van de Panne (1960) estudaram o problema de maximizacao de funcoes

    quadraticas sujeito a desigualdades lineares. Se a concavidade da funcao de veros-

    similhanca for garantida podemos encontrar a estimativa restrita fazendo uma

    variante do algoritmo da Subsecao 3.1.5. Primeiro, verifica-se se ha alguma vio-

    lacao do tipo Ctj < dj, j = 1, . . . , k. Por exemplo, suponha que ha apenas uma

    violacao Ct` < d`, entao a estimativa de m.v. , sob C d, corresponde a ajustaro MLG sujeito a C = d, onde C e o vetor linha de zeros com um na `-esima

    posicao e d = d`. Podendo ser usado tanto o algoritmo (3.3) quanto (3.5). Supon-

    ha agora o caso de duas ou mais violacoes. Deveremos ajustar o MLG sob todas

    as possveis combinacoes de igualdades lineares. Devemos escolher o modelo que

    fornece o menor valor da funcao desvio, D(y; ), dentre aqueles que nao apresentam

    violacoes. Waterman (1977) mostra que na solucao do problema de maximizacao

    sem restricoes, se as componentes j < 0, entao na solucao do problema de max-

    imizacao com restricoes havera pelo menos um j = 0, j = 1, . . . , k, ou melhor,

    correspondente a eliminar pelo menos uma covariavel do modelo. Baseado nisso,

    podemos entao formular 2k 1 problemas de maximizacao sem restricoes comj = 0 e as demais variaveis livres a variar em todos os subconjuntos nao vazios de

    {1, 2, . . . , k}. Devemos escolher a estimativa que satisfaz todas as restricoes e quemaximiza a funcao objetivo. E importante observar que a medida que o numero de

    violacoes aumenta, o processo torna-se dispendioso. O problema de encontrar as

    estimativas de m.v. de MLGs quando alguns ou todos os parametros sao restritos

    por desigualdades foi abordado por McDonald e Diamond (1990). Para resolver o

    problema de maximizacao foram utilizadas as condicoes de Kuhn-Tucker (K.T.)

    que sao necessarias para a existencia do maximo restrito. No contexto do proble-

    ma de maximizacao o logaritmo da funcao de verossimilhanca L() e uma funcao

  • ESTIMACAO SOB DESIGUALDADES LINEARES 46

    concava sujeito a j 0, j. Para o caso de restricoes nao-negativas as condicoesde K.T. para o maximo local sao :

    j, ambos j > 0 eL

    j

    = 0ou j = 0 e

    L

    j

    0.Observe que para os MLGs temos que a derivada parcial do logaritmo da veros-

    similhanca para uma amostra de tamanho n com respeito a j e dada por

    ni=1

    Lij

    =n

    i=1

    (Yi i)ii

    xij.

    As condicoes de K.T. para os MLGs com ligacao canonica (nao-canonica) sao o

    produto interno (ponderado) entre a j-esima coluna da matriz modelo e o vetor

    dos resduos ordinarios. Esse produto interno e zero quando o j-esimo parametro

    estimado e positivo e nao-positivo quando o j-esimo parametro estimado e zero

    (com cada caso ponderado por /). Para restricoes nao-negativas, as condicoes

    de K.T. sao suficientes para um (estritamente) maximo local se o logaritmo da

    verossimilhanca e uma funcao (estritamente) concava. Wedderburn (1976) apresen-

    ta varias combinacoes entre funcao de ligacao e de variancia em que essa condicao

    e garantida. Podemos ver que, se a estimativa irrestrito de m.v. viola as restricoes

    de nao negatividade, ou seja, ocorre uma violacao na estimativa de entao pelo

    menos um j (j = 1, . . . , p) deve ser zero, desde que o logaritmo da verossimil-

    hanca seja estritamente concava o que implica na solucao restrita. Essa situacao

    corresponde a ajustar os submodelos retirando um ou mais regressores do modelo

    completo em todas as combinacoes possveis e buscar dentre aqueles que nao ocorre

    violacao o que fornece o maior valor para a funcao objetivo. McDonald e Diamond

    (1983) apresentam varios algoritmos de busca.

    Outro algoritmo foi proposto por Fahrmeir e Klinger (1994), no qual o metodo

    de estimacao de m.v. sob a restricao C d e a solucao de

    max:Cd

    L(, y). (3.7)

  • ESTIMACAO SOB DESIGUALDADES LINEARES 47

    Denotamos o estimador de m.v. sob as restricoes de igualdades C = d por 0.

    Seja a funcao lagrangiana

    L(, y) = L(, y) t(C d) = L(, y)k

    j=1

    j(Ctj dj), (3.8)

    com o vetor de multiplicadores de Lagrange = (1, . . . , k)t 0, Ctj a j-esima

    linha de C e dj a j-esima componente de d. As condicoes suficientes para que

    seja maximo local sao

    (i) Ctj = dj para j I {1, . . . , k}, Ctj > dj para todo j / I, isto e, e umponto admissvel.

    (ii) Existe um = (1, . . . , k)t 0 com L(, y)/ = 0, isto e, e um ponto

    estacionario.

    (iii) M t(2L(, y)/t)M < 0 para todo M 6= 0 e M {M : CtjM = 0, j I, j 0 e CtjM > 0, j I, j = 0}.

    Observe que McDonald e Diamond (1990) formularam essas condicoes para verossi-

    milhancas concavas e restricoes nao-negativas. Eles pesquisaram todas as combi-

    nacoes possveis para que satisfizesse (i) (ii) e ajustaram os correspondentessubmodelos com j = 0 para j I {1, . . . , k}. Para altas dimensoes, esse metodopode acarretar um alto custo computacional e uma alternativa e buscar metodos

    numericos de otimizacao que sejam mais rapidos, por exemplo, Gill , Murray e

    Wright (1981). O algoritmo proposto por Fahrmeir e Klinger (1994) e o SQP -

    (programacao quadratica sequencial) o qual eles garantem e mais vantajoso uma

    vez que tem boas propriedades de convergencia e e de facil implementacao. O

    metodo SQP e bastante discutido por Powell (1978) e Schittkowski (1981). Esses

    algoritmos estao implementados na NAG e IMSL (bibliotecas do Fortran).

    O algoritmo iterativo SQP consiste em gerar uma sequencia de estimativas (m),

    m = 0, 1, . . . , que solucionam subproblemas quadraticos expandindo-se a funcao

    de verossimilhanca em serie de Taylor ate o termo de segunda ordem, e que con-

    verge para . Seja (m) o valor de na m-esima iteracao, o (m+1) e calculado

  • ESTIMACAO SOB DESIGUALDADES LINEARES 48

    maximizando-se

    Q(; (m)) = L((m), y)+U t((m))((m))12((m))tK((m))((m)) (3.9)

    sob a restricao C d, avaliado em (m). Observe que o lado direito de (3.9)e uma aproximacao quadratica de L(, y) em torno de (m). A maximizacao ir-

    restrita de (3.9) equivale a um dos passos do metodo de scoring de Fisher para

    calcular . No caso em que o problema quadratico (3.9) for avaliado sob restricoes

    de igualdades, podemos usar algoritmos mais conhecidos como o metodo de res-

    tricoes ativas (Fahrmeir e Klinger,1994), isto e, aquelas avalidas nas restricoes de

    igualdades, sao pesquisadas e solucionam o problema sob restricoes de desigual-

    dades. Outros algoritmos sao propostos por Wollan e Dykstra (1987) e Hildreth

    (1957) em que a solucao e baseada no problema dual de (3.9). Esse metodo e de facil

    implementacao e apresenta poucos problemas computacionais em altas dimensoes

    dos parametros e e de baixo custo computacional. Em resumo, o algoritmo SQP

    para resolver (3.7) e dado por :

    (1) faca m = 0 e (0) = . Se C d entao pare e = . Caso contrario, va parao passo (2);

    (2) calcule o valor maximo do problema quadratico (3.9) sob a restricao C(m) dpor um dos metodos relacionados acima e denote a solucao por (m+1). Va para o

    passo (3);

    (3) se (m+1) (m) entao pare. Caso contrario, faca m = m + 1 e va parao passo (2).

    A convergencia do metodo SQP avaliado em (m) para um estimador de m.v.

    local restrito, , e garantida sob algumas condicoes (Kredler, 1993) :

    (i) a funcao objetivo e contnua e duas vezes diferenciavel ;

    (ii) existencia e unicidade local do estimador de m.v. ;

    (iii) a funcao log-verossimilhanca e concava para algum conjunto D Rp contendo, e D { : C 0} e nao-vazio.

  • TESTE DE HIPOTESE EM DESIGUALDADES LINEARES 49

    Essas condicoes sao verificadas por uma ampla classe de MLGs, em particular para

    todos os MGLs com ligacao canonica. Desde que (0) = em (1), nos temos que

    U((0)) = 0, tal que resolver (3.9) para (1) no passo (2) e equivalente a resolver

    minCd

    {( )tK()( )}.

    Piegorsch (1990) propos um algoritmo para encontrar estimativas de m.v. restritas

    para o caso de restricoes nao-negativas, que e equivalente ao algoritmo SQP apos

    a primeira iteracao.

    3.4 Teste de hipotese em desigualdades lineares

    Similarmente ao Captulo 2, vamos agora estudar a distribuicao nula assintotica

    dos testes usuais, R, W e S, no caso em que H0 : C = d H1 : C d, compelos menos uma desigualdade estrita em H1. Como mencionado na Secao 3.1.5 as

    condicoes de Gourieroux sao verificadas para os MLGs com funcao de verossimil-

    hanca concava e sabendo que

    n() D Np(0, 1()), onde = () e umamatriz definida positiva. Logo, temos que

    n(C C) D Nk(0, ()), onde

    () = C1Ct. Para n suficientemente grande , temos o seguinte modelo :

    = + , Nk(0, ), (3.10)

    onde =

    n(C d) e = () e suposto avaliado no verdadeiro valor doparametro. Como mostrado no Captulo 2, testar as hipoteses H0 : = 0 H1 : 0, com pelo menos um componente de positivo em H1, e assintoticamenteequivalente a testar H0 : C = d H1 : C d, com pelos uma desigualdadeestrita em H1 no MLG sob estudo. A estatstica de Wald para o modelo (3.10) fica

    expressa na forma

    W = V ar1() (3.11)

    = (C d)t{C(X tWX)1Ct}1(C d).

  • TESTE DE HIPOTESE EM DESIGUALDADES LINEARES 50

    Quando W e conhecida temos pelo Lema 2.1 que a distribuicao nula assintotica de

    W e dada por

    limn

    Prob{W c} =k

    `=0

    `Prob{2` c}, (3.12)

    onde c 0 e ` sao definidos como na Secao 2.6 e dependem de . Comumente,temos W nao conhecida e dependente de , logo se substituirmos W por uma esti-

    mativa consistente, a distribuicao nula (3.12) nao se altera. Note que a distribuicao

    nula assintotica de W nao e mais unica pois ha uma dependencia funcional de

    em . A estatstica da razao de verossimilhanca para testar H0 : = 0H1 : 0,com pelo menos um componente de positivo em H1, no caso de MLG, fica dada

    por

    R = {D(y; (0))D(y; )},

    onde D(y; (0)) e o desvio sob a hipotese nula e D(y; ) e o desvio sob a alternativa.

    A estatstica escore e expressa na forma

    S = 1[U(0) U()]t(X tW 0X)1[U(0) U()]

    e a Wald

    W = (C d)t{C(X tWX)1Ct}1(C d).

    No caso de H0 : C dH1 : IRp H0, a matriz () = C1Ct depende de nas duas hipoteses. Logo, aplicamos o lema de Wolak mencionado na Subsecao

    2.7.1. A estatstica da razao de verossimilhanca, escore e Wald para testar H0H1ficam definidas, respectivamente, por

    R = {D(y; )D(y; )},

    S = 1{U()}t(X tWX)1{U()} e

    W = (C C)t{C(X tWX)1Ct}1(C C),

    onde W e avaliado em . Fahrmeir e Klinger (1994) mostraram atraves de simu-

    lacoes que a situacao menos favoravel e em geral alcancada quando m = k. Porem,

  • APLICACOES 51

    existe a possibilidade de que a situacao menos favoravel aconteca para valores de

    m < k. Wolak (1989b) mostra que, se o parametro verdadeiro pertencer a fronteira

    do espaco parametrico sob H0, a distribuicao e sempre alcancada para m = k.

    Um outro resultado importante, verificado por Fahrmeir e Klinger, e que quando

    o tamanho da amostra n 50, a diferenca entre a probabilidade assintotica de re-jeicao para a estatstica R, para um c fixo, e a probabilidade emprica de rejeicao,

    obtida atraves de simulacoes, e geralmente desprezvel.

    Com o intuito de aplicar o lema de Wolak, considere um MLG com = 1 +

    2x2 + 3x3 . Defina H0 : [1, 1, 1]t H1 : IR3 H0. Conforme a notacao daSubsecao 2.7.1 temos que E = {[1, 1, 1]t}; o conjunto onde esta a situacao menosfavoravel e dado por B = {[1, 1, 1]t} B1 B2 B3, onde

    B1 = {1 > 1, 2 = 1, 3 = 1},

    B2 = {1 = 1, 2 > 1, 3 = 1} e

    B3 = {1 = 1, 2 = 1, 3 > 1}.

    A distribuicao nula menos favoravel deve ocorrer para m = 2 ou m = 3. Se ocorrer

    para m = 2, deve-se pecorrer os tres subconjuntos B1, B2 e B3 e verificar qual deles

    contem o conjunto menos favoravel.

    3.5 Aplicacoes

    3.5.1 Casamentos cosanguneos

    Como foi apresentado no Captulo 1, McDonald e Diamond (1983) propuser-

    am modelos logsticos para explicar a chance de abortos naturais entre pais com

    algum grau de consaguinidade. Um modelo logstico restrito foi proposto para ex-

    plicar a proporcao de abortos naturais. Temos as seguintes variaveis explicaticas

    dicotomicas (sim =1, nao =0) :

    (i) C2 primos de 2o grau;

    (ii) C12 primos de 112

    o grau;

    (iii) C1 primos de 1o grau;

  • APLICACOES 52

    (iv) INT vive no distrito intermediario e

    (v) URB vive no distrito urbano.

    O modelo adotado e

    log{/(1 )} = 1 + 2C2 + 3C12 + 4C1 + 5INT + 6URB (3.13)

    sujeito a C 0 , onde e a proporcao de abortos naturais, e

    C =

    0 1 0 0 0 00 1 1 0 0 00 0 1 1 0 0

    .Observando as estimativas irrestritas dos parametros e seus desvios padroes assintoticos

    na Tabela 3.2, podemos notar que ha uma violacao nas estimativas de m.v. irrestri-

    tas em 3 > 4. Entao, de Theil e Van de Panne (1960) e McDonald e Diamond

    (1990), segue que a estimativa restrita de m.v. devera ser obtida apos o ajuste do

    modelo (3.13) restrito por C = 0, onde C = [0 0 1 1 0 0]. O desvio

    Tabela 3.2 Modelo logstico para a proporcao de abortos naturais

    EstimativasEfeito Irrestrita Restrita

    Constante -3,6466 (0,1690) -3,6512 (0.1689)C2 0,1525 (0,2731) 0,1529 (0,2731)C12 0,5978 (0,2689) 0,4543 (0,1676)C1 0,4019 (0,1874) 0,4543 (0,1676)INT -0,0099 (0,1825) -0,0044 (0,1823)URB -0.3869 (0,2713) -0,3777 (0,2708)

    Desvio 9,041 (6 g.l.) 9,473 (6 g.l.)

    correspondente ao ajuste do modelo final restrito foi de D(y; ) = 9, 4734 (6 g.l.),

    indicando um ajuste adequado. Pelas estimativas dos parametros nota-se que a

    chance de aborto natural parece crescer com o grau de consanguinidade.

    Analises de diagnostico que explicam a violacao encontrada sao discutidas em

    Paula (1993). Com o intuito de testar se nessa populacao a chance de aborto natural

  • APLICACOES 53

    cresce com o grau de consanguinidade, formulamos as hipoteses :

    H0 : 2 = 3 = 4 = 0

    H1 : 4 3 2 0, com pelo menos uma desigualdade estrita em H1.O valor observado da estatstica da razao de verossimilhanca foi de R = 7, 036.

    Apos calcular (0)= CV ar0()Ct e os respectivos pesos, chega-se ao seguinte

    nvel descritivo:

    P =3

    `=1

    `Pr{R 7, 036}

    = 0, 4840 Pr{R 7, 036}+ 0, 1649 Pr{R 7, 036}

    +0, 0160 Pr