Libro de Modelos Lineales

download Libro de Modelos Lineales

of 262

Transcript of Libro de Modelos Lineales

MODELOSLINEALESFrancescCarmonaDepartament dEstadsticaBarcelona,19dediciembrede2003Pr ologoLasp aginasquesiguenconstituyenunapartedelasexposicioneste oricasypr acticasdeasignaturas quesehanimpartidoalolargodealgunos a nos envarias licenciaturas ycursosdedoctorado.EnparticularenlalicenciaturadeMatem aticas,lalicenciaturadeBiologayladiplomaturadeEstadsticadelaUniversidaddeBarcelona. Sehainten-tadounciertoequilibrioentrelasexplicacioneste oricasylosproblemaspr acticos. Sinembargo, nuestra intenci on siempre ha sido fundamentar s olidamente la utilizaci on de losmodelos lineales como base de las aplicaciones de la regresi on, el an alisis de la varianza yel dise no de experimentos. Por ello, en este libro la base matem atica y estadstica es con-siderable y creemos importante la correcta denici on de los conceptos y la rigurosidad delasdemostraciones.Unas olidabaseimpedir acometerciertoserrores,habitualescuandoseaplicanlosprocedimientosciegamente.Por otra parte, la aplicaci on pr actica de los metodos de regresi on y an alisis de la varianzarequiere la manipulaci on de muchos datos, a veces en gran cantidad, y el c alculo de algunasf ormulasmatricialesosimples. Paraelloesabsolutamenteimprescindiblelautilizaci ondealg unprogramadeordenadorquenosfaciliteeltrabajo.Enunaprimerainstanciaesposible utilizar cualquier programa de hojas de c alculo que resulta sumamente did actico.Tambien se puede utilizar un paquete estadstico que seguramente estar a preparado paraofrecer los resultados decualquier modelolineal est andar comoocurreconel paqueteSPSS. En cambio, en este libro se ha optado por incluir algunos ejemplos con el programaR. Las razones son varias. En primer lugar, se trata de un programa que utiliza el lenguajeS,est aorientadoaobjetos,tienealgunosm odulosespeccosparalosmodeloslinealesyesprogramable. Rutilizaunlenguajedeinstruccionesyal principiopuederesultarunpocoduroensuaprendizaje, sinembargosuperadalaprimeraetapadeadaptaci on, suutilizaci onabretodounmundodeposibilidades,nos oloenlosmodeloslineales,sinoentodoc alculoestadstico.Adem as,laraz onm aspoderosaesqueelproyectoResGNUy,portanto,delibredistribuci on.DemodoquelosestudiantespuedeninstalarensucasaelprogramaRypracticarcuantoquieransincosteecon omicoalguno.Porotraparte,elpaquete S-PLUS es una versi on comercial con el mismo conjunto de instrucciones b asicas.El tratamiento de algunos temas tiene su origen en unos apuntes de C.M. Cuadras y PedroS anchezAlgarra(1996)queamablementehancedidoparasuactualizaci onenestelibroyalosqueagradezcoprofundamentesucolaboraci on.Tambienesevidentequealgunasdemostracionestienensuorigenenelcl asicolibrodeSeber.Por ultimo,estelibrohasidoescritomedianteelprocesadordetextoscientcoLATEXypresentado en formato electr onico. Gracias a ello este libro puede actualizarse con relativafacilidad. Se agradecer a cualquier la comunicaci on de cualquier errata, error o sugerencia.Barcelona,19dediciembrede2003.Dr.FrancescCarmonaIndicegeneral1. Lascondiciones 91.1. Introducci on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2. Unejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3. Elmodelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.4. Elmetododelosmnimoscuadrados . . . . . . . . . . . . . . . . . . . . 131.5. LascondicionesdeGauss-Markov . . . . . . . . . . . . . . . . . . . . . . 141.6. Otrostiposdemodeloslineales . . . . . . . . . . . . . . . . . . . . . . . 161.7. Algunaspreguntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.8. EjemplosconR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202. Estimaci on 222.1. Introducci on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2. Elmodelolineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3. Suposicionesb asicasdelmodelolineal. . . . . . . . . . . . . . . . . . . . 252.4. Estimaci ondelospar ametros . . . . . . . . . . . . . . . . . . . . . . . . 262.5. Estimaci ondelavarianza . . . . . . . . . . . . . . . . . . . . . . . . . . 302.6. Distribucionesdelosestimadores . . . . . . . . . . . . . . . . . . . . . . 322.7. Matrizdedise noreducida . . . . . . . . . . . . . . . . . . . . . . . . . . 342.8. Matricesdedise noderangonom aximo . . . . . . . . . . . . . . . . . . . 362.8.1. Reducci onaunmodeloderangom aximo . . . . . . . . . . . . . . 372.8.2. Imposici onderestricciones . . . . . . . . . . . . . . . . . . . . . . 372.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393. Funcionesparametricasestimables 413.1. Introducci on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.2. TeoremadeGauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 433.3. Varianzadelaestimaci onymulticolinealidad . . . . . . . . . . . . . . . 463.4. Sistemasdefuncionesparametricasestimables . . . . . . . . . . . . . . . 483.5. Intervalosdeconanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5144. Complementosdeestimaci on 554.1. Ampliarunmodeloconm asvariablesregresoras . . . . . . . . . . . . . . 554.1.1. Unavariableextra . . . . . . . . . . . . . . . . . . . . . . . . . . 554.1.2. Unainterpretaci on . . . . . . . . . . . . . . . . . . . . . . . . . . 574.1.3. M asvariables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.2. Mnimoscuadradosgeneralizados . . . . . . . . . . . . . . . . . . . . . . 604.3. Otrosmetodosdeestimaci on . . . . . . . . . . . . . . . . . . . . . . . . . 634.3.1. Estimaci onsesgada . . . . . . . . . . . . . . . . . . . . . . . . . . 634.3.2. Estimaci onrobusta . . . . . . . . . . . . . . . . . . . . . . . . . . 644.3.3. M asposibilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665. Contrastedehip otesislineales 675.1. Hip otesislinealescontrastables . . . . . . . . . . . . . . . . . . . . . . . . 675.2. Elmodelolinealdelahip otesis . . . . . . . . . . . . . . . . . . . . . . . 685.3. TeoremafundamentaldelAn alisisdelaVarianza . . . . . . . . . . . . . 715.3.1. Uncontrastem asgeneral . . . . . . . . . . . . . . . . . . . . . . . 785.3.2. Testdelaraz ondeverosimilitud . . . . . . . . . . . . . . . . . . 805.4. Cuandoeltestessignicativo . . . . . . . . . . . . . . . . . . . . . . . . 815.5. Contrastedehip otesissobrefuncionesparametricasestimables . . . . . . 815.6. Elecci onentredosmodeloslineales . . . . . . . . . . . . . . . . . . . . . 825.6.1. Sobrelosmodelos. . . . . . . . . . . . . . . . . . . . . . . . . . . 825.6.2. Contrastedemodelos. . . . . . . . . . . . . . . . . . . . . . . . . 835.7. EjemplosconR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886. Regresi onlinealsimple 916.1. Estimaci ondeloscoecientesderegresi on . . . . . . . . . . . . . . . . . 916.2. Medidasdeajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 946.3. Inferenciasobrelospar ametrosderegresi on . . . . . . . . . . . . . . . . 966.3.1. Hip otesissobrelapendiente . . . . . . . . . . . . . . . . . . . . . 966.3.2. Hip otesissobreelpuntodeintercepci on . . . . . . . . . . . . . . 976.3.3. Intervalosdeconanzaparalospar ametros . . . . . . . . . . . . . 986.3.4. Intervaloparalarespuestamedia . . . . . . . . . . . . . . . . . . 986.3.5. Predicci ondenuevasobservaciones . . . . . . . . . . . . . . . . . 996.3.6. Regi ondeconanzayintervalosdeconanzasimult aneos. . . . . 1006.4. Regresi onpasandoporelorigen . . . . . . . . . . . . . . . . . . . . . . . 1006.5. Correlaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1016.6. Car acterlinealdelaregresi onsimple . . . . . . . . . . . . . . . . . . . . 1026.7. Comparaci onderectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1056.7.1. Dosrectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1056.7.2. Variasrectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10956.7.3. Contrasteparalaigualdaddevarianzas . . . . . . . . . . . . . . . 1136.8. Unejemploparalareexi on . . . . . . . . . . . . . . . . . . . . . . . . . 1146.9. EjemplosconR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1176.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1207. Unarectaresistente 1237.1. Rectaresistentedelostresgrupos. . . . . . . . . . . . . . . . . . . . . . 1237.1.1. Formaci ondelostresgrupos. . . . . . . . . . . . . . . . . . . . . 1237.1.2. Pendienteeintercepci on . . . . . . . . . . . . . . . . . . . . . . . 1247.1.3. Ajustedelosresiduoseiteraciones . . . . . . . . . . . . . . . . . 1257.1.4. Mejoradelmetododeajuste. . . . . . . . . . . . . . . . . . . . . 1297.2. Metodosquedividenlosdatosengrupos . . . . . . . . . . . . . . . . . . 1317.3. Metodosqueofrecenresistencia . . . . . . . . . . . . . . . . . . . . . . . 1327.3.1. Discusi on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1348. Regresi onlinealm ultiple 1358.1. Elmodelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1358.2. Medidasdeajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1378.3. Inferenciasobreloscoecientesderegresi on . . . . . . . . . . . . . . . . 1398.4. Coecientesderegresi onestandarizados . . . . . . . . . . . . . . . . . . . 1448.5. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1478.6. Regresi onpolin omica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1488.6.1. Polinomiosortogonales . . . . . . . . . . . . . . . . . . . . . . . . 1508.6.2. Elecci ondelgrado . . . . . . . . . . . . . . . . . . . . . . . . . . 1528.7. Comparaci ondecurvasexperimentales . . . . . . . . . . . . . . . . . . . 1558.7.1. Comparaci onglobal . . . . . . . . . . . . . . . . . . . . . . . . . . 1558.7.2. Testdeparalelismo . . . . . . . . . . . . . . . . . . . . . . . . . . 1568.8. EjemplosconR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1578.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1619. Diagnosisdelmodelo 1659.1. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1659.1.1. Estandarizaci oninterna . . . . . . . . . . . . . . . . . . . . . . . 1659.1.2. Estandarizaci onexterna . . . . . . . . . . . . . . . . . . . . . . . 1679.1.3. Gr acos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1689.2. Diagn osticodelainuencia . . . . . . . . . . . . . . . . . . . . . . . . . 1719.2.1. Niveldeunpunto. . . . . . . . . . . . . . . . . . . . . . . . . . . 1719.2.2. Inuenciaenloscoecientesderegresi on . . . . . . . . . . . . . . 1729.2.3. Inuenciaenlaspredicciones . . . . . . . . . . . . . . . . . . . . . 1739.3. Selecci ondevariables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1749.3.1. Coecientededeterminaci onajustado . . . . . . . . . . . . . . . 1749.3.2. CriterioCPdeMallows. . . . . . . . . . . . . . . . . . . . . . . . 17469.3.3. Selecci onpasoapaso. . . . . . . . . . . . . . . . . . . . . . . . . 1759.4. EjemplosconR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1759.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17810.AnalisisdelaVarianza 17910.1. Introducci on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17910.2. Dise nodeunfactor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18110.2.1. Comparaci ondemedias . . . . . . . . . . . . . . . . . . . . . . . 18110.2.2. Unmodeloequivalente . . . . . . . . . . . . . . . . . . . . . . . . 18310.3. Dise nodedosfactoressininteracci on . . . . . . . . . . . . . . . . . . . . 18610.4. Dise nodedosfactoresconinteracci on . . . . . . . . . . . . . . . . . . . . 19310.5. Descomposici onortogonaldelavariabilidad . . . . . . . . . . . . . . . . 19910.5.1. Descomposici ondelavariabilidadenalgunosdise nos . . . . . . . 20210.5.2. Estimaci ondepar ametrosyc alculodelresiduo . . . . . . . . . . 20410.6. Diagnosisdelmodelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20610.7. Dise nosnobalanceadosyobservacionesfaltantes . . . . . . . . . . . . . . 20810.8. EjemplosconR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21010.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21711.AnalisisdeComponentesdelaVarianza 22011.1. Introducci on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22011.2. Contrastedehip otesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22211.2.1. LostestF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22211.2.2. Estimaci ondeloscomponentesdelavarianza . . . . . . . . . . . 22511.3. Comparaci onentremodelosdeefectosjosymodelosdeefectosaleatorios 22511.3.1. Dise nodeunfactorconefectosjos. . . . . . . . . . . . . . . . . 22611.3.2. Dise nodeunfactorconefectosaleatorios . . . . . . . . . . . . . . 22811.3.3. Dise nodedosfactoressininteracci onconefectosjosodise noenbloquesalazarcompletos . . . . . . . . . . . . . . . . . . . . . . 23311.3.4. Dise nodedosfactoressininteracci onconefectosaleatorios. . . . 23611.3.5. Dise nodedosfactoresaleatoriosconinteracci on. . . . . . . . . . 23811.3.6. Dise nodetresfactoresaleatoriosyreplicas. . . . . . . . . . . . . 23911.3.7. Dise noanidadodedosfactoresaleatorios . . . . . . . . . . . . . . 24011.3.8. Resumen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24311.4. Correlaci onintracl asica. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24411.5. EjemplosconR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24511.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247A. Matrices 249A.1. Inversageneralizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249A.2. Derivaci onmatricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250A.3. Matricesidempotentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250A.4. Matricesmalcondicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 2517B.Proyeccionesortogonales 252B.1. Descomposici onortogonaldevectores. . . . . . . . . . . . . . . . . . . . 252B.2. Proyeccionesensubespacios . . . . . . . . . . . . . . . . . . . . . . . . . 254C.Estadsticamultivariante 255C.1. Esperanza,varianzaycovarianza . . . . . . . . . . . . . . . . . . . . . . 255C.2. Normalmultivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2568Captulo1Lascondiciones1.1. Introducci onLosmetodosdelaMatem aticaqueestudianlosfen omenosdeterministasrelacionan,porlo general, una variable dependiente con diversas variables independientes. El problema sereduce entonces a resolver un sistema lineal, una ecuaci on diferencial, un sistema no lineal,etc.. Sin embargo, la aplicaci on de los metodos cuantitativos a las Ciencias Experimentaleshareveladolapocaabilidaddelasrelacionesdeterministas.EntalesCiencias,elazar,laaleatoriedad, lavariabilidadindividual, lasvariablesnocontroladas, etc. justicanelplanteo,enterminosmuygenerales,delaecuaci onfundamentalobservaci on=modelo+erroraleatorioEl experimentador puede, jando las condiciones de su experimento, especicar la estruc-turadelmodelo,perosiempredebetenerencuentaelerroraleatorioodesviaci onentreloqueobservayloqueesperaobservarseg unelmodelo.Los modelos de regresi on utilizan la ecuaci on anterior jando el modelo como una funci onlinealdeunospar ametros.Elobjetivoconsiste,casisiempre,enlapredicci ondevaloresmedianteelmodeloajustado.ElAn alisisdelaVarianzaesunmetodoestadsticointroducidoporR.A.FisherdegranutilidadenlasCienciasExperimentales, quepermitecontrolardiferentesvariablescua-litativas ycuantitativas (llamadas factores), atraves deunmodelolineal, suponiendonormalidad para el error aleatorio. Fisher(1938) deni o este metodo como la separaci ondelavarianzaatribuibleaungrupodelavarianzaatribuibleaotros grupos. Comoveremos, lostestsenAn alisisdelaVarianzaseconstruyenmedianteestimacionesinde-pendientesdelavarianzadelerror.Ambosconjuntosdemodelossepuedenabordarconunateoracom un: losmodelosli-neales.Iniciaremos este captulo con un ejemplo de modelizaci on de un problema y su aplicaci onpr actica. Acontinuaci onexplicaremos enqueconsisteesencialmenteel metododelosmnimos cuadrados yestableceremos las condiciones paraqueestemetodoseav alidoparasuutilizaci onenEstadstica.91.2. UnejemploEnel librodeSenandSrivastavaen[66, p ag. 2] seexplicaesteejemploquenosotroshemosadaptadoalasmedidaseuropeas.Sabemosquecuantosm ascochescirculanporunacarretera, menoreslavelocidaddeltr aco. El estudiodeesteproblematienecomoobjetivolamejoradel transporteylareducci ondeltiempodeviaje.La tabla adjunta proporciona los datos de la densidad (en vehculos por km) y su corres-pondientevelocidad(enkmporhora).Dato Densidad Velocidad Dato Densidad Velocidad1 12,7 62,4 13 18,3 51,22 17,0 50,7 14 19,1 50,83 66,0 17,1 15 16,5 54,74 50,0 25,9 16 22,2 46,55 87,8 12,4 17 18,6 46,36 81,4 13,4 18 66,0 16,97 75,6 13,7 19 60,3 19,88 66,2 17,9 20 56,0 21,29 81,1 13,8 21 66,3 18,310 62,8 17,9 22 61,7 18,011 77,0 15,8 23 66,6 16,612 89,6 12,6 24 67,8 18,3Cuadro1.1:Datosdelproblemadetr acoComolacongesti onafectaalavelocidad, estamosinteresadosendeterminarel efectodeladensidadenlavelocidad.Porrazonesqueexplicaremosm asadelante(verejercicio9.2),tomaremoscomovariabledependientelarazcuadradadelavelocidad.El gr aco1.1presentalanubedepuntos odiagramadedispersi on(scatter plot) conlavariableindependiente(densidad)enel ejehorizontal ylavariabledependiente(razcuadradadelavelocidad)enelejevertical.Grfico de dispersin02468100 20 40 60 80 100densidadRAIZ(vel)Figura1.1:Nubedepuntosdelproblemadetr aco10Comoprimeraaproximaci onpodramostomar,comomodelodeajuste,larectaqueunedos puntos representativos, por ejemplo, los puntos (12, 7,62, 4) y (87, 8,12, 4). Dicharectaesy= 8, 6397 0, 0583x.Inmediatamente nos proponemos hallar la mejor de las rectas, seg un alg un criterio. Comoveremos, el metododelosmnimoscuadradosproporcionaunarecta, llamadarectaderegresi on, que goza de muy buenas propiedades. Este metodo consiste en hallar a y b talesqueseminimicelasumadeloserroresalcuadrado.n

i=1(yi(a +bxi))2Enestecasolarectaderegresi onesy= 8, 0898 0, 0566x.Paraestudiarlabondaddelajusteseutilizanlosresiduosei= yi yidonde yi= 8, 0898 0, 0566xi.Losgr acosdelagura1.2nosmuestranestosresiduos.Paramejorar el modelopodemosa nadir el terminocuadr aticoyconsiderar el modeloparab olicoyi= a +bxi +cx2iTambien aqu, el metodo de los mnimos cuadrados proporciona un ajuste que es optimoen varios aspectos. Se trata de hallar los valores de a, b y c que minimizan la suma de loserroresalcuadradon

i=1(yi(a +bxi +cx2i))2El c alculodeestosvaloresconlosdatosdel tr acosedejacomoejercicio(verejercicio1.3).Lagura1.3muestralosgr acosdelosresiduosparaelmodeloparab olico.Finalmente, podemosutilizarel modeloconcretoquehemosobtenidoparasustituirlavelocidadenlaecuaci onujo = velocidad densidaddemodoqueel ujoquedaenfunci ondeladensidad. Por ultimo, el m aximovalordeestafunci oneslacapacidaddelacarretera.-0,6-0,4-0,200,20,40,60 20 40 60 80 100densidadresiduo-0,6-0,4-0,200,20,40,62 3 4 5 6 7 8prediccinresiduoFigura1.2:Gr acosdelosresiduosdelmodelorectaderegresi on.11-0,6-0,4-0,200,20,40,60 20 40 60 80 100densidadresiduo-0,6-0,4-0,200,20,40,62 3 4 5 6 7 8prediccinresiduoFigura1.3:Gr acosdelosresiduosdelmodeloparab olico.1.3. ElmodeloCuandoenelejemploanteriorajustamoslosdatosaunarecta,implcitamenteestamosasumiendolahip otesisdequelosdatossiguenunpatr onlinealsubyacentedeltipoy= 0 +1xPeroelajustenoesperfectoycontieneerrores.Laecuaci onquedeneelmodeloesyi= 0 +1xi +ii = 1, . . . , ndondeisonloserroresaleatorios.Esteeselmodeloderegresi onsimpleoconunasolavariableindependiente.Enelmismoejemploanterior,ajustamosmejorconelmodeloyi= 0 +1xi +2x2i+ii = 1, . . . , nquecontin uasiendounmodelolineal.Unmodeloeslineal si loesparalospar ametros. Porejemplo, el modeloln yi=0+1 ln(xi) +ieslineal,mientrasqueyi= 0 exp(1xi)ino.Engeneral,suponemosqueunaciertavariablealeatoriaY esigualaunvalorjom asunadesviaci onaleatoriaY= +representalaverdaderamedidadelavariable, esdecir, lapartedeterministadeunexperimento, quedependedeciertosfactorescualitativosyvariablescuantitativasquesoncontrolablesporelexperimentador.El terminorepresentael error. Es lapartedel modelonocontrolablepor el experi-mentadordebidoam ultiplescausasaleatorias,inevitablesenlosdatosqueprocedendela Biologa, Psicologa, Economa, Medicina,. . . El errorconvierte la relaci on matem ati-caY =enlarelaci onestadsticaY =+ , obligandoatratarel modelodesdelaperspectivadelan alisisestadstico.Enparticular,losmodelosdelaformayi= 0 +1xi1 +2xi2 + +kxik +ii = 1, . . . , ncon k > 1 variables independientes, predictoras o regresoras, se llaman modelos de regre-si on m ultiple. La variable cuyos datos observados son yi es la llamada variable dependienteorespuesta.12Lospar ametrosjsondesconocidosynuestroobjetivoprincipal essuestimaci on. Encuanto a los errores i, su c alculo explcito nos permitir a, como veremos extensamente, laevaluaci ondelmodelo.Observaci on:En el modelo de regresi on simple puede suceder que los datos xi i = 1, . . . , n correspondanalos valores observados deunav.a. Xodeunavariablecontroladanoaleatoria. Encualquier caso, vamos a considerar los valores xi como constantes y no como observacionesdeunavariablealeatoria.Enlaregresi onsimpleY= (x) +dondeY es aleatoriay es aleatoriaconE() =0. Demaneraque, paracadavalorX= x,Y esunav.a.conesperanza(x).Siasumimos(x) = E[Y [X= x] = 0 +1xpodemos proceder considerando las inferencias como condicionadas a los valores observa-dosdeX.Encualquiercaso, tambienenregresi onm ultiple, vamosaconsiderarlosvaloresdelasvariablesregresorasX1, . . . , Xkcomosimplementen umeros.1.4. ElmetododelosmnimoscuadradosLapaternidaddeestemetodosereparteentreLegendrequelopublic oen1805yGaussqueloutiliz oen1795ylopublic oen1809.Obviamente, cuantomenoressonlosresiduos, mejoresel ajuste. Detodoslosposiblesvaloresdelosj,elmetododelosmnimoscuadradosseleccionaaquellosqueminimizanS=n

i=1

2i=n

i=1(yi(0 +1xi1 + +kxik))2Enelcasodelaregresi onlinealsimpleS=n

i=1

2i=n

i=1(yi01xi)2demodoquederivandoeigualandoacero, seobtienenlos estimadores MC(mnimo-cuadr aticos) oLS(leastsquares)0= y 1 x1=sxys2x=

ni=1(yi y)(xi x)

ni=1(xi x)2Tambiensepuedeconsiderarelmodelocentrado,queconsisteencentrarlosdatosdelavariableregresorayi= 0 +1(xi x) +ii = 1, . . . , nLa estimaci on MCde 0, 1es equivalente a la estimaci on de 0, 1, ya que 0= 0+1 x.Demodoque 0= yylaestimaci onde1eslamismaqueenelmodeloanterior.13Conlasestimacionesdelospar ametros, podemosprocederal c alculodepredicciones yiyresiduosei yi=0 +1xi= y +1(xi x)ei= yi yi= yi y 1(xi x)Comoconsecuenciaresultaquen

i=1ei= 0loquenoocurreenunmodelosin0.Finalmente, si queremos unamedidadel ajustedelaregresi onpodemos pensar enlasumadecuadrados

ni=1e2i, peroesunamedidaquedependedelasunidadesdeyialcuadrado.Si0 ,= 0,lamedidaqueseutilizaeselcoecientededeterminaci onR2= 1

ni=1e2i

ni=1(yi y)2Sabemosque0 R2 1ycuandoR2 1elajusteesbueno.Enelcaso0= 0,elcoecientededeterminaci onesR2= 1

ni=1e2i

ni=1y2idemodoquelosmodelosquecarecendeterminoindependientenosepuedencompararconlosqueslotienen.1.5. LascondicionesdeGauss-MarkovHastaaqu,elmetododelosmnimoscuadradosesanalticod ondeest alaestadstica?A lo largo de los siguientes captulos vamos a ver que un modelo estadstico y la imposici onde algunas condiciones, hacen que podamos utilizar el modelo con toda la potencia de losmetodosestadsticosycalibrarlabondaddelajustedesdeesa optica.Unaprimerapreguntaesquetanbuenoesel metododelosmnimoscuadradosparaestimarlospar ametros?LarespuestaesqueestemetodoproporcionaunbuenajusteybuenasprediccionessisevericanlascondicionesdeGauss-Markov.Enel modelolineal quehemosdenidoanteriormente, sesuponequeloserroresisondesviaciones que se comportan como variables aleatorias. Vamos a exigir que estos erroresaleatoriosveriquenlassiguientescondiciones:1. E(i) = 0 i = 1, . . . , n2. var(i) = 2i = 1, . . . , n3. E(i j) = 0 i ,= jVeamoscondetalleestascondiciones:14Primeracondici on E(i) = 0 i = 1, . . . , nSetratadeunacondici onnaturalsobreunerror.De este modo nos aseguramos que E(yi) = 0+1xi, elmodelo lineal es correcto y la situaci on que representaelgr aconosepuededar.Segundacondici on var(i) = E(2i) = 2constante i = 1, . . . , nEslapropiedaddehomocedasticidad.En el gr aco se representa una situaci on an omala lla-madadeheterocedasticidad,enlaquelavar(i)crececonxi.El par ametrodesconocido2eslallamadavarianzadelmodelo.Otrassituacionesextra nas,quetambiensepretendeprevenir,son:I El punto I del gr aco representa un punto inuyente yatpico (outlier). En general es un punto a estudiar, unerror o incluso una violaci on de la primera condici on.IEl punto I del gr aco es claramente inuyente, aunqueno es atpico (outlier), ya que proporciona un residuopeque no.Terceracondici on E(i

j) = 0 i ,= jLas observaciones debenser incorrelacionadas. Condos puntos tenemos unarectaderegresi on.Con20copiasdeesosdospuntos,tenemos40puntosylamismarecta,pocoable.15TalescondicionespuedenexpresarseenformamatricialcomoE() = 0 var() = 2IndondeE()eselvectordeesperanzasmatem aticasyvar()eslamatrizdecovarianzasde = (1, . . . , n)

.Comodemostraremosenlossiguientescaptulos, laadopci ondeestascondicionesevi-tar ate oricamentelassituacionesan omalasqueaquhemosesquematizado.1.6. OtrostiposdemodeloslinealesPor suerte, con el mismo tratamiento podremos resolver otros modelos lineales, que aun-quetienendiferentesobjetivos,gozandelasmismasbaseste oricas.Por ejemplo, el An alisis delaVarianzaconunfactor (one-wayAnalysis of Variance),representadoporelmodelolinealyij= +i +ijconij N(0, 2)indep.,seresuelvedeformasimilaralmodeloderegresi on.El An alisisdelaCovarianza, queutilizacomovariablesindependientestantovariablescuantitativas como factores, y el An alisis Multivariante de la Varianza, con varias variablesdependientes, sondos de los an alisis que generalizanel estudioyaplicaciones de losmodeloslinealesquevamosainvestigar.1.7. AlgunaspreguntasUntpicoproblemadeestadsticaconsisteenestudiarlarelaci onqueexiste, si existe,entredosvariablesaleatoriasXeY . Porejemplo, alturaypeso, edaddel hombreylamujer enunapareja, longitudyanchuradeunas hojas, temperaturaypresi ondeundeterminadovolumendegas.Si tenemos n pares de observaciones (xi, yi) i = 1, 2, . . . , n, podemos dibujar estos puntosenungr acooscatterdiagramytratardeajustarunacurvaalospuntosdeformaquelos puntos sehallenlom as cerca posibledelacurva. Nopodemos esperar unajusteperfecto porque ambas variables est an expuestas a uctuaciones al azar debido a factoresincontrolables.Inclusoaunqueenalgunoscasospudieraexistirunarelaci onexactaentrevariablesfsicascomotemperaturaypresi on,tambienapareceranuctuacionesdebidasaerroresdemedida.Algunascuestionesquepodemosplantearnosennuestrasinvestigacionesson:Si existe un modelo fsico te orico y lineal, podemos utilizar la regresi on para estimarlospar ametros.Sielmodelote oriconoeslineal,sepuede,enmuchoscasos,transformarenlineal.Porejemplo:PV= c log P= log c log VSi no es una recta, se puede estudiar unmodelo de regresi onpolin omico. Dequegrado?16En el modelo m ultiple intervienen varias variables predictoras son todas necesa-rias?sonlinealmenteindependienteslasllamadasvariablesindependientes?SevericanrealmentelascondicionesdeGauss-Markov?Queocurresilasvariablespredictorassondiscretas?Queocurresilavariabledependienteesdiscretaounaproporci on?Ysifaltanalgunosdatos?Quehacemosconlospuntosatpicosylospuntosinuyentes?Algunas de estas preguntas las iremos trabajando y resolviendo en los siguientes captulos,otraspuedenquedarparaunaposteriorprofundizaci on.1.8. EjemplosconREn esta secci on vamos a ver como se calculan las regresiones que se han sugerido a partirdelejemploinicialconlosdatosdelatabla1.1.Enprimerlugarprocedemosaintroducirlosdatosenlosvectorescorrespondientes.> dens vel rvel par(pty="m")> plot(dens,rvel,type="p",xlab="densidad",ylab="RAIZ(vel)")Elc alculodelaregresi onsimpleserealizaconlafunci onlsfit(x,y)queasignamosalobjetorecta.ls> recta.ls abline(recta.ls)Loscoecientesdelarectason:> recta.ls$coefIntercept X8.08981299 -0.05662558Tambiensepuedeobtenerunainformaci onm ascompletaconlainstrucci onls.print,aunquesuresultadonoseexplicar ahastaelcaptulocorrespondiente.17> ls.print(recta.ls, digits=4, print.it=T)Residual Standard Error=0.2689R-Square=0.9685F-statistic (df=1, 22)=676.3944p-value=0Estimate Std.Err t-value Pr(>|t|)Intercept 8.0898 0.1306 61.9295 0X -0.0566 0.0022 -26.0076 0Laestimaci ondeladesviaci onest andardeloserroresyotroselementosdediagnosisdelmodeloseobtienenconlafunci onls.diagcomo> ls.diag(recta.ls)$std.dev[1] 0.2689388Conel vectorderesiduosylasprediccionessepuedendibujarunosgr acossimilaresalos de la gura 1.2. La instrucci onpar(mfrow=c(1,2)) permite dos gr acos en la mismagura.> e par(mfrow=c(1,2))> par(pty="s")> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))> abline(h=0)> pred plot(pred,e,type="p",xlab="predicci on",ylab="residuos",ylim=c(-0.6,0.6))> abline(h=0)Finalmente,podemosrepetirlosc alculosparaelmodeloparab olico.Simplementedebe-mos introducir los valores de la variable densidad y sus cuadrados en una matriz de datos.Elrestoesidenticoalmodeloderegresi onsimple.> matriz.frame parabola.ls parabola.ls$coefIntercept dens dens.28.8814208199 -0.1035152795 0.0004892585> round(parabola.ls$coef,5)Intercept dens dens.28.88142 -0.10352 0.00049> e par(mfrow=c(1,2))> par(pty="s")> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))> abline(h=0)> pred plot(pred,e,type="p",xlab="predicci on",ylab="residuos",ylim=c(-0.6,0.6))> abline(h=0)18Losgr acosser anmuysimilaresalosdelagura1.3.EnlossiguientescaptulosveremosotrasinstruccionesdeR, enespecial lafunci onlm,quepermitenajustarunmodeloderegresi onaunosdatos.191.9. EjerciciosEjercicio1.1Hallarlasestimacionesdelospar ametrosenunmodeloderegresi onlinealsimple,mini-mizandolasumadeloscuadradosdeloserrores:S=n

i=1(yi01xi)2Hallarunaexpresi onparalaspredicciones yiylosresiduosei= yi yi.Ejercicio1.2Hallarlasestimacionesdelospar ametrosenunmodeloderegresi onparab olico,minimi-zandolasumadeloscuadradosdeloserrores:S=n

i=1(yi01xi2x2i)2Hallarunaexpresi onparalaspredicciones yiylosresiduosei= yi yi.Ejercicio1.3Consideremos el problema de tr aco planteado en el apartado 1.2 de este captulo, con lavariableindependientedensidadylavariabledependienterazcuadradadelavelocidad.Conlosdatosproporcionadosenlatabla1.1realizarelsiguienteproceso:(a) Dibujar la nube de puntos y la recta que pasa por los puntos (12,7,62,4) y(87,8,12,4). Dibujar el gr acodelos residuos conladensidadyel gr acoconlaspredicciones.Calcularlasumadecuadradosdelosresiduos.(b) Hallar la recta de regresi on simple. Dibujar el gr aco de los residuos con la densidadyelgr acoconlaspredicciones.Calcularlasumadecuadradosdelosresiduos.(c) Mejorar el modelo anterior considerando una regresi on parab olica. Dibujar el gr acodelosresiduosconladensidadyel gr acoconlaspredicciones. Calcularlasumadecuadradosdelosresiduos.(d) Calcular la capacidad de la carretera o punto de m aximo ujo. Recordar que ujo =vel densidad.Ejercicio1.4Lasiguientetablacontienelosmejorestiemposconseguidosenalgunaspruebasdevelo-cidadenatletismoenlosJuegosOlmpicosdeAtlanta:hombres mujeresdistancia tiempo100 9,84 10,94200 19,32 22,12400 43,19 48,25800 102,58 117,731500 215,78 240,835000 787,96 899,8810000 1627,34 1861,6342192 7956,00 8765,0020Si tomamos como variable regresora o independiente la distancia (metros) y como variablerespuestaodependienteeltiempo(segundos):(a) Calcular larectade regresi onsimple conlos datos de los hombres ydibujarla.Dibujarelgr acodelosresiduosconladistanciayelgr acoconlaspredicciones.CalcularlasumadecuadradosdelosresiduosyelR2.(b) Repetir el apartadoanterior utilizandolos logaritmos de las variables tiempoydistancia.(c) Repetirlosdosapartadosanterioresutilizandolosdatosdelasmujeres.21Captulo2Estimaci on2.1. Introducci onEnprimerlugarconcretaremosladenici ongeneraldeunmodelolinealyhallaremoslaestimaci onpormnimoscuadradosdelospar ametrosdelmodelo.Veremos quelaestimaci onser a unicasi lamatrizdedise noes derangom aximo. Encasocontrario, resultaimportantedenirel conceptodefunci onparametricaestimableyprobar,paraestasfunciones,launicidaddelestimadormnimo-cuadr atico,comoestu-diaremosenelsiguientecaptulo.Estudiaremos las propiedades de estos estimadores, entre las que destacaremos el Teoremade Gauss-Markovque demuestra que los estimadores mnimo-cuadr aticos son los mejores,enelsentidodequesoninsesgadosydemnimavarianza.Adem as, conlaintroducci onde lahip otesis de normalidadde los errores, podremosestudiar las distribuciones de los estimadores y de otros estadsticos, as como la relaci onconlosestimadoresdem aximaverosimilitud.M as adelante, trabajaremos la generalizaci on del metodo de los mnimos cuadrados cuan-dolamatrizdevarianzas-covarianzasdeloserroresnoes2I. Porotraparte, tambienprofundizaremoselcasodematricesdedise noderangonom aximo.2.2. ElmodelolinealSeaY unavariablealeatoriaqueuct uaalrededordeunvalordesconocido,estoesY= +dondeesel error, deformaquepuederepresentar el valor verdaderoeY el valorobservado.Supongamosquetomavaloresdistintosdeacuerdocondiferentessituacionesexperi-mentalesseg unelmodelolineal= 1x1 + +mxmdondeisonpar ametrosdesconocidosyxisonvaloresconocidos,cadaunodeloscualesilustrasituacionesexperimentalesdiferentes.22Engeneral setienennobservacionesdelavariableY . Diremosquey1, y2, . . . , ynobser-vacionesindependientesdeY siguenunmodelolinealsiyi= xi11 + +ximm +ii = 1, . . . , nEstasobservacionesdeY sepuedenconsiderarvariablesaleatoriasindependientesydis-tribuidas como Y(son copias) o tambien realizaciones concretas (valores numericos) paralosc alculos.Laexpresi ondelmodelolinealenformamatriciales_____y1y2...yn_____=_____x11x12. . . x1mx21x22. . . x2m.........xn1xn2. . . xnm__________12...m_____+_____

1

2...

n_____oenformaresumidaY = X + (2.1)Loselementosqueconstituyenelmodelolinealson:1. ElvectordeobservacionesY = (y1, y2, . . . , yn)

.2. Elvectordepar ametros = (1, 2, , m)

.3. LamatrizdelmodeloX =_____x11x12. . . x1mx21x22. . . x2m.........xn1xn2. . . xnm_____cuyoselementossonconocidos.Enproblemasderegresi on, Xeslamatrizderegresi on. Enlosllamadosdise nosfactorialesdelAn alisisdelaVarianza,Xrecibeelnombredematrizdedise no.4. El vector deerrores odesviaciones aleatorias =(1, 2, . . . , n)

, dondeies ladesviaci onaleatoriadeyi.Ejemplo2.2.1El modelolineal m as simple consiste enrelacionar unavariable aleatoriaY conunavariablecontrolablex(noaleatoria),demodoquelasobservacionesdeY veriquenyi= 0 +1xi +ii = 1, . . . , nSedicequeY eslavariabledepredicci onodependienteyxeslavariablepredictora,porejemploY eslarespuestadeunf armacoaunadosisx.Hallar0y1esel cl asicoproblemaderegresi onlineal simple.Ejemplo2.2.2El modeloanteriorsepuedegeneralizarasituacionesenlascualeslarelaci onseapo-lin omica.23Consideremosel modeloyi= 0 +1xi +2x2i+ +pxpi+ i = 1, . . . , nObservemosqueeslineal enlospar ametrosi.Lamatrizdedise noes_____1 x1. . . xp11 x2. . . xp2.........1 xn. . . xpn_____Ejemplo2.2.3Engeneral,cualquiervariableYpuederelacionarsecondosom asvariablescontrol.As,sonmodeloslineales:a) yi= 0 +1xi1 +2xi2 +ib) yi= 0 +1xi1 +2xi2 +3xi1xi2 +4x2i1 +5x2i2 +ic) yi= 0 +1xi1 +2 cos(xi2) +3 sen(xi2) +iSinembargo,noesmodelolinealyi= 0 +1 log(2xi1) +3x4i2+iEjemplo2.2.4Supongamosquelaproducci onY deunaplantadependedeunfactorF(fertilizante)yunfactorB(bloqueoconjuntodeparcelashomogeneas). El llamadomodelodel dise nodel factorenbloquesaleatorizadosesyij= +i +j +ijdonde esunaconstante(mediageneral)iel efectodel fertilizantejel efectodel bloqueSi tenemos 2fertilizantes y3bloques, tendremos entotal k =23=6situacionesexperimentalesylasiguientematrizdedise no: 121231 1 0 1 0 01 0 1 1 0 01 1 0 0 1 01 0 1 0 1 01 1 0 0 0 11 0 1 0 0 1Lautilizaci ondel fertilizante1enel bloque3quedadescritaatravesdelala5deX.24Ejemplo2.2.5Parapredecirlacapacidadcraneal C,enAntropologaseutilizalaf ormulaC= L1A2H3donde L = longituddel cr aneo, A = anchuraparietal m axima y H= alturabasiobregma.Laf ormulaanteriorseconvierteenunmodelolineal tomandologaritmoslog C= log +1 log L +2 log A +3 log HEl par ametroexpresael tama no,mientrasquelospar ametrosexpresanlaformadelcr aneo.2.3. SuposicionesbasicasdelmodelolinealEnel modelolineal denidoenel apartadoanterior, sesuponequelos errores isondesviacionesquesecomportancomovariablesaleatoriasquevericanlascondicionesdeGauss-Markov:1. E(i) = 0 i = 1, . . . , n2. var(i) = 2i = 1, . . . , n3. E(i j) = 0 i ,= jComo sabemos, la condici on (2) es la llamada condici on de homocedasticidad del modelo yel par ametro desconocido 2es la llamada varianza del modelo. La condici on (3) signicaquelasndesviacionessonmutuamenteincorrelacionadas.EstascondicionespuedenexpresarseenformamatricialcomoE() = 0 var() = 2IndondeE()eselvectordeesperanzasmatem aticasyvar()eslamatrizdecovarianzasde = (1, . . . , n)

.Siadem assuponemosquecadaiesN(0, )yque1, . . . , nsonestoc asticamenteinde-pendientes, entonces diremos que el modelo denido es un modelolinealnormal. As ten-dremosqueY Nn(X, 2In)esdecir,Ysigueladistribuci onnormalmultivariantedevectordemediasXymatrizdecovarianzas2In.Sellamarangodeldise noalrangodelamatrizXr = rangoXyesunelementomuyimportanteenladiscusi ondelosmodelos.Evidentementer m.El valor de r es el n umero efectivo de par ametros del dise no, en el sentido de que si r < mesposiblereparametrizarel modeloparaquerseaigual al n umerodepar ametros. Enmuchos casos el dise no verica directamente que r = m y entonces se dice que es de rangom aximo.El modelo lineal que verique las condiciones aqu expuestas, salvo la normalidad, diremosqueest abajolascondicionesdeGauss-Markovordinarias.252.4. Estimaci ondelosparametrosLaestimaci ondelospar ametros = (1, . . . , m)

sehaceconelcriteriodelosmnimoscuadrados.Setratadehallarelconjuntodevaloresdelospar ametros = (1, . . . ,m)

queminimicenlasiguientesumadecuadrados

= (YX)

(YX) (2.2)=n

i=1(yixi11 ximm)2Laestimaci on delallamaremosestimaci onMC,abreviaci ondemnimo-cuadr atica,oLSdelinglesleastsquares.Teorema2.4.1Todaestimaci onMCdeessoluci ondelaecuaci onX

X = X

Y (2.3)Demostraci on:Sidesarrollamoslasumadecuadrados

tenemos

= (YX)

(YX)= Y

Y2

X

Y +

X

Xysiderivamosmatricialmenterespectoaresulta

= 2X

Y + 2X

XDemodoque,siigualamosacero,obtenemoslaecuaci onenunciadaenelteorema. Lasecuaciones2.3recibenelnombredeecuacionesnormales.Si el rangoesm aximoyr=m, entoncesX

Xtieneinversayla unicasoluci ondelasecuacionesnormaleses = (X

X)1X

YSi r rpuesX X)queesortogonalav(i)parai > r.Sea unaestimaci onMC.EntoncesY = X + (YX) = X +edonde obviamente X X) y como sabemos e X), de manera que la transformaci onortogonalV

aplicadasobreeproporcionaV

e = (0, . . . , 0, zr+1, . . . , zn)

Luego,enfunci ondelasvariableszitenemosSCR = e

e = (V

e)

V

e =n

i=r+1z2iAdem as,porserunatransformaci onortogonal,lasvariablesz1, . . . , znsiguensiendoin-correlacionadasydevarianza2.AspuesE(zi) = 0 E(z2i) = var(zi) = var(yi) = 21Enmuchosdeloslibroscl asicosescritoseninglesesteestadsticosellamaMSE, siglasdemeansquare error.31yporlotantoE(SCR) =n

i=r+1E(z2i) = (n r)2Laexpresi onSCR = z2r+1 + +z2n(2.5)sellamaformacan onicadelasumadecuadrados residual del modelolineal bajolaship otesisdeGauss-Markov. Demostraci on2:Se puede hacer una demostraci on mucho m as directa a partir de la propiedad 2 explicadaenelApendiceC1deEstadsticaMultivariante:Para un vector aleatorio Ycon esperanza E(Y) = y matriz de varianzas y covarianzasvar(Y) = V,setienequeE(Y

AY) = tr(AV) +

AdondeAesunamatrizconstante.EnnuestrocasoE(Y) = = Xyvar(Y) = V = 2I,deformaqueE(SCR) = E(Y

(I P)Y) = tr(2(I P)) +

X

(I P)X= 2tr(I P)= 2rg(I P) = 2(n r)graciasalaspropiedadesdelamatrizI P. 2.6. DistribucionesdelosestimadoresVamos ahora a establecer algunas propiedades de los estimadores MC para un modelo derangom aximo.Si asumimosqueloserroressoninsesgadosE() =0, queeslaprimeracondici ondeGauss-Markov,entonces esunestimadorinsesgadodeE() = (X

X)1X

E(Y) = (X

X)1X

X = Siasumimosadem asqueloserroresisonincorrelacionadosyconlamismavarianza,esdecirvar() = 2I,resultaquevar(Y) = var(YX) = var() = 2IyaqueXnoesaleatorioyenconsecuenciavar() = var((X

X)1X

Y) = (X

X)1X

var(Y)X(X

X)1= 2(X

X)1(X

X)(X

X)1= 2(X

X)1Veamosacontinuaci onalgunosresultadosacercadeladistribuci onde ySCRbajolaship otesisdelmodelolinealnormalenelcasoderangom aximo.32Teorema2.6.1Sea Y N(X, 2In) con rango X = m. Entonces se verican las siguientes propiedades:i) Laestimaci onMCdecoincideconlaestimaci ondelam aximaverosimilitud.Adem asesinsesgadaydemnimavarianza.ii) N(, 2(X

X)1)iii) ( )

X

X( )/2 2miv) esindependientedeSCRv) SCR/2 2nmDemostraci on:i) Lafunci ondeverosimilitudesL(Y; , 2) = (22)nexp_122(YX)

(YX)_demodoqueelmnimode(YX)

(YX)eselm aximodeL.Yahemosvistoque esinsesgadoyadem as,cada iesunestimadorlinealdeva-rianza mnima de i, ya que es centrado y de m axima verosimilitud, luego suciente.Sellegar aalamismaconclusi oncomoconsecuenciadelTeorema3.2.1.Porotraparte, si sustituimospor enlafunci ondeverosimilitudyderivamosrespecto a 2resulta que el el estimador de m axima verosimilitud de la varianza es 2MV= SCR/nEsteestimador es sesgadoyenlapr acticanoseutiliza, yaquedisponemos delestimador insesgado propuesto en el apartado anterior. Adem as, bajo ciertas condi-ciones generales se puede probar que 2= SCR/(nm) es un estimador de varianzamnimade2(veaseSeber[65,p ag.52]).ii) Como =[(X

X)1X

]Y, es combinaci onlineal deunanormal y, por tanto,tienedistribuci onnormalmultivarianteconmatrizdevarianzas-covarianzas(X

X)12iii) Es consecuencia de las propiedades de la normal multivariante del apartado anterioryaque( )

X

X( )/2= ( )

var()1( ) 2miv) Sicalculamoslamatrizdecovarianzasentre iYXtenemoscov(, YX) = cov((X

X)1X

Y, (I P)Y)= (X

X)1X

var(Y)(I P)

= 2(X

X)1X

(I P) = 0demodoqueefectivamente esindependientede(Y X)

(Y X),yaquelaincorrelaci onentrenormalesmultivariantesimplicasuindependencia.Esteresultadoseampliar aenelTeorema3.4.1.33v) Aplicandolaecuaci on2.5SCR/2= (zm+1/)2+ + (zn/)2obtenemosunasumadecuadradosden mvariablesnormalesindependientes,esdecir,unadistribuci on2nm.

Ejemplo2.6.1Ladistribuci onde del ejemplo2.4.1esN(, /6)E() = E((y1 + 2y2y3)/6) = (1/6)( + 4 +) = var() = (2+ 42+2)/62= 2/6Ladistribuci ondeSCR/2es22,siendoSCR = (y1)2+ (y22)2+ (y3 +)2Ejemplo2.6.2Laestimaci ondelavarianzadel error2enel ejemplo2.4.2es 2= 0,00145/(5 3) = 0,725 103Observemosqueel n umerodepesadasnecesariasparaobtenerlamismaprecisi onseramayorsipes aramoscadaobjetoindividualmente.2.7. Matrizdedise noreducidaSupongamosquevariasobservacionesyihansidoobtenidasbajolasmismascondicionesexperimentales.Paraestasobservaciones,elmodeloqueligayiconlaseselmismo,loquesetraduceenquelaslasdelamatrizdedise nocorrespondientesest anrepetidas.Paraevitar laredundanciaqueestosuponenosser amuy util, aefectoste oricosydec alculo,introducirelconceptodematrizdedise noreducida.Denici on2.7.1Dado el modelo lineal Y = X+, llamaremos matriz de dise no reducida XRa la matrizk mobtenidatomandolasklasdistintasdelamatrizdedise nooriginal X.Diremosentoncesquekesel n umerodecondicionesexperimentales.Las matrices de dise nooriginal oampliada yreducidalas indicaremos por XyXRrespectivamente,cuandoconvengadistinguirunadeotra.Si lalai-esimadeXRest arepetidanivecesenX, signicaquesehanobtenidonireplicas de la variable observable bajo la i-esima condici on experimental. Si estos n umerosdereplicassonn1, n2, . . . , nk,entoncesn = n1 +n2 + +nk34Adem asdelamatrizreducidaXR,utilizaremostambienlamatrizdiagonalD = diag(n1, n2, . . . , nk)yelvectordemediasY = ( y1, y2, . . . , yk)

dondecadayieslamediadelasreplicasbajolacondici onexperimentali.En una experiencia bajo la cual todas las observaciones han sido tomadas en condicionesexperimentalesdistintas(casodeunasolaobservaci onporcasilla),entoncesXR= XY = Y D = I ni= 1Comoveremosm asadelante(versecci on10.7),lautilizaci ondeXR,DeYnospermi-tir aabordardise nosnobalanceadosyelcasodeobservacionesfaltantes.Teorema2.7.1Lasoluci ondelasecuacionesnormalesylasumadecuadradosresidual enterminosdelamatrizdedise noreducidaXR,deDeYes = (X

RDXR)1X

RDYSCR = Y

Y

X

RDYDemostraci on:SeaMunamatrizn kdeformaquecadacolumnaies(0, . . . , 0. .n

, 1, . . . , 1. .ni, 0, . . . , 0. .n

)

dondekeseln umerodecondicionesexperimentales(n umerodelasdistintasdeX),nieln umerodereplicasbajolacondici oni,yadem asn

= n1 + +ni1n

= ni+1 + +nkSevericaM

Y = DY MXR= X M

M = D X

Y = X

RM

Y = X

RDYdedondesesigueninmediatamentelasf ormulasdelteorema. Ejemplo2.7.1Conlosdatosdel ejemplo2.4.2X =______1 1 11 1 11 1 11 1 11 1 1______Y =______5,531,720,645,481,70______35Agrupandolaslas1, 4y2, 5obtenemosXR=__1 1 11 1 11 1 1__D =__2 0 00 2 00 0 1__donden1= n2= 2,n3= 1,k = 3.Y =__(5,53 + 5,48)/2(1,72 + 1,70)/20,64__=__5,5051,7100,640__LamatrizMesM =______1 0 01 0 00 1 00 1 00 0 1______Ejemplo2.7.2Consideremosel modeloyij= +i +j +ijcorrespondienteal dise nodedosfactoressininteracci on.Supongamosqueel primerfactortiene2nivelesyel segundotiene3niveles, yquelosn umerosdereplicassonn11= 2 n21= 1 n12= 3 n22= 3 n13= 5 n23= 4Lamatrizdedise noreducidaes 121231 1 0 1 0 01 0 1 1 0 01 1 0 0 1 01 0 1 0 1 01 1 0 0 0 11 0 1 0 0 1Sinembargo,lamatrizdedise noampliadatiene6columnasy

nij= 18las.2.8. Matricesdedise noderangonomaximoCuandoelmodelolinealcorrespondealan alisisdelosdatosdeundise noexperimental,la matriz X tiene todos sus elementos con valores 0 o 1 y sus columnas acostumbran a serlinealmente dependientes. Ya sabemos que en este caso es posible hallar el estimador MCde = Xpero, por desgracia, hay m ultiples estimaciones de los par ametros que m asbienpodemosconsiderarcomosoluciones delasecuacionesnormales.Entodocasoycomoveremosenel pr oximocaptuloestamosinteresadosenconcretarunaestimaci ondelospar ametrosaunquenosea unica.Acontinuaci onsecomentanalgunosmetodosparahallarunasoluci on oparahallarlaSCRdirectamente.362.8.1. Reducci onaunmodeloderangomaximoSea X1 la matriz nr con las r = rgX columnas linealmente independientes de la matrizdedise noX,entoncesP = X1(X

1X1)1X

1deformaqueSCR = Y

(I P)Y = Y

Y

X

1Ydonde = (X

1X1)1X

1Yeslasoluci ondelmodeloY = X1+derangom aximo.Podemos asumir, sin perdida de generalidad, que X1est a formada por las r primeras lasdeXdemaneraqueX = (X1, X2).EntoncesX2= X1FyaquelascolumnasdeX2sonlinealmentedependientesdelasdeX1y,portanto,X=X1(Ir, F).As,esteesuncasoespecialdeunafactorizaci onm asgeneraldeltipoX = KLdondeKesn rderangor,yLesr mderangor.EntoncespodemosescribirX = KL = Kyestimar.2.8.2. Imposici onderestriccionesEstemetodoconsisteenimponer unconjuntoderestricciones del tipoH=0paraevitarlaindeterminaci onde.Lasrestriccionesapropiadas,llamadasidenticables,sonaquellas que, para cada = X), existe un unico que satisface = Xy 0 = H,esdecir,quesatisface_0_=_XH_ = GLasoluci onessimple. DebemoselegircomolasdeHunconjuntodem rvectoresm1linealmenteindependientesqueseantambienlinealmenteindependientesdelaslas de X. Entonces la matriz G de orden (n +mr) m tendr a rango m de modo queG

G = X

X+H

Hesmmderangomyenconsecuenciatieneinversa.LuegohemossalvadoladecienciaenelrangodeX

XintroduciendolamatrizH

H.Aspues,sia nadimosH

H = 0alasecuacionesnormalestenemosG

G = X

Ycuyasoluci ones =(G

G)1X

Y. Se puede ver, apartir de =X=PY, queP = X(G

G)1X

yaquePes unica.Lademostraci ondetodoslosdetallesaquexpuestospuedeverseenSeber[65,p ag.74].Esinteresantecomprobarque,siH = 0,entoncesE() = (G

G)1X

X= (G

G)1(X

X+H

H) = demodoque esunestimadorinsesgadode.Este metodo es particularmente util en los modelos de an alisis de la varianza para los queHsehallaconmuchafacilidad.37Ejemplo2.8.1Consideremos el modelo correspondiente al dise no de un factor con, por ejemplo, 3 nivelesyij= +i +iji = 1, 2, 3 j= 1, . . . , nientonces, tenemos m=4 y unamatriz de dise node rango3. Laestimaci onde lospar ametrosresultaindeterminada.Sinembargo, si a nadimoslarestricci on

i=0, esdecir, si hacemosH=(0, 1, 1, 1),elsistemaconjuntoesderango4ypodemosdeterminarunasoluci onocalcularlasumadecuadradosresidual.382.9. EjerciciosEjercicio2.1UnavariableYtomalosvaloresy1,y2yy3enfunci ondeotravariableXconlosvaloresx1, x2yx3. Determinarcualesdelossiguientesmodelossonlinealesyencontrar, ensucaso,lamatrizdedise noparax1= 1,x2= 2yx3= 3.a) yi= 0 +1xi +2(x2i 1) +ib) yi= 0 +1xi +2exi+ic) yi= 1xi(2tang(xi)) +iEjercicio2.2Dadoelmodelolineal_y1y2_=_21_ +_

1

2_hallarlaestimaci onMCdeylasumadecuadradosresidual.Ejercicio2.3Si esunaestimaci onMC,probarque(YX)

(YX) = (YX)

(YX) + ( )

X

X( )Ejercicio2.4Cuatroobjetoscuyospesosexactosson1,2,3y4hansidopesadosenunabalanzadeplatillosdeacuerdoconelsiguienteesquema:1234peso1 1 1 1 9,21 1 1 1 8,31 0 0 1 5,41 0 0 1 1,61 0 1 1 8,71 1 1 1 3,5Hallarlasestimacionesdecadaiydelavarianzadelerror.Ejercicio2.5Sea laestimaci onMCde.Si Y = X = PY,probarquelamatrizPvericaP2= P (I P)2= I PEjercicio2.6Lamatrizdedise noreducidadeunmodelolinealnormalesXR=__1 1 11 0 10 1 0__39Sesabeadem asquey1= 10 y2= 12 y3= 17 n1= n2= n3= 10s21=1n1

(yi1y1)2= 2,8 s22= 4,2 s23= 4,0Sepide:a) Hallarlaexpresi ongeneraldelasestimacionesMCdelospar ametros.b) CalcularSCR.Estimarlavarianzadeldise no2.c) Estudiarsilahip otesisnulaH0: 2= 3puedeseraceptada.Ejercicio2.7Consideremoselmodelolinealyi= 0 +1xi1 + +mxim +ii = 1, . . . , nSean 0,1, . . . ,mlasestimacionesMCdelospar ametrosysea yi= 0 + 1xi1 + + mximi = 1, . . . , nProbarquen

i=1(yi yi) =n

i=1ei= 040Captulo3Funcionesparametricasestimables3.1. Introducci onEnlosmodeloslineales, adem asdelaestimaci ondelospar ametrosiyde2, interesatambien la estimaci on de ciertas funciones lineales de los par ametros. Como vamos a ver,estoesespecialmentenecesariocuandolospar ametroscarecendeunaestimaci on unica.Denici on3.1.1Llamaremosfunci onparametricaatodafunci onlineal delospar ametros= a11 + +amm= a

ydiremosqueunafunci onparametricaesestimablesiexisteunestadstico ,combi-naci onlineal delasobservacionesy1, . . . , yn= b1y1 + +bnyn= b

Ytal queE() = esdecir, esestimadorlineal insesgadode.Estasfuncionesparametricastienenlasiguientecaracterizaci onTeorema3.1.1Sea= a

unafunci onparametricaestimableasociadaalmodelolinealY= X + .Severica:i) esestimablesiys olosielvectorlaa

escombinaci onlinealdelaslasdeX.ii) Si 1, . . . , qson funciones parametricas estimables, entonces la combinaci on lineal= c11 + +cqqestambienfunci onparametricaestimable.iii) El n umero m aximo de funciones parametricas estimables linealmente independientesesr = rango(X).Demostraci on:41i) Sea = b

YtalqueE() = .Entoncesa

= E(b

Y) = b

E(Y) = b

Xcualquieraquesea,luegoa

= b

Xloquenosdicequea

escombinaci onlinealdelaslasdelamatrizdedise noX.Recprocamente,sisuponemosqueb

X = a

,entoncesbastatomar = b

Ycomoestimadorlinealinsesgadode.ii) yiii)paraellector(verejercicio3.4) Observaciones:1) Si rangoX = m, entonces todos los par ametros iy todas las funciones parametri-cassonestimables, puesel subespaciogeneradoporlaslasdeXcoincideconRm.2) Si rangoX < m, pueden construirse funciones parametricas que no son estimables.3) Unacaracterizaci onalgebraicade que =a

es estimable viene dadapor laidentidada

(X

X)X

X = a

donde(X

X)representaunag-inversadeX

X.Enefecto,consideremoslasmatricesS = X

X S= (X

X)H = SSentoncessecompruebaf acilmentequeH2= H SH = SPuestoqueHesidempotenterangoH = trazaH = rangoS = rangoX = rPorotrapartetenemos0 = S SH = (ImH)

(S SH) = (ImH)

(X

XX

XH)= (ImH)

(X

(XXH)) = (XXH)

(XXH)luegoX = XHEntonces,si= a

esestimable,a

= b

Xya

H = b

XH = b

X = a

Recprocamente,sia

H = a

,resultaquea

= a

SS = (a

SX

)X = b

Xsiendob

= a

SX

.423.2. TeoremadeGauss-MarkovVamosaverenprimerlugarque,cuandoelrangodelamatrizdedise nonoesm aximoy,portanto,laestimaci onMCdelospar ametrosnoes unica,laestimaci ondecualquierfunci onparametricaestimableutilizandocualquieradelosestimadoresMCses unica.Teorema3.2.1Si =a

unafunci onparametricaestimabley esunestimadorMCde, entonceselestimador = a

dees unico.Demostraci on:Si es unafunci onparametricaestimable, tiene unestimador lineal insesgadob

Y,donde b es un vector n 1. Consideremos el subespacio = X) de Rngenerado por lascolumnasdeX.Elvectorbsepuededescomponerdeforma unicab =b +cb c demodoquecesortogonalatodovectorde.Consideremosahoraelestimadorlineal b

Yyveamosqueesinsesgadoyquesuvalores unico.Sabemosqueb

Yesinsesgado= a

= E(b

Y) = E(b

Y) +E(c

Y) = E(b

Y) =b

X (3.1)luegoE(b

Y) = a

,puesE(c

Y) = c

E(Y) = c

X = 0 = 0SupongamosquebYesotroestimadorinsesgadoparayb .Entonces0 = E(b

Y) E(bY) = (b

b)Xluego(b

b)X = 0loquequieredecirque(b

b)esortogonal a. Comotambienpertenecea, debeser b b= 0,esdecir, b = b.Por ultimo,sabemosqueparacualquierestimadorMCdee = YXesortogonala,demaneraque0 =b

e =b

Yb

Xyas b

Y =b

X.Adem as,por3.1sabemosque b

X = b

X = a

,luegob

Y = a

paracualquier . A continuaci on se demuestra la principal ventaja de la utilizaci on de los estimadores MC.Teorema3.2.2(Gauss-Markov)Si =a

unafunci onparametricaestimabley esunestimadorMCde, entonces=a

es el estimador de varianzamnima1enlaclase de los estimadores linealesinsesgadosde.1BLUE: best linear unbiased estimate43Demostraci on:Conlanotaci on|b|2= b21 + +b2ntenemosquevar(b

Y) = b212+ +b2n2= |b|22Si consideramos ladescomposici onde cualquier estimador insesgadode que hemosutilizadoenelteoremaanteriorydadoque|b|2= |b|2+|c|2resultavar(a

) = var(b

Y) = |b|22 (|b|2+|c|2)2= var(b

Y)

Observaciones:1) Estosresultadossonv alidosinclusoparaunmodelolineal sinlahip otesisdenor-malidad.2) Laestimaci onconvarianzamnimaes= a

(X

X)X

Y3) Comolavarianzadeb

Yesb

b2,resultaquelavarianzamnimaesvar() = var(a

) = 2a

(X

X)a4) Utilizandolamatrizdedise noreducidatenemos= a

(X

RDXR)X

RDYvar() = 2a

(X

RDXR)aDeaqudeducimosque escombinaci onlinealdelasmediasdelaskcondicionesexperimentales= c1Y1 + +ck Yk= c

Ydondec = (c1, . . . , ck)

esc = DXR(X

RDXR)aEntoncesvar() =_k

i=1c2i/ni_2= 22Por otra parte, todo estimador lineal insesgado = b

Y de = a

se descompone comohemosvistoenb

Y =b

Y +c

YDiremos queb

Y (dondeb es unico) pertenece al espacio estimaci on y que c

Y pertenecealespacioerror.44M asexplcitamente,ladescomposici ondeb

esb

= b

P+b

(I P)siendo P = X(X

X)X

la matriz del operador que proyecta b en = X) (ver ApendiceB).Elvectorproyectadoes b

= b

P.Asimismo,I Pesotrooperadorqueproyectabenelespacioortogonala.Laproyecci onesc

= b

(I P).Como b

c = 0,severicacov(b

Y, c

Y) = 0Aspues,todoestimadorlinealinsesgadob

Ysedescomponeenb

Y = b

PY +b

(I P)Ydonde b

PYes el estimador de Gauss-Markov, mientras que b

(I P)Ytiene esperanzaceroyprovocaunaumentodelavarianzamnimadelmejorestimador = b

PY.Finalmente,observemosque= b

PY = b

X(X

X)X

Y = b

X(X

X)X

X == b

XH= a

(3.2)SiendoH = (X

X)X

X,quevericaXH = X,ysiendoa

= b

X.El aspectogeometricodelasestimacionessepuederesumirenel hechoqueel espaciomuestral RnalqueperteneceelvectordeobservacionesY,sedescomponeenRn= + donde representa el espacio estimaci on. Toda estimaci on de los par ametros de regresi onest aligadaa. Todaestimaci ondelavarianzadel modeloest aligadaal espacioerror.Ambosespaciossonortogonalesybajoelmodelolinealnormal,comoveremosm asadelante,ambasclasesdeestimacionessonestoc asticamenteindependientes.Ejemplo3.2.1Seay1, . . . , ynunamuestraaleatoriasimpleprocedentedeunapoblaci onN(, ).Elmo-delolineal asociadoes___y1...yn___=___1...1___ +El estimadorMCdees =(1/n)

yiquetambienesdeGauss-Markov(centradoydevarianzamnima).Enestecaso Rn= + ,siendo = (1, . . . , 1)

)= (x1, . . . , xn)

[

xi= 0Seaa

Y =

aiyiotroestimadorcentradode.EntoncesE(a

Y) = implica

ai= 1.Luegosevericaa = a +b,esdecir,___a1...an___=___1/n...1/n___+___a11/n...an1/n___45con a ,b .Esf acil verque a

b = 0.Adem as

aiyi= (1/n)

yi +

(ai1/n)yiEl primer termino es estimador centrado y de varianza mnima 2/n. El segundo terminovericaE(

(ai1/n)yi) = 0cov(1/n

yi,

(ai1/n)yi) = 0Lamatrizdel operadorqueproyectaaenesP = 1/n___1...1___(1, . . . , 1) =___1/n . . . 1/n.........1/n . . . 1/n___siendof acil verquea

P = (1/n, . . . , 1/n)a

(I P) = (a11/n, . . . , an1/n)Ejemplo3.2.2Verespecialmenteel nal del ejemplo5.3.2.3.3. Varianzadelaestimaci onymulticolinealidadSabemosquea

sediceestimablesitieneunestimadorlinealinsesgadob

Yo,equiva-lentemente,cuandoa=X

b.Esdecir,cuandoaescombinaci onlinealdelaslasdelamatrizX.Teorema3.3.1Lafunci onparametricaa

esestimablesiys olosia X

) = X

X)Demostraci on:Comosabemos, lafunci onparametricaa

esestimablesi ys olosi aescombinaci onlinealdelaslasdeX,esdecir,cuandoa X

).Demodoques oloquedaprobarqueX

) = X

X)Pero X

Xc = X

d para d = Xc, de forma que X

X) X

). Adem as, las dimensiones deambossubespaciossonigualesyaquergX

= rgX

X,dedondesededucelaigualdad.LosdetallespuedenverseenSeber[65,p ag.385]. Enelapartadoanteriorhemosdemostradoqueparaunafunci onparametricaestimablea

,suestimadorMCa

eseldemnimavarianza.Pero,cuantovaleestavarianza?46Supongamos que X

Xtiene comovalores propios 1, . . . , rtodos positivos nonulosasociadosaloscorrespondientesvectorespropiosortonormalesv1, . . . , vr,esdecirX

Xvi= ivii = 1, . . . , rytalesquev

ivj= ij.Si a

es estimable, entonces a X

X) y este subespacio est a generado por los vectorespropios.Aspues,asepuedeexpresarenlaformaa =r

i=1civiEntoncesvar(a

) = var_

iciv

i_=

ic2ivar(v

i)= 2

ic2i1iyaquecov(v

i, v

j) = 1i1jcov(v

iX

X, v

jX

X)= (ij)1cov(v

iX

Y, v

jX

Y)= (ij)12v

iX

Xvj= (ij)12jv

ivj= 21iijSilvey[67] concluy o que es posible una estimaci on relativamente precisa en las direccionesdelos vectores propios deX

Xcorrespondientes alos mayores valores propios, mien-trasqueseobtienenunasestimacionesrelativamenteimprecisas(pocoecientes)enlasdireccionescorrespondientesalosvalorespropiosm aspeque nos.Supongamos queXtienerangom aximoperoquesus columnas est ancercadeser li-nealmentedependientes. EntoncesX

Xest acercadesersingular(noinversible), enelsentido que uno o varios de sus valores propios no nulos son excesivamente peque nos, casidespreciables, y por lo que hemos visto las estimaciones en algunas direcciones ser an muyimprecisas.LapresenciaderelacionesquasilinealesentrelasvariablesregresorasseconoceenEco-nometra con el nombre de multicolinealidad, cuya forma m as extrema se presenta cuandolamatrizdedatosXnotienerangom aximo. Estegraveproblemadebeserdetectadopreviamentealaestimaci onysepuedecorregirdevariasformas(versecci on8.5).Unasoluci onte oricaconsisteenminimizaroinclusoerradicarlamulticolinealidad, me-diante la incorporaci on de nuevas observaciones en las direcciones de los vectores propiosconvalorespropiosdemasiadopeque nos(ocero).Supongamosqueunanuevaobservaci onsea nadealmodeloY = X +yresulta_YYn+1_=_Xx

n+1_ +_

n+1_= X +47donde xn+1= cv, donde v es un vector propio normalizado de X

X correspondiente a unvalorpropio. EntoncessepuedeprobarquevestambienunvectorpropiodeX

Xcorrespondientealvalorpropio + c2.YdeestaformaSylveypropusounan alisisparalaelecci ondelasdireccionesenlasqueesconvenienteelegirnuevasobservacionesparamejorarlaprecisi ondelasestimacionesdeuna

particular.3.4. SistemasdefuncionesparametricasestimablesConsideremosunsistemadefuncionesparametricasestimables1= a

1, . . . , q= a

qsobreelmismomodelolinealnormalydondelosvectoresa1, . . . , aq(q r=rangoX)son linealmente independientes. Para cada una, tenemos las correspondientes estimacionesdeGauss-Markovi= a

i i = 1, . . . , qquepodemoscondensarmatricialmenteenlaforma= (1, . . . , q)

= AdondeA =___a

1...a

q___Con esta matriz, es el conjunto de estimadores MC del sistema de funciones parametri-cas= A.Teorema3.4.1Bajo el modelo lineal normal, el conjunto de estimadores = A del sistema de funcionesparametricas= Averica:i) sigueladistribuci onnormalmultivariante Nq(, )donde= Aeselvectordemediasy = 2A(X

X)A

eslamatrizdevarianzas-covarianzas.ii) Laestimaci onMCdetodafunci onparametricaestimableesestoc asticamentein-dependientedelasumadecuadradosresidualSCR = (YX)

(YX)Enparticular, = Aesestoc asticamenteindependientedeSCR.Demostraci on:48i) Es consecuencia de que es una combinaci on lineal de variables normales indepen-dientes:i= a

i(X

X)X

YluegosiA(X

X)X

= Csabemos queE() =ylamatrizdecovarianzas deCYes =2CC

, demaneraque = 2CC

= 2A(X

X)X

X(X

X)A

= 2A(X

X)A

ii) Comoenelteorema2.5.1,consideremoslatransformaci onortogonalZ = V

Ydonde las primeras r columnas de lamatriz ortogonal Vgeneranel subespacio= X). Entonceslasvariablesz1, . . . , znsonnormaleseindependientes, ytodaestimaci ondeGauss-Markovesunacombinaci onlinealdez1, . . . , zrpuestoqueperteneceal espacioestimaci on. Sinembargo, lasumadecuadradosresidualesSCR = z2r+1 + +z2ny, por tanto, ser a estoc asticamente independiente de cualquier estimaci on i= a

i.Estomismosepuedededucirdelaexpresi on3.2yaque = BPY,mientrasqueSCR = Y

(I P)Y = ((I P)Y)

(I P)Ydonde(I P)Ypertenecealespacioortogonalde.

Teorema3.4.2Ladistribuci ondeU= (A A)

(2A(X

X)A

)1(A A)esuna2q.Adem as,Uesestoc asticamenteindependientedeSCR/2cuyadistribuci ones2nr.Demostraci on:Esconsecuenciadelaspropiedadesdeladistribuci onnormalmultivarianteydelosteo-remas2.5.1y3.4.1. Dosresultadosimportantesquesededucendelosteoremasanterioresson:a) Parael modelolineal normal yel sistemadeqfuncionesparametricasestimables= Asevericaqueladistribuci ondeF=(A A)

(A(X

X)A

)1(A A)/qSCR/(n r)(3.3)esunaFconqyn rgradosdelibertad, yaquesetratadeuncocientededos2independientesdivididasporsusgradosdelibertadrespectivos.Observemosladesaparici ondelpar ametro2desconocido.49b) Enel casoq =1, si es laestimaci onde Gauss-Markovde , entonces N(,

),siendo2

= a

(X

X)a 2= 22luegoladistribuci ondet = 2SCRn r (3.4)esladeunat deStudentconn rgradosdelibertad. Esteresultadosepuedeestablecerdirectamenteoapartirde3.3yaqueF1,nr= t2nr.3.5. IntervalosdeconanzaConsideremosunafunci onparametricaestimable= a

,suestimaci onMC = a

yseattalqueP(t< t < t) = 1 paraunadistribuci ontdeStudentconn rgradosdelibertad.Entonces,deladistri-buci on3.4deducimosqueP_t< 2SCRn r < t_= 1 ydespejandoobtenemosP_ t_2SCRn r< < +t_2SCRn r_= 1 Porlotanto t_2SCRn r< < +t_2SCRn resdecira

t[a

(X

X)a 2]1/2(3.5)es un intervalo de conanza para la funci on parametrica estimable = a

, con coecientedeconanza1 .Porotraparte,comoSCR/2sigueuna2nrtenemosP(a < SCR/2< b) = 1 dondeaybsontalesqueP(2nr a) = /2 P(2nr> b) = /2DeducimosentoncesqueP_SCRb< 2 21mdonde m> 0 es el m as peque no de los valores propios de X

X. En la pr actica, aunque lamatriz X sea de rango m aximo, puede ocurrir que m sea muy peque no y en consecuenciaprovocarquelavarianzatotalseamuygrande.63ParasolucionaresteproblemaHoerlyKennard(1970)introducenlosridgeestimators(k)= (X

X+kI)1X

Y= (X

X+kI)1X

X= (I +k(X

X)1)1= Kdonde k 0 es un escalar a elegir de forma que, si no es cero, (k) es un estimador sesgadode.Lasprincipalesrazonesparalautilizaci ondeestosestimadoresson:Losgr acosdeloscomponentesde (k)ydesuscorrespondientesSCRalvariarkpermitenestudiarlaenfermedaddeX.Esposibleelegirunvalordektal queloscoecientesderegresi ontenganvaloresrazonablesylaSCRnoseamuygrande.Sehademostradoqueesposiblehallarunkque, porunpeque noincrementodelsesgo,reducelavarianzatotaly,enconsecuencia,elerrorcuadr aticomediototal.El estudio de generalizaciones de estos estimadores y sus propiedades ha tenido bastanteexito.4.3.2. Estimaci onrobustaEnel captuloanteriorsehademostradoque, mientrasseveriquelahip otesisdenor-malidadparalasobservaciones,losestimadoresobtenidosporelmetododelosmnimoscuadrados gozandemuybuenas propiedades. Sinembargo, tambiensehanestudiadolosresultadoscuandolasobservacionessiguendistribucionesdistintasdelanormalysehaconstatadoqueel metododelos mnimos cuadrados fallaenmuchos aspectos. Enespecial, cuandoladistribuci onde los errores tiene unaaltacurtosis los estimadoresmnimo-cuadr aticos sonmuypocoecientes, comparados conestimadores robustos delocalizaci on(verAndrewsetal.[4,cap.7]).Puedeprobarse(verPe na[54,p ag.465])queenestassituacioneslaestimaci ondem aximaverosimilitudesequivalenteaminimizarunafunci onponderadadeloserrores, queproporcionemenospesosalosresiduosm asgrandes.Setratadecalcularestimadoresqueminimicen

i(i)2idonde i(i) es una funci on para reducir el efecto de los datos con un residuo muy alto. Losmetodos de estimaci on robusta que utilicen esta idea requieren la denici on de la funci ondeponderaci onyunprocedimientoiterativoparaacercarnosalosvaloresi(i), yaqueloserroresison, enprincipio, desconocidos. Entrelaspropuestasm asinteresantesdestacalafunci ondeponderaci ondeHuber(1981)i=___12si [ri[ < ccri12cri2si [ri[ c64donde los ri son los residuos estudentizados y c una constante entre 1,5 y 2 que establece elgrado de protecci on. Para calcular la estimaci on de los par ametros se toma inicialmentela mnimo cuadr atica ordinaria, se calculan los residuos y con ellos las ponderaciones paralasiguienteestimaci on,yassucesivamente.Otraalternativaesminimizar

i[i[conrespectoa.Esteesunproblemademinimi-zaci ondeunanormaL1quesepuedereduciraunproblemadeprogramaci onlinealyaun procedimiento similar al metodo del simplex, aunque la soluci on no siempre es unica yalgunosdelosalgoritmosproporcionanestimadoressesgados. Otrosprocedimientosite-rativospropuestosnotienenresueltalacuesti ondelaconvergenciayelsesgo(verSeber[65,p ag.91]).4.3.3. MasposibilidadesTambiensehaestudiadoel problemadelaestimaci onmnimocuadr aticasujetaalasrestriccionesi 0,i = 1, . . . , m.Por otraparte, enalgunos problemas deregresi on, los datos delavariable respuestapuedensercensurados, esdecir, losvaloresdealgunasobservacioness oloseconocensisonsuperiores (oinferiores) aalg unvalor dado. Estosesueleproducir enproblemasdondelavariableobservadaeseltiempodevida.Enestoscasoselmetodocl asicodelosmnimos cuadrados no sirve y se han estudiado otros procedimientos (ver Seber [65, p ag.90]).654.4. EjerciciosEjercicio4.1Seaelmodelolinealy1= 1 +2 +1y2= 122 +2y3= 212 +3HallarlasestimacionesMCde1y2. Utilizandoel metodomnimo-cuadr aticoendospasos,hallarlaestimaci onMCde3,cuandoelmodeloseamplaenlaformay1= 1 +2 +3 +1y2= 122 +3 +2y3= 212 +3 +3Ejercicio4.2Unexperimentador deseaestimar ladensidadddeunlquidomedianteel pesadodealgunosvol umenesdel lquido. Seanyilospesosparalosvol umenesxi, i =1, . . . , nysean E(yi) = dxi y var(yi) = 2f(xi). Hallar el estimador MC de d en los siguientes casos:(a)f(xi) 1 (b)f(xi) = xi(c)f(xi) = x2i66Captulo5Contrastedehip otesislineales5.1. Hip otesislinealescontrastablesConsideremoselmodelolinealY = X +,dondeE(Y) = Xyvar(Y) = 2I.Unahip otesislineal consisteenunaovariasrestriccioneslinealesplanteadassobrelospar ametros . Enundise noderangom aximorgX=mvamos aver quecualquierhip otesislinealescontrastable(testableodemostrable),esdecir,esposibleencontrarunestadstico(el test Fdel teorema 5.3.1)mediante el cualpodemos decidir si se rechaza oaceptalahip otesis.SirgX = r< m,entoncespuedenexistirhip otesisestadsticamentenocontrastables.Denici on5.1.1Unahip otesislineal derangoqsobrelospar ametrosesunconjuntoderestriccioneslinealesai11 + +aimm= 0 i = 1, . . . , qSiescribimoslamatrizdelahip otesiscomoA =___a11 a1m.........aq1 aqm___rgA = qentonceslasrestriccionesseresumenenH0: A = 0Unahip otesissedicequeescontrastableodemostrablesielconjuntoAesunsistemadefuncionesparametricasestimables.Entonces,laslasdeAsoncombinaci onlinealdelaslasdelamatrizdedise noX,esdecir,queexisteunamatrizBdetama noq ntalqueA = BXTambienBpuedeserq ksiconsideramoslamatrizdedise noreducidaXRk m.CuandoXnoes de rangom aximo, unconjuntode restricciones A=0donde laslasdeAsonlinealmenteindependientesdelaslasdeXnoformanunaalternativaalmodelo general, en el sentido de un modelo m as sencillo. En realidad son restricciones quepermiten identicar mejor las estimaciones indeterminadas que resultan de las ecuaciones67normales. Por ello exigimos que las las de A sean linealmente dependientes de las las deX y que el rango de la matriz A q m sea q. De hecho, cualquier ecuaci on a

i = 0 paralaquea

isealinealmenteindependientedelaslasdeXpuedeignorarseylahip otesiscontrastableestar aformadaporelrestodelasecuaciones.Unacaracterizaci onparasabersiunahip otesislinealescontrastableesA(X

X)X

X = AEsteresultadoesunageneralizaci ondelquesehademostradoenlap agina42paraunafunci onparametricaestimable(verejercicio5.3).5.2. Elmodelolinealdelahip otesisElmodelolinealinicialY= X +,quesesuponev alido,constituyelahip otesisalter-nativaH1: Y = X + rgX = rPor otraparte, el modelolineal juntoconlarestricci onlineal contrastableformanlahip otesisnulaH0: Y = X + A = 0 rgA = qPeroestarestricci onlineal transformalospar ametrosylamatrizdedise noXenunnuevomodelollamadoelmodelolinealdelahip otesisH0: Y = X + rg X = r q> 0queesotraformadeplantearlahip otesisnula.Existen varios procedimientos para estimar o bajo la hip otesis nula y calcular la sumadecuadradosresidual.Metodo1Silahip otesisescontrastable,laslasdeAsoncombinaci onlinealdelaslasdeX.Elsubespacio A

)generadoporlaslasdeAest aincluidoenelsubespacio X

)generadoporlaslasdeX.Existeentoncesunabaseortogonalv1, . . . , vq, vq+1, . . . , vr, vr+1. . . , vmtalqueA

) = v1, . . . , vq) v1, . . . , vq, vq+1, . . . , vr) = X

) RmSeaentonces Cunamatrizmr

, conr

=r q, construidatomandolos vectorescolumnavq+1, . . . , vrC = (vq+1, . . . , vr)ydenamoselvectorparametrico = (1, . . . , r )

talque = CLospar ametrosconstituyenlareparametrizaci oninducidaporlahip otesisH0,puesA = AC = 0 = 068ElmodeloY = X +bajolarestricci onA = 0,seconvierteenE(Y) = XC = Xylamatrizdedise nosetransformaenX = XCrelaci ontambienv alidaparalamatrizdedise noreducidaXR= XRCLaestimaci onMCdelospar ametroses = (X

X)1X

YLasumadecuadradosresidualbajolarestricci onA = 0esSCRH=mnA=0(YX)

(YX) = (Y X)

(Y X)= Y

Y

X

YMetodo2IntroduzcamosqmultiplicadoresdeLagrange = (1, . . . , q)

unoparacadarestricci onlineal.Elmnimorestringidode(Y X)

(Y X)sehallaigualandoacerolasderivadasrespectoacadaiden

i=1(yixi11 ximm)2+q

i=1i(ai11 + +aimm)Ennotaci onmatricial,dondeahoraXeslamatrizampliada,escribiremosf(, ) = (YX)

(YX) + (

A

)f/ = 2X

Y + 2X

X +A

= 0X

X = X

Y12A

(5.1)Lasoluci onesH= (X

X)X

Y12(X

X)A

H= 12(X

X)A

HycomoAH= 0,resulta0 = A 12A(X

X)A

H69LamatrizA(X

X)A

poseeinversa,puestoqueesderangoq,as12H= (A(X

X)A

)1(A)ynalmentetenemosquelaestimaci onMCrestringidaesH= (X

X)A

(A(X

X)A

)1A (5.2)LasumadecuadradosresidualesSCRH= (YXH)

(YXH)Hemos visto (teorema 2.5.1) que la forma can onica de la suma de cuadrados residual bajoelmodelosinrestriccionesesSCR = z2r+1 + +z2nLahip otesisH0: A=0, queimplica X=XC, signicaquelascolumnasde Xsoncombinaci onlineal delasdeX. LuegolossubespaciosgeneradospordichascolumnasvericanX) X) Rn(5.3)Podemosentoncesconstruirunabaseortogonalu1, . . . , ur , ur

+1, . . . , ur, ur+1, . . . , untalqueX) = u1, . . . , ur ) X) = u1, . . . , ur)Entonces, si secumplelahip otesis, poridenticorazonamientoal seguidoenel teorema2.5.1tendremosquelaformacan onicadelasumadecuadradosresidualbajoelmodeloH0esSCRH= z2r

+1 + +z2nAdem as,siempresevericar aqueSCRH> SCRpuesSCRH SCR =r

r

+1z2iEjemplo5.2.1Consideremosel siguientemodelolineal normaly1= 1 +2 +1y2= 22 +2y3= 1 +2 +3ylahip otesislinealH0: 1= 22Lasmatricesdedise noydelahip otesissonX =__1 10 21 1__A = (1 2) rgX = 2 rgA = 170Como A es combinaci on lineal de las las de X, H0 es una hip otesis contrastable. Adem as,enestecasoparticular el rangodelamatriz dedise noes m aximo, demodoquetodahip otesislineal escontrastable.Conunossencillosc alculos,tenemos:Ecuacionesnormales21 + 02= y1y301 + 62= y1 + 2y2 +y3EstimacionesMC1= (y1y3)/22= (y1 + 2y2 +y3)/6SumadecuadradosresidualSCR = y21 +y22 +y23221 622Siconsideramoslosvectorescolumnav1= (1, 2)

v2= (2, 1)

queconstituyenunabaseortogonal de R2,severicaA

) = v1) X

) = v1, v2)PodemosentoncestomarlamatrizC = (2, 1)

quevericaAC = 0.Lareparametrizaci on = Ces1= 2 2= El modelobajolahip otesisesahoray1= 3 +1y2= 2 +2y3= +3Finalmente = (3y1 + 2y2y3)/14SCRH= y21 +y22 +y231425.3. TeoremafundamentaldelAnalisisdelaVarian-zaEn esta secci on vamos a deducir el test Fque nos permite decidir sobre la aceptaci on deunahip otesislinealcontrastable.71Teorema5.3.1Sea Y = X+ un modelo lineal normal, de manera que Y N(X, 2I). Consideremosunahip otesislinealcontrastableH0: A = 0 rangoA = qentonces,losestadsticosSCR = (YX)

(YX)SCRH= (Y X)

(Y X)verican:(i) SCR/2 2nr(ii) SiH0esciertaSCRH/2 2nr (r

= r q)(SCRH SCR)/2 2q(iii) Si H0es cierta, los estadsticos SCRHSCR y SCR son estoc asticamente indepen-dientes.(iv) SiH0escierta,elestadsticoF=(SCRH SCR)/qSCR/(n r)(5.4)sigueladistribuci onFdeFisher-Snedecorconqyn rgradosdelibertad.Demostraci on:(i) Aunqueesteresultadoyasehaestablecidoenelteorema3.4.2,nosinteresaahorasudemostraci onexplcita.Enelteorema2.5.1sehavistoqueSCR = z2r+1 + +z2ndonde las zison normales, independientes y adem as E(zi) = 0, var(zi) = 2. LuegoSCR/2essumadeloscuadradosden rvariablesN(0, 1)independientes.(ii) Laformacan onicadelasumadecuadradosresidualbajolarestricci onA = 0esSCRH= z2r

+1 + +z2nluegoan alogamentetenemosqueSCRH/2 2nr ,donder

= r q.Adem asSCRH SCR = z2r

+1 + +z2restambienunasumadecuadradosenlasmismascondiciones.(iii) Las variables zr

+1, . . . , znson normales e independientes. SCRHSCR depende delasqprimeras,mientrasqueSCRdependedelasn r ultimasynohayterminoscomunes.Luegosonestoc asticamenteindependientes.72(iv) Esunaconsecuenciaevidentedelosapartadosanterioresdeesteteorema.SiH0escierta,elestadsticoF=[(SCRH SCR)/2]/q(SCR/2)/(n r)=(SCRH SCR)/qSCR/(n r)sigueladistribuci onFdeFisher-Snedecorconqyn rgradosdelibertad.

ObservesequeFnodependedel par ametrodesconocido2ysepuedecalcularexclusi-vamenteenfunci ondelasobservacionesY.Laexpresi ondeSCResSCR = Y

(I P)Y = Y

Y

X

YVeamosque,delmismomodo,laexpresi ondeSCRHesSCRH= Y

Y

HX

Ydonde Heslaestimaci onMCderestringidaaA = 0.Enefecto,SCRH= (YXH)

(YXH) = Y

Y2Y

XH+

HX

XHAdem as(verp agina69),severicaX

XH= X

Y12A

HluegoSCRH= Y

Y2Y

XH+

H(X

Y12A

H)= Y

Y2Y

XH+Y

XH 12

HA

HPerocomoAH= 0,nosquedaSCRH= Y

YY

XHCalculemosahoraSCRH SCR.Considerando5.2tenemos

H= (A)

(A(X

X)A

)1A(X

X)luegoSCRH SCR = (

H)X

Y= (A)

(A(X

X)A

)1A(X

X)X

Y= (A)

(A(X

X)A

)1(A)(5.5)73ElestadsticoFpuedeescribirseentoncesF=(A)

(A(X

X)A

)1(A)q 2(5.6)donde 2= SCR/(n r).Cuandoq>2esmejorobtenerSCRySCRHdirectamenteporminimizaci onde

sinrestricciones y con restricciones, respectivamente. Sin embargo, si q 2 se puede utilizarlaf ormula5.6,yaquelamatrizainvertirA(X

X)A

ess olodeordenunoodos.Observesequesi A=0escierta, entoncesA 0. LuegoesprobablequeFnoseasignicativa.Cuando sea posible, tambien se puede utilizar la matriz de dise no reducida XR, junto conlasmatricesDyY.LasexpresionessonentoncesSCR = Y

YY

DXR(X

RDXR)X

RDYSCRH SCR = (A)

(A(X

RDXR)A

)(A)El c alculodeambascantidadessesueleexpresarenformadetablageneral del an alisisdelavarianza(vertabla5.1).gradosde sumade cuadradoslibertad cuadrados medios cocienteDesviaci onhip otesis q SCRH SCR (SCRH SCR)/q FResiduo n r SCR SCR/(n r)Cuadro5.1:Tablageneraldelan alisisdelavarianzaCriteriodedecisi onSi F> Fse rechaza H0; si F Fse acepta H0.Donde, para un nivel de signicaci on , F se eligedeformaqueP(Fq,nr> F) = .Delteorema5.3.1deducimosque,siH0escierta,entoncesE[(SCRH SCR)/q] = 2Luego (SCRHSCR)/q y SCR/(nr) son dos estimaciones independientes de la varianza2.EltestFnosindicahastaquepuntocoinciden.UnvalorgrandedeFindicaquelaprimera estimaci on diere demasiado de la varianza 2y entonces H0debe ser rechazada.Sepuededemostraradem as(verejercicio5.7)queengeneralE(SCRH SCR) = q2+ (A)

(A(X

X)A

)(A) (5.7)74Ejemplo5.3.1Paradecidirsobrelahip otesisH0: 1= 22enel ejemplo5.2.1calcularemosF=(SCRH SCR)/1SCR/(3 2)=142+ 221+ 622y21 +y22 +y23221 622Siutilizamos5.6,seobtieneunaexpresi onm assencillaF=(122)2(SCR/1)(7/6)En cualquiercaso, sedecide porla signicaci on en una distribuci on F1,1con 1 y 1 gradosdelibertad.Ejemplo5.3.2 Dise nocross-oversimplicadoSupongamosunaexperienciaclnicaenlaquesedeseancomparardosf armacosayb,para combatir una determinada enfermedad. El estado de los pacientes se valora medianteunaciertavariablecuantitativaY .Enel dise nocross-overlaexperienciaseorganizaasignandoaNapacientesel trata-miento a y a Nbpacientes el tratamiento b, en un primer periodo. En un segundo periodo,losquetomabanapasanatomarbyrecprocamente.Enestedise nolosdatossondelaforma:Grupo1 media varianzaa(primeravez) y11y12. . . y1Na y1s21=1Na

Nai=1(y1i y1)2b(despuesdea) y21y22. . . y2Na y2s22=1Na

Nai=1(y2i y2)2Grupo2b(primeravez) y31y32. . . y3Nb y3s23=1Nb

Nbi=1(y3i y3)2a(despuesdeb) y41y42. . . y4Nb y4s24=1Nb

Nbi=1(y4i y4)2Indicando = mediageneral = efectof armacoa = efectof armacob = efectorecprocoentreaybseproponeel siguientemodelo:a(primeravez) y1i= + +1ii = 1, . . . , Nab(despuesdea) y2i= + + +2ii = 1, . . . , Nab(primeravez) y3i= + +3ii = 1, . . . , Nba(despuesdeb) y4i= + + +4ii = 1, . . . , Nb75Esdecir,cuandos olosehatomadounf armacoact uaunsoloefecto,perocuandosehatomadounodespuesdelotroact uaentoncesunefectoaditivoquerecogelamejoradelenfermoqueyahatomadoel primermedicamento.Tenemosk = 4condicionesexperimentales,queenel cross-oversimplicadoseconsi-deranindependientes,yN1= N2= Na,N3= N4= Nb.El vectordeobservacionesYylamatrizdedise noreducidaXRsonY = (y11, . . . , y1Na, y21, . . . , y2Na, y31, . . . , y3Nb, y41, . . . , y4Nb)

XR=____1 1 0 01 0 1 11 0 1 01 1 0 1____rgXR= 3Lahip otesisnulademayorinteresesH0: = aybtienenlamismaefectividadqueexpresadaenformadehip otesislineal esH0:_0 1 1 0_________= 0Comoelvector_0 1 1 0_escombinaci onlinealdelaslasdeXR,setratadeunahip otesis contrastable. Parareparametrizar el dise nobajoH0tomaremos comomatrizortogonal aAC =____2/3 01/3 01/3 00 1____ObservesequelascolumnasdeCsontambiencombinaci onlineal delaslasdeXR.Al establecerlarelaci on = Ctendremos =_12_siendo1= + = +y2= .Esdecir,bajoH0el dise noreparametrizadodependededospar ametros:1: efectodebidoalamedicaci on(com unaaybbajoH0)2: efectorecprocoentreaybylanuevamatrizdedise noesXR= XRC =____1 01 11 01 1____76siendorg XR= r t = 3 1 = 2.Siel dise noesbalanceado(Na= Nb),entoncesN= 4Na= 4NbysepuedecalcularqueSCR =Na4(y1 +y2y3y4)2+Na_4

i=1s2i_conN 3gradosdelibertadSCRH=Na4[(y1 +y2y3y4)2+ (y1y2y3 +y4)2] +Na_4

i=1s2i_conN 2gradosdelibertad.Luego,siH0escierta,bajoel modelolineal normal,el estadsticoF=(y1y2y3 +y4)24 SCRNa(4Na3)sigueladistribuci onFcon1yN 3g.l..Latabla 5.2contiene losdatosdedosgruposde10y10enfermos reum aticos alosquesevalor o la variaci on del dolor respecto del estado inicial, mediante una escala convencional,conel deseodecomparardosf armacosantirreum aticosayb, administradosalolargodedosmeses.Seincluyeadem aslatabladelan alisisdelavarianzaparacontrastarH0.Grupo1 Grupo2a(mes1) b(mes2) b(mes1) a(mes2)17 17 21 1034 41 20 2426 26 11 3210 3 26 2619 -6 42 5217 -4 28 288 11 3 2716 16 3 2813 16 16 2111 4 -10 42Cuadro5.2:Datosdelosenfermosreum aticosg.l. sumade cuadrados Fcuadrados mediosEntref armacos 1 783.2 783.2 4.71(p < 0,05)Residuo 37 6147.9 166.2Cuadro5.3:Tabladelan alisisdelavarianzaparaH0: = Conestos datos sehandetectadodiferencias signicativas entrelos dos f armacos ayb. Paraestimarlaecaciadecadaf armaco, pasaremosaconsiderarlasfuncionespa-rametricasa= + b= +77quesonambasestimables.Paraestimara, bhallaremosprimeramenteunaestimaci onMCdelospar ametros: = 0 = 20,975= 12,125Aplicandoel teoremadeGauss-Markov, lasestimaciones optimasdea, bseobtienensustituyendopar ametrosporestimacionesMC,esdecira= + = 20,975b= + = 12,125Porotraparte,lasexpresionesenfunci ondelasmediasylasvarianzasmnimascorres-pondientesson:a= 3/4 y11/4 y2 + 1/4 y3 + 1/4 y4var(a) = 0,0752b= 1/4 y1 + 1/4 y2 + 3/4 y31/4 y4var(b) = 0,07525.3.1. UncontrastemasgeneralConsideremoslahip otesisnulaH0: A = c Aesq m,rgA = qdonde c es un vector columna que l ogicamente debe ser combinaci on lineal de las columnasde A. Tambien suponemos que las las de A son combinaci on lineal de las las de X, demaneraqueAesunconjuntodefuncionesparametricasestimables.Sea0talqueA0= cyconsideremos= 0.Entonces,sienelmodelolinealYX0= X( 0) +ponemos Y = YX0,obtenemoselmodelotransformadoY = X + (5.8)yenestemodelolahip otesisplanteadaadoptalaexpresi onH0: A= 0La estimaci on MC del conjunto de funciones parametricas estimables Aen este modelotransformadoesA =BX(X

X)X

Y= BP(YX0) = BX BX0= A A0= A cEnconsecuencia,delaecuaci on5.5sededuceSCRH SCR = (A )

(A(X

X)A

)1(A )= (A c)

(A(X

X)A

)1(A c)donde estalqueX

X = X

Y.SevericatambienE(SCRH SCR) = q 2+ (A c)

(A(X

X)A

)1(A c)78Finalmente,apartirdelaf ormula5.6eltestparacontrastarlahip otesisesF=(A c)

(A(X

X)A

)1(A c)/qSCR/(n r)(5.9)donde,siesciertalahip otesisnula,elestadsticoFsigueunadistribuci onFq,nr.Enel casoparticular q =1, dondelahip otesis es H0: a

=c, el test F sepuedesimplicarenuntesttcont =a

c( 2(a

(X

X)a))1/2(5.10)quesigueunadistribuci ontnr,siH0escierta.Ejemplo5.3.3Contrastedemediasenpoblacionesnormalesconigual varianzaSeanu1, u2, . . . , un1yv1, v2, . . . , vn2dosmuestrasaleatoriassimplesdedospoblacionesnormalesN(1, 2)yN(2, 2),respectivamente.Vamosacontrastarlahip otesislineal H0:1 2=dconlaayudadelateoradelosmodeloslineales.Podemospensarquelasobservacionessondelaformaui=1 +ii = 1, . . . , n1vj=2 +n1+jj= 1, . . . , n2oennotaci onmatricial_________u1...un1v1...vn2_________=_________1 0......1 00 1......0 1__________12_+_________

1...

n1

n1+1...

n_________donden = n1 +n2.Observemosque,graciasalaigualdaddevarianzasenlasdospobla-ciones,setratadeunmodelolineal ysevericanlascondicionesdeGauss-Markov.Enestemodelo,lamatrizdedise noreducidaes2 2derangom aximoXR=_1 00 1_y D =_n100 n2_Aspues,lahip otesisnulaeslineal ycontrastableH0: 12= d H0:_1 1__12_= d q= 1Conunossencillosc alculosseobtiene = ( 1, 2)

= (X

RDXR)1X

RDY =Y = ( u, v)

A = 1 2= u v79SCR = Y

YY

DXR(X

RDXR)X

RDY=

iu2i+

jv2j n1 u2n2 v2=

i(ui u)2+

j(vj v)2A(X

RDXR)1A

=1n1+1n2demodoqueF=(A c)

(A(X

RDXR)1A

)1(A c)q 2=( u v d)2 2(1/n1 + 1/n2)donde 2= SCR/(n1 +n22)ycuyadistribuci on,bajoH0,esunaF1,n1+n22.Perocuandoq=1, tenemosqueF1,n1+n22 t2n1+n22ysededucequeel contrasteesequivalenteal testtusual,enespecial el casod = 0.5.3.2. Testdelaraz ondeverosimilitudParasimplicar, consideremosunmodeloderangom aximo. Bajolahip otesisdenor-malidaddelasobservaciones,yasabemos(verp ag.33)quelasestimacionesdem aximaverosimilituddelospar ametrosson = (X

X)1X

Y 2MV= SCR/nyelvalorm aximodelafunci ondeverosimilitudesL(, 2MV ) = (2 2MV)n/2en/2Del mismomodo, los estimadores dem aximaverosimilituddelos par ametros conlasrestriccionesA = csonH 2H= SCRH/nyelvalorm aximodelafunci ondeverosimilitud,bajolahip otesisnula,esL(H, 2H) = (2 2H)n/2en/2Demodoqueelestadsticodelaraz ondeverosimilitudes =L(H, 2H)L(, 2MV )=_ 2MV 2H_n/2Esf acilverqueF=n mq(2/n1)luegosoncontrastesequivalentes.805.4. CuandoeltestessignicativoSi el estadsticoFparaH0: A=cessignicativo, podemosinvestigarlacausadelrechazodedichahip otesis. Unaposibilidadconsisteencontrastarcadaunadelasres-triccionesa

i=ci, i =1, . . . , qporseparado, utilizandountestt paravercual eslaresponsable.Hemosvistodevariasformasque,bajolahip otesislinealHi: a

i= ci,elestadsticotivericati=a

i ci[ 2a

i(X

X)ai]1/2 tnrdemodoquepodemosrechazarHi: a

i = ciconunniveldesignicaci onsi[ti[ tnr()dondetnr()eselvalordelatablatalqueP([tnr[ tnr()) = .Tambienpodemosconstruirintervalosdeconanzaparacadaa

ia

i tnr() (a

i(X

X)ai)1/2Este procedimiento en dos etapas para el contraste de H0: A = c, es decir, un contrasteglobal Fseguido de una serie de test t cuando Fes signicativo, se conoce con el nombredeMDS1omnimadiferenciasignicativa.Elvalorsignicativomnimoestnr()ylapalabradiferenciasereereaqueestemetodoseutilizaconfrecuenciaparacompararpar ametrostalescomomediasdosados.Estemetodoessimpleyvers atil, sinembargotienesusdebilidades: esposiblerechazarH0y no rechazar ninguna de las Hi. Este problema, otras dicultades y, en general, otrosmetodosdeinferenciasimult aneaseestudiandeformam ascompletaenloquesellamaMetodosdecomparaci onm ultiple.5.5. Contrastedehip otesissobrefuncionesparame-tricasestimablesSea=(1, . . . , q)

=Aunsistemadefuncionesparametricasestimables,demodoque las las de la matriz A sean linealmente independientes. La distribuci on Fque siguela expresi on 3.3 permite construir diferentes contrastes de hip otesis bajo el modelo linealnormal.Seac = (c1, . . . , cq)

unvectordeconstantes,conlacondici ondequecseacombinaci onlinealdelascolumnasdeA.Planteamoslahip otesisnulaH0: A = c (5.11)Paradecidir laaceptaci ondeH0, comounaconsecuenciade3.3, podemos utilizar elestadsticoF=(A c)

(A(X

X)A

)1(A c)/qSCR/(n r)(5.12)1en ingles: LSD o least signicant dierence81condistribuci onFq,nr.Peroesevidenteque5.11esunahip otesislinealcontrastable,demodoquepodemosutilizarel testFqueresultaseridenticoal anterior. Esotraformadedemostrar5.9ytambienqueSCRH SCR = (A c)

(A(X

X)A

)1(A c)Adem as, podemos plantear otras hip otesis sobre las funciones parametricas estimables ,siemprequeseanlineales.Porejemplo,consideremosahoralahip otesislinealplanteadasobrelasqfuncioneslinealmenteindependientesH0: 1= 2== q(5.13)esdecir,bajoH0lasqfuncionessoniguales.Siconsideramoslasnuevasfuncionesi= 1i+1i = 1, . . . , q 1entonces5.13sereducea5.11tomando = (1, . . . , q1)

,c = 0ysustituyendoqporq 1.Dichodeotramanera,sealamatrizA =_____a11a12. . . a1ma21a22. . . a2m.........aq1aq2. . . aqm_____Entonces5.13esequivalentealahip otesislinealH0: A = 0tomandocomomatrizdehip otesisA=___a11a21a12a22. . . a1ma2m.........a11aq1a12aq2. . . a1maqm___LuegopodemosutilizarelestadsticoFde5.6,conAyq 1,quebajoH0tienedistri-buci onFq1,nr,paradecidirsi5.13debeseraceptada.5.6. Elecci onentredosmodeloslineales5.6.1. SobrelosmodelosParalaestimaci onenelmodelolinealY = X + E() = 0, var() = 2Ihemos establecido(ver p ag. 28) queel puntocrucial es lautilizaci ondelamatrizP,proyecci onortogonalsobreelespaciodelasestimaciones = X).As,dosmodelossonigualessi tienenel mismoespaciodelasestimaciones. Dosdeestosmodelosdar anlasmismasprediccionesyelmismoestimadorde2.82SeanY=X11 + 1yY=X22 + 2dosmodeloslinealestalesque X1)= X2).Lamatriz proyecci on no depende de X1o X2sino s olo de (= X1) = X2)). La estimaci onde2eslamisma 2= SCR/(n r)ylasprediccionestambienY = PY = X11= X22Encuantoalasfuncionesparametricasestimables, hemosvistoquelaestimabilidadserestringealascombinacioneslinealesdelaslasX1, esdecir, a

11esestimablesi seescribecomob

X11.PeroX11perteneceadeformaqueX11= X22paraalg un2yasa

11= b

X11= b

X22= a

22Lasfuncionesparametricasestimablessonlasmismasperoest anescritascondiferentespar ametros.Suestimadorb

PYtambienes unico.Ejemplo5.6.1El ANOVAdeunfactorsepuedeescribirdedosformas:yij= +i +iji = 1, . . . , I, j= 1, . . . , niyij= i +iji = 1,