· La TRI considera una distribuci on de probabilidades para los valores de las variables mani...
Transcript of · La TRI considera una distribuci on de probabilidades para los valores de las variables mani...
XXVII COLOQUIO DE LA SOCIEDAD
MATEMATICA PERUANA
MODELOS DE TEORIA DE RESPUESTA
AL ITEM BAJO ENFOQUE BAYESIANO
Jorge Bazan, Arturo Calderon, Luis Valdivieso,
LIMA–PERU
2009
2
Indice general
1. INTRODUCCION 5
2. LOS MODELOS DE TEORIA DE RESPUESTA AL ITEM 9
2.1. Modelos de variables latentes . . . . . . . . . . . . . . . . . 9
2.2. Formulacion general de la TRI . . . . . . . . . . . . . . . . 12
2.3. Otros Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4. El modelo Logıstico . . . . . . . . . . . . . . . . . . . . . . 15
2.5. Caracterısticas de los Modelos TRI . . . . . . . . . . . . . . 15
3. INFERENCIA BAYESIANA 19
3.1. Funcion de Verosimilitud . . . . . . . . . . . . . . . . . . . . 19
3.2. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . 20
3.2.1. Ejemplo 1: Un intervalo para p . . . . . . . . . . . . 22
3.2.2. Ejemplo 2: Inferencia para la distribucion Normal . 24
3.3. Metodos de MCMC . . . . . . . . . . . . . . . . . . . . . . 26
4. LAS PRIORIS IN TRI 31
4.1. Nociones basicas . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2. Prioris no informativas para el modelo TRI de 1 y 2 parametros 35
4.3. Prioris no informativas para el modelo TRI de 1 y 2 paramet-
ros para puntajes extremos . . . . . . . . . . . . . . . . . . 37
3
4
5. INFERENCIA BAYESIANA EN TRI 39
5.1. Inferencia Bayesiana en TRI . . . . . . . . . . . . . . . . . . 39
5.2. Inferencia Bayesiana en el modelo Probit Normal o de Ojiva
normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.1. Especificacion del modelo . . . . . . . . . . . . . . . 40
5.2.2. Esquema MCMC usando adaptative rejection sam-
pling (ARS) . . . . . . . . . . . . . . . . . . . . . . . 41
5.2.3. Una formulacion adecuada del modelo TRI probito-
normal . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2.4. MCMC usando esquema data augmentation gibbs
sampling (DAGS) . . . . . . . . . . . . . . . . . . . 43
5.3. Inferencia Bayesiana en TRI usando WinBUGS . . . . . . 44
5.3.1. Codigo WinBUGS para esquema Gibbs Sampling . 44
5.3.2. Codigo WinBUGS para esquema ARS . . . . . . . . 45
5.3.3. Criterios de comparacion de modelos en el contexto
Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . 47
6. APLICACION 51
6.1. Los datos de una prueba de Matematicas . . . . . . . . . . 51
6.2. Comparando varios modelos TRI para los datos de la prueba
de Matematica . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.3. Analisis de sensibilidad usando diferentes prioris para a y b
en el modelo 2P . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.4. Inferencia e Interpretacion de los parametros en el modelo 2P 58
7. CONCLUSIONES 65
Capıtulo 1
INTRODUCCION
La Teorıa de la respuesta al item (TRI) (ver Baker, 1992) junto a la
Teorıa Clasica de los Test (TCT) (ver Lord y Novick, 1968, Bazan, 2004) son
algunos de los modelos de variables latentes (ver Bartholomew y Knoot,
1999) mas empleados para el aalisis de datos obtenidos en evaluaciones,
mediciones o variables manifiestas en que lo que se pretende medir no es
observable directamente, es decir es una variable latente.
La TRI considera una distribucion de probabilidades para los valores
de las variables manifiestas como funcion de la variable latente de interes
y otras caracterısticas asociadas a la medicion empleada. De tal forma que
cuanto mayor el valor de la variable latente, mayor probabilidad de observar
el valor de la variable manifiesta. La TRI es usada en Educacion, Psicologıa,
Polıtica, Sociologıa, Economıa, Medicina, Marketing, Ingenierıa, Genetica
en otras importantes areas de aplicacion.
Una clase particular de modelos TRI son aquellos en que las variables
manifiestas son matrices de respuestas binarias (exito y fracaso). Este clase
es denominada modelos TRI para respuesta dicotomica o binaria. Algunos
ejemplos de este tipo de matrices son: la obtenida cuando se considera
5
6
un exmen de admision de k preguntas o ıtemes aplicado a n postulantes
donde el exito es responder correctamente un ıtem; o la obtenida cuando
diferentes proyectos de inversion evaluados a traves de diferentes criterios
donde el exito se obtiene cuando el proyecto satisface el criterio; matrices
de votaciones de congresistas frente a determinadas leyes; evaluacion de
calidad de productos en diferentes aspectos realizado por jueces; secuencias
geneticas considerando diferentes especies en diferentes atributos; presencia
o ausencia de sıntomas de pacientes, etc.
Consideramos que hay un gran desarrollo del area de investigacion en la
TRI en la comunidad estadıstica a nivel internacional pero no en el caso del
Peru, por ello en este minicurso pretendemos presentar a manera de difusion
los principales modelos de TRI dicotomico propuestos en la literatura. El
proposito de interesar a la comunidad academica acerca de las principales
caracterısticas de estos modelos para el desarrollo de investigacion en pre y
post grado ası como senalar lıneas de investigacion en desarrollo en el area
de Matematicas, Estadıstica e Informatica.
Los modelos de TRI dicotomicos que seran estudiados son los modelos
denominados Logıstico y de ojiva normal. Estos tiene como casos particu-
lares los denominados modelos TRI de 1, 2 y 3 parametros en funcion del
numero de caracterısticas asociadas a la medicion que afecta la probabilidad
de respuesta de exito.
La propuesta es realizada desde la perspectiva de la Inferencia Bayesiana,
un modelo de inferencia estadıstica que ha tenido un gran desarrollo como
consecuencia del uso de las denominados metodos MCMC (Markov Chain
Monte Carlo, por sus siglas en ingles) (ver Chen, Shao, Ibrahim, 2000). Es
por ello que en la propuesta se presenta el uso de los programas de software
libre Bayes@PUCP y WinBUGS, el primero de los cuales es un programa
desarrollado en el marco de un proyecto de investigacion de la Direccion
Academica de Investigacion de la PUCP 2008-2009.
El resto del documento esta organizado de la siguiente manera. En el
7
capıtulo 2 presentamos los modelos TRI dicotomicos. En el siguiente capıtu-
lo presentamos una revision breve de la Inferencia Bayesiana. En el capıtulo
3 se presenta una importante discusion del uso de prioris en estos mode-
los de TRI. En el capıtulo 4 se presenta la Inferencia Bayesiana en TRI
dicotomico, con una especial dedicacion al modelo de ojiva normal. En el
capıtulo 5 se presenta la aplicacion de los modelos de TRI para el estu-
dio de una prueba de Matematicas haciendo enfasis en el modelo de ojiva
normal. Allı se muestra el uso de Bayes@PUCP para generar codigos de
TRI asi como el uso de WinBUGS para simulacion bayesiana en TRI. En
el Apendice presentamos una breve tutorial de uso de WinBUGS para la
Inferencia Bayesiana de un modelo de TRI.
8
Capıtulo 2
LOS MODELOS DE
TEORIA DE
RESPUESTA AL ITEM
2.1. Modelos de variables latentes
Definicion 2.1.1. Definimos un modelo latente como el par ordenado
(X,U) donde X = (X1, X2, . . .) y U vectores aleatorios de valor real no
necesariamente de la misma dimension. Aquı X es un vector de variables
manifiestas y U es un vector de variables latentes, donde las distribuciones
de probabilidad de X, U y (X,U) existen.
Una variable es considerada latente en el sentido que no es observable de
manera empırica y una variable es considerada manifiesta si es susceptible
de ser observada empıricamente. Para una mayor comprension acerca de las
variables latentes se puede revisar Borsboom, Mellenbergh y van Heerden
(2003).
9
10
En general, los modelos de variables latentes se formulan con el proposito
de conocer las principales caracterısticas de U usando el conocimiento de X.
Definicion 2.1.2. Sea (X,U) modelo latente satisface:
Independencia condicional latente: IC si y solamente si (ssi) ∀I
F (X = x∣U = u) =n∏1
Fi(Xi = xi∣U = u) ∀i�{1, . . . , I}, ∀u (2.1)
donde F (.) y Fi(.) son las distribuciones acumuladas condicionales
del vector X y de cada Xi respectivamente dado U = u.
En este caso decimos que el modelo es latente condicionalmente in-
dependiente.
La monotonicidad latente : M ssi ∀I
1− Fi(X = x∣U = u) = P (Xi > x∣U = u) (2.2)
son funciones no decrecientes de U evaluada en u, ∀x, ∀ i�{1, . . . , I},En este caso decimos que el modelo es monotono latente.
La unidimensionalidad latente: U ssi U es unidimensional o variable
aleatoria.
En este caso decimos que el modelo es latente unidimensional.
11
Definicion 2.1.3. (X,U) modelo latente se denomina un modelo de vari-
able latente monotona si satisface la independencia condicional (IC) y la
monotonicidad latente (M). Si ademas de eso el modelo es unidimensional
(D) se dice que es un modelo de variable latente monotono unidimensional
o que admite una representacion mononota unidimensional.
Proposicion 2.1.1. Considere un modelo de latente monotono unidimen-
sional (X, U) donde Xi∣u, i = 1, . . . , n es un ensayo bernoulli con dos
respuestas posibles una llamada suceso con probabilidad de respuesta, u y
el otro llamado falla con probabilidad de falla 1 − u, donde 0 < u < 1.
Entonces existe una distribucion unica para U dada por G(.) tal que la
distribucion conjunta es dada por:
P (x1, x2, . . . , xn) =
∫ n∏
i=1
uxi [1− u]1−xidG(u)
Demostracion. La existencia es garantizada por el Teorema de Representacion
de De Fineti (Schervish, 1995) que indica que esto ocurre si todos los com-
ponentes de X son una secuencia infinita permutable (las variables inde-
pendientes e identicamente distribuidas lo son) siendo
G(u) = limn−→∞P (Sn ≤ u), Sn = X1 +X2 + . . . , Xn, u = limn−→∞Snn.
Como cada Xi∣u sigue la distribucion bernoulli y por tanto la distribu-
cion conjunta es dada por
P (X∣u) = P (x1, x2, . . . , xn∣u) =n∏
i=1
uxi [1− u]1−xi ,
entonces la distribucion marginal es dada por
P (X) =
∫P (X∣u)dG(u)
12
.
Algunas condiciones adicionales en esta clase general de modelos la-
tentes se pueden revisar en Holland y Rosenbaum (1986).
2.2. Formulacion general de la TRI
Definicion 2.2.1. Considere n sujetos evaluados en una prueba de k items,
un modelo de Teorıa de Respuesta al item (TRI) dicotomico es un mod-
elo de variable latente monotono unidimensional (X, U) definido por las
expresiones a seguir:
Yij ∣ui, �j ∼ Bernouilli(pij) (2.3)
pij = P (yij = 1 ∣ ui, �j) = F (mij) (2.4)
mij = ajUi − bj , (2.5)
i = 1 . . . , n, j = 1, . . . , k
donde Yij es la variable que modela las respuestas dicotomicas de los
i = 1 . . . , n examinados que responden j = 1, . . . , k items de una prueba
en que �j = (aj , bj), j = 1, . . . , k son parametros relativos al item j, aj
parametro de discriminacion y bj parametro de dificultad, y ui es el valor
de la variable latente Ui del sujeto i, i = 1 . . . , n; pij es una probabilidad
condicional donde F se denomina funcion de respuesta del item (FRI) o
Curva caracterıstica del item (CCI) y mij es un predictor latente lineal
respecto a Ui.
Observaciones
El modelo TRI satisface la propiedad de independencia condicional
latente (para un sujeto j las respuestas Yij a los i = 1, . . . n diferentes
items son independientes condicionalmente dada la variable latente
Ui, i = 1 . . . , n.
13
El modelo TRI satisface la propiedad de monotonicidad latente (es
una funcion estrictamente no decreciente de Ui,i = 1 . . . , n )
El modelo TRI es unidimensional latente en el sentido que una unica
variable aleatoria latente es considerada.
En la TRI, la FRI o CCI F (mij), i = 1 . . . , n , j = 1, . . . , k, es la
misma para cada caso, y F−1(.) es llamada la funcion de ligacion.
Tambien es considerada independencia entre las respuestas de sujetos
diferentes.
Otra parametrizacion para el predictor lineal latente es mij = aj(ui−bj).
El parametro de dificultad bj y de discriminacion aj son parametros
de posicion y de inclinacion del item j respectivamente, donde aj
representa el valor proporcional a la inclinacion de la CCI en el punto
bj . Valores aj < 0 no son esperados. El espacio parametrico para el
parametro bj es arbitrario y corresponde al mismo que para ui que
es generalmente considerado en la recta ℛ.
El modelo (1)-(3) es denominado modelo TRI de 2 parametros.
Proposicion 2.2.1. En el modelo TRI, la densidad conjunta del vector de
respuestas multivariantes Y = (Y 1, . . . ,yn)′ en que Yi = (Yi1, . . . , Yik)′,
dado el vector de variables latentes U = (U1, . . . , Un)′ es el vector de
parametros de ıtem � = (�1, . . . , �k)′ puede ser escrito como:
p(y∣u,�) =n∏
i=i
k∏
j=1
F (mij)yij (1− F (mij))
1−yij (2.6)
14
Demostracion. La prueba es directa.
El primer modelo TRI dicotomico de modelo de 2 parametros fue intro-
ducido por Lord (1952) el cual considera F (mij) = Φ(.), i = 1 . . . , n, j =
1, . . . , k, en que Φ denota la distribucion acumulada de la normal estandar.
Este modelo es conocido en la literatura psicometrica como modelo de ojiva
normal el cual corresponde al enlace probit.
Por otro lado, Birbaum (1968) considero F (mij) = L(.) en que L(mij) =exp(mij)
1+exp(mij)denota la distribucion acumulada de la logıstica donde el enlace
es el logit. Este modelo es conocido como el modelo logıstico de 2 paramet-
ros.
2.3. Otros Modelos
Otras extensiones del modelo presentado se obtienen considerando FRI
o CCI dados por
modelo de 3 parametros:
P (yij = 1 ∣ ui, aj , bj , cj) = cj + (1− cj)F (aj(ui − bj)) (2.7)
modelo de 1 parametro:
P (yij = 1 ∣ ui, bj) = F (ui − bj) (2.8)
donde el parametro cj representa la probabilidad de que un individuo
con baja habilidad responda correctamente al item j (probabilidad de ac-
ertar al azar ) (0 ≤ cj ≤ 1).
15
2.4. El modelo Logıstico
El modelo logıstico es el modelo mas usado en TRI. La version mas
general del modelo establece que la probabilidad de respuesta correcta del
individuo i al item j es dada por
P (Yij = 1∣Uj , ai, bi, ci) = cj+(1−cj) 1
1 + eDai(Uj−bi), i = 1, ...., I, j = 1, ...., n
(2.9)
Aquı cuando D = 1 se tiene el modelo logıstico y cuando D = 1,7 se
obtiene una aproximacion del modelo de ojiva normal. Como casos partic-
ulares se tiene
ci = 0: prob. de acierto al azar no existe
P (Yij = 1∣Uj , ai, bi) =1
1 + eDai(Uj−bi)
Sin acierto al azar y todos los items con el mismo poder de discrimi-
nacion: ci = 0 y ai = 1
P (Yij = 1∣Uj , bi) =1
1 + eD(Uj−bi)
El modelo de 1 parametro, es denominado modelo de Rasch y tiene
derivaciones propias (Fischer y Molenaar, 1995) El modelo de 1 parametro
se puede obtener como caso particular del modelo de 2 parametros cuando
aj = 1.
2.5. Caracterısticas de los Modelos TRI
El modelo TRI de 2 parametros tiene n + 2k parametros desconoci-
dos y por lo tanto esta sobre parametrizado. Tanto para el modelo
16
logıstico como para el modelo de ojiva normal la inferencia no es
simple debido al numero excesivo de parametros. Aun cuando las ha-
bilidades sean conocidas restan 3k parametros. Por otro lado si los
parametros de los items son conocidos restan n parametros de las
habilidades.
Para un numero fijo de items, los parametros de los items son denom-
inados estructurales y las variables latentes incidentales. Note que a
mayor tamano de muestra mayor numero de parametros. Tambien
cuando se aumenta el numero de items se aumenta el numero de
parametros.
Modelos TRI tambien no son identificables (indeterminacion) pues si
consideramos, por ejemplo para el modelo de 2 parametros
a(u− b) =a
40[(40u+ 200)− (40b+ 200)] = a∗(u∗ − b∗).
la verosimilitud con u, a y b es la misma que con u∗ = 40u + 200,
a∗ = a40 y b∗ = 40b+ 200. De esta manera, los parametros del modelo
no pueden ser estimados de manera unica a menos de que se impongan
restricciones. Por otro lado podemos hacer:
ai(uj − bi) = (aiuj − bi∗)
y, tenemos por tanto variadas formas de representar el modelo. Ası es
posible preservar el modelo transformando convenientemente los paramet-
ros del modelo (Albert, 1992) y por lo tanto las estimativas pueden
no ser unicas.
Del ejemplo, la probabilidad de un individuo responder correctamente
a cierto item es siempre la misma, independientemente de la escala
17
utilizada para medir la habilidad. Esto significa que la habilidad del
individuo es invariante a la escala de medida utilizada.
Dada las caracterısticas de este tipo de modelos, generalmente el prob-
lema se ha dividido en dos etapas. La etapa denominada de calibracion
donde se asume una distribucion aleatoria conocida para las variables la-
tentes U y se estima los parametros de ıtem usando una “muestra de cal-
ibracion”. La segunda etapa, denominada de estimacion donde conocidos
las estimaciones de los parametros de los ıtemes se estiman las variables
latentes para la muestra de estudio. Esta es la estrategia denominada por
Patz y Junker (1989) como la estrategia de “divide y conquistaras 2se apli-
ca cuando se obtienen estimativas de Maxima Verosimilitud en software
como BILOG − MG. No obstante es comun imponer restricciones para
los parametros de ıtem como es considerado por ejemplo en Bock y Aitkin
(1981).
Otra manera de resolver el problema es especificar una distribucion a
priori para las variables latentes y para los parametros de los items y estimar
el modelo desde la perspectiva de Inferencia Bayesiana a partir de la dis-
tribucion posterior de los “parametros”de item y de las variables latentes.
En este caso, la estimacion es realizada de manera simultanea y completa.
Un analisis de las condiciones de las prioris para obtener distribuciones a
posteriori p(u,�∣y) en TRI es estudiada en el siguiente capıtulo.
18
Capıtulo 3
INFERENCIA
BAYESIANA
3.1. Funcion de Verosimilitud
Definicion 3.1.1. Dado un vector aleatorio X definimos la funcion de
verosimilitud L para un vector de datos observados x de X como
L(�∣x) = p(x, �)
La verosimilitud es la probabilidad que ud pueda encontrar el valor
observado dado el modelo.
Definicion 3.1.2. Un estimador de maxima verosimilitud para el parametro
� es el valor � para el cual la verosimilitud L(�∣x) es maxima.
La solucion de Inferencia Clasica consiste en maximizar la funcion L
y obtener la solucion correspondiente �. A menudo es es mas conveniente
maximizar la log verosimilitud l(x∣�) = logL(x∣�∣. Cuando la solucion de
19
20
maxima verosimilitud no se puede obtener de manera analtica se recurre a
metodos numericos.
3.2. Inferencia Bayesiana
En la Inferencia Bayesiana hay importantes diferencias con la Inferen-
cia Clasica (de Maxima Verosimilitud). Para una revision rapida puede ver
Casella y Berger (2002) y para una revision mas detallada puede ver Robert
(2002).
A manera de resumen considere el vector aleatorio X∣� donde � es un
parametro que caracteriza a la distribucion de X.
En la inferencia Bayeiana
1. �: Es un vector aleatorio y no un numero, por lo tanto tiene una
distribucion de probabilidades asociada.
2. Es posible usar informacion preliminar acerca de � , la cual se puede
sintetizar proponiendo una distribucion “a priori”para � : g(�)
3. Los datos se organizan en la funcion de verosimilitud: L(x∣�)
4. Usando el teorema de Bayes es posible obtener la distribucion “a
posteriori”de � dado los datos (verosimilitud: L(x∣�)) y dada la dis-
tribucion a priori g(�) considerando:
g(�∣x) =g(�,x)
g(x)=L(x∣�)g(�)
g(x)
g(�∣x) ∝ L(x∣�)× g(�)
Posteriori ∝ verosimilitud× priori
donde g(x) es la distribucion marginal o no condicional de x que no
depende del parametro �.
21
Observacion:
Si tomamos logaritmo a la expresion anterior tenemos
log g(�∣x) ≈ ℓ(x∣�) + log g(�)
Si se considera una priori no informativa para �, es decir
g(�) = c
Maximizar log g(�∣x) para � resulta equivalente a maximizar ℓ(x∣�).
Es decir la estimacion de MV (la que maximiza ℓ(x∣�) es un caso par-
ticular de inferencia bayesiana sin informacion a priori. Pero cuando
g(�) ∕= c entonces la maximizacion de la posteriori es diferente de la
maxima verosimilitud.
Una vez identificada la distribucion posterior para � g(�∣x) es posible
realizar la inferencia requiriendo para esta distribucion las medidas
que se deseen como por ejemplo:
E(�∣x), V (�∣x), Med(�∣x), q (�∣x)
que corresponden a la media, varianza, media y cuantil � de la dis-
tribucion posterior de �∣x respectivamente. Ası por ejemplo se puede
definir un intervalo para �∣x dado de esta manera
P (A ≤ �∣x ≤ B) = 1−
donde
A = q�2(�∣x), B = q1− 2 (�∣x)
son los cuantiles correspondientes.
22
Note que en este caso la interpretacion para A y para B son valores
de la distribucion posterior de � y por tanto el intervalo corresponde
a un intervalo de probabilidad y no a un nivel de confianza como en
la inferencia clasica. Por esta razon a este intervalo se le conoce como
intervalo de credibilidad.
3.2.1. Ejemplo 1: Un intervalo para p
Hacer inferencias acerca de una proporcion p es un problema frecuente.
Por ejemplo, supongamos que estamos interesados en construir un inter-
valo de confianza para la aprobacion presidencia en Lima Metropolitana
en un determinado mes p tomando como base la informacion obtenida por
una encuestadora en una muestra aleatoria de n = 400 personas en Li-
ma Metropolitana donde la aprobacion muestra fue de p = 0,3. Analice la
solucion clasica y bayesiana para este problema
Solucion clasica
En la Inferencia Clasica es conocido que un intervalo de Confianza para
una proporcion se puede obtener considerando
IC(p) = p± Z1−�2
√pq
n
En este caso considerando � = 0,05 tenemos que Z1−�2 = 1,96 y por lo
tanto tenemos
IC(p) = 0,3± 1,96
√0,3× 0,7
400= [0,2550908, 0,3449092]
Entonces, con un 95 % de confianza esperamos que la aprobacion presiden-
cial en el mes de julio se encuentre en el rango [0.26,0.35].
23
Solucion Bayesiana
En la solucion bayesiana s reconoce que p es una variable aleatoria y
por tanto puede establecerse una distribucion a priori. Luego usando la
evidencia muestral en la verosimilitud de los datos se buscara obtener la
distribucion posterior de p dados los datos, es decir p/x. Para realizar esto
podemos seguir los siguientes pasos:
Fase 1: Especificacion de la distribucion a priori: Dado que 0 ≤ p ≤ 1
una distribucion natural para p serıa considerar
p ∼ Beta(�, �)
.
Fase 2. Especificacion de los parametros de la distribucion a priori: De
estudios anteriores, digamos considerando el resultado de los ultimos
meses se puede considerar que
E(p) = 0, 35V (p) = 0, 01
Sobre esta base podemos encontrar que
� = 1,6125 , � = 14,375
y por lo tanto
f(p) =Γ(�+ �)
Γ(�)Γ(�)p�−1(1− p)�−1 = kp1,6125−1(1− p)14,375−1
donde k es una constante que no depende de p y por tanto no es de
interes.
Fase 3: Obteniendo la verosimilitud: En este caso se trata de un mod-
elo Binomial y por tanto tenemos
L(p) =n∏
i=1
f(xi) =n∏
i=1
C(n, xi) pxi(1− p)1−xi
24
donde C(n, x) es la combinatoria que tambien no es importante aquı porque
es una constante en relacion a p. Como p = 0,30 tenemos que∑ni=1 xi =
0,30× 400 = 120 y por tanto
L(p) = p∑ni=1 xi(1− p)n−
∑ni=1 xi = p120(1− p)400−120
Fase 4: Hallando la distribucion a posteriori: combinando la priori
con la posteriori tenemos
f(p∣x) = kp127,6125−1(1− p)294,375−1
y po lo tanto la distribucion a posteriori es
p∣x ∼ Beta(127,6125; 294,375)
Fase 5: Haciendo inferencia usando la distribucion a posteriori: Algu-
nas medidas son
pest = E(p∣x) = 0,30
que corresponde a la media a posteriori. Los percentiles son P97,5 =
0,35, P2,5 = 0,26 por lo que la probabilidad de estar entre 0,26 y 0,35
es de 90 %.
3.2.2. Ejemplo 2: Inferencia para la distribucion Nor-
mal
Considere X∣� ∼ N(�, �2) un modelo probabilıstico para una variable
de interes con �2 conocido y � un parametro a estimar.
Si se toma una muestra aleatoria X1, ..., Xn de X∣� , la funcion de verosimil-
itud es:
L(x∣�) =n∏
i=1
f(xi∣�) =n∏
i=1
{ 1√2Π�
e−12 (xi−�)2}
25
=1
(√
2Π)n2 �
n2
e(− 12
∑ni=1 (xi−�)2)
Si se quiere hacer inferencia clasica y como �2 es conocido, se buscarıa
el estimador de MV de � por cualquiera de los metodos visto.
ℓ(�) = logL(�)
∂ℓ(�)
∂�= 0
pero desde un punto de vista bayesiano hay que considerar una distribu-
cion a priori para �. Como −∞ < � <∞ se puede proponer cualquier mod-
elo probabilıstico en ese rango � ∼ t-Student, Normal, Logıstica, Cauchy.
Proponemos que
� ∼ Caucℎy(0, 1)⇒ f(�) =1
Π[1 + �2]
distribucion a priori.
Por lo tanto, la distribucion a posteriori tiene el siguiente nucleo:
f(�∣x) ∝ L(�)f(�) = e(− 12
∑ni=1 (xi−�)2) × 1
1 + �2
donde se omite lo que no depende de �. Esta funcion debe ser vista como
funcion de �
f(�∣x) ∝ e−12{∑ni=1 x
2i−2�
∑ni=1 xi+�
2}
1 + �2
pero este nucleo no corresponde a una distribucion conocida. Para
obtener distribuciones a posteriori para este tipo de casos se requiere el
uso de metodos de simulacion estocastica como los de Cadena de Markov
Montecarlo de siglas en ingles MCMC.
26
3.3. Metodos de MCMC
En el paradigma Bayesiano el interes se centra en la distribucion a pos-
teriori P (Θ∣y). Ella contiene toda la informacion relevante del parametro
desconocido Θ dada la data observada y. Toda la inferencia estadıstica
puede deducirse de la distribucion a posteriori de considerarse algun re-
sumen adecuado. Tales resumenes toman tıpicamente la siguiente forma
integral:
I =
∫f(Θ)P (Θ∣y)dΘ. (3.1)
Por ejemplo, se puede tener interes en estimadores puntuales para el parametro
desconocido Θ. Un indicador para ello es la media a posteriori, la cual se
obtiene de tomarse f(x) = x en (2.1). Otro interes podrıa centrarse en pre-
decir algun valor futuro y en base a la distribucion predictiva a posteriori
P (y∣y) =∫P (y∣Θ, y)P (Θ∣y)dΘ, la cual no es sino un caso particular de
(2.1) con f(x) = P (y∣Θ, x).
El problema con (2.1) es que usualmente es muy complicado o imposi-
ble evaluar I, como se mostro en el ultimo ejemplo. Incluso las tecnicas
numericas de cuadratura u otras podrıan presentar tambien problemas si
el parametro Θ es multidimensional.
Durante los ultimos anos una gran cantidad de artıculos han apareci-
do en relacion a la evaluacion de (2.1) por metodos de simulacion colec-
tivamente conocidos como Cadenas de Markov de Montecarlo (MCMC).
La racionalidad de estos metodos subyace en disenar iterativamente una
cadena de Markov para Θ de tal manera que P (Θ∣y) sea su distribucion
ergodica estacionaria. Empezando en algun estado inicial Θ0 la idea es sim-
ular un numero suficientemente grande M de transiciones bajo la cadena
de Markov y registrar los correspondientes estados simulados Θj . Luego,
bajo ciertas condiciones de regularidad, es posible mostrar que la media
27
muestral ergodica
I =1
M
M∑
j=1
f(Θj)
converge a la integral deseada en (2.1). En otras palabras, I nos provee de
una buena aproximacion para I. El reto de los metodos MCMC consiste
entonces en precisar una cadena de Markov adecuada con la distribucion
a posteriori P (Θ∣y) como su distribucion estacionaria y decidir cuando de-
tener la simulacion. Una excelente introduccion a los procesos de Markov
y al teorema ergodico puede encontrarse en Ross (1995). Para un enfoque
mas formal en relacion a la inferencia Bayesiana puede consultarse Tier-
ney(1994).
Describamos ahora uno de los metodos MCMC mas populares cono-
cido como el muestreador de Gibbs. El siguiente ejemplo nos ilustra su
aplicacion.
Ejemplo 3.3.1. (Gelfand y Smith, 1990) Consideremos un modelo de
analisis de varianza de efectos aleatorios:
xij = �i + �ij , i = 1, 2, . . . , k; j = 1, 2, . . . , n,
donde los errores �ij ∼ N(0, �2� ) se asumen independientes y �i ∼ N(�, �2
� ).
Si asumimos las siguientes prioris inversas Gaussianas y normales del tipo:
�2� ∼ IG(a1, b1)
�∣�2� ∼ N(�0, �
2� )
�2� ∼ IG(a2, b2)
se puede mostrar que la distribuciones a posteriori de �2� ∣x, �, �, �2
� y �2� ∣x, �, �, �2
�
son inversas Gamma y las distribuciones a posteriori de �∣x, �, �2� y � ∣x, �, �2
� , �2�
son normales, donde x = (xij ; j = 1, 2, . . . , k, j = 1, 2, . . . , n) denota al vec-
tor de la data y � es el vector de efectos de los k tratamientos.
28
Para estimar los momentos a posteriori del tipo (2.1) definiremos una
cadena de Markov para el parametro Θ = (�, �, �2� , �
2� ). Denotaremos por
Θn = (�n, �n, �2�,n, �
2�,n) al vector de estados de la cadena en la n−esima
iteraccion. Dada la naturaleza de una cadena de Markov, todo lo que nece-
sitamos es definir son las probabilidad condicionales de transicion de la
cadena entre las iteraciones n y n + 1. Haremos esto, muestreando de la
distribucion condicional a posteriori completa para �, �, �2� y �2
� dada la
data a traves de los siguientes pasos:
1. �n+1 ∼ �∣x, �n, �2�,n, �
2�,n,
2. �n+1 ∼ �∣x, �n+1, �2�,n, �
2�,n,
3. �2�,n+1 ∼ ��∣x, �n+1, �n+1, �
2�,n,
4. �2�,n+1 ∼ ��∣x, �n+1, �n+1, �
2�,n+1,
Los pasos 1 al 4 definen una cadena de Markov {Θn} cuya distribucion
converge a la deseada P (�, �, ��, �� ∣x). Los promedios ergodicos del tipo
I = 1M
∑Mj=1 f(Θj) proveen luego de una evaluacion numerica de la integral
a posteriori (2.1).
El ejemplo descrito es un caso particular del muestreador de Gibbs. En
general dado el parametro Θ = (Θ1, . . . ,Θp), el muestreador de Gibbs tra-
baja en forma iterativa. Para cada j = 1, 2, . . . , p genera las distribuciones
condicionales a posteriori de
Θj,n+1 ∼ Θj ∣x,Θ1,n+1, . . . ,Θj−1,n+1,Θj+1,n, . . . ,Θp,n. (3.2)
El metodo de Gibbs debe su popularidad al hecho de que en mu-
chos modelos estadısticos la distribucion condicional a posteriori completa
P (Θj ∣x,Θk, k ∕= j) es posible de simular. Ocurren sin embargo casos en
donde esto no es posible por lo que es necesario de contar con otros meto-
dos MCMC alternativos. Posiblemente el mas generico de estos esquemas
29
es el de Metropolis. Para generar la distribucion a posteriori, este meto-
do define una cadena de Markov en el que una transicion sigue los pasos
siguientes:
1. Se genera un valor de Θ a partir de alguna distribucion Q(Θ∣Θ) prop-
uesta que la detallaremos mas adelante.
2. Se calcula
a(Θ, Θ) = mın{1, P (Θ∣x)
P (Θ∣x).Q(Θ∣Θ)
Q(Θ∣Θ)}
3. Se reemplaza Θ por Θ con probabilidad a y en caso contrario se
mantiene igual.
La seleccion de la distribucion propuesta Q es esencialmente arbitraria
sujeta a ciertas restricciones tecnicas. Utilizandose por ejemplo una dis-
tribucion simetrica con Q(Θ∣Θ) = Q(Θ∣Θ) como por citar la normal cen-
trada en Θ se tiene la ventaja practica de que el radio Q(Θ∣Θ)
Q(Θ∣Θ)se cancela en
a. Otra variante practica de interes es el uso de distribuciones propuestas
independientes Q(Θ). Tierney (1994) refiere a estos algoritmos como cade-
nas independientes. Hasting (1970) propone una larga clase de algoritmos
similares basados en una expresion mas general para la probabilidad de
aceptacion a.
Las cadenas de Markov que son utilizados en los esquemas MCMC
poseen generalmente un espacio continuo de estados. Tierney (1994) mues-
tra que estos algoritmos convergen a una distribucion ergodica estacionaria
�(Θ) = P (Θ∣x) sujeta a tres condiciones de regularidad: irreducibilidad,
aperiodicidad e invarianza. La nocion de irreducibilidad manifiesta que para
cualquier estado Θ y cualquier conjunto de estados B con �(B) > 0, existe
n ∈ ℕ tal que al cabo de n iteraciones la cadena pueda hacer una transicion
de Θ a B con probabilidad positiva. La invarianza se refiere por otro lado,
a la propiedad de que si empezamos con un vector de estados generado
30
por �, entonces futuras transiciones en la cadena dejaran la distribucion
marginal de Θ inalterada; es decir, Θn ∼ �, para cualquier n ∈ ℕ+.
El muestreador de Gibbs y el esquema de Metropolis-Hastings son por
construccion invariantes con respecto a la distribucion a posteriori buscada.
Lo que uno debe de verificar entonces son la aperiodicidad e irreducibilidad
de la cadena, siendo esta ultima la mas crıtica pues en ocasiones es posible
encontrar un subconjunto de estados tales que cuando la cadena simulada
entre en ella sea improbable salir y el algoritmo por tanto se entrampe en
ese punto sin llegar a converger.
En la practica mas importante que establecer convergencias teoricas
es reconocer la convergencia practica; es decir, juzgar cuantas transiciones
M debe de ser suficientes como para obtener promedios ergodicos I que
esten cerca de (2.1). El procedimiento mas simple radica en graficar las
trayectorias Θn contra el numero de iteraciones n y juzgar por inspeccion
que la convergencia se da de no presentarse tendencia alguna obvia.
Algunas referencias adicionales de metodos MCMC en inferencia bayesiana
que se pueden indicar son Chen, Shao, Ibrahim (2000), Gamerman y Freitas
(2006).
Capıtulo 4
LAS PRIORIS IN TRI
4.1. Nociones basicas
Como una notacion general, sea � que denota un vector no observ-
able de cantidades o parametros poblacionales de interes, e y denota los
datos observados. En general esos sımbolos representan cantidades multi-
variables. Generalmente usaremos letras griegas para los parametros, letras
minusculas para las observaciones o escalares y vectores observados (y a
veces matrices), e letras mayusculas para variables aleatorias. Usando no-
tacion matricial consideramos vectores como columnas, por ejemplo, si u
es un vector con n componentes, entonces u′u es un escalar e uu′ es una
matriz n× n.
Las conclusiones estadısticas bayesianas acerca del parametro �, son hechas
en terminos de proposiciones probabilısticas. Esas proposiciones probabilısti-
cas son condicionales a loas valores observados de y, y en nuestra notacion
son simplemente escritos como p(�∣y). Es en este nivel fundamental de
condicionamiento de los datos observados que la inferencia bayesiana se
aparta de la aproximacion de inferencia estadıstica clasica que esta basada
31
32
en una evaluacion retrospectiva del procedimiento usado para estimar �
sobre la distribucion de posibles valores de y condicional en el valor ver-
dadero pero desconocido de �.
Con el proposito de hacer proposiciones probabilısticas acerca de � dado y,
debemos empezar con un modelo que proporciona la ddistribucion de prob-
abilidad conjunta para � y y. La funcion de densidad conjunta o funcion
masa de probabilidad puede ser escrita como el producto de dos densi-
dades que son a menudo referidas como la distribucion a priori p(�) y la
distribucion muestral (o distribucion de los datos) p(y∣�):
P (�,y) = p(�)p(y∣�)
condicionando simplemente en los valores conocidos de los datos y, usando
la propiedad basica de probabilidad condicional conocida como regla de
Bayes, obtenemos la densidad posterior
p(�∣y) =p(�,y)
p(y)=p(�)p(y∣�)p(y)
(4.1)
donde p(y) =∑� p(�)p(y∣�), y la suma es sobre todos los posibles
valores de � (o p(y) =∫�p(�)p(y∣�) en el caso continuo). Una forma equiv-
alente de la expresion anterior es omite el factor p(y), que no depende de �,
y, con y fijo, puede ser considerado como constante, llevando a la densidad
posterior no normalizada que aparece en el lado derecho de:
p(�∣y) ∝ p(�)p(y∣�) (4.2)
Cuando la distribucion a priori no tiene base poblacional, ella pueden
ser difıcil de construir, y cuando se desea que esta priori juegue un rol mıni-
mo en la distribucion posterior, se llega a las llamada “distribucion priori de
referencia 2su densidad es descrita como vaga, flat, difusa o no informativa.
La racionalidad para usar prioris no informativas es a menudo justificada
33
diciendo que los datos hablen por si mismos desde que la distribucion pos-
terior de � depende apenas de p(y∣�) y no de informacion externa a los
datos recientes dada por la priori p(�).
Si p(�) ∝ c con c constante y � ∈ (−∞,∞), tal distribucion no es estric-
tamente posible, desde la integral de la asumida p(�) es infinita, lo cual
viola el supuesto de que las probabilidades suma 1. En general, llamaremos
a la densidad de la priori p(�) como propia si no depende de los datos y
su integral da 1. En el caso de que la integral es ∞ diremos que la pri-
ori es impropia. No obstante, priori impropia puede llevar a distribucion
posterior propia. Considere por ejemplo y∣� ∼ N(�, �2) con �2 conocido e
� ∼ N(�0, �20 ) distribucion a priori para �. Si la precision de la priori 1/�2
0 es
pequena relativa a la precision de los datos, n/�2, entonces la distribucion
posterior, a pesar de �20 =∞, es aproximadamente normal
p(�,y) ≈ N(�∣y, �2/n)
En casos mas complejos donde (� = �1, �2) es importante estudiar bajo
que condiciones la distribucion posterior p(�y) es propia. Para eso considere
las siguientes definiciones preliminares.
Definicion 4.1.1. Considere y vector de observaciones con funcion de
densidad muestral p(y∣�1, �2) decimos que y tiene una funcion de densidad
(masa) no identificable para �2 si p(y∣�1, �2) = p(y∣�1).
Definicion 4.1.2. . Considere y vector de observaciones con funcion de
densidad muestral p(y∣�1, �2) decimos que �2 es no identificable si p(�2∣�1,y) =
p(�2∣�1).
Proposicion 4.1.1. Las definiciones arriba son equivalentes.
34
Demostracion. Usando la definicion de probabilidad condicional, y usando
el hecho de que �2 es no identificable podemos escribir
p(y∣�1, �2) =p(y, �1, �2)
p(�1, �2)=p(�2∣y, �1)p(y, �1)
p(�2∣�1)p(�1)=p(�2∣�1)p(y, �1)
p(�2∣�1)p(�1)= p(y∣�1)
Analogamente, usando la definicion de probabilidad condicional y el hecho
de que y tiene una funcion de densidad no identificable para �2 podemos
escribir
p(�2∣y, �1) =p(y, �1, �2)
p(�1,y)=p(y∣�1, �2)p(�1, �2)
p(y∣�1)p(�1)=p(y∣�1)p(�1, �2)
p(y∣�1)p(�1)= p(�2∣�1)
El significado de la no identificabilidad para �2 es que los datos observa-
dos no incrementan el conocimiento a priori acerca de �2∣�1 o que la funcion
muestral no depende de �2.
Lema 4.1.1. (Ghosh et al. 2000)
Considere y vector de observaciones con funcion de densidad muestral
p(y∣�1, �2). Si y es no identificable para �2, entonces la distribucion poste-
rior de (�1, �2) es propia si y solamente si las distribuciones �1∣y y �2∣�1
son ambas propias.
Demostracion. Usando (2), la hipotesis y la definicion de probabilidad
condicional tenemos
p(�1, �2)∣y) ∝ p(y∣�1, �2)p(�1, �2) = p(y∣�1)p(�2∣�1)p(�1) = p(�2∣�1)p(�1∣y)
De aquı sigue que para (�1, �2)∣y ser propia �1∣y y �2∣�1 deben ser propias.
Basta una de ellas ser impropia para obtener que (�1, �2)∣y sea impropia.
35
4.2. Prioris no informativas para el modelo
TRI de 1 y 2 parametros
Teorema 4.2.1. Considere el modelo TRI de 1 parametro definido en el
capıtulo anterior. Si la distribucion a priori para (u, b) es no informativa
proporcional a una constante, entonces la distribucion posterior de (u, b)
es impropia.
Demostracion. Defina uci = ui − b1 , i = 1, . . . , n, y bcj = bj − b1 , j =
2, . . . , I transformaciones lineales 1-1. Si escribimos uc = (uc1, . . . , ucn) y
bc = (bc2, . . . , bcI), entonces (uc, bc, b1) es una transformacion 1-1 de (u, b).
Como la transformacion es lineal el Jacobiano de la transformacion de
(u, b) a (uc, bc, b1) es constante libre de cualquier parametro. Entonces
p(uc, bc, b1) ∝ c con c constante. De esta manera la distribucion a posterior
de p(b1 ∣ uc, bc) ∝ c. Como b1 tiene distribucion sobre ℛ, sigue que p(b1 ∣uc, bc) es impropia.
Por otro lado, la funcion de verosimilitud del modelo de 1 parametro
puede ser reescrita como:
p(y∣uc, bc, b1) = {n∏
i=i
I∏
j=2
F (uci−bcj)yijF (uci−bcj)1−yij}{I∏
i=1
F (uci )yi1F (uci )
1−yi1}
donde F (.) = 1− F (.).
Note que para el modelo TRI de 1 parametro, b1 es no identificable. Es
decir p(y ∣ uc, bc, b1) = p(y ∣ uc, bc). Considere �2 = b1 y �1 = (uc, bc).
Aplicando el Lema 1 tenemos finalmente el resultado deseado porque p(�2 ∣�1) es impropia.
Teorema 4.2.2. Considere el modelo TRI de 2 parametros definido en el
capıtulo anterior. Si la distribucion a priori para (u,a, b) es no informativa
36
proporcional a una constante, entonces la distribucion posterior de (u,a, b)
es impropia.
Demostracion. Defina uci = ui − b1 , i = 1, . . . , n, y bcj = bj − b1 , j =
2, . . . , I transformaciones lineales 1-1. Si escribimos uc = (uc1, . . . , ucn) y
bc = (bc2, . . . , bcI), entonces (uc,a, bc, b1) es una transformacion 1-1 de
(u,a, b). Como la transformacion es lineal el Jacobiano de la transforma-
cion de (u,a, b) a (uc,a, bc, b1) es constante libre de cualquier parametro.
Entonces p(uc,a, bc, b1) ∝ c con c constante. De esta manera la distribu-
cion a posterior de p(b1 ∣ uc,a, bc) ∝ c. Como b1 tiene distribucion sobre
ℛ, sigue que p(b1 ∣ uc,a, bc) es impropia.
Por otro lado, la funcion de verosimilitud del modelo de 2 parametros
puede ser reescrita como:
p(y∣uc,a, bc, b1) = {n∏
i=i
I∏
j=2
F [aj(uci − bcj)]yijF [aj(u
ci − bcj)]1−yij}×
{I∏
i=1
F [a1uci ]yi1F [a1u
ci ]
1−yi1}
donde F (.) = 1− F (.).
Note que para el modelo TRI de 2 parametro, b1 es no identificable. Es decir
p(y ∣ uc,a, bc, b1) = p(y ∣ a,uc, bc). Considere �2 = b1 y �1 = (uc,a, bc).
Aplicando el Lema 1 tenemos finalmente el resultado deseado porque p(�2 ∣�1) es impropia.
37
4.3. Prioris no informativas para el modelo
TRI de 1 y 2 parametros para puntajes
extremos
Definicion 4.3.1. Considerando una prueba de I items respondida por
I sujetos, definimos yi∙ =∑Ij=1 yij y y∙j =
∑ni=1 yij como el puntaje
de sujeto y de ıtem respectivamente, y por tanto puntaje extremo de sujeto
ocurre cuando existe un sujeto i para el cual se cumple que yi∙ = I o yi∙ = 0.
Tambien puntaje extremo de ıtem ocurre cuando existe un ıtem j para el
cual se cumple que y∙j = n o y∙j = 0.
Teorema 4.3.1. Considere el modelo TRI de 1 parametro definido en el
capıtulo anterior. Si la distribucion a priori para (uc, bc) es no informativa
proporcional a una constante y existe al menos un puntaje extremo (de ıtem
o sujeto), entonces la distribucion posterior de (uc, bc) es impropia.
Demostracion. Sin perdida de generalidad asuma que el sujeto l tiene pun-
taje extremo yl∙ = 0 lo cual implica que su puntaje en cada ıtem es cero
(ylj = 0 para todo j = 1, . . . , I). Ahora
L(bc∣y) =
∫ ∞−∞
I∏
j=2
F (ucl + bcj)F (ucl )ducl ≥
∫ 0
−∞
I∏
j=2
F (bcj)F (0)ducl =∞
Similarmente si el sujeto l tiene puntaje extremo yl∙ = I, lo cual implica
que su puntaje en cada ıtem es uno (ylj = 1 para todo j = 1, . . . , I). Ahora
L(bc∣y) =
∫ ∞−∞
I∏
j=2
F (ucl + bcj)F (ucl )ducl ≥
∫ ∞0
I∏
j=2
F (bcj)F (0)ducl =∞
Por otro lado, considere que el ıtem k tiene puntaje extremo y∙k = 0 lo
cual implica que el puntaje de cada sujeto en el ıtem k es cero (yik = 0
38
para todo i = 1, . . . , n). Ahora
L(uc∣y) =
∫ ∞−∞
n∏
i=1
F (uci + bck)dbck ≥I∏
i=1
F (uci )
∫ 0
−∞dbck =∞
Finalmente si y∙k = n lo cual implica que el puntaje de cada sujeto en el
ıtem k es uno (yik = 1 para todo i = 1, . . . , n).
L(uc∣y) =
∫ ∞−∞
n∏
i=1
F (uci + bck)dbck ≥I∏
i=1
F (uci )
∫ ∞0
dbck =∞
En consecuencia p(uc, bc∣y) es impropia.
Teorema 4.3.2. Considere el modelo TRI de 2 parametros definido en el
capıtulo anterior. Si la distribucion a priori para (uc,a, bc) es no infor-
mativa proporcional a una constante y existe al menos un puntaje extremo
(de ıtem o sujeto), entonces la distribucion posterior de (uc,a, bc, b2) es
impropia.
Capıtulo 5
INFERENCIA
BAYESIANA EN TRI
5.1. Inferencia Bayesiana en TRI
Sea Dobs = y los datos observados. Ası la funcion de verosimilitud para
el modelo de ojiva normal es dado por:
L(u,�∣Dobs) =n∏
i=i
I∏
j=1
F (mij)yij (1− F (mij))
1−yij (5.1)
donde F (.) es la distribucion acumulada de la distribucion normal estandar
o de la distribucion logıstica.
Consideramos la siguiente clase general de distribuciones a priori para
los parametros del modelo.
�(u,�,�) =n∏
i=1
g1i(ui)I∏
j=1
g2j(�j) (5.2)
39
40
donde g1i(ui) = �(.),, i = 1 . . . , n , es una distribucion normal estandar
y g2j(�j) = g21j(aj)g22j(bj), , j = 1, . . . , I, en la cual g21j y g22j debe
ser propia para garantizar distribuciones propias como sera probado en le
siguiente capıtulo (ver tambien Albert y Gosh, 1999,, Ghosh et al. 2001).
Una vez especificada la distribucion a posteriori tenemos que la dis-
tribucion a posteriori es dada por
g(u,�∣Dobs) ∝ L(u,�∣Dobs)× �(u,�,�) (5.3)
No obstante, como se ha indicado antes, esta distribucion a posteriori
no es identificable y por tanto no es conocida. De esta manera se requiere de
metodos MCMC. Para ilustrar como es de manera especıfica la Inferencia
Bayesiana usado MCMC para TRI vamos a estudiar con detenimiento el
caso del modelo de Ojiva normal.
5.2. Inferencia Bayesiana en el modelo Probit
Normal o de Ojiva normal
5.2.1. Especificacion del modelo
Sea Dobs = y los datos observados. Ası la funcion de verosimilitud para
el modelo de ojiva normal es dado por:
L(u,�∣Dobs) =n∏
i=i
I∏
j=1
Φ(mij)yij (1− Φ(mij))
1−yij
donde Φ es la distribucion acumulada de la distribucion normal estandar.
Consideramos la siguiente clase general de distribuciones a priori para
los parametros del modelo.
�(u,�,�) =n∏
i=1
g1i(ui)I∏
j=1
g2j(�j)
41
Siguiendo propuestas consideradas comunmente (ver Rupp et al. , 2004),
tomamaos g21j ≡ �(�a, s2a), j = 1, ..., I y g22j ≡ �(0, s2
b), j = 1, ..., I ası que
g2j ≡ �2(��,Σ�), j = 1, ..., I con �� = (�a, 0)′ y Σ� =( s2
a 1
1 s2b
).
La distribucion conjunta a posteriori es dada por:
f(u,�∣Dobs) ∝n∏
i=i
I∏
j=1
Φ(mij)yij (1−Φ(mij))
1−yijI∏
j=1
�(ui)n∏
i=1
�2(�j ;��,�)
o
f(u,�∣Dobs) ∝n∏
i=i
I∏
j=1
Φ(mij)yij (1− Φ(mij))
1−yij×
exp[− 1
2
( n∑
i=1
u2i +
1
s2b
I∑
j=1
b2j +1
s2a
I∑
j=1
(aj − �a)2)]
5.2.2. Esquema MCMC usando adaptative rejection
sampling (ARS)
Teorema 5.2.1. Para i = 1 . . . , n examinados que responden j = 1, . . . , I
ıtens de una prueba, el modelo de teoria de respuesta al item presenta
las siguientes distribuciones condicionales completas para el modelo probit-
normal:
�(ui∣�, Dobs) =∏Ij=1 Φ(mij)
yij (1−Φ(mij))1−yij�(ui; 0, 1), i = 1 . . . , n
�(�j ∣u,Zj , Dobs) =∏ni=1 Φ(mij)
yij (1−Φ(mij))1−yij�(aj ;�a, S
2a)�(bj ; 0, S2
b ),
i = 1 . . . , n
Demostracion. El resultado sigue directamente de las expresiones anteri-
ores de la distribucion conjunta a posteriori dada arriba.
El modelo de ojiva normal o modelo probit-normal puede ser ajustado
usando MCMC. Note que todas las distribuciones condicionales completas
42
no son estandares. Por este hecho es difıcil implementar un muestreo de
Gibbs usando distribuciones de muestreo estandar. Sin embargo, al dis-
tribuciones condicionales completas para las condicionales completas para
el modelo probit-normal son log-concavas (log de the densidad es concava),
ver Sahu (2002). Muestreo exacto de distribuciones log-concavas unidimen-
sionales puede ser ejecutado usando rejection sampling, cuando las con-
stantes normalizadoras son desconocidas, ver e.g. Gilks and Wald (1982).
Esos autores tambien desarrollan un esquema adaptative rejection sampling
(ARS). ARS construye dinamicamente dos envolventes (una superior y una
inferior) para la distribucion a ser muestreada de evaluaciones sucesivas de
la densidad en los puntos rechazados. El algoritmo es parado cuando un
punto el punto propuesto ha sido aceptado. Este es el procedimiento default
en WinBugs 1.3 para el modelo probit-normal model.
5.2.3. Una formulacion adecuada del modelo TRI probito-
normal
Teorema 5.2.2. Para i = 1 . . . , n examinados que responden j = 1, . . . , I
ıtens de una prueba, el modelo de teorıa de la respuesta al ıtem es dado
por:
Zij = mij + eij , (5.4)
eij ∼ N(0, 1), (5.5)
yij =
{1, Zij > 0;
0, Zij ≤ 0., (5.6)
Estas expresiones recuperan el modelo originalmente formulado arriba.
Demostracion. Observe que pij = P (Yij = 1) = P (Zij > 0) = Φ(mij),
i = 1 . . . , n , j = 1, . . . , I, que muestra que la estructura normal linear
de la variable latente auxiliar produce un modelo equivalente al modelo
probit-normal.
43
5.2.4. MCMC usando esquema data augmentation gibbs
sampling (DAGS)
Teorema 5.2.3. Para i = 1 . . . , n examinados que responden j = 1, . . . , I
ıtens de una prueba, el modelo de teorıa de respuesta al ıtem presenta las
siguientes distribuiciones condicionales completas para el modelo probit-
normal aumentado:
�(Zij ∣ui,�j , Dobs) ∝ �(Zij ;mij , 1)I(Zij , yij), i = 1 . . . , n , j = 1, . . . , I.
�(ui∣Zi,�, Dobs) ∝ �(ui;mui , vui), i = 1 . . . , n
donde: con mui =
∑Ij=1 aj
(Zij+bj
)∑Ij=1 a
2j+1
, vui = 1∑Ij=1 a
2j+1
, i = 1 . . . , n.
�(�j ∣u,Zj , Dobs) ∝ �2(�j ;m�j ,v�j ), j = 1, . . . , I,
donde m�j =[W ′W + Σ−1
�
]−1[W ′Zj + Σ−1
� ��
], v�j =
[W ′W +
Σ−1�
]−1
, em que �� =( �a
0
), Σ� =
[ S2a 0
0 S2b
]e W = (u,−1)
com W ′i = (ui,−1), i = 1 . . . , n.
Demostracion. Usando la nueva formulacion tenemos que la funcion de
verosimilitud de datos aumentados, considerando D = (Z,y) los “datos
completoscon Z la v. latente auxiliar e:
L(u,�∣D) =n∏
i=1
I∏
j=1
�(Zij ;mij , 1)I(Zij , yij),
donde I(Zij , yij) = I(Zij > 0)I(yij = 1) + I(Zij ≤ 0)I(yij = 0). , i =
1 . . . , n , j = 1, . . . , I.
Ası, La distribucion conjunta a posteriori completa es dada por:
f(u,�∣D) ∝ exp[−1
2
( n∑
i=1
I∑
j=1
(Zij−mij)2+
n∑
i=1
u2i+
1
sb
I∑
j=1
b2j+1
sa
I∑
j=1
a2j
)]I(Zij , yij)
y por tanto las distribuciones condicionales completas siguen.
44
Con estas condicionales se puede implementar facilmente el muestreo de
Gibbs. Rutinas en R (en MCMCpack de Martin y Quinn, 2003) y Mathlab
(Johnson e Albert, 1999) se disponen en la Web. En Winbugs, la imple-
mentacion de este procedimiento no es directa pues precisa de una correcta
especificacion de las variables indicadoras. Mayores detalles pueden seguirse
en Bazan, Bolfarine, Leandro (2006).
5.3. Inferencia Bayesiana en TRI usando Win-
BUGS
En esta seccion presentamos los codigos para implementar en WinBUGS
los dos procedimientos de estimacion bayesiana en TRI, esquemas ARS y
Gibbs Sampling, desarrollados en la seccion anterior. Estos codigos, para los
modelos 1L,2L, 3L, 1P, 2P y 3P pueden ser obtenidos tambien considerando
el aplicativo Bayes@pucp, el cual implementa los modelos indicados mas
otros nuevos modelos propuestos en Bazan et al (2006) y Bolfarine y Bazan
(2008).
5.3.1. Codigo WinBUGS para esquema Gibbs Sam-
pling
A continuacion se presenta el codigo WinBUGS para el modelo pro-
bit normal de un parametro (1P) y de dos parametros (2P) considerando
aumentacion de datos, es decir considerando el esquema de Gibbs Samplng.
model { #likelihood function
for (i in 1 : n) {
for (j in 1 : I) {
#2P
# m[i,j] <- a[j]*u[i] - b[j]
#1P
45
m[i,j] <- u[i] - b[j]
z[i,j] ˜ dnorm(m[i,j],1)I(lo[y[i,j]+1],up[y[i,j]+1])
}
}
#priors F for item parameters
for (j in 1:k) {
b[j] ˜ dnorm(0,0.5);
# 1P
# a[j] ˜ dnorm(1,2)I(0,);
}
#prior for latent variable
for (i in 1:n) { u[i] ˜ dnorm(0,1) }
# auxiliary latent variable
lo[1] <- -50; lo[2] <- 0; \# i.e., z| y=0 ˜ N(m,1)I(-50,0)
up[1] <- 0; up[2] <- 50; \# i.e., z| y=1 ˜ N(m,1)I(0,50)
# mean and standard deviation for latent variable
mu<-mean(u[ ])
du<-sd(u[ ])
}
Note que si se quiere obtener las versiones correspondientes para los
modelos 1L (modelo de Rasch) y 2L del modelo logıstico solamente se debe
modificar la lınea dnorm(m[i,j],1)I(lo[y[i,j]+1],up[y[i,j]+1]) por
dlogis(m[i,j],1)I(lo[y[i,j]+1],up[y[i,j]+1]).
5.3.2. Codigo WinBUGS para esquema ARS
Otra posibilidad de codigos para WinBUGS en los modelos logısticos
incluyendo 1L, 2L y 3L se presenta a continuacion
model{
for (i in 1:n) { for (j in 1:k )
46
{ y[i,j]˜dbern(p[i,j])
#1L
m[i,j]<-theta[i]-b[j]
#2L Model
#m[i,j]<-a[j]*(theta[i]-b[j])
p[i,j]<-exp(m[i,j])/(1+exp(m[i,j]))
#3L Model
#pl[i,j]<-exp(m[i,j])/(1+exp(m[i,j]))
# p[i,j]<-c[j]+(1-c[j])*pl[i,j]
}
}
#abilities priors
for (i in 1:n) { theta[i]˜dnorm(0,1)}
#items priors
for (j in 1:k) {
# Sinharay (2004)
b[j]˜dnorm(0,1)
# a[j]˜dlnorm(0,1)
# c[j] ˜ dbeta(5,17)
}
}
Note que en este caso no se requiere la version no aumentada del
modelo para implementar el esquema ARS. Tambien es posible escribir
logit(p[i,j])<-m[i,j] en vez de p[i,j]<-exp(m[i,j])/(1+exp(m[i,j]))
aprovechando que el programa WinBUGS ya contiene la funcion de enlace
logit.
Si se desea obtener las correspondientes versiones 1P, 2P y 3P del mod-
elo de ojiva normal, solamente se debe modificar las expresiones correspon-
dientes de las probabilidades por p[i,j]<-Phi(m[i,j]) aprovechando que
el WinBUGS tiene la funcion de la acumulada de la normal Phi.
47
5.3.3. Criterios de comparacion de modelos en el con-
texto Bayesiano
El desarrollo de metodos MCMC permite ajustar una gran cantidad de
modelos para un mismo conjunto de datos, pero por tal motivo se hace nece-
sario comparar modelos alternativos con el proposito de identificar un mod-
elo apropiado que pueda describir adecuadamente estos datos. Existe un
variedad de metodologias para comparar el ajuste de modelos Bayesianos
alternativos. Se puede ver por ejemplo el trabajo Gilks et al. (1996). El prin-
cipal criterio usado en este trabajo es el Criterio de Informacion de Desvıo
(Deviance Information Criterion) (DIC) propusto por Spiegelhalter et al.
(2002). EL DIC es util aquı porque es relativamente facil de calcular, in-
terpretar y es satisfactorio para modelos jerarquicos complicados (Johnson,
2003) y esta basado en la nocion de “Desvıo Bayesiano”(Dempster, 1977).
El desvıo bayesiano (Dempster, 1977) para los modelos TRI es definido,
de manera general, usando a verosimilitud del modelo como
D(�,u) = −2ln(p(y∣�,u)) = −2n∑
i=1
k∑
j=1
lnP (Yij = yij ∣�, ,u), (5.7)
donde yij denota la respuesta observada (0 o 1) de Yij , o variable re-
spuesta del evaluado i en el ıtem j. � son los parametros asociados al ıtem
en el modelo TRI, y u son los parametros asociados a las habilidades de
los examinados.
El desvıo bayesiano es tambien una medida de bondad de ajuste. Dado
los modelos alternativo a ser comparados, el modelo que mejor ajusta los
datos es aquel que tiene menor valor de desvıo bayesiano. Tambien su dis-
tribucion posterior puede ser usado para evaluar el ajuste (relativo) de un
modelo dado. Esto ha sido propuesto en varios trabajos, entre ellos Gilks
et al. (1996) y Spiegelhalter et al. (1996). Ası, la cantidad E[D(�,u)
],
48
esta basada en la distribucion a posteriori de � y u, es denominada el
esperado del desvıo bayesiano a posteriori o desvıo medio a posteriori (pos-
terior mean of the deviance ) tambien es una medida de bondad de ajuste.
Esta esperanza puede ser aproximada usando o algoritmo MCMC atraves
de
E[D(�,u)
]≈ 1
G
G∑
i=1
D(�g,ug), (5.8)
en el que el ındice g representa la g-esima realizacion simulada de un total
de G realizaciones simuladas. Este estimador es denominado como Dbar
por Spiegelhalter et al. (2002) y es obtenido de modo default en WinBugs.
Por otro lado, Carlin y Louis (2000) y Brooks (2002) han sugerido pe-
nalizar E[D(�,u)
]como en el caso del criterio de Informacion Bayesiana
(Schwarz) o Criteiro de Akaike (Akaike, 1973). Esto lleva al Esperado del
Criterio de Informacion de Akaike (EAIC) definido por
EAIC = E[D(�,u)
]+ 2p, (5.9)
y al esperado del Criterio de Informacion Bayesiana de Schwarz (EBIC)
definido por
EBIC = E[D(�,u)
]+ plogN (5.10)
en el que p es el numero de parametros del modelo y N es el numero total de
observaciones y el log corresponde al logaritmo neperiano. Estos criterios se
pueden obtener de manera aproximada usando el algoritmo MCMC atraves
de
EAIC = Dbar + 2p, EBIC = Dbar + plogN (5.11)
Lamentablemente, en el caso de los modelos jerarquicos se tiene prob-
lemas com estos criterios, porque no es facil definir p e N . Por exemplo,
49
en la TRI tenemos respuestas de k ıtens para los examinados i = 1, . . . , n,
entonces, N = k × n el total de observaciones o N = n es el total de
examinados?.
Si las respuesta a los ıtems en cada examinado son independientes, en-
tonces la primera eleccion serıa mas apropiada, pero si las respuestas fueran
correlacionadas en cada examinado, se puede escoger la ultima alternativa.
En la TRI se debe considerar el primer caso considerando que la indepen-
dencia condicional se cumple. Sin embargo la situacion real es algo inter-
medio entre estos dos casos. Similarmente, se consideramos una coleccio de
efectos aletorios como es el caso de las variables latentes en TRI, una para
cada examinado, como esto puede contribuir con el numero de parametros
p?. Si los efectos aleatorios no tienen nada en comun (i.e., estos se com-
portan esencialmente como efectos fijos), ellos deberıan contribuir con n
parametros para cada p, pero si los datos (o las prioris) indicadan que to-
dos ellos son esencialmente identicos, ellos deberıan contribuir un poco mas
de un “numero efectivo de parametros”para el tamanno del modelo p.
Debido a este tipo de problemas Spiegelhalter et al. (2002) propusieron
�D como un valor apropiado para penalizar E[D(�,u)
]. El DIC es una
modificacion del esperado del desvıo y es definido como
DIC = E[D(�,u)
]+ �D, (5.12)
donde
�D = E[D(�,u)
]−D
[E(�), E(u))
]. (5.13)
es denominado como el numero de parametros efectivos (Spiegelhalter et
al, 1996) y D[E(�), E(u))
]es el desvıo bayesiano de las medias la posteri-
ori o desvıo bayesiano de los esperados a posteriori (deviance of posterior
mean) obtenido considerando os valores medios o esperados a posteriori
de los parametros del modelo. Las esperanzas arriba estan basadas en las
50
distribuciones a posteriori de �,� y u las que se pueden aproximar usando
el algoritmo MCMC a traves de
D[E(�), E(u)Big] ≈ D
( 1
G
G∑
i=1
�g,1
G
G∑
i=1
,1
G
G∑
i=1
ug), (5.14)
donde como se ha indicado antes el ındice g representa a g-esima realizacao
simulada de um total de G realizacoes simuladas. Esta estimacion es de-
nominado como Dhat em Spiegelhalter et al. (2002) y es obtenida como
modo default em WinBugs.
El DIC penaliza el esperado do desvıo bayesiano por la complejidad del
modelo o numero de parametros efectivos representado por �D. El DIC es
aproximadamente analogo al AIC y EAIC puede aproximarse por:
DIC = Dbar −Dℎat = Dbar + 2�D, (5.15)
donde valores bajos del DIC indican el mejor ajuste. Otra ventaja del
DIC es que como esta basado en la funcion de verosimilitud, esta puede
ser descompuesta para cada observacion, por lo que se puede implementar
residuales bayesianos (Gelfand, 1996) para evaluar la bondad de ajuste lo-
cal. La estimacion del DIC se obtiene como modo default en WinBugs.
Spiegelhalter et al. (2002) indican que el DIC implementado en Win-
BUGS puede ser usado para comparar modelos complejos (vea por ejemplo
Johnson, 2003) y grandes diferencias en los criterios se pueden atribuir a
diferencias predictivas reales en los modelos.
Capıtulo 6
APLICACION
En este capıtulo ilustramos la aproximacion Bayesiana para el modelo
TRI, especialmente del modelo de ojiva normal (probito normal cuando
una priori normal es considerada para la variable latente. Se usara un con-
junto de datos correspondientes a una prueba de Matematicas aplicada en
escuelas peruanas. Se discutira la especificacion de prioris , valores iniciales
para definir el estado inicial de la cadena de Markov y diagnosticos de
convergencia en la implementacion del Algoritmo MCMC.
6.1. Los datos de una prueba de Matematicas
En esta aplicacion, 14 items de la prueba de Matematicas disponibles
en en
www2.minedu.gob.pe/umc/admin/images/publicaciones/boletines/Boletin-13.pdf
se aplicaron a 131 estudiantes de nivel socio economico alto de sexto
grado de primaria. El vector de respuestas es proporcionado en la parte
practica del curso y puede ser requerida a los autores. Las estadısticas de
los puntajes de la prueba se presentan en el cuadro 6.1.
51
52
Cuadro 6.1: Estadısticas de los puntajes de la prueba de Matematicas con
14 ıtems y 131 examinados
Estadısticas valores Estadısticas valores
Media 10.84 Mediana 11
Varianza 3.432 Desv. Estd. 1.853
Asimetrıa -0.795 Curtosis 0.449
Mınimo 5 Maximo 14
Alpha 0.481 Media P 0.774
Media Item-Tot. 0.364 Mean Biserial 0.572
Max Puntaje 10 N (Grupo alto) 52
Min Puntaje 12 N (Grupo bajo) 45
Los datos presentan un puntaje medio de 11 puntos y una desviacion
estandar de casi 2 puntos. De las estadısticas, se puede indicar que los
puntajes presentan asimetrıa con dominio de puntajes altos. La prueba
presenta una confiabilidad dada por el coeficiente alfa de Cronbach de 0.48.
6.2. Comparando varios modelos TRI para
los datos de la prueba de Matematica
Para comparar los diferentes modelos propuestos en este trabajo e ilus-
trar el uso del DIC, generamos 202000 iteraciones y descartamos los 2000
valores iniciales. Usando un thin de 100, se obtuvo un tamano de muestra
efectiva de 2000. Estimadores de los parametros del modelo se calcularon
de estas iteraciones. Varios criterios para evaluar la convergencia se cal-
cularon, usando la librerıa CODA, entre ellos los propuestos por Geweke
(1992).
53
Los valors de DIC se muestran en la tabla abajo para seis modelos IRT:
(1P, 1L, 2P, 2L, 3P, 3L) para cualquiera de las distribuciones a priori con-
sideradas. Para el caso del modelo 2P se ajusto el modelo usando ARS y
usando Gibbs Sampling. Ası para este modelo observamos que la aproxi-
macion basad en datos aumentados (Gibss Sampling) lleva menos tiempo
que la aproximacion MCMC basada en la verosimilitud original (ARS) lo
que es coherente con un resultado similar obtenido por Sahu, 2002, con el
modelo 3P. Note tambien que en general los modelos 1P, 2P y 3P son mas
rapidos que sus correspondientes modelos 1L, 2L y 3L. Ademas en ambos
casos el tiempo de simulacion se incrementa conforme el modelo incluye
mas parametros. Considerando el valor de DIC, el mejor modelo ajustado
resulto el modelo 3P pero sin embargo el modelo 2P es bastante cercano.
Nosotros preferimos el modelo 2P por se un modelo mas simple.
Cuadro 6.2: Results comparing the skew-probit with others parametric IRT
models using DIC
models type time parameters Dbar Dℎat �D DIC
(1) 1L 53 145 1467 1372 94.46 1561
(2) 1P 42 145 1460 1340 120.3 1581
(3) 2L 78 159 1461 1378 82.74 1544
(4) 2P 71 159 1447 1359 88.41 1536
(5) 3L 148 173 1464 1384 80.08 1544
(6) 3P 87 173 1443 1356 87.8 1531
Time in seconds to run 2000 iterations in a Pentium IV with 1800 MHZ and
256 Ram.
54
6.3. Analisis de sensibilidad usando diferentes
prioris para a y b en el modelo 2P
Para evaluar la sensibilidad de la Estimacion Bayesiana para el modelo
TRI probito normal se ha considerado diferentes prioris y se realizo un
analisis considerando los datos descritos antes.
La estimacion bayesiana basada en MCMC fue implementada en Win-
BUGS. Se generaron cadenas con 50000 iteraciones considerando saltos
(thin)=1, 5, 10 y descartando las primeras 500 iteraciones (Bur-in), ası que
los tamanos de muestra son de 49500, 9900 y 4950, respectivamente. Cuan-
do se usa MCMC, los valores de muestra para iteraciones iniciales de la
cadena son descartados por su dependencia con los valores iniciales y para
garantizar la convergencia. Tambien, en este modelo TRI, presencia de au-
tocorrrelaciones entre valores de la cadena es esperada cuando se introducen
variables latentes como es este caso (Chen et al. 2000). Debido a esto se
recomienda usar valores de thin superiores a 10.
Como ha sido mencionado en el capıtulo 4, prioris propias para aj y
bj garantizan que la distriuciones posteriores completas de los parametros
del modelo sean propias. Albert y Ghosh (2000) mencionan que la elec-
cion de prioris propias en las variables latentes resuelven el problema de
identificacion de estos modelos, y, adicionalmente, distribuciones a priori
informativas para aj y bj se pueden usar para reflejar la creencia de los
valores de los parametros de ıtem no son extremos (no estan en la frontera
del espacio paramatrico). Si se esta en la situacion donde poca informacion
a priori se dispone acerca de los parametros de dificultad, uno puede elegir
varianzas s2b que sean grandes. Esta eleccion puede tener un efecto modesto
en la distribucion posterior para datos no extremos, y puede resultar en una
distribucion posterior propia cuando hay datos extremos (cuando se obser-
va estudiantes que tienen todos sus ıtems correctos o incorrectos) (Albert
y Ghosh, 2000), tambien, Sahu (2002) establece que valores grandes de la
55
varianza llevan a estimados no estables.
En el Cuadro 5.3 se muestra algunas prioris consideradas en la literatura
para los parametros de ıtem en el modelo probito-normal. N(0,1)I(0,) es la
notacion para la distribucion normal con media 0 y varianza 1 truncada
para valores negativos.
Cuadro 6.3: Especificacion de prioris para parametros de ıtem en el modelo
probito-normal
prior autor a prior b prior
A Jhonson y Albert (2000) N(2,1) N(0,1)
B Congdon (2001) N(1,1) N(0,1)
C Albert y Ghosh (2000) N(0,1) N(0,1)
D Sahu (2002), Albert e Ghosh (2000) N(0,1) N(0,10000)
E Spiegelhalter et al (1996) N(0,1)I(0,) N(0,10000)
F Sahu (2002), Patz e Junker (1999) N(1,0.5)I(0,) N(0,2)
En la Figura 5.1 se presentan las estimaciones de los parametros de
discriminacion y de dificultad para el modelo probito-normal para diferentes
prioris dadas en la Tabla 2.
Las prioris A, B y C son precisas y las prioris D y E tienen prioris
difusas o prioris no informativas en el parametro de dificultad. Las prioris
E y F son truncadas en el parametro de discriminacion.
De acuerdo a la figure 5.1, el modelo 2P es insensible a la especificacion
de priors para los parametros de dificultad y de discriminacion. Un analisis
de una vıa para evaluar si los parametros de ıtem son diferentes de acuerdo
a las prioris resulto no significativo (a: F (5, 78) = 0,46; p < 0,8065 , b:
F (5, 78) = 0,05; p < 0,9982) .
En el analisis de la sensibilidad se ajusto varios modelos de probabilidad
para los mismos datos. Para comparar los seis modelos correspondientes a
56
Difficulty parameter
Dis
crim
ination p
ara
mete
r
N(2,1)-N(0,1)PRIOR a-b
-0,2
0,2
0,6
1,0
1,4
1,8
-3 -2 -1 0 1
N(1,1)-N(0,1)PRIOR a-b
-3 -2 -1 0 1
N(0,1)-N(0,1)PRIOR a-b
-3 -2 -1 0 1
N(0,1)-N(0,10000)PRIOR a-b
-0,2
0,2
0,6
1,0
1,4
1,8
-3 -2 -1 0 1
N(0,1)I(0,)-N(0,10000)PRIOR a-b
-3 -2 -1 0 1
N(1,0.5)I(0,)-N(0,2)PRIOR a-b
-3 -2 -1 0 1
1111
11
1111
11
1212 12
12 12 12
6 6 6
6 6 6
9 9 9
9 9 9
Figura 6.1: Media posterioi de los parametros de dificultad y de discrimi-
nacion para diferentes prioris en el modelo probito normal (N=131,I=14)
cada priori, se calculo la “expected deviance a posterior”(Dbar), la “de-
viance information criterion”(DIC) , el numero efectivo de parametros �D
que son descritos en el capıtulo 4 y en Spiegelhalter et al. (2002).
Spiegelhalter et al. (2002) indican que el DIC implementado en el soft-
ware WINBUGS se puede usar para comparar modelos complejos y grandes
diferencias en el criterios se pueden atribuir a diferencias predictivas reales
57
en los modelos, aunque persisten algunas crıticas. En el modelamiento
jerarquico con variables latentes auxiliares como en los modelos TRI, la
verosimilitud o complejidad del modelo no es unica ası que la deviance
del modelo (el DIC y �DD que se basan en ella) cuando hay variables la-
tentes no es unica y puede ser calculada de varias maneras (Delorio and
Roberts, 2002). Con variables latentes auxiliares, el software WINBUGS usa
la verosimilitud completa de las variables observadas y de la variable la-
tente introducida (como efectos fijos y aleatorios respectivamente en el
modelamiento jerarquico) para obtener la distribucion posterior para los
parametros de interes. Cuendo este es el caso, WinBUGS presenta DICs
marginales para la variable observada (efectos fijos) y para las variables
latentes auxiliares (efecto aleatorio). Para una comparacion de los modelos
propuestos, nosotros consideramos DIC marginal para la variable observa-
da porque el foco del analisis esta en p(y∣u, �) y aunque variables aleatorias
auxiliares se introducen (en dos etapas, para variables latentes y parametros
de ıtem) estas no son el focos del analisis.
Cuadro 6.4: Comparacion de los valores de Dbar y DIC para el modelo
probito-normal considerando diferentes prioris
prior a media b media Dbar Dhat pD DIC
A 0.6355 -1.021 1450.14 1369.86 80.28 1530.43
B 0.5356 -0.999 1461.09 1383.61 77.48 1538.57
C 0.4599 -0.979 1453.16 1368.36 84.80 1537.96
D 0.5168 -1.099 1446.60 1358.26 88.34 1534.94
E 0.5414 -1.101 1453.22 1375.48 77.75 1530.97
F 0.5879 -1.048 1445.00 1352.90 92.11 1537.11
El analisis del DIC en el cuadro 5.4, confirma que todas las prioris
tienen el mismo ajuste. La figura 5.2 hace comparaciones de estas diferentes
58
prioris considerando un grafico de la media y desviacion estandar para los
parametros de ıtem.
Para los parametros de dificultad, se tiene que las prioris estan orga-
nizadas desde las prioris no informativas o difusas hasta prioris precisas.
(A mayor precision de la priori especificada menor varianza en la posteri-
ori y mayor valor de la media a posteriori de la dificultad). En el caso del
parametro de discriminacion, tenemos que las prioris estan organizadas,
en el eje x, de menor a mayor media a posteriori, y en el eje y de mayor
precision a mayor valor de la variancia especificada a priori excepto para
el caso de mayor de la media a priori).
A pesar de que observamos que las prioris son similares en el ajuste del
modelo consideramos que la priori F es mas a apropiada porque presenta
menor coeficiente de variabilidad en relacion a la especificacion de un gran
varianza a priori para la dificultad. Este resultado prueba lo indicado por
Sahu (2002) que indica que ha investigado otras prioris con otros hyper
parametros pero esta es la mas estable.
6.4. Inferencia e Interpretacion de los paramet-
ros en el modelo 2P
Considerando las prioris a ∼ N(1, 0,5)I(0, ) y b ∼ N(0, 2) dada por Sahu
(2002), priori F , se realizon un analis final de los datos con el proposito de
inferencia. Se considero un Bur-in de 1000 y un tamano de muestra efectivo
de 1000 iteraciones considerando un valor de thin=10. Estas estimaciones
son esencialmente estables si se consideran otros tamanos de muestra. La
convergencia fue monitoreada usando hasta 5 cadenas de tamanos difer-
entes despues de descartar las primeras 1000 iteraciones. Fue usado la libr-
erıa CODA de R para obtener la estadıstica de Gelman y Rubin (1992) que
59
Means of difficulty parameter
Sta
nd
ard
De
via
tio
ns o
f d
ifficu
lty p
ara
me
ter
0,74
0,76
0,78
0,80
0,82
0,84
0,86
0,88
0,90
-1,15 -1,10 -1,05 -1,00 -0,95 -0,90
N(0,1)-N(0,1)
N(1,1)-N(0,1)
N(2,1)-N(0,1)
N(1,0.5)I(0,)-N(0,2)
N(0,1)-N(0,10000)
N(0,1)I(0,)-N(0,10000)
Means of discrimination parameter
Sta
nd
ard
De
via
tio
ns o
f d
iscrim
ina
tio
n p
ara
me
ter
0,24
0,26
0,28
0,30
0,32
0,34
0,36
0,38
0,40
0,44 0,48 0,52 0,56 0,60 0,64 0,68
N(0,1)-N(0,1)
N(0,1)-N(0,10000)
N(1,1)-N(0,1)
N(0,1)I(0,)-N(0,10000)
N(1,0.5)I(0,)-N(0,2)
N(2,1)-N(0,1)
Figura 6.2: Comparacion de el modelo probito-normal con diferentes prioris
60
indico que un total de 159 cadenas generadas convergen.
En media, para generar un tamano de bur-in de 1000 el programa demo-
ra 90 segundos, y para 10000 iteraciones adicionales usa 957 segundos. En
ka figura 3 se presenta el historico de la cadena y la densidad empırica a
posteriori para el item 11 y la media y desviacion estandar de la variable
latente.
Estimaciones de los parametros de discriminacion y de dificultad para
el modelo probito-normal se presentan en la tabla 4. El ıtem 11 es el mas
discriminativo mientras el ıtem 9 es el menor. Tambien, el ıtem 11 es el
mas facil mientras el ıtem 12 es el mas difıcil.
El ıtem 11 dice: “Luisa, Dora y Marıa compran tela. Luisa compro la
mitad de un metro, Dora compro 75 centımetros y Marıa compro cincuen-
ta centımetros. Quienes compraron la misma cantidad de tela?”. El ıtem
12 dice: “Un recipiente reibe 4,5 litros de aqua cada minuto. ¿Cuantos
litros de aqua tendra el recipiente despues de un hora y media?”. Por otro
lado, el ıtem 6 dice: “Resuelve las seguientes operaciones con decimales:
0, 75− 0, 2 + 1, 2− 0, 30”.
Es claro, del texto de los ıtens, que la habilidad latente requerida para
encontrar la solucion del ıtem 11 es menor que la del ıtem 12. Para un
mismo valor de habilidad, el alumno tiene mayor probabilidad de suceso en
el ıtem 11 antes que en el ıtem 12. Por eso el ıtem 11 es mas facil que el
ıtem 12 como el modelo probit-normal postula.
Tambien es importante percibir para el ıtem 11 que un pequena cam-
bio de habilidad del alumno (digamos, un conocimiento de lo que significa
mitad de un metro) produce un rapido incremento de la probabilidad de
suceso del ıtem. Pero en el ıtem 9 un pequeno cambio de habilidad del alum-
no (digamos el conocimiento de decimales) no se traduce en un incremento
61
a[12]
iteration
1000 2500 5000 7500 10000
0.0
0.5
1.0
1.5a[12] sample: 1000
-0.5 0.0 0.5 1.0
0.0
1.0
2.0
3.0
b[12]
iteration
1000 2500 5000 7500 10000
0.0
0.25
0.5
0.75
1.0b[12] sample: 1000
-0.25 0.0 0.25 0.5 0.75
0.0
1.0
2.0
3.0
4.0
mu
iteration
1000 2500 5000 7500 10000
-0.4
-0.2
0.0
0.2
0.4mu sample: 1000
-0.4 -0.2 0.0 0.2
0.0
2.0
4.0
6.0
du
iteration
1000 2500 5000 7500 10000
0.6
0.8
1.0
1.2du sample: 1000
0.6 0.8 1.0
0.0
2.0
4.0
6.0
8.0
Figura 6.3: Box-plots de las medias a posteriori de los parametros de dis-
criminacion (a) y dificultad (b) en el modelo probito normal
62
rapido de la probabilidad de suceso del ıtem. Ası el ıtem 11 es mas discrim-
inativo porque permite distinguir mejor entre los alumnos que saben o no
saben un determinado conocimiento especıfico al ıtem. Box-plots para las
medias a posteriori de los ıtems se presentan en la figura 5.4. Para mayor
detalle de interpetacion de los parametros de ıtem vea Johnson y Albert
(2000).
Con respecto a la variable latente la media de las medias a posteri-
ori para los examinados es 0.94 lo que indica que el grupo de estudiantes
presenta habilidades con asimetrıa negativa como fue encontrado en los
puntajes (vea cuadro 5.5). De esta manera encontramos que las habili-
dades estimadas tienen correspondencia con el puntaje. Modelos que den
cuenta de esta asimetrıa han sido desarrollados recientemente por Bazan
et al (2006), Bolfarine y Bazan (2007).
63
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13][14]
box plot: a
0.0
1.0
2.0
3.0
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
box plot: b
-4.0
-3.0
-2.0
-1.0
0.0
1.0
Figura 6.4: Historico de la cadena y densidad para los parametros del ıtem
11 y media y desviacion esandar a posteriori de la variable latente
64
Cuadro 6.5: Media y desviacion estandar a posteriori y intervalo de prob-
abilidad del 95 % para los parametros del modelo probito normal
media sd P2,5 mediana P97,5
parametro de discriminacion a1 0.54 0.24 0.13 0.52 1.09
a2 0.29 0.18 0.03 0.27 0.70
a3 0.55 0.24 0.16 0.53 1.09
a4 0.91 0.33 0.33 0.88 1.61
a5 0.49 0.24 0.09 0.48 1.02
a6 0.32 0.18 0.03 0.30 0.73
a7 0.88 0.34 0.29 0.84 1.60
a8 0.97 0.35 0.39 0.92 1.80
a9 0.20 0.14 0.01 0.18 0.51
a10 0.49 0.23 0.08 0.48 1.02
a11 1.35 0.41 0.64 1.32 2.18
a12 0.39 0.19 0.06 0.38 0.80
a13 0.45 0.23 0.05 0.43 0.93
a14 0.41 0.26 0.03 0.37 0.97
parametro de dificultad b1 -0.90 0.16 -1.25 -0.90 -0.60
b2 -1.09 0.15 -1.37 -1.08 -0.80
b3 -0.03 0.13 -0.27 -0.03 0.23
b4 -1.91 0.33 -2.62 -1.88 -1.36
b5 -1.23 0.18 -1.62 -1.22 -0.90
b6 0.37 0.11 0.16 0.37 0.61
b7 -1.82 0.33 -2.63 -1.78 -1.28
b8 -1.53 0.31 -2.30 -1.50 -1.03
b9 -0.80 0.13 -1.06 -0.80 -0.57
b10 -1.19 0.17 -1.55 -1.18 -0.87
b11 -2.31 0.46 -3.32 -2.25 -1.53
b12 0.43 0.12 0.21 0.42 0.67
b13 -1.01 0.16 -1.35 -1.00 -0.71
b14 -1.71 0.23 -2.20 -1.70 -1.32
variable latente u media 0.94 0.06 0.82 0.93 1.06
d.e u 0.04 0.08 -0.12 0.04 0.21
Capıtulo 7
CONCLUSIONES
Este trabajo presenta los modelos de Teorıa de Respuesta al Item di-
cotomicos a la comunidad academica del Peru desde la perspectiva de la
Inferencia Bayesiana. Una presentacion parecida para el caso del Brasil pero
desde la perspectiva de la Inferencia Clasica puede revisarse en Andrade,
Tavares y Valle (2000).
El modelo en el que se hace mas enfasis es el modelo de ojiva normal,
modelo probito normal o modeo 2P. Este modelo es bastante interesante
porque diversas extensiones han sido propuestas a partir de este modelo.
Una extension de este modelo son aquellos que incluyen parametros adi-
cionales de ıtemes como el modelo 3P que incluye un parametro adicional
de adivinacion, el modelo skew-probit (Bazan, et al, 2006) que incluye un
parametro de penalidad o bonificacion del ıtem o el modelo de Teslets que
incluye un parametro para la interaccion entre determinados ıtemes (Wang,
Bradlow, y Wainer, 2003).
Otras extensiones se obtienen considerando la variable latente U como
siendo multidimensional y no unidimensional como ha sido considerado
65
66
aquı (ver por ejemplo, Beguin y Glas, 2001, Linardakis y Dellaportas, 2002).
Tambien existen extensiones donde se consideran variables predictoras o
variables explicativas. Tambien esta el caso de modelos multinivel (Fox y
Glas, 2001) y de modelos con error de medicion (Fox y Glas, 2003). Otro
grupo de extensiones se obtiene cuando se toma como variable manifiesta
valores discretos mınimamente ordinales y no respuesta binaria. En ese caso
se esta frente a modelos de TRI para respuesta policotomica (las escalas de
actitudes y las pruebas de desempeno son ejemplos de estos casos.
Dos procedimientos de Inferencia Bayesiana usando MCMC se presen-
taron e implementaron. Este proceso de Inferencia fue usado en particular
para estimar los parametros asociados con un conjunto de datos de una
prueba de Matematicas que se aplico a 131 estudiantes de de 4to grado. Se
compararon los seis modelos revisados (1P, 2P, 3P, 1L, 2L y 3L), donde el
modelo 1L es el modelo de Rasch que la Unidad de Medicion de Calidad
Educativa del Ministerio de Educacion emplea en los reportes de las prue-
bas de rendimiento escolar a nivel nacional. Para comparar los modelos se
uso el Deviance Information Criterion (DIC) explicado en el capıtulo 4.
El mejor modelo elegido fue el 2P. Con este modelo se realizo un analisis
de sensibilidad frente a la especificacion de diferentes prioris, vaga precisas
para el parametro de dificultad y precisas para el parametro de discrimi-
nacion en concordancia con los resultados presentados en el capıtulo 3. Los
resultados indican que las estimaciones son similares cuando se consideran
las diferentes prioris. Ası el modelo 2P para los datos analizados es insen-
sible frente a la eleccion de prioris diferentes. Sin embargo una priori que
puede recomendarse es la priori a ∼ N(1, 0,5)I(0, ) y b ∼ N(0, 2) propuesta
por Sahu (2002).
Para los datos de la aplicacion se presentaron las estimaciones y se
interpretaron los resultados de manera especıfica para algunos ıtems.
A partir de los resultados presentados pueden ser estudiadas muchas
67
de las extensiones comentadas aquı ası como otros modelos que pueden ser
revisados en van der Linden y Hambleton (1997).
Como se ha querido resaltar aquı, este tipo de modelos son de interes
desde varios puntos de vista. Son de interes, por un lado, considerando las
multiples aplicaciones que se pueden realizar, pero por otro, considerando
los diferentes desarrollos de tipo formal y computacional. Invitamos a los
interesados a comunicarse con los autores para conocer mas detalle de las
extensiones y los problemas abiertos que persisten en esta area.
68
Bibliografıa
[1] Albert, J. H. (1992). Bayesian Estimation of Normal Ogive Item Re-
sponse Curves Using Gibbs Sampling. Journal of Educational Statistics,
17, 251 - 269.
[2] Albert, J.H. & Ghosh, M. (2000). Item response modeling. Generalized
Linear Models: A Bayesian Perspective(D. Dey, S. Ghosh & Mallick,
eds.), Marcel-Dekker, New York, 173-193.
[3] Andrade, D. F. , Tavares, H. R., & Valle, R. C. (2000). Introducao
a Teoria da resposta ao Item : Conceitos e Aplicacoes. 14o SINAPE :
Caxambu, MG.
[4] Baker, F.B. (1992). Item Response Theory - Parameter Estimation
Techniques. New York: Marcel Dekker, Inc.
[5] Bartholomew,D.J., & Knoot, M. (1999). Latent variable models and fac-
tor analysis. (2nd ed.). London: Arnold. (Kendall´s Library of Statistics
7.
[6] Bazan, J., Bolfarine, H., & Branco, M. (2004b). A skew item response
model. ISBA 2004 World Meeting. Vina del Mar. Chile, May 23-27, 2004.
ISBA (International Society for Bayesian Analysis).
69
70
[7] Bazan, J. L., Bolfarine, H., Leandro, A. R. (2006). Sensitivity analysis of
prior specification for the probit-normal IRT model: an empirical study.
Estadıstica. Journal of The Inter-American Statistical Institute 58, 17-42.
[8] Bazan, J. L., Branco, D. M. and Bolfarine (2006). A skew item response
model. Bayesian Analysis, 1 861- 892.
[9] Bazan, J. L., (2004). Introduccion al modelo psicometrico de la Teorıa
Clasica de los Test (parte I). Pro Matematica. PUCP. 18 (35-36), 79-107.
[10] Bolfarine, H. and Bazan, J. L. (2007). Skewed Logit Item Response
Models. Presentacion oral. Escuela de Modelos de Regresion. Bahıa,
Brasil. Sesion de Poster en el Congreso latinoamericano de probabilidad
y estadıstica matematica. CLAPEM. Lima-Peru. Febrero.
[11] Beguin, A. A.,y Glas, C. A. W. (2001). MCMC estimation of multidi-
mensional IRT models. Psychometrika, 66, 541-562.
[12] Birnbaum, A. (1968). Some Latent Trait Models and Their Use in
Infering an Examinee’s Ability. In F. M. Lord & M. R. Novick. Statistical
Theories of Mental Test Scores. eading, MA : Addison-Wesley.
[13] Bock, R. D., & Aitkin, M. (1981). Marginal maximum likelihood esti-
mation of item parameters: Application of an EM algorithm. Psychome-
trika 64,153-168.
[14] Borsboom, D., Mellenbergh, G. J., & van Heerden, J.(2003). The The-
oretical Status of Latent variables. Psychological Review, 110, 203-219.
[15] Brooks, S. P. (2002). Discussion on the paper by Spiegelhalter, Best,
Carlin, and van de Linde (2002). Journal of the Royal Statistical Society
Series B, 64, 3,616-618.
71
[16] Carlin, B.P. y Louis, T.A. (2001).Bayes and Empirical Bayes Methods
for Data Analysis Essays on Item Response Theory. Second edition. New
York: Chapman & Hall.
[17] Casella, G. y Berger, R. L (2002). Statistical Inference,Duxbury: Pa-
cific Grove, CA.
[18] Chen, M-H, Shao, Q. M, & Ibrahim, J. G (2000). Monte Carlo Methods
in Bayesian Computation. New York: Springer Verlag.
[19] Fischer, G. y Molenaar, I. (1995). Rasch Models. Foundations, recent
development, and applications. The Nerthelands: Springer-Verlag.
[20] Fox, J. P., y Glas, C. A.W. (2001). Bayesian estimation of a multilevel
IRT model using Gibbs sampling. Psychometrika, 66, 271-288.
[21] Fox, J. P., & Glas, C. A.W. (2003). Bayesian Modeling of measurement
error in predictor variables using item response theory. Psychometrika,
68, 169-191.
[22] Gamerman, D. Lopes, H. F (2006). Markov Chain Monte Carlo:
Stochastic Simulation for Bayesian Inference, Chapman and Hall/CRC”.
[23] Gelfand, A. E. (1996). Model Determination using Sampling-based
methods. En Markov Chain Monte Carlo in Practice, Gilks, W.R. y
Richardson, S. y Spiegelhalter, D. J. (editor) capıtulo 9, 145-161.
[24] Gelfand, A.E., Smith, A.F.M. (1990). Sampling-based approaches to
calculating marginal densities. J. Am. Stat. Assoc. 85, 398-409.
[25] Gelman, A. & Rubin, D. B. (1992). Inference from iterative simulation
using multiple sequences. Statistical Science, 7, 457-472.
[26] Geweke, J. (1992). Evaluating the accuracy of sampling-based ap-
proaches to the calculation of posterior moments. En: Bernardo, J.M.,
72
Berger, J.O., Dawid, A.P., Smith, A.F.M. (eds.) Bayesian Statistics, vol.
4, pp. 169-193. Oxford University Press, Oxford .
[27] Ghosh, M., Ghosh, A., & Chen, Ming-Hui & Agresti, A. (2000). Non-
informative priors for one parameter item response models.Journal of
Statistical Planning and Inference. 88, 99-115.
[28] Gilks, W. R., Richardson. S. e Spiegelhalter, D. J. (1996). Markov
Chain Monte Carlo in practice. London : Chapman & Hall.
[29] Gilks, W. R., & Wild, P. (1992). Adaptive rejection sampling for Gibbs
sampling. Applied Statistics, 41, 337-348.
[30] Hastings, W.K. (1970). Monte Carlo sampling methods using Markov
chains. Biometrika 57, 97-109.
[31] Holland, P., Rosenbaum, P. (1986). Conditional Association and Unidi-
mensionality in Monotone Latent variable models. The Annals of Statis-
tics. 14 1523-1543.
[32] Johnson, V., & Albert, J. (2000). Ordinal Data Modeling. New York,
MA: Springer-Verlag.
[33] Johnson, T. R. (2003). On the use of heterogeneous thresholds ordinal
regression models to account for individual differences in response style.
Psychometrika, 68(4), 563-583.
[34] Linardakis, M. y Dellaportas, P. (2002). An approach to multidimen-
sional item response modeling. E. I. George. (Ed.). Bayesian Methods
with applications to science policy and oficial statistics. 331-340.
[35] Lord, F. M. (1952). A theory of test scores. New York: Psychometric
Society.
[36] Lord, F., y Novick, M. R. (1968). Statistical theories of mental test
scores. Reading, MA: Adisson-Wesley.
73
[37] Martin, A.D., y Quinn, K. M. (2002). MCMCpack.
scythe.wustl.edu/mcmcpack.html.
[38] Patz, R. J., y Junker, B. W. (1999). A straighforward approach to
Markov Chain Monte Carlo methods for item response models. Journal
of Educactional and Behavioral Statistics, 24, 146-178.
[39] Roberts, C., P.(2001) The Bayesian Choice: from decision-theoretic
foundations to computational implementation. 2nd ed. New york:
Springer-Verlag.
[40] Rupp, A., Dey, D. K., y Zumbo, B. (2004). To Bayes or Not to Bayes,
from Whether to When: Applications of Bayesian Methodology To Item
Response Modeling. Structural Equations Modeling. 11, 424-451.
[41] Ross, S. (1995). Stochastic Processes, Wiley: New York, NY.
[42] Schervish, M. J. (1995). Theory of Statistics, Springer-Verlag: New
York, NY.
[43] Sahu, S. K. (2002). Bayesian Estimation and Model Choice in Item
Response Models. Journal of Statistical Computation and Simulation,
72, 217-232.
[44] Schervish, M. J. (1995). Theory of Statistics, Springer-Verlag: New
York, NY.
[45] Spiegelhalter, D. J., Thomas, A., Best, N. G., & Gilks, W.R.(1996).
BUGS 0.5 examples (Vol. 1 Version i). Cambrigde, UK: University of
Cambride.
[46] Sahu, S. K. (2002). Bayesian estimation and model choice in item
response models. Journal Statistical Computing Simulation, 72,217-232.
[47] Tierney, L. (1994). Markov chains for exploring posterior distributions.
Ann. Stat. 22, 1701-1762.
74
[48] van der Linden, W.J. y Hambleton, R. K. (1997). Handbook of Modern
Item response Theory. New York: Springer-Verlag.
[49] Wang, X, Bradlow,E. T, & Wainer,H. (2003). A General Bayesian
Model for Testlets: Theory and Applications. Applied Psychological Mea-
surement, 26, 109-128.
[50] Spiegelhalter, D. J., Thomas, A., Best, N. G. e Gilks, W.R.(1996).
BUGS 0.5 examples (Vol. 1 Version i). Cambrigde, UK: University of
Cambride.
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP)
APLICACIONES DE TRI
1. APLICACIÓN 1: Un Tutorial de WinBUGS para TRI Para usar la Inferencia Bayesiana usando WinBugs asegúrese de contar con el programa. El programa puede ser obtenido de http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtml Para un uso efectivo del programa con todas sus funciones es necesario registrarse y obtener un archivo que es enviado anualmente. Otra posibilidad, sin registro previo es usar el OpenBugs que esta disponible en http://mathstat.helsinki.fi/openbugs/ Para comprender la metodología bayesiana para el modelo de Rasch que es un caso particular de la teoría de respuesta al Ítem puede revisar Bazán, J., Bolfarine, H., Leandro, A. R. (2007). Una versión anterior de dicho trabajo aparece disponible en http://www.ime.usp.br/~isbra/files/boletim/boletim_2004_v01_n02.pdf En este tutorial se usa un conjunto de datos denominados Math data. Si ud desea usar el WinBugs para sus propios datos, no necesita modificar la sintaxis del modelo. Solamente debe introducir sus propios datos especificando su número de sujetos (n) y el número de ítems de su prueba (k). Para mejorar la interpretación de los resultados obtenidos en el modelo revise a Bond, T.G and Fox, C.M (2005). 1.1 Descripción de los datos: Math Data Este tutorial emplea los datos de 14 ítems liberados, de la prueba de Matemática desarrollada por la UMC (Unidad de Medición de la Calidad Educativa) del Perú para la Evaluación Nacional del sexto grado de 1998 los cuales fueron aplicados a una muestra de 131 estudiantes de sexto grado de nivel socioeconómico alto. Estos datos han sido empleados en Bazán, J., Branco, M.D., Bolfarine, H. (2006) y Bazán, J., Bolfarine, H., Leandro, A. R. (2007). La prueba de la UMC cuenta con 32 ítems de selección múltiple con cuatro alternativas. Los 14 itenes liberados aparecen en la publicación http://www2.minedu.gob.pe/umc/admin/images/publicaciones/boletines/Boletin-13.pdf En la tabla aparece la correspondiente identificación del numero de iten con el numero en la prueba de la UMC Numero de item de Math data 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Numero de ítem en la prueba UMC 1 8 9 11 12 13 21 25 32 5 17 30 2 10
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) 1.2 Pasos de la Inferencia Bayesiana usando WinBugs Fase 1: Definir el modelo
1. Chequear el modelo 2. Llamar los dato 3. Compilar 4. Llamar los valores iniciales 5. Simular valores iniciales de las variables faltantes
Fase 2: Parámetros para la simulación
6. Definir parámetros a monitorear 7. Hacer la simulación MCMC
Fase 3: Evaluación de las cadenas generadas
8. Evaluar las cadenas generadas 9. Obtener medidas de resumen
FASE 1: DEFINIR EL MODELO Paso 1. Chequear el modelo Seleccionar model (señalar con el Mouse) como aparece en la figura abajo. En el menu seleccionar Model, luego Specification. Hacer click em Check Model
Se todo estuviera correcto, el mensaje abajo, en la parte izquierda es “model is syntaticaly correct”
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) Paso 2: Llamar los datos Seleccionar list (señalar con el Mouse) como aparece en la figura abajo. Hacer click en Load Data.
Si todo estuviera correcto, el mensaje abajo, en la parte izquierda es “data loaded” Paso 3. Compilar Hacer click em Compile de Specification Tool
Si todo estuviera correcto, el mensaje abajo, en la parte izquierda es “model compiled”
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) Paso 4: Llamar los valores iniciales Seleccionar list de los valores iniciales (señalar con el Mouse) como aparece en la figura abajo. Hacer click en Load Inits
. Se todo estuviera correcto, el mensaje abajo, em la parte izquierda es “this chain contains uninitialized variables” Paso 5 Simular valores iniciales de las variables faltantes Hacer click en Gen Inits
Se todo estuviera correcto, el mensaje abajo, en la parte izquierda es “inicial values generated, model initialized”
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) FASE 2: PARÁMETROS PARA LA SIMULACIÓN Paso 6 Definir parámetros para monitorear Seleccionar en el Menu, Inference, luego Samples. En la ventana, node, escribir los parámetros a monitorear. En el modelo Rasch son b y tetha. Cada vez que coloca un nodo haga click en Set. Al fina escriba en la ventana: *
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) Paso 7 Hacer la simulación MCMC En el menú seleccionar Model, luego Update. En la ventana, updates, escriba el numero de simulaciones que desea hacer. El default es 1000. Para el modelo de rasch la sugerencia es 4000 las cuales serán descartadas para la inferencia (proceso Bur-In).
Luego hacer click en update. Se todo estuviera correcto, el mensaje abajo, en la parte izquierda es “model is updating”. Al final aparece el tiempo que su computador usó para la simulación. Este tiempo depende del procesador que use. En mi caso duró 66 segundos.
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) FASE 3: EVALUACIÓN DE LAS CADENAS GENERADAS Paso 8 Evaluar la cadenas generadas 1. En la ventana Sample Monitor Tool, hacer clic en history. En este caso ud obtiene una grafica para cada parámetro del modelo que corresponde a los diferentes valores que toma el parámetro en cada iteración. En este caso, son 4000 valores. Lo que debe analizarse es si las cadenas (series de valores generados) son convergentes.
En el caso de los datos de Matemática, por inspección todas las cadenas son convergentes o estacionarias. 2. En la ventana Sample Monitor Tool, hacer clic en density. En este caso ud obtiene una grafica para cada parámetro del modelo que corresponde a los diferentes valores que toma el parámetro en cada iteración. La grafica corresponde a la distribución empirica obtenida de los valores generados.
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP)
En el caso de los datos de Matemática, por inspección todas las cadenas son unimodales y simétricas. 2. En la ventana Sample Monitor Tool, hacer clic en coda. En este caso ud obtiene dos nuevos archivos: Coda index y Coda for chain 1. Los cuales deben ser grabados como nombre .ind y nombre .out. Estos archivos permiten realizar un análisis mediante algunas medidas de evaluación de las cadenas disponibles en las librerías CODA y BOA disponibles en el programa R.
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) Las librerías se obtienen en BOA http://www.public-health.uiowa.edu/boa/Home.html CODA: http://cran.r-project.org/src/contrib/Descriptions/coda.html El programa R esta disponible en http://www.r-project.org/ Paso 9 Obtener estadísticas de resumen En la ventana Sample Monitor Tool, hacer click em Stat
Note que se obtiene medias de resumen de la distribución posterior de los parámetros del modelo. La media de a posteriori es comparable con las estimativas de obtenidas usando inferencia clásica. Pero a diferencia de dicha inferencia donde es necesario ciertas suposiciones para uso de teoría asintótica para obtener errores estándar asociados a dichas estimativas, en la inferencia bayesiana se puede obtener cualquier medida a posteriori como mediana y percentiles. En este caso se obtiene un resumen de 4000 valores generados usando MCMC. Paso 10 Obtener medidas definitivas y medida de comparación de modelos En la inferencia Bayesiana es importante generar una cadena lo suficientemente grande para obtener la convergencia de la misma. Para ello es importante estudiar la auto correlación de la serie, lo cual ayuda a determinar numero de saltos o thin que debe hacerse para obtener las estadísticas definitivas de los parámetros del modelo. Si hay una auto correlación alta es necesario un thin (salto) mayor para seleccionar los valores. También hay que considerar el Bur-in o valores iniciales a ser descartados. Esos aspectos son discutidos en los artículos de las referencias. Nosotros vamos a considerar las primeras 4000 iteraciones como Bur-in y
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) como la autocorrelacion en el modelo es baja como se muestra en el siguiente grafico, el thin será de 1 como aparece por default.
Para tener una medida de comparación de modelos frente a modelos alternativos es importante usar la medida DIC (Deviance Information Criteria). En el menú seleccionar Inference, luego DIC. En la ventana DIC tool seleccione set. Luego finalmente repita el paso 7 considerando 2000 iteraciones adicionales. Finalmente vuelva a la ventana DIC tool y presione DIC.
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) El resultado es Dbar = post.mean of -2logL; Dhat = -2LogL at post.mean of stochastic nodes Dbar Dhat pD DIC y 1465.900 1372.290 93.608 1559.510 total 1465.900 1372.290 93.608 1559.510
Finalmente repetimos el paso 9 para las nuevas 2000 iteraciones. Asegúrese de colocar en el espacio beg 4001 para que las estadísticas sean de las ultimas 2000 iteraciones.
Los primeros resultados aparecen a continuación node mean sd MC error 2.5% median 97.5% start sample b[1] -1.582 0.2523 0.006718 -2.097 -1.57 -1.102 4001 2000 b[2] -2.063 0.2788 0.008793 -2.627 -2.054 -1.544 4001 2000 b[3] -0.0929 0.2108 0.006927 -0.5039 -0.09345 0.3108 4001 2000 b[4] -2.994 0.3797 0.009508 -3.777 -2.985 -2.288 4001 2000 b[5] -2.212 0.2987 0.00923 -2.801 -2.203 -1.658 4001 2000 b[6] 0.6497 0.2167 0.007031 0.2158 0.6483 1.061 4001 2000 b[7] -2.862 0.355 0.00843 -3.59 -2.842 -2.203 4001 2000 b[8] -2.286 0.297 0.008845 -2.917 -2.277 -1.735 4001 2000 b[9] -1.527 0.247 0.007468 -2.031 -1.527 -1.058 4001 2000 b[10] -2.13 0.2955 0.009572 -2.726 -2.118 -1.566 4001 2000 b[11] -2.99 0.3734 0.01022 -3.731 -2.964 -2.312 4001 2000 b[12] 0.7283 0.2185 0.007656 0.303 0.7273 1.159 4001 2000 b[13] -1.813 0.2614 0.007499 -2.346 -1.81 -1.33 4001 2000 b[14] -3.272 0.4289 0.01122 -4.175 -3.258 -2.482 4001 2000 theta[1] -0.3447 0.5904 0.0115 -1.465 -0.3554 0.8927 4001 2000 theta[2] 0.8446 0.6733 0.01749 -0.4474 0.8302 2.159 4001 2000 theta[3] -1.292 0.548 0.01431 -2.333 -1.301 -0.2057 4001 2000 theta[4] -1.308 0.5399 0.01695 -2.31 -1.32 -0.1854 4001 2000 theta[5] 0.8582 0.6807 0.01573 -0.4268 0.8516 2.265 4001 2000
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) 1.3 Gráficos de interpretación de resultados En la siguiente grafica aparece un boxplot de las distribuciones de dificultad de los ítems ordenados de los mas fáciles a mas difíciles. El ítem 14 es el más fácil, el ítem 12 es el más difícil. Como puede observarse, considerando un nivel de habilidad de 0, apenas 3 ítems son difíciles para esta población de estudiantes de nivel socioeconómico alto.
[14][4] [11] [7]
[8] [5] [10] [2][13]
[1] [9]
[3]
[6] [12]
box plot: b
-6.0
-4.0
-2.0
0.0
2.0
En la siguiente grafica aparecen ordenados los estudiantes de acuerdo a su nivel de habilidad. Note que son pocos los estudiantes con habilidades menores a 0.
[92][56]
[91][116][4][67][110][123][3][131][14][28][100][53][115][43]
[84][81][55][89][10][103][11][19][42][125][120]
[73][95][1][39][18][71][121][86][26][98][111][126][17][49][66][23][128][51]
[108][118][8][99][62][20][70][21][127][106][48][32][107][30][122][59][34][82][75][93][113][97][61][65][63][69][46][105][64][44][77][90][36][117]
[13][35][78][109][112][114][54][76][68][37][58][119][22][41][12][25][9][130][60][72][129][45][57][88][87][124][40][94]
[96][50][27][15][74][83][47][5][102][24][33][6][7][2][80][29][79][38][31][52]
[101][85][104][16]
box plot: theta
-4.0
-2.0
0.0
2.0
4.0
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) 2. APLICACIÓN 2: Una comparación de TRI con TCT Un modelo rival para el estudio de tests o pruebas es el Modelo Clásico cuya expresión formal es la Teoría Clásica de los Test (TCT) y que se basa en el modelo lineal de Spearman (1904) ampliamente documentado por Lord y Novick (1968). Sin embargo, los modelos TRI resuelven problemas que la teoría clásica deja abiertos. En la TCT, el modelo usado se basa en la ecuación:
∑=
=I
iijj YT
1
para nj ,...,2,1=
donde jT es la puntuación total (Score) obtenida por el individuo j de la muestra. En la TCT
una tarea importante es el análisis de ítems, que se apoya principalmente en dos índices de amplio uso: 1. La probabilidad de respuesta positiva en el ítem i: )1( == iji YPp .
2. La discriminación del ítem, denotada jd , que indica la capacidad del ítem para discri-
minar entre casos con alto y bajo nivel del atributo medido por los I ítems de la prueba. Hay varias alternativas para jd , siendo la más usada B
jAjj ppd −= , donde A
jp es la
proporción de respuesta positiva en el tercio superior de la distribución de T y Bjp es la
proporción de respuesta positiva en el tercio inferior. Otra alternativa es la correlación de Pearson TX j
ρ entre jX y )( jXT − que en este caso es llamada Correlación biserial
puntual , que no se emplea en este trabajo. En ambas medidas debe ocurrir que 0>jd y
cuanto mayor sea jd , mayor poder de discriminación del ítem j.
La Teoría Clásica tiene problemas no resueltos, a saber, el primero es que no provee una medida de ajuste de los datos al modelo. El segundo es que la capacidad del ítem para medir el riesgo no está en un mismo eje con las puntuaciones o scores T de la prueba, pues en un caso se trata de una probabilidad y en el segundo de un puntaje total. Asociado con lo an-terior, está el hecho cierto que dos personas pueden tener igual puntuación T y sin embargo haber obtenido este mismo valor a partir de respuestas positivas a ítems correspondientes a diferentes niveles de intensidad del atributo medido por la prueba o test. Una explicación de la TCT se encuentra en Calderón,A (2005), Bazán, J.L. (1997) y Lord y Novick (1968). Un texto sobre TCT de descarga libre se encuentra en Internet en: http://psicolectivo.com/apache2-default/uploads/Teoria-Clasica-de-los-Test.pdf Un programa que hace análisis de TCT se encuentra en: http://www.visualstats.org/ 2.1 Escala de percepción de peso Este segundo ejemplo se basa en los datos de la investigación de Martínez, P., Zusman, L., y Calderón, A. (2003), relativa a trastornos alimentarios, donde se aplicó el Inventario de Conductas Alimenticias de Zusman (2000) que mide riesgo de trastorno alimentario (Anorexia, Bulimia, etc.) y factores asociados en adolescentes mujeres. Los datos provienen de una muestra probabilística de 2,141 alumnas distribuidas entre 18 colegios públicos y 8
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) privados, obtenidos a partir del Padrón de Centros Educativos 1999 del Ministerio de Educación. La prueba tiene varias áreas o escalas y de ellas se ha seleccionado la llamada Escala de Peso, que registra la “percepción y preocupación por el peso, rutinas, temores, controles y conductas patológicas asociadas”. Su importancia radica en que si bien para la adolescente en riesgo el peso se convierte en la manifestación cuantitativa del problema que la perturba, sin embargo, por razones culturales y de globalización, el peso es una preocupación general de las adolescentes, tengan un trastorno o no. Para efecto de análisis las respuestas de las participantes han sido pasadas a formato de variable binaria Y , donde el valor 0 indica poca o nula frecuencia (Nunca, Casi nunca) y el valor 1 revela una mayor frecuencia (A veces, Casi siempre, Siempre) de la conducta registrada por el ítem. Los 15 ítems son: 01 Me preocupa mi peso. 02 Me peso todos los días. 03 Pienso que mi rendimiento escolar ha mejorado desde que he comenzado a bajar de peso. 04 Subo y bajo de peso con facilidad. 05 Acudo a médicos y/o centros especializados para bajar de peso. 06 Me gusta que mi ropa me quede suelta. 07 Siento angustia cuando subo de peso. 08 Tengo miedo de pesarme. 09 Siento que mis padres exageran cuando se preocupan por mi peso. 10 Mi familia está pendiente de lo que como. 11 Quiero bajar de peso. 12 Pienso que es mejor ser delgada que inteligente. 13 Controlo mi peso. 14 Las mujeres queremos estar más flacas. 15 Mis amigas me dicen que estoy muy delgada.
Para este tipo de dato, donde no hay una “habilidad” por medir y la persona lo sabe, la opción de acertar al azar no es razonable, por lo que se puede prescindir del parámetro de acierto ic . Por otra parte, no se puede garantizar que todos los ítems tienen similar discri-
minación ia , y naturalmente, la “dificultad” ib de cada ítem representa el mayor o menor riesgo asociado a la conducta específica que se mide. El modelo debe ser uno de dos parámetros y para efecto de este ejemplo, usaremos el modelo logístico
141,2,..,2,115...,2,11
1),,|1(
)(====
+== − njIi
ebaUYP
iji bUaiijij
Siendo jU el riesgo en que está la persona de padecer un trastorno alimentario, y ii ba , los
parámetros del ítem o pregunta i del test 2.2 Estimación bayesiana usando WinBUGS Usamos WinBUGS (http://www.mrc-bsu.cam.ac.uk/bugs/welcome.shtml) para la estimación bayesiana. Siguiendo las recomendaciones de Patz y Junker (1999) y de Albert y Ghosh (1992), la secuencia jerárquica de distribuciones que se carga en WinBUGS es:
)(~,,| ijiijij pBernbaUY
)1
1)( iji bUaij e
p −+=
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP)
)1,0(~ NU j
),0(~ 2
ai Na σ
),0(~ 2bi LogNb σ
donde se tomó 2=aσ y 2/1=bσ pues el tamaño de muestra de 2,141 casos hacía poco
sensibles los resultados a las especificaciones de 1bσ y
2bσ (Patz y Junker, 1999).
2.3 Comparación de ítems según TCT y según TRI En el Cuadro N0 1 se presenta una comparación de los indicadores de Riesgo y Discriminación estimados según la teoría clasica (TCT) y la teoría de respuesta al ítem (TRI). Nótese que en el caso del modelo TRI es posible obtener además una medida de dispersión para cada estimación, porque la TRI provee de una distribución para cada parámetro. Una consecuencia es que con la TRI es posible obtener intervalos de confianza para esos valores, algo que facilita las comparaciones entre ítems, que es una tarea importante cuando se está en la fase de construcción de una prueba. El gráfico N0 1 es una diagrama de dispersión que compara visualmente los indicadores de riesgo (proporción de positivos en la TCT y parámetro b1j en TRI) en sus respectivas escalas. Análogamente, el gráfico N0 2 compara los índices de discriminación (dj en TCT y b2j en TRI) .
Cuadro N0 1 Indicadores de Ítems según modelos Clásico y de Respuesta al Item
Items TCT IRT
Indice de Riesgo Item bi Discriminación Item aj
Riesgo Item Discriminación Media D. Estándar Media D. Estándar Item 01 0.67 0.61 -0.64 0.04 1.02 0.06 Item 02 0.12 0.20 1.23 0.04 0.37 0.04 Item 03 0.12 0.28 1.39 0.05 0.64 0.05 Item 04 0.47 0.52 0.08 0.03 0.53 0.04 Item 05 0.05 0.11 1.86 0.07 0.50 0.06 Item 06 0.51 0.42 -0.03 0.03 0.37 0.03 Item 07 0.54 0.83 -0.24 0.06 1.91 0.14 Item 08 0.42 0.72 0.31 0.04 1.08 0.06 Item 09 0.41 0.53 0.25 0.03 0.51 0.04 Item 10 0.59 0.38 -0.24 0.03 0.29 0.03 Item 11 0.62 0.76 -0.65 0.06 1.78 0.12 Item 12 0.19 0.35 1.01 0.04 0.59 0.04 Item 13 0.45 0.53 0.15 0.03 0.50 0.04 Item 14 0.86 0.27 -1.28 0.05 0.63 0.05 Item 15 0.78 0.24 -0.82 0.03 0.32 0.04
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP)
Gráfico N0 1 Riesgo según TRI vs Riesgo según TCT
0.1 0.3 0.5 0.7 0.9
Riesgo TCT
-2
-1
0
1
2
Rie
sgo
TR
I
23
4
5
67
89
10
11
12
13
14
151
23
4
5
67
89
10
11
12
13
14
15
Gráfico N0 2 Discriminación según TRI vs Discriminación según TCT
0.0 0.2 0.4 0.6 0.8
Discriminación TCT
0.0
0.5
1.0
1.5
2.0
Dis
crim
inac
ión
TR
I
2
345
6
7
8
9
10
11
1213
14
15
1
2
345
6
7
8
9
10
11
1213
14
15
El gráfico No 1 muestra que los valores del indicador de riesgo en TCT y TRI producen la misma jerarquización de los ítems y por tanto son igualmente interpretables. Destaca el ítem 5 (Acudo a médicos y/o centros especializados para bajar de peso) como un ítem referido a un mayor riesgo. El ítem 14 (Las mujeres queremos estar más flacas) es un ítem correspondiente a un menor riesgo de todos.
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) Nótese que el modelo TRI permite diferenciar valores de riesgo que la TCT no logra. Así por ejemplo, los items 2 y 3 tienen igual riesgo TCT pero distinta media b1 en TRI (ver los valores en el Cuadro No 1) El Cuadro No 1 y el gráfico No 2 muestran que los valores del indicador de discriminación en TCT y IRT no necesariamente producen la misma jerarquización de los ítems, así por ejemplo, en TCT el ítem 13 (Controlo mi peso) es más discriminador que el ítem 12 (Pienso que es mejor ser delgada que inteligente) pero en IRT es al revés. No se interpreta aquí la significación psicológica de estas frases, eso corresponde a un profesional del área, pero si se observan los riesgos, resulta que el ítem 12 también es más riesgoso y eso cuadra más con la idea extrema de preferir la delgadez a la inteligencia. En general, aunque el modelo TRI presente la misma información del modelo TCT, provee al constructor del test de otras informaciones que TCT no tiene, por ejemplo, Intervalos de confianza para riesgos y capacidad de analizar la separación entre ítemes. 2.4 Análisis de la Percepción de peso El Cuadro N0 2 muestra las estadísticas de las puntuaciones en la Escala de Percepción de Peso, estimadas según la teoría clásica (denominadas Scores en la psicometría) y según el modelo TRI (U). En ambos casos un mayor valor indica una mayor propensión al riesgo. Aunque las dos teorías generan puntuaciones, por construcción las del TRI están en la misma escala que la de los parámetros b1j de los ítems, cosa que no sucede en la TCT, donde los parámetros de los ítems son proporciones.
Cuadro N0 2 Estadísticas de puntuaciones según modelos
Estadísticas de Percepción de Peso TCT TRI
Score U Mínimo 0 -2.00 Máximo 15 2.48 Media 6.81 0.00 D. Estándar 3.01 0.88 Asimetría 0.06 0.02 Kurtosis -0.79 -0.78 Correlación 0.96
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) El gráfico N0 3 compara las puntuaciones obtenidas según los dos modelos, proporcionando además intervalos de confianza de 95% para las puntuaciones TRI.
Gráfico N0 3 Puntuaciones en TCT vs puntuaciones TRI
2103874115235210233216232223208176119446N =
Score en Percepción de Peso TCT
1514131211109876543210
I.C. d
e 95
% e
n P
erce
pció
n de
Pes
o T
RI
3
2
1
0
-1
-2
-3
Del cuadro 2, se ve que los scores TCT son números enteros que van de 0 a 15, pues se obtienen como la suma simple de los 15 ítems binarios. En cambio las puntuaciones TRI forman un continuo. Lo anterior es una diferencia fundamental entre ambas teorías, pues la TCT obliga a que muchas personas obtengan igual puntuación, aún cuando tengan riesgos distintos, cosa que no sucede en la TRI. El gráfico 2 muestra cómo personas con igual puntuación TCT sí llegan a ser diferenciadas con las puntuaciones TRI, por eso lo de los intervalos de confianza que ilustran lo que pasa. Aunque la correlación alta entre escalas indica que proporcionan prácticamente los mismos órdenes entre personas, la continuidad en el caso TRI permite diferenciar casos de modo muy fino, que es algo importante en el diagnóstico clínico.
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) 2.5 Análisis de Ítems en el modelo TRI
Gráfico N0 4 Diagrama de cajas de parámetros TRI de riesgo
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8][9]
[10]
[11]
[12]
[13]
[14]
[15]
box plot: b1
-2.0
-1.0
0.0
1.0
2.0
Gráfico N0 5
Diagrama de cajas de parámetros TRI de Discriminación
[1]
[2]
[3]
[4] [5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
box plot: b2
0.0
0.5
1.0
1.5
2.0
2.5
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP)
Gráfico N0 6 Diagrama de dispersión de parámetros TRI
de Riesgo vs Discriminación
-1.6 -1.1 -0.6 -0.1 0.4 0.9 1.4 1.9
Riesgo TRI
0.0
0.5
1.0
1.5
2.0
Dis
crim
inac
ión
TR
I
2
34 5
6
7
8
9
10
11
1213
14
15
1
2
34 5
6
7
8
9
10
11
1213
14
15
La comparación de items puede hacerse visualmente via intervalos de confianza en diagramas de caja. Así el gráfico 4 muestra las distribuciones posteriores de los parámetros de riesgo b1j de los ítems (el riesgo va en el eje vertical) y los ubica mostrando su extensión y posibles traslapes. El gráfico 5 hace algo análogo con las discriminaciones. Finalmente el gráfico 6 es como un “mapa” de ítems que los identifica en sus dos características importantes. Así tenemos por ejemplo, que el Item 14 es de menor riesgo y menor discriminación, que el Item 5 es de mayor riesgo y poco discriminativo, mientras que el Item 7 es de riesgo mediano y bastante discriminativo. REFERENCIAS Albert, J.H. & Ghosh, M. (2000). Item response modeling. En Generalized Linear Models: A Bayesian Perspective (D. Dey,S. Ghosh & Mallick, eds.), Marcel-Dekker, New York, 173-193. Bazán, J., Branco, M.D., Bolfarine, H. (2006). A skew item response model. Bayesian Analysis. 1, 861- 892.
Bazán, J., Bolfarine, H., Leandro, A. R. (2007). Sensitivity analysis of prior specification for the probit-normal IRT model: an empirical study. Estadística, Journal of The Inter-American Statistical Institute.
Bond, T.G and Fox, C.M (2005).Applying the Rasch Model: Fundamental Measurement in the Human Sciences.Lawrence Erlbaum Associates Calderón, A. (2005). Una aplicación del Modelo de Respuesta al Item en el diagnóstico de Trastornos Alimentarios. Tésis para optar al título de Ingeniero Estadístico. Universidad Nacional Agraria La Molina. Lima Bazán, J.L. (1997). Metodología estadística de construcción de pruebas. Tésis para optar al título de Ingeniero Estadístico. Universidad Nacional Agraria La Molina. Lima
Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) F.M. Lord y M.R. Novick. (1968). Statistical Theories of Mental Test Scores. Reading, M.A. Addison-Wesley. Martínez, P., Zusman, L., Calderón, A. (2003). Estudio Epidemiológico de los Trastornos Alimentarios y Factores Asociados en Lima Metropolitana. Revista de Psicología, 21, 235-269. PUCP. Lima. Patz, R. J., y Junker, B. W. (1999). A straightforward approach to Markov Chain Monte Carlo methods for item response models. Journal of Educational and Behavioral Statistics. 24, 146-178.