· La TRI considera una distribuci on de probabilidades para los valores de las variables mani...

XXVII COLOQUIO DE LA SOCIEDAD

MATEMATICA PERUANA

MODELOS DE TEORIA DE RESPUESTA

AL ITEM BAJO ENFOQUE BAYESIANO

Jorge Bazan, Arturo Calderon, Luis Valdivieso,

LIMA–PERU

2009

Indice general

1. INTRODUCCION 5

2. LOS MODELOS DE TEORIA DE RESPUESTA AL ITEM 9

2.1. Modelos de variables latentes . . . . . . . . . . . . . . . . . 9

2.2. Formulacion general de la TRI . . . . . . . . . . . . . . . . 12

2.3. Otros Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.4. El modelo Logıstico . . . . . . . . . . . . . . . . . . . . . . 15

2.5. Caracterısticas de los Modelos TRI . . . . . . . . . . . . . . 15

3. INFERENCIA BAYESIANA 19

3.1. Funcion de Verosimilitud . . . . . . . . . . . . . . . . . . . . 19

3.2. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . 20

3.2.1. Ejemplo 1: Un intervalo para p . . . . . . . . . . . . 22

3.2.2. Ejemplo 2: Inferencia para la distribucion Normal . 24

3.3. Metodos de MCMC . . . . . . . . . . . . . . . . . . . . . . 26

4. LAS PRIORIS IN TRI 31

4.1. Nociones basicas . . . . . . . . . . . . . . . . . . . . . . . . 31

4.2. Prioris no informativas para el modelo TRI de 1 y 2 parametros 35

4.3. Prioris no informativas para el modelo TRI de 1 y 2 paramet-

ros para puntajes extremos . . . . . . . . . . . . . . . . . . 37

3

4

5. INFERENCIA BAYESIANA EN TRI 39

5.1. Inferencia Bayesiana en TRI . . . . . . . . . . . . . . . . . . 39

5.2. Inferencia Bayesiana en el modelo Probit Normal o de Ojiva

normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.2.1. Especificacion del modelo . . . . . . . . . . . . . . . 40

5.2.2. Esquema MCMC usando adaptative rejection sam-

pling (ARS) . . . . . . . . . . . . . . . . . . . . . . . 41

5.2.3. Una formulacion adecuada del modelo TRI probito-

normal . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.2.4. MCMC usando esquema data augmentation gibbs

sampling (DAGS) . . . . . . . . . . . . . . . . . . . 43

5.3. Inferencia Bayesiana en TRI usando WinBUGS . . . . . . 44

5.3.1. Codigo WinBUGS para esquema Gibbs Sampling . 44

5.3.2. Codigo WinBUGS para esquema ARS . . . . . . . . 45

5.3.3. Criterios de comparacion de modelos en el contexto

Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . 47

6. APLICACION 51

6.1. Los datos de una prueba de Matematicas . . . . . . . . . . 51

6.2. Comparando varios modelos TRI para los datos de la prueba

de Matematica . . . . . . . . . . . . . . . . . . . . . . . . . 52

6.3. Analisis de sensibilidad usando diferentes prioris para a y b

en el modelo 2P . . . . . . . . . . . . . . . . . . . . . . . . . 54

6.4. Inferencia e Interpretacion de los parametros en el modelo 2P 58

7. CONCLUSIONES 65

Capıtulo 1

INTRODUCCION

La Teorıa de la respuesta al item (TRI) (ver Baker, 1992) junto a la

Teorıa Clasica de los Test (TCT) (ver Lord y Novick, 1968, Bazan, 2004) son

algunos de los modelos de variables latentes (ver Bartholomew y Knoot,

1999) mas empleados para el aalisis de datos obtenidos en evaluaciones,

mediciones o variables manifiestas en que lo que se pretende medir no es

observable directamente, es decir es una variable latente.

La TRI considera una distribucion de probabilidades para los valores

de las variables manifiestas como funcion de la variable latente de interes

y otras caracterısticas asociadas a la medicion empleada. De tal forma que

cuanto mayor el valor de la variable latente, mayor probabilidad de observar

el valor de la variable manifiesta. La TRI es usada en Educacion, Psicologıa,

Polıtica, Sociologıa, Economıa, Medicina, Marketing, Ingenierıa, Genetica

en otras importantes areas de aplicacion.

Una clase particular de modelos TRI son aquellos en que las variables

manifiestas son matrices de respuestas binarias (exito y fracaso). Este clase

es denominada modelos TRI para respuesta dicotomica o binaria. Algunos

ejemplos de este tipo de matrices son: la obtenida cuando se considera

5

6

un exmen de admision de k preguntas o ıtemes aplicado a n postulantes

donde el exito es responder correctamente un ıtem; o la obtenida cuando

diferentes proyectos de inversion evaluados a traves de diferentes criterios

donde el exito se obtiene cuando el proyecto satisface el criterio; matrices

de votaciones de congresistas frente a determinadas leyes; evaluacion de

calidad de productos en diferentes aspectos realizado por jueces; secuencias

geneticas considerando diferentes especies en diferentes atributos; presencia

o ausencia de sıntomas de pacientes, etc.

Consideramos que hay un gran desarrollo del area de investigacion en la

TRI en la comunidad estadıstica a nivel internacional pero no en el caso del

Peru, por ello en este minicurso pretendemos presentar a manera de difusion

los principales modelos de TRI dicotomico propuestos en la literatura. El

proposito de interesar a la comunidad academica acerca de las principales

caracterısticas de estos modelos para el desarrollo de investigacion en pre y

post grado ası como senalar lıneas de investigacion en desarrollo en el area

de Matematicas, Estadıstica e Informatica.

Los modelos de TRI dicotomicos que seran estudiados son los modelos

denominados Logıstico y de ojiva normal. Estos tiene como casos particu-

lares los denominados modelos TRI de 1, 2 y 3 parametros en funcion del

numero de caracterısticas asociadas a la medicion que afecta la probabilidad

de respuesta de exito.

La propuesta es realizada desde la perspectiva de la Inferencia Bayesiana,

un modelo de inferencia estadıstica que ha tenido un gran desarrollo como

consecuencia del uso de las denominados metodos MCMC (Markov Chain

Monte Carlo, por sus siglas en ingles) (ver Chen, Shao, Ibrahim, 2000). Es

por ello que en la propuesta se presenta el uso de los programas de software

libre Bayes@PUCP y WinBUGS, el primero de los cuales es un programa

desarrollado en el marco de un proyecto de investigacion de la Direccion

Academica de Investigacion de la PUCP 2008-2009.

El resto del documento esta organizado de la siguiente manera. En el

7

capıtulo 2 presentamos los modelos TRI dicotomicos. En el siguiente capıtu-

lo presentamos una revision breve de la Inferencia Bayesiana. En el capıtulo

3 se presenta una importante discusion del uso de prioris en estos mode-

los de TRI. En el capıtulo 4 se presenta la Inferencia Bayesiana en TRI

dicotomico, con una especial dedicacion al modelo de ojiva normal. En el

capıtulo 5 se presenta la aplicacion de los modelos de TRI para el estu-

dio de una prueba de Matematicas haciendo enfasis en el modelo de ojiva

normal. Allı se muestra el uso de Bayes@PUCP para generar codigos de

TRI asi como el uso de WinBUGS para simulacion bayesiana en TRI. En

el Apendice presentamos una breve tutorial de uso de WinBUGS para la

Inferencia Bayesiana de un modelo de TRI.

Capıtulo 2

LOS MODELOS DE

TEORIA DE

RESPUESTA AL ITEM

2.1. Modelos de variables latentes

Definicion 2.1.1. Definimos un modelo latente como el par ordenado

(X,U) donde X = (X1, X2, . . .) y U vectores aleatorios de valor real no

necesariamente de la misma dimension. Aquı X es un vector de variables

manifiestas y U es un vector de variables latentes, donde las distribuciones

de probabilidad de X, U y (X,U) existen.

Una variable es considerada latente en el sentido que no es observable de

manera empırica y una variable es considerada manifiesta si es susceptible

de ser observada empıricamente. Para una mayor comprension acerca de las

variables latentes se puede revisar Borsboom, Mellenbergh y van Heerden

(2003).

9

10

En general, los modelos de variables latentes se formulan con el proposito

de conocer las principales caracterısticas de U usando el conocimiento de X.

Definicion 2.1.2. Sea (X,U) modelo latente satisface:

Independencia condicional latente: IC si y solamente si (ssi) ∀I

F (X = x∣U = u) =n∏1

Fi(Xi = xi∣U = u) ∀i�{1, . . . , I}, ∀u (2.1)

donde F (.) y Fi(.) son las distribuciones acumuladas condicionales

del vector X y de cada Xi respectivamente dado U = u.

En este caso decimos que el modelo es latente condicionalmente in-

dependiente.

La monotonicidad latente : M ssi ∀I

1− Fi(X = x∣U = u) = P (Xi > x∣U = u) (2.2)

son funciones no decrecientes de U evaluada en u, ∀x, ∀ i�{1, . . . , I},En este caso decimos que el modelo es monotono latente.

La unidimensionalidad latente: U ssi U es unidimensional o variable

aleatoria.

En este caso decimos que el modelo es latente unidimensional.

11

Definicion 2.1.3. (X,U) modelo latente se denomina un modelo de vari-

able latente monotona si satisface la independencia condicional (IC) y la

monotonicidad latente (M). Si ademas de eso el modelo es unidimensional

(D) se dice que es un modelo de variable latente monotono unidimensional

o que admite una representacion mononota unidimensional.

Proposicion 2.1.1. Considere un modelo de latente monotono unidimen-

sional (X, U) donde Xi∣u, i = 1, . . . , n es un ensayo bernoulli con dos

respuestas posibles una llamada suceso con probabilidad de respuesta, u y

el otro llamado falla con probabilidad de falla 1 − u, donde 0 < u < 1.

Entonces existe una distribucion unica para U dada por G(.) tal que la

distribucion conjunta es dada por:

P (x1, x2, . . . , xn) =

∫ n∏

i=1

uxi [1− u]1−xidG(u)

Demostracion. La existencia es garantizada por el Teorema de Representacion

de De Fineti (Schervish, 1995) que indica que esto ocurre si todos los com-

ponentes de X son una secuencia infinita permutable (las variables inde-

pendientes e identicamente distribuidas lo son) siendo

G(u) = limn−→∞P (Sn ≤ u), Sn = X1 +X2 + . . . , Xn, u = limn−→∞Snn.

Como cada Xi∣u sigue la distribucion bernoulli y por tanto la distribu-

cion conjunta es dada por

P (X∣u) = P (x1, x2, . . . , xn∣u) =n∏

i=1

uxi [1− u]1−xi ,

entonces la distribucion marginal es dada por

P (X) =

∫P (X∣u)dG(u)

12

.

Algunas condiciones adicionales en esta clase general de modelos la-

tentes se pueden revisar en Holland y Rosenbaum (1986).

2.2. Formulacion general de la TRI

Definicion 2.2.1. Considere n sujetos evaluados en una prueba de k items,

un modelo de Teorıa de Respuesta al item (TRI) dicotomico es un mod-

elo de variable latente monotono unidimensional (X, U) definido por las

expresiones a seguir:

Yij ∣ui, �j ∼ Bernouilli(pij) (2.3)

pij = P (yij = 1 ∣ ui, �j) = F (mij) (2.4)

mij = ajUi − bj , (2.5)

i = 1 . . . , n, j = 1, . . . , k

donde Yij es la variable que modela las respuestas dicotomicas de los

i = 1 . . . , n examinados que responden j = 1, . . . , k items de una prueba

en que �j = (aj , bj), j = 1, . . . , k son parametros relativos al item j, aj

parametro de discriminacion y bj parametro de dificultad, y ui es el valor

de la variable latente Ui del sujeto i, i = 1 . . . , n; pij es una probabilidad

condicional donde F se denomina funcion de respuesta del item (FRI) o

Curva caracterıstica del item (CCI) y mij es un predictor latente lineal

respecto a Ui.

Observaciones

El modelo TRI satisface la propiedad de independencia condicional

latente (para un sujeto j las respuestas Yij a los i = 1, . . . n diferentes

items son independientes condicionalmente dada la variable latente

Ui, i = 1 . . . , n.

13

El modelo TRI satisface la propiedad de monotonicidad latente (es

una funcion estrictamente no decreciente de Ui,i = 1 . . . , n )

El modelo TRI es unidimensional latente en el sentido que una unica

variable aleatoria latente es considerada.

En la TRI, la FRI o CCI F (mij), i = 1 . . . , n , j = 1, . . . , k, es la

misma para cada caso, y F−1(.) es llamada la funcion de ligacion.

Tambien es considerada independencia entre las respuestas de sujetos

diferentes.

Otra parametrizacion para el predictor lineal latente es mij = aj(ui−bj).

El parametro de dificultad bj y de discriminacion aj son parametros

de posicion y de inclinacion del item j respectivamente, donde aj

representa el valor proporcional a la inclinacion de la CCI en el punto

bj . Valores aj < 0 no son esperados. El espacio parametrico para el

parametro bj es arbitrario y corresponde al mismo que para ui que

es generalmente considerado en la recta ℛ.

El modelo (1)-(3) es denominado modelo TRI de 2 parametros.

Proposicion 2.2.1. En el modelo TRI, la densidad conjunta del vector de

respuestas multivariantes Y = (Y 1, . . . ,yn)′ en que Yi = (Yi1, . . . , Yik)′,

dado el vector de variables latentes U = (U1, . . . , Un)′ es el vector de

parametros de ıtem � = (�1, . . . , �k)′ puede ser escrito como:

p(y∣u,�) =n∏

i=i

k∏

j=1

F (mij)yij (1− F (mij))

1−yij (2.6)

14

Demostracion. La prueba es directa.

El primer modelo TRI dicotomico de modelo de 2 parametros fue intro-

ducido por Lord (1952) el cual considera F (mij) = Φ(.), i = 1 . . . , n, j =

1, . . . , k, en que Φ denota la distribucion acumulada de la normal estandar.

Este modelo es conocido en la literatura psicometrica como modelo de ojiva

normal el cual corresponde al enlace probit.

Por otro lado, Birbaum (1968) considero F (mij) = L(.) en que L(mij) =exp(mij)

1+exp(mij)denota la distribucion acumulada de la logıstica donde el enlace

es el logit. Este modelo es conocido como el modelo logıstico de 2 paramet-

ros.

2.3. Otros Modelos

Otras extensiones del modelo presentado se obtienen considerando FRI

o CCI dados por

modelo de 3 parametros:

P (yij = 1 ∣ ui, aj , bj , cj) = cj + (1− cj)F (aj(ui − bj)) (2.7)

modelo de 1 parametro:

P (yij = 1 ∣ ui, bj) = F (ui − bj) (2.8)

donde el parametro cj representa la probabilidad de que un individuo

con baja habilidad responda correctamente al item j (probabilidad de ac-

ertar al azar ) (0 ≤ cj ≤ 1).

15

2.4. El modelo Logıstico

El modelo logıstico es el modelo mas usado en TRI. La version mas

general del modelo establece que la probabilidad de respuesta correcta del

individuo i al item j es dada por

P (Yij = 1∣Uj , ai, bi, ci) = cj+(1−cj) 1

1 + eDai(Uj−bi), i = 1, ...., I, j = 1, ...., n

(2.9)

Aquı cuando D = 1 se tiene el modelo logıstico y cuando D = 1,7 se

obtiene una aproximacion del modelo de ojiva normal. Como casos partic-

ulares se tiene

ci = 0: prob. de acierto al azar no existe

P (Yij = 1∣Uj , ai, bi) =1

1 + eDai(Uj−bi)

Sin acierto al azar y todos los items con el mismo poder de discrimi-

nacion: ci = 0 y ai = 1

P (Yij = 1∣Uj , bi) =1

1 + eD(Uj−bi)

El modelo de 1 parametro, es denominado modelo de Rasch y tiene

derivaciones propias (Fischer y Molenaar, 1995) El modelo de 1 parametro

se puede obtener como caso particular del modelo de 2 parametros cuando

aj = 1.

2.5. Caracterısticas de los Modelos TRI

El modelo TRI de 2 parametros tiene n + 2k parametros desconoci-

dos y por lo tanto esta sobre parametrizado. Tanto para el modelo

16

logıstico como para el modelo de ojiva normal la inferencia no es

simple debido al numero excesivo de parametros. Aun cuando las ha-

bilidades sean conocidas restan 3k parametros. Por otro lado si los

parametros de los items son conocidos restan n parametros de las

habilidades.

Para un numero fijo de items, los parametros de los items son denom-

inados estructurales y las variables latentes incidentales. Note que a

mayor tamano de muestra mayor numero de parametros. Tambien

cuando se aumenta el numero de items se aumenta el numero de

parametros.

Modelos TRI tambien no son identificables (indeterminacion) pues si

consideramos, por ejemplo para el modelo de 2 parametros

a(u− b) =a

40[(40u+ 200)− (40b+ 200)] = a∗(u∗ − b∗).

la verosimilitud con u, a y b es la misma que con u∗ = 40u + 200,

a∗ = a40 y b∗ = 40b+ 200. De esta manera, los parametros del modelo

no pueden ser estimados de manera unica a menos de que se impongan

restricciones. Por otro lado podemos hacer:

ai(uj − bi) = (aiuj − bi∗)

y, tenemos por tanto variadas formas de representar el modelo. Ası es

posible preservar el modelo transformando convenientemente los paramet-

ros del modelo (Albert, 1992) y por lo tanto las estimativas pueden

no ser unicas.

Del ejemplo, la probabilidad de un individuo responder correctamente

a cierto item es siempre la misma, independientemente de la escala

17

utilizada para medir la habilidad. Esto significa que la habilidad del

individuo es invariante a la escala de medida utilizada.

Dada las caracterısticas de este tipo de modelos, generalmente el prob-

lema se ha dividido en dos etapas. La etapa denominada de calibracion

donde se asume una distribucion aleatoria conocida para las variables la-

tentes U y se estima los parametros de ıtem usando una “muestra de cal-

ibracion”. La segunda etapa, denominada de estimacion donde conocidos

las estimaciones de los parametros de los ıtemes se estiman las variables

latentes para la muestra de estudio. Esta es la estrategia denominada por

Patz y Junker (1989) como la estrategia de “divide y conquistaras 2se apli-

ca cuando se obtienen estimativas de Maxima Verosimilitud en software

como BILOG − MG. No obstante es comun imponer restricciones para

los parametros de ıtem como es considerado por ejemplo en Bock y Aitkin

(1981).

Otra manera de resolver el problema es especificar una distribucion a

priori para las variables latentes y para los parametros de los items y estimar

el modelo desde la perspectiva de Inferencia Bayesiana a partir de la dis-

tribucion posterior de los “parametros”de item y de las variables latentes.

En este caso, la estimacion es realizada de manera simultanea y completa.

Un analisis de las condiciones de las prioris para obtener distribuciones a

posteriori p(u,�∣y) en TRI es estudiada en el siguiente capıtulo.

Capıtulo 3

INFERENCIA

BAYESIANA

3.1. Funcion de Verosimilitud

Definicion 3.1.1. Dado un vector aleatorio X definimos la funcion de

verosimilitud L para un vector de datos observados x de X como

L(�∣x) = p(x, �)

La verosimilitud es la probabilidad que ud pueda encontrar el valor

observado dado el modelo.

Definicion 3.1.2. Un estimador de maxima verosimilitud para el parametro

� es el valor � para el cual la verosimilitud L(�∣x) es maxima.

La solucion de Inferencia Clasica consiste en maximizar la funcion L

y obtener la solucion correspondiente �. A menudo es es mas conveniente

maximizar la log verosimilitud l(x∣�) = logL(x∣�∣. Cuando la solucion de

19

20

maxima verosimilitud no se puede obtener de manera analtica se recurre a

metodos numericos.

3.2. Inferencia Bayesiana

En la Inferencia Bayesiana hay importantes diferencias con la Inferen-

cia Clasica (de Maxima Verosimilitud). Para una revision rapida puede ver

Casella y Berger (2002) y para una revision mas detallada puede ver Robert

(2002).

A manera de resumen considere el vector aleatorio X∣� donde � es un

parametro que caracteriza a la distribucion de X.

En la inferencia Bayeiana

1. �: Es un vector aleatorio y no un numero, por lo tanto tiene una

distribucion de probabilidades asociada.

2. Es posible usar informacion preliminar acerca de � , la cual se puede

sintetizar proponiendo una distribucion “a priori”para � : g(�)

3. Los datos se organizan en la funcion de verosimilitud: L(x∣�)

4. Usando el teorema de Bayes es posible obtener la distribucion “a

posteriori”de � dado los datos (verosimilitud: L(x∣�)) y dada la dis-

tribucion a priori g(�) considerando:

g(�∣x) =g(�,x)

g(x)=L(x∣�)g(�)

g(x)

g(�∣x) ∝ L(x∣�)× g(�)

Posteriori ∝ verosimilitud× priori

donde g(x) es la distribucion marginal o no condicional de x que no

depende del parametro �.

21

Observacion:

Si tomamos logaritmo a la expresion anterior tenemos

log g(�∣x) ≈ ℓ(x∣�) + log g(�)

Si se considera una priori no informativa para �, es decir

g(�) = c

Maximizar log g(�∣x) para � resulta equivalente a maximizar ℓ(x∣�).

Es decir la estimacion de MV (la que maximiza ℓ(x∣�) es un caso par-

ticular de inferencia bayesiana sin informacion a priori. Pero cuando

g(�) ∕= c entonces la maximizacion de la posteriori es diferente de la

maxima verosimilitud.

Una vez identificada la distribucion posterior para � g(�∣x) es posible

realizar la inferencia requiriendo para esta distribucion las medidas

que se deseen como por ejemplo:

E(�∣x), V (�∣x), Med(�∣x), q (�∣x)

que corresponden a la media, varianza, media y cuantil � de la dis-

tribucion posterior de �∣x respectivamente. Ası por ejemplo se puede

definir un intervalo para �∣x dado de esta manera

P (A ≤ �∣x ≤ B) = 1−

donde

A = q�2(�∣x), B = q1− 2 (�∣x)

son los cuantiles correspondientes.

22

Note que en este caso la interpretacion para A y para B son valores

de la distribucion posterior de � y por tanto el intervalo corresponde

a un intervalo de probabilidad y no a un nivel de confianza como en

la inferencia clasica. Por esta razon a este intervalo se le conoce como

intervalo de credibilidad.

3.2.1. Ejemplo 1: Un intervalo para p

Hacer inferencias acerca de una proporcion p es un problema frecuente.

Por ejemplo, supongamos que estamos interesados en construir un inter-

valo de confianza para la aprobacion presidencia en Lima Metropolitana

en un determinado mes p tomando como base la informacion obtenida por

una encuestadora en una muestra aleatoria de n = 400 personas en Li-

ma Metropolitana donde la aprobacion muestra fue de p = 0,3. Analice la

solucion clasica y bayesiana para este problema

Solucion clasica

En la Inferencia Clasica es conocido que un intervalo de Confianza para

una proporcion se puede obtener considerando

IC(p) = p± Z1−�2

√pq

n

En este caso considerando � = 0,05 tenemos que Z1−�2 = 1,96 y por lo

tanto tenemos

IC(p) = 0,3± 1,96

√0,3× 0,7

400= [0,2550908, 0,3449092]

Entonces, con un 95 % de confianza esperamos que la aprobacion presiden-

cial en el mes de julio se encuentre en el rango [0.26,0.35].

23

Solucion Bayesiana

En la solucion bayesiana s reconoce que p es una variable aleatoria y

por tanto puede establecerse una distribucion a priori. Luego usando la

evidencia muestral en la verosimilitud de los datos se buscara obtener la

distribucion posterior de p dados los datos, es decir p/x. Para realizar esto

podemos seguir los siguientes pasos:

Fase 1: Especificacion de la distribucion a priori: Dado que 0 ≤ p ≤ 1

una distribucion natural para p serıa considerar

p ∼ Beta(�, �)

.

Fase 2. Especificacion de los parametros de la distribucion a priori: De

estudios anteriores, digamos considerando el resultado de los ultimos

meses se puede considerar que

E(p) = 0, 35V (p) = 0, 01

Sobre esta base podemos encontrar que

� = 1,6125 , � = 14,375

y por lo tanto

f(p) =Γ(�+ �)

Γ(�)Γ(�)p�−1(1− p)�−1 = kp1,6125−1(1− p)14,375−1

donde k es una constante que no depende de p y por tanto no es de

interes.

Fase 3: Obteniendo la verosimilitud: En este caso se trata de un mod-

elo Binomial y por tanto tenemos

L(p) =n∏

i=1

f(xi) =n∏

i=1

C(n, xi) pxi(1− p)1−xi

24

donde C(n, x) es la combinatoria que tambien no es importante aquı porque

es una constante en relacion a p. Como p = 0,30 tenemos que∑ni=1 xi =

0,30× 400 = 120 y por tanto

L(p) = p∑ni=1 xi(1− p)n−

∑ni=1 xi = p120(1− p)400−120

Fase 4: Hallando la distribucion a posteriori: combinando la priori

con la posteriori tenemos

f(p∣x) = kp127,6125−1(1− p)294,375−1

y po lo tanto la distribucion a posteriori es

p∣x ∼ Beta(127,6125; 294,375)

Fase 5: Haciendo inferencia usando la distribucion a posteriori: Algu-

nas medidas son

pest = E(p∣x) = 0,30

que corresponde a la media a posteriori. Los percentiles son P97,5 =

0,35, P2,5 = 0,26 por lo que la probabilidad de estar entre 0,26 y 0,35

es de 90 %.

3.2.2. Ejemplo 2: Inferencia para la distribucion Nor-

mal

Considere X∣� ∼ N(�, �2) un modelo probabilıstico para una variable

de interes con �2 conocido y � un parametro a estimar.

Si se toma una muestra aleatoria X1, ..., Xn de X∣� , la funcion de verosimil-

itud es:

L(x∣�) =n∏

i=1

f(xi∣�) =n∏

i=1

{ 1√2Π�

e−12 (xi−�)2}

25

=1

(√

2Π)n2 �

n2

e(− 12

∑ni=1 (xi−�)2)

Si se quiere hacer inferencia clasica y como �2 es conocido, se buscarıa

el estimador de MV de � por cualquiera de los metodos visto.

ℓ(�) = logL(�)

∂ℓ(�)

∂�= 0

pero desde un punto de vista bayesiano hay que considerar una distribu-

cion a priori para �. Como −∞ < � <∞ se puede proponer cualquier mod-

elo probabilıstico en ese rango � ∼ t-Student, Normal, Logıstica, Cauchy.

Proponemos que

� ∼ Caucℎy(0, 1)⇒ f(�) =1

Π[1 + �2]

distribucion a priori.

Por lo tanto, la distribucion a posteriori tiene el siguiente nucleo:

f(�∣x) ∝ L(�)f(�) = e(− 12

∑ni=1 (xi−�)2) × 1

1 + �2

donde se omite lo que no depende de �. Esta funcion debe ser vista como

funcion de �

f(�∣x) ∝ e−12{∑ni=1 x

2i−2�

∑ni=1 xi+�

2}

1 + �2

pero este nucleo no corresponde a una distribucion conocida. Para

obtener distribuciones a posteriori para este tipo de casos se requiere el

uso de metodos de simulacion estocastica como los de Cadena de Markov

Montecarlo de siglas en ingles MCMC.

26

3.3. Metodos de MCMC

En el paradigma Bayesiano el interes se centra en la distribucion a pos-

teriori P (Θ∣y). Ella contiene toda la informacion relevante del parametro

desconocido Θ dada la data observada y. Toda la inferencia estadıstica

puede deducirse de la distribucion a posteriori de considerarse algun re-

sumen adecuado. Tales resumenes toman tıpicamente la siguiente forma

integral:

I =

∫f(Θ)P (Θ∣y)dΘ. (3.1)

Por ejemplo, se puede tener interes en estimadores puntuales para el parametro

desconocido Θ. Un indicador para ello es la media a posteriori, la cual se

obtiene de tomarse f(x) = x en (2.1). Otro interes podrıa centrarse en pre-

decir algun valor futuro y en base a la distribucion predictiva a posteriori

P (y∣y) =∫P (y∣Θ, y)P (Θ∣y)dΘ, la cual no es sino un caso particular de

(2.1) con f(x) = P (y∣Θ, x).

El problema con (2.1) es que usualmente es muy complicado o imposi-

ble evaluar I, como se mostro en el ultimo ejemplo. Incluso las tecnicas

numericas de cuadratura u otras podrıan presentar tambien problemas si

el parametro Θ es multidimensional.

Durante los ultimos anos una gran cantidad de artıculos han apareci-

do en relacion a la evaluacion de (2.1) por metodos de simulacion colec-

tivamente conocidos como Cadenas de Markov de Montecarlo (MCMC).

La racionalidad de estos metodos subyace en disenar iterativamente una

cadena de Markov para Θ de tal manera que P (Θ∣y) sea su distribucion

ergodica estacionaria. Empezando en algun estado inicial Θ0 la idea es sim-

ular un numero suficientemente grande M de transiciones bajo la cadena

de Markov y registrar los correspondientes estados simulados Θj . Luego,

bajo ciertas condiciones de regularidad, es posible mostrar que la media

27

muestral ergodica

I =1

M

M∑

j=1

f(Θj)

converge a la integral deseada en (2.1). En otras palabras, I nos provee de

una buena aproximacion para I. El reto de los metodos MCMC consiste

entonces en precisar una cadena de Markov adecuada con la distribucion

a posteriori P (Θ∣y) como su distribucion estacionaria y decidir cuando de-

tener la simulacion. Una excelente introduccion a los procesos de Markov

y al teorema ergodico puede encontrarse en Ross (1995). Para un enfoque

mas formal en relacion a la inferencia Bayesiana puede consultarse Tier-

ney(1994).

Describamos ahora uno de los metodos MCMC mas populares cono-

cido como el muestreador de Gibbs. El siguiente ejemplo nos ilustra su

aplicacion.

Ejemplo 3.3.1. (Gelfand y Smith, 1990) Consideremos un modelo de

analisis de varianza de efectos aleatorios:

xij = �i + �ij , i = 1, 2, . . . , k; j = 1, 2, . . . , n,

donde los errores �ij ∼ N(0, �2� ) se asumen independientes y �i ∼ N(�, �2

� ).

Si asumimos las siguientes prioris inversas Gaussianas y normales del tipo:

�2� ∼ IG(a1, b1)

�∣�2� ∼ N(�0, �

2� )

�2� ∼ IG(a2, b2)

se puede mostrar que la distribuciones a posteriori de �2� ∣x, �, �, �2

� y �2� ∣x, �, �, �2

�

son inversas Gamma y las distribuciones a posteriori de �∣x, �, �2� y � ∣x, �, �2

� , �2�

son normales, donde x = (xij ; j = 1, 2, . . . , k, j = 1, 2, . . . , n) denota al vec-

tor de la data y � es el vector de efectos de los k tratamientos.

28

Para estimar los momentos a posteriori del tipo (2.1) definiremos una

cadena de Markov para el parametro Θ = (�, �, �2� , �

2� ). Denotaremos por

Θn = (�n, �n, �2�,n, �

2�,n) al vector de estados de la cadena en la n−esima

iteraccion. Dada la naturaleza de una cadena de Markov, todo lo que nece-

sitamos es definir son las probabilidad condicionales de transicion de la

cadena entre las iteraciones n y n + 1. Haremos esto, muestreando de la

distribucion condicional a posteriori completa para �, �, �2� y �2

� dada la

data a traves de los siguientes pasos:

1. �n+1 ∼ �∣x, �n, �2�,n, �

2�,n,

2. �n+1 ∼ �∣x, �n+1, �2�,n, �

2�,n,

3. �2�,n+1 ∼ ��∣x, �n+1, �n+1, �

2�,n,

4. �2�,n+1 ∼ ��∣x, �n+1, �n+1, �

2�,n+1,

Los pasos 1 al 4 definen una cadena de Markov {Θn} cuya distribucion

converge a la deseada P (�, �, ��, �� ∣x). Los promedios ergodicos del tipo

I = 1M

∑Mj=1 f(Θj) proveen luego de una evaluacion numerica de la integral

a posteriori (2.1).

El ejemplo descrito es un caso particular del muestreador de Gibbs. En

general dado el parametro Θ = (Θ1, . . . ,Θp), el muestreador de Gibbs tra-

baja en forma iterativa. Para cada j = 1, 2, . . . , p genera las distribuciones

condicionales a posteriori de

Θj,n+1 ∼ Θj ∣x,Θ1,n+1, . . . ,Θj−1,n+1,Θj+1,n, . . . ,Θp,n. (3.2)

El metodo de Gibbs debe su popularidad al hecho de que en mu-

chos modelos estadısticos la distribucion condicional a posteriori completa

P (Θj ∣x,Θk, k ∕= j) es posible de simular. Ocurren sin embargo casos en

donde esto no es posible por lo que es necesario de contar con otros meto-

dos MCMC alternativos. Posiblemente el mas generico de estos esquemas

29

es el de Metropolis. Para generar la distribucion a posteriori, este meto-

do define una cadena de Markov en el que una transicion sigue los pasos

siguientes:

1. Se genera un valor de Θ a partir de alguna distribucion Q(Θ∣Θ) prop-

uesta que la detallaremos mas adelante.

2. Se calcula

a(Θ, Θ) = mın{1, P (Θ∣x)

P (Θ∣x).Q(Θ∣Θ)

Q(Θ∣Θ)}

3. Se reemplaza Θ por Θ con probabilidad a y en caso contrario se

mantiene igual.

La seleccion de la distribucion propuesta Q es esencialmente arbitraria

sujeta a ciertas restricciones tecnicas. Utilizandose por ejemplo una dis-

tribucion simetrica con Q(Θ∣Θ) = Q(Θ∣Θ) como por citar la normal cen-

trada en Θ se tiene la ventaja practica de que el radio Q(Θ∣Θ)

Q(Θ∣Θ)se cancela en

a. Otra variante practica de interes es el uso de distribuciones propuestas

independientes Q(Θ). Tierney (1994) refiere a estos algoritmos como cade-

nas independientes. Hasting (1970) propone una larga clase de algoritmos

similares basados en una expresion mas general para la probabilidad de

aceptacion a.

Las cadenas de Markov que son utilizados en los esquemas MCMC

poseen generalmente un espacio continuo de estados. Tierney (1994) mues-

tra que estos algoritmos convergen a una distribucion ergodica estacionaria

�(Θ) = P (Θ∣x) sujeta a tres condiciones de regularidad: irreducibilidad,

aperiodicidad e invarianza. La nocion de irreducibilidad manifiesta que para

cualquier estado Θ y cualquier conjunto de estados B con �(B) > 0, existe

n ∈ ℕ tal que al cabo de n iteraciones la cadena pueda hacer una transicion

de Θ a B con probabilidad positiva. La invarianza se refiere por otro lado,

a la propiedad de que si empezamos con un vector de estados generado

30

por �, entonces futuras transiciones en la cadena dejaran la distribucion

marginal de Θ inalterada; es decir, Θn ∼ �, para cualquier n ∈ ℕ+.

El muestreador de Gibbs y el esquema de Metropolis-Hastings son por

construccion invariantes con respecto a la distribucion a posteriori buscada.

Lo que uno debe de verificar entonces son la aperiodicidad e irreducibilidad

de la cadena, siendo esta ultima la mas crıtica pues en ocasiones es posible

encontrar un subconjunto de estados tales que cuando la cadena simulada

entre en ella sea improbable salir y el algoritmo por tanto se entrampe en

ese punto sin llegar a converger.

En la practica mas importante que establecer convergencias teoricas

es reconocer la convergencia practica; es decir, juzgar cuantas transiciones

M debe de ser suficientes como para obtener promedios ergodicos I que

esten cerca de (2.1). El procedimiento mas simple radica en graficar las

trayectorias Θn contra el numero de iteraciones n y juzgar por inspeccion

que la convergencia se da de no presentarse tendencia alguna obvia.

Algunas referencias adicionales de metodos MCMC en inferencia bayesiana

que se pueden indicar son Chen, Shao, Ibrahim (2000), Gamerman y Freitas

(2006).

Capıtulo 4

LAS PRIORIS IN TRI

4.1. Nociones basicas

Como una notacion general, sea � que denota un vector no observ-

able de cantidades o parametros poblacionales de interes, e y denota los

datos observados. En general esos sımbolos representan cantidades multi-

variables. Generalmente usaremos letras griegas para los parametros, letras

minusculas para las observaciones o escalares y vectores observados (y a

veces matrices), e letras mayusculas para variables aleatorias. Usando no-

tacion matricial consideramos vectores como columnas, por ejemplo, si u

es un vector con n componentes, entonces u′u es un escalar e uu′ es una

matriz n× n.

Las conclusiones estadısticas bayesianas acerca del parametro �, son hechas

en terminos de proposiciones probabilısticas. Esas proposiciones probabilısti-

cas son condicionales a loas valores observados de y, y en nuestra notacion

son simplemente escritos como p(�∣y). Es en este nivel fundamental de

condicionamiento de los datos observados que la inferencia bayesiana se

aparta de la aproximacion de inferencia estadıstica clasica que esta basada

31

32

en una evaluacion retrospectiva del procedimiento usado para estimar �

sobre la distribucion de posibles valores de y condicional en el valor ver-

dadero pero desconocido de �.

Con el proposito de hacer proposiciones probabilısticas acerca de � dado y,

debemos empezar con un modelo que proporciona la ddistribucion de prob-

abilidad conjunta para � y y. La funcion de densidad conjunta o funcion

masa de probabilidad puede ser escrita como el producto de dos densi-

dades que son a menudo referidas como la distribucion a priori p(�) y la

distribucion muestral (o distribucion de los datos) p(y∣�):

P (�,y) = p(�)p(y∣�)

condicionando simplemente en los valores conocidos de los datos y, usando

la propiedad basica de probabilidad condicional conocida como regla de

Bayes, obtenemos la densidad posterior

p(�∣y) =p(�,y)

p(y)=p(�)p(y∣�)p(y)

(4.1)

donde p(y) =∑� p(�)p(y∣�), y la suma es sobre todos los posibles

valores de � (o p(y) =∫�p(�)p(y∣�) en el caso continuo). Una forma equiv-

alente de la expresion anterior es omite el factor p(y), que no depende de �,

y, con y fijo, puede ser considerado como constante, llevando a la densidad

posterior no normalizada que aparece en el lado derecho de:

p(�∣y) ∝ p(�)p(y∣�) (4.2)

Cuando la distribucion a priori no tiene base poblacional, ella pueden

ser difıcil de construir, y cuando se desea que esta priori juegue un rol mıni-

mo en la distribucion posterior, se llega a las llamada “distribucion priori de

referencia 2su densidad es descrita como vaga, flat, difusa o no informativa.

La racionalidad para usar prioris no informativas es a menudo justificada

33

diciendo que los datos hablen por si mismos desde que la distribucion pos-

terior de � depende apenas de p(y∣�) y no de informacion externa a los

datos recientes dada por la priori p(�).

Si p(�) ∝ c con c constante y � ∈ (−∞,∞), tal distribucion no es estric-

tamente posible, desde la integral de la asumida p(�) es infinita, lo cual

viola el supuesto de que las probabilidades suma 1. En general, llamaremos

a la densidad de la priori p(�) como propia si no depende de los datos y

su integral da 1. En el caso de que la integral es ∞ diremos que la pri-

ori es impropia. No obstante, priori impropia puede llevar a distribucion

posterior propia. Considere por ejemplo y∣� ∼ N(�, �2) con �2 conocido e

� ∼ N(�0, �20 ) distribucion a priori para �. Si la precision de la priori 1/�2

0 es

pequena relativa a la precision de los datos, n/�2, entonces la distribucion

posterior, a pesar de �20 =∞, es aproximadamente normal

p(�,y) ≈ N(�∣y, �2/n)

En casos mas complejos donde (� = �1, �2) es importante estudiar bajo

que condiciones la distribucion posterior p(�y) es propia. Para eso considere

las siguientes definiciones preliminares.

Definicion 4.1.1. Considere y vector de observaciones con funcion de

densidad muestral p(y∣�1, �2) decimos que y tiene una funcion de densidad

(masa) no identificable para �2 si p(y∣�1, �2) = p(y∣�1).

Definicion 4.1.2. . Considere y vector de observaciones con funcion de

densidad muestral p(y∣�1, �2) decimos que �2 es no identificable si p(�2∣�1,y) =

p(�2∣�1).

Proposicion 4.1.1. Las definiciones arriba son equivalentes.

34

Demostracion. Usando la definicion de probabilidad condicional, y usando

el hecho de que �2 es no identificable podemos escribir

p(y∣�1, �2) =p(y, �1, �2)

p(�1, �2)=p(�2∣y, �1)p(y, �1)

p(�2∣�1)p(�1)=p(�2∣�1)p(y, �1)

p(�2∣�1)p(�1)= p(y∣�1)

Analogamente, usando la definicion de probabilidad condicional y el hecho

de que y tiene una funcion de densidad no identificable para �2 podemos

escribir

p(�2∣y, �1) =p(y, �1, �2)

p(�1,y)=p(y∣�1, �2)p(�1, �2)

p(y∣�1)p(�1)=p(y∣�1)p(�1, �2)

p(y∣�1)p(�1)= p(�2∣�1)

El significado de la no identificabilidad para �2 es que los datos observa-

dos no incrementan el conocimiento a priori acerca de �2∣�1 o que la funcion

muestral no depende de �2.

Lema 4.1.1. (Ghosh et al. 2000)

Considere y vector de observaciones con funcion de densidad muestral

p(y∣�1, �2). Si y es no identificable para �2, entonces la distribucion poste-

rior de (�1, �2) es propia si y solamente si las distribuciones �1∣y y �2∣�1

son ambas propias.

Demostracion. Usando (2), la hipotesis y la definicion de probabilidad

condicional tenemos

p(�1, �2)∣y) ∝ p(y∣�1, �2)p(�1, �2) = p(y∣�1)p(�2∣�1)p(�1) = p(�2∣�1)p(�1∣y)

De aquı sigue que para (�1, �2)∣y ser propia �1∣y y �2∣�1 deben ser propias.

Basta una de ellas ser impropia para obtener que (�1, �2)∣y sea impropia.

35

4.2. Prioris no informativas para el modelo

TRI de 1 y 2 parametros

Teorema 4.2.1. Considere el modelo TRI de 1 parametro definido en el

capıtulo anterior. Si la distribucion a priori para (u, b) es no informativa

proporcional a una constante, entonces la distribucion posterior de (u, b)

es impropia.

Demostracion. Defina uci = ui − b1 , i = 1, . . . , n, y bcj = bj − b1 , j =

2, . . . , I transformaciones lineales 1-1. Si escribimos uc = (uc1, . . . , ucn) y

bc = (bc2, . . . , bcI), entonces (uc, bc, b1) es una transformacion 1-1 de (u, b).

Como la transformacion es lineal el Jacobiano de la transformacion de

(u, b) a (uc, bc, b1) es constante libre de cualquier parametro. Entonces

p(uc, bc, b1) ∝ c con c constante. De esta manera la distribucion a posterior

de p(b1 ∣ uc, bc) ∝ c. Como b1 tiene distribucion sobre ℛ, sigue que p(b1 ∣uc, bc) es impropia.

Por otro lado, la funcion de verosimilitud del modelo de 1 parametro

puede ser reescrita como:

p(y∣uc, bc, b1) = {n∏

i=i

I∏

j=2

F (uci−bcj)yijF (uci−bcj)1−yij}{I∏

i=1

F (uci )yi1F (uci )

1−yi1}

donde F (.) = 1− F (.).

Note que para el modelo TRI de 1 parametro, b1 es no identificable. Es

decir p(y ∣ uc, bc, b1) = p(y ∣ uc, bc). Considere �2 = b1 y �1 = (uc, bc).

Aplicando el Lema 1 tenemos finalmente el resultado deseado porque p(�2 ∣�1) es impropia.

Teorema 4.2.2. Considere el modelo TRI de 2 parametros definido en el

capıtulo anterior. Si la distribucion a priori para (u,a, b) es no informativa

36

proporcional a una constante, entonces la distribucion posterior de (u,a, b)

es impropia.

Demostracion. Defina uci = ui − b1 , i = 1, . . . , n, y bcj = bj − b1 , j =

2, . . . , I transformaciones lineales 1-1. Si escribimos uc = (uc1, . . . , ucn) y

bc = (bc2, . . . , bcI), entonces (uc,a, bc, b1) es una transformacion 1-1 de

(u,a, b). Como la transformacion es lineal el Jacobiano de la transforma-

cion de (u,a, b) a (uc,a, bc, b1) es constante libre de cualquier parametro.

Entonces p(uc,a, bc, b1) ∝ c con c constante. De esta manera la distribu-

cion a posterior de p(b1 ∣ uc,a, bc) ∝ c. Como b1 tiene distribucion sobre

ℛ, sigue que p(b1 ∣ uc,a, bc) es impropia.

Por otro lado, la funcion de verosimilitud del modelo de 2 parametros

puede ser reescrita como:

p(y∣uc,a, bc, b1) = {n∏

i=i

I∏

j=2

F [aj(uci − bcj)]yijF [aj(u

ci − bcj)]1−yij}×

{I∏

i=1

F [a1uci ]yi1F [a1u

ci ]

1−yi1}

donde F (.) = 1− F (.).

Note que para el modelo TRI de 2 parametro, b1 es no identificable. Es decir

p(y ∣ uc,a, bc, b1) = p(y ∣ a,uc, bc). Considere �2 = b1 y �1 = (uc,a, bc).

Aplicando el Lema 1 tenemos finalmente el resultado deseado porque p(�2 ∣�1) es impropia.

37

4.3. Prioris no informativas para el modelo

TRI de 1 y 2 parametros para puntajes

extremos

Definicion 4.3.1. Considerando una prueba de I items respondida por

I sujetos, definimos yi∙ =∑Ij=1 yij y y∙j =

∑ni=1 yij como el puntaje

de sujeto y de ıtem respectivamente, y por tanto puntaje extremo de sujeto

ocurre cuando existe un sujeto i para el cual se cumple que yi∙ = I o yi∙ = 0.

Tambien puntaje extremo de ıtem ocurre cuando existe un ıtem j para el

cual se cumple que y∙j = n o y∙j = 0.

Teorema 4.3.1. Considere el modelo TRI de 1 parametro definido en el

capıtulo anterior. Si la distribucion a priori para (uc, bc) es no informativa

proporcional a una constante y existe al menos un puntaje extremo (de ıtem

o sujeto), entonces la distribucion posterior de (uc, bc) es impropia.

Demostracion. Sin perdida de generalidad asuma que el sujeto l tiene pun-

taje extremo yl∙ = 0 lo cual implica que su puntaje en cada ıtem es cero

(ylj = 0 para todo j = 1, . . . , I). Ahora

L(bc∣y) =

∫ ∞−∞

I∏

j=2

F (ucl + bcj)F (ucl )ducl ≥

∫ 0

−∞

I∏

j=2

F (bcj)F (0)ducl =∞

Similarmente si el sujeto l tiene puntaje extremo yl∙ = I, lo cual implica

que su puntaje en cada ıtem es uno (ylj = 1 para todo j = 1, . . . , I). Ahora

L(bc∣y) =

∫ ∞−∞

I∏

j=2

F (ucl + bcj)F (ucl )ducl ≥

∫ ∞0

I∏

j=2

F (bcj)F (0)ducl =∞

Por otro lado, considere que el ıtem k tiene puntaje extremo y∙k = 0 lo

cual implica que el puntaje de cada sujeto en el ıtem k es cero (yik = 0

38

para todo i = 1, . . . , n). Ahora

L(uc∣y) =

∫ ∞−∞

n∏

i=1

F (uci + bck)dbck ≥I∏

i=1

F (uci )

∫ 0

−∞dbck =∞

Finalmente si y∙k = n lo cual implica que el puntaje de cada sujeto en el

ıtem k es uno (yik = 1 para todo i = 1, . . . , n).

L(uc∣y) =

∫ ∞−∞

n∏

i=1

F (uci + bck)dbck ≥I∏

i=1

F (uci )

∫ ∞0

dbck =∞

En consecuencia p(uc, bc∣y) es impropia.

Teorema 4.3.2. Considere el modelo TRI de 2 parametros definido en el

capıtulo anterior. Si la distribucion a priori para (uc,a, bc) es no infor-

mativa proporcional a una constante y existe al menos un puntaje extremo

(de ıtem o sujeto), entonces la distribucion posterior de (uc,a, bc, b2) es

impropia.

Capıtulo 5

INFERENCIA

BAYESIANA EN TRI

5.1. Inferencia Bayesiana en TRI

Sea Dobs = y los datos observados. Ası la funcion de verosimilitud para

el modelo de ojiva normal es dado por:

L(u,�∣Dobs) =n∏

i=i

I∏

j=1

F (mij)yij (1− F (mij))

1−yij (5.1)

donde F (.) es la distribucion acumulada de la distribucion normal estandar

o de la distribucion logıstica.

Consideramos la siguiente clase general de distribuciones a priori para

los parametros del modelo.

�(u,�,�) =n∏

i=1

g1i(ui)I∏

j=1

g2j(�j) (5.2)

39

40

donde g1i(ui) = �(.),, i = 1 . . . , n , es una distribucion normal estandar

y g2j(�j) = g21j(aj)g22j(bj), , j = 1, . . . , I, en la cual g21j y g22j debe

ser propia para garantizar distribuciones propias como sera probado en le

siguiente capıtulo (ver tambien Albert y Gosh, 1999,, Ghosh et al. 2001).

Una vez especificada la distribucion a posteriori tenemos que la dis-

tribucion a posteriori es dada por

g(u,�∣Dobs) ∝ L(u,�∣Dobs)× �(u,�,�) (5.3)

No obstante, como se ha indicado antes, esta distribucion a posteriori

no es identificable y por tanto no es conocida. De esta manera se requiere de

metodos MCMC. Para ilustrar como es de manera especıfica la Inferencia

Bayesiana usado MCMC para TRI vamos a estudiar con detenimiento el

caso del modelo de Ojiva normal.

5.2. Inferencia Bayesiana en el modelo Probit

Normal o de Ojiva normal

5.2.1. Especificacion del modelo

Sea Dobs = y los datos observados. Ası la funcion de verosimilitud para

el modelo de ojiva normal es dado por:

L(u,�∣Dobs) =n∏

i=i

I∏

j=1

Φ(mij)yij (1− Φ(mij))

1−yij

donde Φ es la distribucion acumulada de la distribucion normal estandar.

Consideramos la siguiente clase general de distribuciones a priori para

los parametros del modelo.

�(u,�,�) =n∏

i=1

g1i(ui)I∏

j=1

g2j(�j)

41

Siguiendo propuestas consideradas comunmente (ver Rupp et al. , 2004),

tomamaos g21j ≡ �(�a, s2a), j = 1, ..., I y g22j ≡ �(0, s2

b), j = 1, ..., I ası que

g2j ≡ �2(��,Σ�), j = 1, ..., I con �� = (�a, 0)′ y Σ� =( s2

a 1

1 s2b

).

La distribucion conjunta a posteriori es dada por:

f(u,�∣Dobs) ∝n∏

i=i

I∏

j=1

Φ(mij)yij (1−Φ(mij))

1−yijI∏

j=1

�(ui)n∏

i=1

�2(�j ;��,Σ�)

o

f(u,�∣Dobs) ∝n∏

i=i

I∏

j=1

Φ(mij)yij (1− Φ(mij))

1−yij×

exp[− 1

2

( n∑

i=1

u2i +

1

s2b

I∑

j=1

b2j +1

s2a

I∑

j=1

(aj − �a)2)]

5.2.2. Esquema MCMC usando adaptative rejection

sampling (ARS)

Teorema 5.2.1. Para i = 1 . . . , n examinados que responden j = 1, . . . , I

ıtens de una prueba, el modelo de teoria de respuesta al item presenta

las siguientes distribuciones condicionales completas para el modelo probit-

normal:

�(ui∣�, Dobs) =∏Ij=1 Φ(mij)

yij (1−Φ(mij))1−yij�(ui; 0, 1), i = 1 . . . , n

�(�j ∣u,Zj , Dobs) =∏ni=1 Φ(mij)

yij (1−Φ(mij))1−yij�(aj ;�a, S

2a)�(bj ; 0, S2

b ),

i = 1 . . . , n

Demostracion. El resultado sigue directamente de las expresiones anteri-

ores de la distribucion conjunta a posteriori dada arriba.

El modelo de ojiva normal o modelo probit-normal puede ser ajustado

usando MCMC. Note que todas las distribuciones condicionales completas

42

no son estandares. Por este hecho es difıcil implementar un muestreo de

Gibbs usando distribuciones de muestreo estandar. Sin embargo, al dis-

tribuciones condicionales completas para las condicionales completas para

el modelo probit-normal son log-concavas (log de the densidad es concava),

ver Sahu (2002). Muestreo exacto de distribuciones log-concavas unidimen-

sionales puede ser ejecutado usando rejection sampling, cuando las con-

stantes normalizadoras son desconocidas, ver e.g. Gilks and Wald (1982).

Esos autores tambien desarrollan un esquema adaptative rejection sampling

(ARS). ARS construye dinamicamente dos envolventes (una superior y una

inferior) para la distribucion a ser muestreada de evaluaciones sucesivas de

la densidad en los puntos rechazados. El algoritmo es parado cuando un

punto el punto propuesto ha sido aceptado. Este es el procedimiento default

en WinBugs 1.3 para el modelo probit-normal model.

5.2.3. Una formulacion adecuada del modelo TRI probito-

normal


ıtens de una prueba, el modelo de teorıa de la respuesta al ıtem es dado

por:

Zij = mij + eij , (5.4)

eij ∼ N(0, 1), (5.5)

yij =

{1, Zij > 0;

0, Zij ≤ 0., (5.6)

Estas expresiones recuperan el modelo originalmente formulado arriba.

Demostracion. Observe que pij = P (Yij = 1) = P (Zij > 0) = Φ(mij),

i = 1 . . . , n , j = 1, . . . , I, que muestra que la estructura normal linear

de la variable latente auxiliar produce un modelo equivalente al modelo

probit-normal.

43

5.2.4. MCMC usando esquema data augmentation gibbs

sampling (DAGS)


ıtens de una prueba, el modelo de teorıa de respuesta al ıtem presenta las

siguientes distribuiciones condicionales completas para el modelo probit-

normal aumentado:

�(Zij ∣ui,�j , Dobs) ∝ �(Zij ;mij , 1)I(Zij , yij), i = 1 . . . , n , j = 1, . . . , I.

�(ui∣Zi,�, Dobs) ∝ �(ui;mui , vui), i = 1 . . . , n

donde: con mui =

∑Ij=1 aj

(Zij+bj

)∑Ij=1 a

2j+1

, vui = 1∑Ij=1 a

2j+1

, i = 1 . . . , n.

�(�j ∣u,Zj , Dobs) ∝ �2(�j ;m�j ,v�j ), j = 1, . . . , I,

donde m�j =[W ′W + Σ−1

�

]−1[W ′Zj + Σ−1

� ��

], v�j =

[W ′W +

Σ−1�

]−1

, em que �� =( �a

0

), Σ� =

[ S2a 0

0 S2b

]e W = (u,−1)

com W ′i = (ui,−1), i = 1 . . . , n.

Demostracion. Usando la nueva formulacion tenemos que la funcion de

verosimilitud de datos aumentados, considerando D = (Z,y) los “datos

completoscon Z la v. latente auxiliar e:

L(u,�∣D) =n∏

i=1

I∏

j=1

�(Zij ;mij , 1)I(Zij , yij),

donde I(Zij , yij) = I(Zij > 0)I(yij = 1) + I(Zij ≤ 0)I(yij = 0). , i =

1 . . . , n , j = 1, . . . , I.

Ası, La distribucion conjunta a posteriori completa es dada por:

f(u,�∣D) ∝ exp[−1

2

( n∑

i=1

I∑

j=1

(Zij−mij)2+

n∑

i=1

u2i+

1

sb

I∑

j=1

b2j+1

sa

I∑

j=1

a2j

)]I(Zij , yij)

y por tanto las distribuciones condicionales completas siguen.

44

Con estas condicionales se puede implementar facilmente el muestreo de

Gibbs. Rutinas en R (en MCMCpack de Martin y Quinn, 2003) y Mathlab

(Johnson e Albert, 1999) se disponen en la Web. En Winbugs, la imple-

mentacion de este procedimiento no es directa pues precisa de una correcta

especificacion de las variables indicadoras. Mayores detalles pueden seguirse

en Bazan, Bolfarine, Leandro (2006).

5.3. Inferencia Bayesiana en TRI usando Win-

BUGS

En esta seccion presentamos los codigos para implementar en WinBUGS

los dos procedimientos de estimacion bayesiana en TRI, esquemas ARS y

Gibbs Sampling, desarrollados en la seccion anterior. Estos codigos, para los

modelos 1L,2L, 3L, 1P, 2P y 3P pueden ser obtenidos tambien considerando

el aplicativo Bayes@pucp, el cual implementa los modelos indicados mas

otros nuevos modelos propuestos en Bazan et al (2006) y Bolfarine y Bazan

(2008).

5.3.1. Codigo WinBUGS para esquema Gibbs Sam-

pling

A continuacion se presenta el codigo WinBUGS para el modelo pro-

bit normal de un parametro (1P) y de dos parametros (2P) considerando

aumentacion de datos, es decir considerando el esquema de Gibbs Samplng.

model { #likelihood function

for (i in 1 : n) {

for (j in 1 : I) {

#2P

# m[i,j] <- a[j]*u[i] - b[j]

#1P

45

m[i,j] <- u[i] - b[j]

z[i,j] ˜ dnorm(m[i,j],1)I(lo[y[i,j]+1],up[y[i,j]+1])

}

}

#priors F for item parameters

for (j in 1:k) {

b[j] ˜ dnorm(0,0.5);

# 1P

# a[j] ˜ dnorm(1,2)I(0,);

}

#prior for latent variable

for (i in 1:n) { u[i] ˜ dnorm(0,1) }

# auxiliary latent variable

lo[1] <- -50; lo[2] <- 0; \# i.e., z| y=0 ˜ N(m,1)I(-50,0)

up[1] <- 0; up[2] <- 50; \# i.e., z| y=1 ˜ N(m,1)I(0,50)

# mean and standard deviation for latent variable

mu<-mean(u[ ])

du<-sd(u[ ])

}

Note que si se quiere obtener las versiones correspondientes para los

modelos 1L (modelo de Rasch) y 2L del modelo logıstico solamente se debe

modificar la lınea dnorm(m[i,j],1)I(lo[y[i,j]+1],up[y[i,j]+1]) por

dlogis(m[i,j],1)I(lo[y[i,j]+1],up[y[i,j]+1]).

5.3.2. Codigo WinBUGS para esquema ARS

Otra posibilidad de codigos para WinBUGS en los modelos logısticos

incluyendo 1L, 2L y 3L se presenta a continuacion

model{

for (i in 1:n) { for (j in 1:k )

46

{ y[i,j]˜dbern(p[i,j])

#1L

m[i,j]<-theta[i]-b[j]

#2L Model

#m[i,j]<-a[j]*(theta[i]-b[j])

p[i,j]<-exp(m[i,j])/(1+exp(m[i,j]))

#3L Model

#pl[i,j]<-exp(m[i,j])/(1+exp(m[i,j]))

# p[i,j]<-c[j]+(1-c[j])*pl[i,j]

}

}

#abilities priors

for (i in 1:n) { theta[i]˜dnorm(0,1)}

#items priors

for (j in 1:k) {

# Sinharay (2004)

b[j]˜dnorm(0,1)

# a[j]˜dlnorm(0,1)

# c[j] ˜ dbeta(5,17)

}

}

Note que en este caso no se requiere la version no aumentada del

modelo para implementar el esquema ARS. Tambien es posible escribir

logit(p[i,j])<-m[i,j] en vez de p[i,j]<-exp(m[i,j])/(1+exp(m[i,j]))

aprovechando que el programa WinBUGS ya contiene la funcion de enlace

logit.

Si se desea obtener las correspondientes versiones 1P, 2P y 3P del mod-

elo de ojiva normal, solamente se debe modificar las expresiones correspon-

dientes de las probabilidades por p[i,j]<-Phi(m[i,j]) aprovechando que

el WinBUGS tiene la funcion de la acumulada de la normal Phi.

47

5.3.3. Criterios de comparacion de modelos en el con-

texto Bayesiano

El desarrollo de metodos MCMC permite ajustar una gran cantidad de

modelos para un mismo conjunto de datos, pero por tal motivo se hace nece-

sario comparar modelos alternativos con el proposito de identificar un mod-

elo apropiado que pueda describir adecuadamente estos datos. Existe un

variedad de metodologias para comparar el ajuste de modelos Bayesianos

alternativos. Se puede ver por ejemplo el trabajo Gilks et al. (1996). El prin-

cipal criterio usado en este trabajo es el Criterio de Informacion de Desvıo

(Deviance Information Criterion) (DIC) propusto por Spiegelhalter et al.

(2002). EL DIC es util aquı porque es relativamente facil de calcular, in-

terpretar y es satisfactorio para modelos jerarquicos complicados (Johnson,

2003) y esta basado en la nocion de “Desvıo Bayesiano”(Dempster, 1977).

El desvıo bayesiano (Dempster, 1977) para los modelos TRI es definido,

de manera general, usando a verosimilitud del modelo como

D(�,u) = −2ln(p(y∣�,u)) = −2n∑

i=1

k∑

j=1

lnP (Yij = yij ∣�, ,u), (5.7)

donde yij denota la respuesta observada (0 o 1) de Yij , o variable re-

spuesta del evaluado i en el ıtem j. � son los parametros asociados al ıtem

en el modelo TRI, y u son los parametros asociados a las habilidades de

los examinados.

El desvıo bayesiano es tambien una medida de bondad de ajuste. Dado

los modelos alternativo a ser comparados, el modelo que mejor ajusta los

datos es aquel que tiene menor valor de desvıo bayesiano. Tambien su dis-

tribucion posterior puede ser usado para evaluar el ajuste (relativo) de un

modelo dado. Esto ha sido propuesto en varios trabajos, entre ellos Gilks

et al. (1996) y Spiegelhalter et al. (1996). Ası, la cantidad E[D(�,u)

],

48

esta basada en la distribucion a posteriori de � y u, es denominada el

esperado del desvıo bayesiano a posteriori o desvıo medio a posteriori (pos-

terior mean of the deviance ) tambien es una medida de bondad de ajuste.

Esta esperanza puede ser aproximada usando o algoritmo MCMC atraves

de

E[D(�,u)

]≈ 1

G

G∑

i=1

D(�g,ug), (5.8)

en el que el ındice g representa la g-esima realizacion simulada de un total

de G realizaciones simuladas. Este estimador es denominado como Dbar

por Spiegelhalter et al. (2002) y es obtenido de modo default en WinBugs.

Por otro lado, Carlin y Louis (2000) y Brooks (2002) han sugerido pe-

nalizar E[D(�,u)

]como en el caso del criterio de Informacion Bayesiana

(Schwarz) o Criteiro de Akaike (Akaike, 1973). Esto lleva al Esperado del

Criterio de Informacion de Akaike (EAIC) definido por

EAIC = E[D(�,u)

]+ 2p, (5.9)

y al esperado del Criterio de Informacion Bayesiana de Schwarz (EBIC)

definido por

EBIC = E[D(�,u)

]+ plogN (5.10)

en el que p es el numero de parametros del modelo y N es el numero total de

observaciones y el log corresponde al logaritmo neperiano. Estos criterios se

pueden obtener de manera aproximada usando el algoritmo MCMC atraves

de

EAIC = Dbar + 2p, EBIC = Dbar + plogN (5.11)

Lamentablemente, en el caso de los modelos jerarquicos se tiene prob-

lemas com estos criterios, porque no es facil definir p e N . Por exemplo,

49

en la TRI tenemos respuestas de k ıtens para los examinados i = 1, . . . , n,

entonces, N = k × n el total de observaciones o N = n es el total de

examinados?.

Si las respuesta a los ıtems en cada examinado son independientes, en-

tonces la primera eleccion serıa mas apropiada, pero si las respuestas fueran

correlacionadas en cada examinado, se puede escoger la ultima alternativa.

En la TRI se debe considerar el primer caso considerando que la indepen-

dencia condicional se cumple. Sin embargo la situacion real es algo inter-

medio entre estos dos casos. Similarmente, se consideramos una coleccio de

efectos aletorios como es el caso de las variables latentes en TRI, una para

cada examinado, como esto puede contribuir con el numero de parametros

p?. Si los efectos aleatorios no tienen nada en comun (i.e., estos se com-

portan esencialmente como efectos fijos), ellos deberıan contribuir con n

parametros para cada p, pero si los datos (o las prioris) indicadan que to-

dos ellos son esencialmente identicos, ellos deberıan contribuir un poco mas

de un “numero efectivo de parametros”para el tamanno del modelo p.

Debido a este tipo de problemas Spiegelhalter et al. (2002) propusieron

�D como un valor apropiado para penalizar E[D(�,u)

]. El DIC es una

modificacion del esperado del desvıo y es definido como

DIC = E[D(�,u)

]+ �D, (5.12)

donde

�D = E[D(�,u)

]−D

[E(�), E(u))

]. (5.13)

es denominado como el numero de parametros efectivos (Spiegelhalter et

al, 1996) y D[E(�), E(u))

]es el desvıo bayesiano de las medias la posteri-

ori o desvıo bayesiano de los esperados a posteriori (deviance of posterior

mean) obtenido considerando os valores medios o esperados a posteriori

de los parametros del modelo. Las esperanzas arriba estan basadas en las

50

distribuciones a posteriori de �,� y u las que se pueden aproximar usando

el algoritmo MCMC a traves de

D[E(�), E(u)Big] ≈ D

( 1

G

G∑

i=1

�g,1

G

G∑

i=1

,1

G

G∑

i=1

ug), (5.14)

donde como se ha indicado antes el ındice g representa a g-esima realizacao

simulada de um total de G realizacoes simuladas. Esta estimacion es de-

nominado como Dhat em Spiegelhalter et al. (2002) y es obtenida como

modo default em WinBugs.

El DIC penaliza el esperado do desvıo bayesiano por la complejidad del

modelo o numero de parametros efectivos representado por �D. El DIC es

aproximadamente analogo al AIC y EAIC puede aproximarse por:

DIC = Dbar −Dℎat = Dbar + 2�D, (5.15)

donde valores bajos del DIC indican el mejor ajuste. Otra ventaja del

DIC es que como esta basado en la funcion de verosimilitud, esta puede

ser descompuesta para cada observacion, por lo que se puede implementar

residuales bayesianos (Gelfand, 1996) para evaluar la bondad de ajuste lo-

cal. La estimacion del DIC se obtiene como modo default en WinBugs.

Spiegelhalter et al. (2002) indican que el DIC implementado en Win-

BUGS puede ser usado para comparar modelos complejos (vea por ejemplo

Johnson, 2003) y grandes diferencias en los criterios se pueden atribuir a

diferencias predictivas reales en los modelos.

Capıtulo 6

APLICACION

En este capıtulo ilustramos la aproximacion Bayesiana para el modelo

TRI, especialmente del modelo de ojiva normal (probito normal cuando

una priori normal es considerada para la variable latente. Se usara un con-

junto de datos correspondientes a una prueba de Matematicas aplicada en

escuelas peruanas. Se discutira la especificacion de prioris , valores iniciales

para definir el estado inicial de la cadena de Markov y diagnosticos de

convergencia en la implementacion del Algoritmo MCMC.

6.1. Los datos de una prueba de Matematicas

En esta aplicacion, 14 items de la prueba de Matematicas disponibles

en en

www2.minedu.gob.pe/umc/admin/images/publicaciones/boletines/Boletin-13.pdf

se aplicaron a 131 estudiantes de nivel socio economico alto de sexto

grado de primaria. El vector de respuestas es proporcionado en la parte

practica del curso y puede ser requerida a los autores. Las estadısticas de

los puntajes de la prueba se presentan en el cuadro 6.1.

51

52

Cuadro 6.1: Estadısticas de los puntajes de la prueba de Matematicas con

14 ıtems y 131 examinados

Estadısticas valores Estadısticas valores

Media 10.84 Mediana 11

Varianza 3.432 Desv. Estd. 1.853

Asimetrıa -0.795 Curtosis 0.449

Mınimo 5 Maximo 14

Alpha 0.481 Media P 0.774

Media Item-Tot. 0.364 Mean Biserial 0.572

Max Puntaje 10 N (Grupo alto) 52

Min Puntaje 12 N (Grupo bajo) 45

Los datos presentan un puntaje medio de 11 puntos y una desviacion

estandar de casi 2 puntos. De las estadısticas, se puede indicar que los

puntajes presentan asimetrıa con dominio de puntajes altos. La prueba

presenta una confiabilidad dada por el coeficiente alfa de Cronbach de 0.48.

6.2. Comparando varios modelos TRI para

los datos de la prueba de Matematica

Para comparar los diferentes modelos propuestos en este trabajo e ilus-

trar el uso del DIC, generamos 202000 iteraciones y descartamos los 2000

valores iniciales. Usando un thin de 100, se obtuvo un tamano de muestra

efectiva de 2000. Estimadores de los parametros del modelo se calcularon

de estas iteraciones. Varios criterios para evaluar la convergencia se cal-

cularon, usando la librerıa CODA, entre ellos los propuestos por Geweke

(1992).

53

Los valors de DIC se muestran en la tabla abajo para seis modelos IRT:

(1P, 1L, 2P, 2L, 3P, 3L) para cualquiera de las distribuciones a priori con-

sideradas. Para el caso del modelo 2P se ajusto el modelo usando ARS y

usando Gibbs Sampling. Ası para este modelo observamos que la aproxi-

macion basad en datos aumentados (Gibss Sampling) lleva menos tiempo

que la aproximacion MCMC basada en la verosimilitud original (ARS) lo

que es coherente con un resultado similar obtenido por Sahu, 2002, con el

modelo 3P. Note tambien que en general los modelos 1P, 2P y 3P son mas

rapidos que sus correspondientes modelos 1L, 2L y 3L. Ademas en ambos

casos el tiempo de simulacion se incrementa conforme el modelo incluye

mas parametros. Considerando el valor de DIC, el mejor modelo ajustado

resulto el modelo 3P pero sin embargo el modelo 2P es bastante cercano.

Nosotros preferimos el modelo 2P por se un modelo mas simple.

Cuadro 6.2: Results comparing the skew-probit with others parametric IRT

models using DIC

models type time parameters Dbar Dℎat �D DIC

(1) 1L 53 145 1467 1372 94.46 1561

(2) 1P 42 145 1460 1340 120.3 1581

(3) 2L 78 159 1461 1378 82.74 1544

(4) 2P 71 159 1447 1359 88.41 1536

(5) 3L 148 173 1464 1384 80.08 1544

(6) 3P 87 173 1443 1356 87.8 1531

Time in seconds to run 2000 iterations in a Pentium IV with 1800 MHZ and

256 Ram.

54

6.3. Analisis de sensibilidad usando diferentes

prioris para a y b en el modelo 2P

Para evaluar la sensibilidad de la Estimacion Bayesiana para el modelo

TRI probito normal se ha considerado diferentes prioris y se realizo un

analisis considerando los datos descritos antes.

La estimacion bayesiana basada en MCMC fue implementada en Win-

BUGS. Se generaron cadenas con 50000 iteraciones considerando saltos

(thin)=1, 5, 10 y descartando las primeras 500 iteraciones (Bur-in), ası que

los tamanos de muestra son de 49500, 9900 y 4950, respectivamente. Cuan-

do se usa MCMC, los valores de muestra para iteraciones iniciales de la

cadena son descartados por su dependencia con los valores iniciales y para

garantizar la convergencia. Tambien, en este modelo TRI, presencia de au-

tocorrrelaciones entre valores de la cadena es esperada cuando se introducen

variables latentes como es este caso (Chen et al. 2000). Debido a esto se

recomienda usar valores de thin superiores a 10.

Como ha sido mencionado en el capıtulo 4, prioris propias para aj y

bj garantizan que la distriuciones posteriores completas de los parametros

del modelo sean propias. Albert y Ghosh (2000) mencionan que la elec-

cion de prioris propias en las variables latentes resuelven el problema de

identificacion de estos modelos, y, adicionalmente, distribuciones a priori

informativas para aj y bj se pueden usar para reflejar la creencia de los

valores de los parametros de ıtem no son extremos (no estan en la frontera

del espacio paramatrico). Si se esta en la situacion donde poca informacion

a priori se dispone acerca de los parametros de dificultad, uno puede elegir

varianzas s2b que sean grandes. Esta eleccion puede tener un efecto modesto

en la distribucion posterior para datos no extremos, y puede resultar en una

distribucion posterior propia cuando hay datos extremos (cuando se obser-

va estudiantes que tienen todos sus ıtems correctos o incorrectos) (Albert

y Ghosh, 2000), tambien, Sahu (2002) establece que valores grandes de la

55

varianza llevan a estimados no estables.

En el Cuadro 5.3 se muestra algunas prioris consideradas en la literatura

para los parametros de ıtem en el modelo probito-normal. N(0,1)I(0,) es la

notacion para la distribucion normal con media 0 y varianza 1 truncada

para valores negativos.

Cuadro 6.3: Especificacion de prioris para parametros de ıtem en el modelo

probito-normal

prior autor a prior b prior

A Jhonson y Albert (2000) N(2,1) N(0,1)

B Congdon (2001) N(1,1) N(0,1)

C Albert y Ghosh (2000) N(0,1) N(0,1)

D Sahu (2002), Albert e Ghosh (2000) N(0,1) N(0,10000)

E Spiegelhalter et al (1996) N(0,1)I(0,) N(0,10000)

F Sahu (2002), Patz e Junker (1999) N(1,0.5)I(0,) N(0,2)

En la Figura 5.1 se presentan las estimaciones de los parametros de

discriminacion y de dificultad para el modelo probito-normal para diferentes

prioris dadas en la Tabla 2.

Las prioris A, B y C son precisas y las prioris D y E tienen prioris

difusas o prioris no informativas en el parametro de dificultad. Las prioris

E y F son truncadas en el parametro de discriminacion.

De acuerdo a la figure 5.1, el modelo 2P es insensible a la especificacion

de priors para los parametros de dificultad y de discriminacion. Un analisis

de una vıa para evaluar si los parametros de ıtem son diferentes de acuerdo

a las prioris resulto no significativo (a: F (5, 78) = 0,46; p < 0,8065 , b:

F (5, 78) = 0,05; p < 0,9982) .

En el analisis de la sensibilidad se ajusto varios modelos de probabilidad

para los mismos datos. Para comparar los seis modelos correspondientes a

56

Difficulty parameter

Dis

crim

ination p

ara

mete

r

N(2,1)-N(0,1)PRIOR a-b

-0,2

0,2

0,6

1,0

1,4

1,8

-3 -2 -1 0 1


-3 -2 -1 0 1


-3 -2 -1 0 1

N(0,1)-N(0,10000)PRIOR a-b

-0,2

0,2

0,6

1,0

1,4

1,8

-3 -2 -1 0 1

N(0,1)I(0,)-N(0,10000)PRIOR a-b

-3 -2 -1 0 1

N(1,0.5)I(0,)-N(0,2)PRIOR a-b

-3 -2 -1 0 1

1111

11

1111

11

1212 12

12 12 12

6 6 6

6 6 6

9 9 9

9 9 9

Figura 6.1: Media posterioi de los parametros de dificultad y de discrimi-

nacion para diferentes prioris en el modelo probito normal (N=131,I=14)

cada priori, se calculo la “expected deviance a posterior”(Dbar), la “de-

viance information criterion”(DIC) , el numero efectivo de parametros �D

que son descritos en el capıtulo 4 y en Spiegelhalter et al. (2002).

Spiegelhalter et al. (2002) indican que el DIC implementado en el soft-

ware WINBUGS se puede usar para comparar modelos complejos y grandes

diferencias en el criterios se pueden atribuir a diferencias predictivas reales

57

en los modelos, aunque persisten algunas crıticas. En el modelamiento

jerarquico con variables latentes auxiliares como en los modelos TRI, la

verosimilitud o complejidad del modelo no es unica ası que la deviance

del modelo (el DIC y �DD que se basan en ella) cuando hay variables la-

tentes no es unica y puede ser calculada de varias maneras (Delorio and

Roberts, 2002). Con variables latentes auxiliares, el software WINBUGS usa

la verosimilitud completa de las variables observadas y de la variable la-

tente introducida (como efectos fijos y aleatorios respectivamente en el

modelamiento jerarquico) para obtener la distribucion posterior para los

parametros de interes. Cuendo este es el caso, WinBUGS presenta DICs

marginales para la variable observada (efectos fijos) y para las variables

latentes auxiliares (efecto aleatorio). Para una comparacion de los modelos

propuestos, nosotros consideramos DIC marginal para la variable observa-

da porque el foco del analisis esta en p(y∣u, �) y aunque variables aleatorias

auxiliares se introducen (en dos etapas, para variables latentes y parametros

de ıtem) estas no son el focos del analisis.

Cuadro 6.4: Comparacion de los valores de Dbar y DIC para el modelo

probito-normal considerando diferentes prioris

prior a media b media Dbar Dhat pD DIC

A 0.6355 -1.021 1450.14 1369.86 80.28 1530.43

B 0.5356 -0.999 1461.09 1383.61 77.48 1538.57

C 0.4599 -0.979 1453.16 1368.36 84.80 1537.96

D 0.5168 -1.099 1446.60 1358.26 88.34 1534.94

E 0.5414 -1.101 1453.22 1375.48 77.75 1530.97

F 0.5879 -1.048 1445.00 1352.90 92.11 1537.11

El analisis del DIC en el cuadro 5.4, confirma que todas las prioris

tienen el mismo ajuste. La figura 5.2 hace comparaciones de estas diferentes

58

prioris considerando un grafico de la media y desviacion estandar para los

parametros de ıtem.

Para los parametros de dificultad, se tiene que las prioris estan orga-

nizadas desde las prioris no informativas o difusas hasta prioris precisas.

(A mayor precision de la priori especificada menor varianza en la posteri-

ori y mayor valor de la media a posteriori de la dificultad). En el caso del

parametro de discriminacion, tenemos que las prioris estan organizadas,

en el eje x, de menor a mayor media a posteriori, y en el eje y de mayor

precision a mayor valor de la variancia especificada a priori excepto para

el caso de mayor de la media a priori).

A pesar de que observamos que las prioris son similares en el ajuste del

modelo consideramos que la priori F es mas a apropiada porque presenta

menor coeficiente de variabilidad en relacion a la especificacion de un gran

varianza a priori para la dificultad. Este resultado prueba lo indicado por

Sahu (2002) que indica que ha investigado otras prioris con otros hyper

parametros pero esta es la mas estable.

6.4. Inferencia e Interpretacion de los paramet-

ros en el modelo 2P

Considerando las prioris a ∼ N(1, 0,5)I(0, ) y b ∼ N(0, 2) dada por Sahu

(2002), priori F , se realizon un analis final de los datos con el proposito de

inferencia. Se considero un Bur-in de 1000 y un tamano de muestra efectivo

de 1000 iteraciones considerando un valor de thin=10. Estas estimaciones

son esencialmente estables si se consideran otros tamanos de muestra. La

convergencia fue monitoreada usando hasta 5 cadenas de tamanos difer-

entes despues de descartar las primeras 1000 iteraciones. Fue usado la libr-

erıa CODA de R para obtener la estadıstica de Gelman y Rubin (1992) que

59

Means of difficulty parameter

Sta

nd

ard

De

via

tio

ns o

f d

ifficu

lty p

ara

me

ter

0,74

0,76

0,78

0,80

0,82

0,84

0,86

0,88

0,90

-1,15 -1,10 -1,05 -1,00 -0,95 -0,90

N(0,1)-N(0,1)

N(1,1)-N(0,1)

N(2,1)-N(0,1)

N(1,0.5)I(0,)-N(0,2)

N(0,1)-N(0,10000)

N(0,1)I(0,)-N(0,10000)

Means of discrimination parameter

Sta

nd

ard

De

via

tio

ns o

f d

iscrim

ina

tio

n p

ara

me

ter

0,24

0,26

0,28

0,30

0,32

0,34

0,36

0,38

0,40

0,44 0,48 0,52 0,56 0,60 0,64 0,68

N(0,1)-N(0,1)

N(0,1)-N(0,10000)

N(1,1)-N(0,1)

N(0,1)I(0,)-N(0,10000)

N(1,0.5)I(0,)-N(0,2)

N(2,1)-N(0,1)

Figura 6.2: Comparacion de el modelo probito-normal con diferentes prioris

60

indico que un total de 159 cadenas generadas convergen.

En media, para generar un tamano de bur-in de 1000 el programa demo-

ra 90 segundos, y para 10000 iteraciones adicionales usa 957 segundos. En

ka figura 3 se presenta el historico de la cadena y la densidad empırica a

posteriori para el item 11 y la media y desviacion estandar de la variable

latente.

Estimaciones de los parametros de discriminacion y de dificultad para

el modelo probito-normal se presentan en la tabla 4. El ıtem 11 es el mas

discriminativo mientras el ıtem 9 es el menor. Tambien, el ıtem 11 es el

mas facil mientras el ıtem 12 es el mas difıcil.

El ıtem 11 dice: “Luisa, Dora y Marıa compran tela. Luisa compro la

mitad de un metro, Dora compro 75 centımetros y Marıa compro cincuen-

ta centımetros. Quienes compraron la misma cantidad de tela?”. El ıtem

12 dice: “Un recipiente reibe 4,5 litros de aqua cada minuto. ¿Cuantos

litros de aqua tendra el recipiente despues de un hora y media?”. Por otro

lado, el ıtem 6 dice: “Resuelve las seguientes operaciones con decimales:

0, 75− 0, 2 + 1, 2− 0, 30”.

Es claro, del texto de los ıtens, que la habilidad latente requerida para

encontrar la solucion del ıtem 11 es menor que la del ıtem 12. Para un

mismo valor de habilidad, el alumno tiene mayor probabilidad de suceso en

el ıtem 11 antes que en el ıtem 12. Por eso el ıtem 11 es mas facil que el

ıtem 12 como el modelo probit-normal postula.

Tambien es importante percibir para el ıtem 11 que un pequena cam-

bio de habilidad del alumno (digamos, un conocimiento de lo que significa

mitad de un metro) produce un rapido incremento de la probabilidad de

suceso del ıtem. Pero en el ıtem 9 un pequeno cambio de habilidad del alum-

no (digamos el conocimiento de decimales) no se traduce en un incremento

61

a[12]

iteration

1000 2500 5000 7500 10000

0.0

0.5

1.0

1.5a[12] sample: 1000

-0.5 0.0 0.5 1.0

0.0

1.0

2.0

3.0

b[12]

iteration

1000 2500 5000 7500 10000

0.0

0.25

0.5

0.75

1.0b[12] sample: 1000

-0.25 0.0 0.25 0.5 0.75

0.0

1.0

2.0

3.0

4.0

mu

iteration

1000 2500 5000 7500 10000

-0.4

-0.2

0.0

0.2

0.4mu sample: 1000

-0.4 -0.2 0.0 0.2

0.0

2.0

4.0

6.0

du

iteration

1000 2500 5000 7500 10000

0.6

0.8

1.0

1.2du sample: 1000

0.6 0.8 1.0

0.0

2.0

4.0

6.0

8.0

Figura 6.3: Box-plots de las medias a posteriori de los parametros de dis-

criminacion (a) y dificultad (b) en el modelo probito normal

62

rapido de la probabilidad de suceso del ıtem. Ası el ıtem 11 es mas discrim-

inativo porque permite distinguir mejor entre los alumnos que saben o no

saben un determinado conocimiento especıfico al ıtem. Box-plots para las

medias a posteriori de los ıtems se presentan en la figura 5.4. Para mayor

detalle de interpetacion de los parametros de ıtem vea Johnson y Albert

(2000).

Con respecto a la variable latente la media de las medias a posteri-

ori para los examinados es 0.94 lo que indica que el grupo de estudiantes

presenta habilidades con asimetrıa negativa como fue encontrado en los

puntajes (vea cuadro 5.5). De esta manera encontramos que las habili-

dades estimadas tienen correspondencia con el puntaje. Modelos que den

cuenta de esta asimetrıa han sido desarrollados recientemente por Bazan

et al (2006), Bolfarine y Bazan (2007).

63

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13][14]

box plot: a

0.0

1.0

2.0

3.0

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

box plot: b

-4.0

-3.0

-2.0

-1.0

0.0

1.0

Figura 6.4: Historico de la cadena y densidad para los parametros del ıtem

11 y media y desviacion esandar a posteriori de la variable latente

64

Cuadro 6.5: Media y desviacion estandar a posteriori y intervalo de prob-

abilidad del 95 % para los parametros del modelo probito normal

media sd P2,5 mediana P97,5

parametro de discriminacion a1 0.54 0.24 0.13 0.52 1.09

a2 0.29 0.18 0.03 0.27 0.70

a3 0.55 0.24 0.16 0.53 1.09

a4 0.91 0.33 0.33 0.88 1.61

a5 0.49 0.24 0.09 0.48 1.02

a6 0.32 0.18 0.03 0.30 0.73

a7 0.88 0.34 0.29 0.84 1.60

a8 0.97 0.35 0.39 0.92 1.80

a9 0.20 0.14 0.01 0.18 0.51

a10 0.49 0.23 0.08 0.48 1.02

a11 1.35 0.41 0.64 1.32 2.18

a12 0.39 0.19 0.06 0.38 0.80

a13 0.45 0.23 0.05 0.43 0.93

a14 0.41 0.26 0.03 0.37 0.97

parametro de dificultad b1 -0.90 0.16 -1.25 -0.90 -0.60

b2 -1.09 0.15 -1.37 -1.08 -0.80

b3 -0.03 0.13 -0.27 -0.03 0.23

b4 -1.91 0.33 -2.62 -1.88 -1.36

b5 -1.23 0.18 -1.62 -1.22 -0.90

b6 0.37 0.11 0.16 0.37 0.61

b7 -1.82 0.33 -2.63 -1.78 -1.28

b8 -1.53 0.31 -2.30 -1.50 -1.03

b9 -0.80 0.13 -1.06 -0.80 -0.57

b10 -1.19 0.17 -1.55 -1.18 -0.87

b11 -2.31 0.46 -3.32 -2.25 -1.53

b12 0.43 0.12 0.21 0.42 0.67

b13 -1.01 0.16 -1.35 -1.00 -0.71

b14 -1.71 0.23 -2.20 -1.70 -1.32

variable latente u media 0.94 0.06 0.82 0.93 1.06

d.e u 0.04 0.08 -0.12 0.04 0.21

Capıtulo 7

CONCLUSIONES

Este trabajo presenta los modelos de Teorıa de Respuesta al Item di-

cotomicos a la comunidad academica del Peru desde la perspectiva de la

Inferencia Bayesiana. Una presentacion parecida para el caso del Brasil pero

desde la perspectiva de la Inferencia Clasica puede revisarse en Andrade,

Tavares y Valle (2000).

El modelo en el que se hace mas enfasis es el modelo de ojiva normal,

modelo probito normal o modeo 2P. Este modelo es bastante interesante

porque diversas extensiones han sido propuestas a partir de este modelo.

Una extension de este modelo son aquellos que incluyen parametros adi-

cionales de ıtemes como el modelo 3P que incluye un parametro adicional

de adivinacion, el modelo skew-probit (Bazan, et al, 2006) que incluye un

parametro de penalidad o bonificacion del ıtem o el modelo de Teslets que

incluye un parametro para la interaccion entre determinados ıtemes (Wang,

Bradlow, y Wainer, 2003).

Otras extensiones se obtienen considerando la variable latente U como

siendo multidimensional y no unidimensional como ha sido considerado

65

66

aquı (ver por ejemplo, Beguin y Glas, 2001, Linardakis y Dellaportas, 2002).

Tambien existen extensiones donde se consideran variables predictoras o

variables explicativas. Tambien esta el caso de modelos multinivel (Fox y

Glas, 2001) y de modelos con error de medicion (Fox y Glas, 2003). Otro

grupo de extensiones se obtiene cuando se toma como variable manifiesta

valores discretos mınimamente ordinales y no respuesta binaria. En ese caso

se esta frente a modelos de TRI para respuesta policotomica (las escalas de

actitudes y las pruebas de desempeno son ejemplos de estos casos.

Dos procedimientos de Inferencia Bayesiana usando MCMC se presen-

taron e implementaron. Este proceso de Inferencia fue usado en particular

para estimar los parametros asociados con un conjunto de datos de una

prueba de Matematicas que se aplico a 131 estudiantes de de 4to grado. Se

compararon los seis modelos revisados (1P, 2P, 3P, 1L, 2L y 3L), donde el

modelo 1L es el modelo de Rasch que la Unidad de Medicion de Calidad

Educativa del Ministerio de Educacion emplea en los reportes de las prue-

bas de rendimiento escolar a nivel nacional. Para comparar los modelos se

uso el Deviance Information Criterion (DIC) explicado en el capıtulo 4.

El mejor modelo elegido fue el 2P. Con este modelo se realizo un analisis

de sensibilidad frente a la especificacion de diferentes prioris, vaga precisas

para el parametro de dificultad y precisas para el parametro de discrimi-

nacion en concordancia con los resultados presentados en el capıtulo 3. Los

resultados indican que las estimaciones son similares cuando se consideran

las diferentes prioris. Ası el modelo 2P para los datos analizados es insen-

sible frente a la eleccion de prioris diferentes. Sin embargo una priori que

puede recomendarse es la priori a ∼ N(1, 0,5)I(0, ) y b ∼ N(0, 2) propuesta

por Sahu (2002).

Para los datos de la aplicacion se presentaron las estimaciones y se

interpretaron los resultados de manera especıfica para algunos ıtems.

A partir de los resultados presentados pueden ser estudiadas muchas

67

de las extensiones comentadas aquı ası como otros modelos que pueden ser

revisados en van der Linden y Hambleton (1997).

Como se ha querido resaltar aquı, este tipo de modelos son de interes

desde varios puntos de vista. Son de interes, por un lado, considerando las

multiples aplicaciones que se pueden realizar, pero por otro, considerando

los diferentes desarrollos de tipo formal y computacional. Invitamos a los

interesados a comunicarse con los autores para conocer mas detalle de las

extensiones y los problemas abiertos que persisten en esta area.

Bibliografıa

[1] Albert, J. H. (1992). Bayesian Estimation of Normal Ogive Item Re-

sponse Curves Using Gibbs Sampling. Journal of Educational Statistics,

17, 251 - 269.

[2] Albert, J.H. & Ghosh, M. (2000). Item response modeling. Generalized

Linear Models: A Bayesian Perspective(D. Dey, S. Ghosh & Mallick,

eds.), Marcel-Dekker, New York, 173-193.

[3] Andrade, D. F. , Tavares, H. R., & Valle, R. C. (2000). Introducao

a Teoria da resposta ao Item : Conceitos e Aplicacoes. 14o SINAPE :

Caxambu, MG.

[4] Baker, F.B. (1992). Item Response Theory - Parameter Estimation

Techniques. New York: Marcel Dekker, Inc.

[5] Bartholomew,D.J., & Knoot, M. (1999). Latent variable models and fac-

tor analysis. (2nd ed.). London: Arnold. (Kendall´s Library of Statistics

7.

[6] Bazan, J., Bolfarine, H., & Branco, M. (2004b). A skew item response

model. ISBA 2004 World Meeting. Vina del Mar. Chile, May 23-27, 2004.

ISBA (International Society for Bayesian Analysis).

69

70

[7] Bazan, J. L., Bolfarine, H., Leandro, A. R. (2006). Sensitivity analysis of

prior specification for the probit-normal IRT model: an empirical study.

Estadıstica. Journal of The Inter-American Statistical Institute 58, 17-42.

[8] Bazan, J. L., Branco, D. M. and Bolfarine (2006). A skew item response

model. Bayesian Analysis, 1 861- 892.

[9] Bazan, J. L., (2004). Introduccion al modelo psicometrico de la Teorıa

Clasica de los Test (parte I). Pro Matematica. PUCP. 18 (35-36), 79-107.

[10] Bolfarine, H. and Bazan, J. L. (2007). Skewed Logit Item Response

Models. Presentacion oral. Escuela de Modelos de Regresion. Bahıa,

Brasil. Sesion de Poster en el Congreso latinoamericano de probabilidad

y estadıstica matematica. CLAPEM. Lima-Peru. Febrero.

[11] Beguin, A. A.,y Glas, C. A. W. (2001). MCMC estimation of multidi-

mensional IRT models. Psychometrika, 66, 541-562.

[12] Birnbaum, A. (1968). Some Latent Trait Models and Their Use in

Infering an Examinee’s Ability. In F. M. Lord & M. R. Novick. Statistical

Theories of Mental Test Scores. eading, MA : Addison-Wesley.

[13] Bock, R. D., & Aitkin, M. (1981). Marginal maximum likelihood esti-

mation of item parameters: Application of an EM algorithm. Psychome-

trika 64,153-168.

[14] Borsboom, D., Mellenbergh, G. J., & van Heerden, J.(2003). The The-

oretical Status of Latent variables. Psychological Review, 110, 203-219.

[15] Brooks, S. P. (2002). Discussion on the paper by Spiegelhalter, Best,

Carlin, and van de Linde (2002). Journal of the Royal Statistical Society

Series B, 64, 3,616-618.

71

[16] Carlin, B.P. y Louis, T.A. (2001).Bayes and Empirical Bayes Methods

for Data Analysis Essays on Item Response Theory. Second edition. New

York: Chapman & Hall.

[17] Casella, G. y Berger, R. L (2002). Statistical Inference,Duxbury: Pa-

cific Grove, CA.

[18] Chen, M-H, Shao, Q. M, & Ibrahim, J. G (2000). Monte Carlo Methods

in Bayesian Computation. New York: Springer Verlag.

[19] Fischer, G. y Molenaar, I. (1995). Rasch Models. Foundations, recent

development, and applications. The Nerthelands: Springer-Verlag.

[20] Fox, J. P., y Glas, C. A.W. (2001). Bayesian estimation of a multilevel

IRT model using Gibbs sampling. Psychometrika, 66, 271-288.

[21] Fox, J. P., & Glas, C. A.W. (2003). Bayesian Modeling of measurement

error in predictor variables using item response theory. Psychometrika,

68, 169-191.

[22] Gamerman, D. Lopes, H. F (2006). Markov Chain Monte Carlo:

Stochastic Simulation for Bayesian Inference, Chapman and Hall/CRC”.

[23] Gelfand, A. E. (1996). Model Determination using Sampling-based

methods. En Markov Chain Monte Carlo in Practice, Gilks, W.R. y

Richardson, S. y Spiegelhalter, D. J. (editor) capıtulo 9, 145-161.

[24] Gelfand, A.E., Smith, A.F.M. (1990). Sampling-based approaches to

calculating marginal densities. J. Am. Stat. Assoc. 85, 398-409.

[25] Gelman, A. & Rubin, D. B. (1992). Inference from iterative simulation

using multiple sequences. Statistical Science, 7, 457-472.

[26] Geweke, J. (1992). Evaluating the accuracy of sampling-based ap-

proaches to the calculation of posterior moments. En: Bernardo, J.M.,

72

Berger, J.O., Dawid, A.P., Smith, A.F.M. (eds.) Bayesian Statistics, vol.

4, pp. 169-193. Oxford University Press, Oxford .

[27] Ghosh, M., Ghosh, A., & Chen, Ming-Hui & Agresti, A. (2000). Non-

informative priors for one parameter item response models.Journal of

Statistical Planning and Inference. 88, 99-115.

[28] Gilks, W. R., Richardson. S. e Spiegelhalter, D. J. (1996). Markov

Chain Monte Carlo in practice. London : Chapman & Hall.

[29] Gilks, W. R., & Wild, P. (1992). Adaptive rejection sampling for Gibbs

sampling. Applied Statistics, 41, 337-348.

[30] Hastings, W.K. (1970). Monte Carlo sampling methods using Markov

chains. Biometrika 57, 97-109.

[31] Holland, P., Rosenbaum, P. (1986). Conditional Association and Unidi-

mensionality in Monotone Latent variable models. The Annals of Statis-

tics. 14 1523-1543.

[32] Johnson, V., & Albert, J. (2000). Ordinal Data Modeling. New York,

MA: Springer-Verlag.

[33] Johnson, T. R. (2003). On the use of heterogeneous thresholds ordinal

regression models to account for individual differences in response style.

Psychometrika, 68(4), 563-583.

[34] Linardakis, M. y Dellaportas, P. (2002). An approach to multidimen-

sional item response modeling. E. I. George. (Ed.). Bayesian Methods

with applications to science policy and oficial statistics. 331-340.

[35] Lord, F. M. (1952). A theory of test scores. New York: Psychometric

Society.

[36] Lord, F., y Novick, M. R. (1968). Statistical theories of mental test

scores. Reading, MA: Adisson-Wesley.

73

[37] Martin, A.D., y Quinn, K. M. (2002). MCMCpack.

scythe.wustl.edu/mcmcpack.html.

[38] Patz, R. J., y Junker, B. W. (1999). A straighforward approach to

Markov Chain Monte Carlo methods for item response models. Journal

of Educactional and Behavioral Statistics, 24, 146-178.

[39] Roberts, C., P.(2001) The Bayesian Choice: from decision-theoretic

foundations to computational implementation. 2nd ed. New york:

Springer-Verlag.

[40] Rupp, A., Dey, D. K., y Zumbo, B. (2004). To Bayes or Not to Bayes,

from Whether to When: Applications of Bayesian Methodology To Item

Response Modeling. Structural Equations Modeling. 11, 424-451.

[41] Ross, S. (1995). Stochastic Processes, Wiley: New York, NY.

[42] Schervish, M. J. (1995). Theory of Statistics, Springer-Verlag: New

York, NY.

[43] Sahu, S. K. (2002). Bayesian Estimation and Model Choice in Item

Response Models. Journal of Statistical Computation and Simulation,

72, 217-232.

[44] Schervish, M. J. (1995). Theory of Statistics, Springer-Verlag: New

York, NY.

[45] Spiegelhalter, D. J., Thomas, A., Best, N. G., & Gilks, W.R.(1996).

BUGS 0.5 examples (Vol. 1 Version i). Cambrigde, UK: University of

Cambride.

[46] Sahu, S. K. (2002). Bayesian estimation and model choice in item

response models. Journal Statistical Computing Simulation, 72,217-232.

[47] Tierney, L. (1994). Markov chains for exploring posterior distributions.

Ann. Stat. 22, 1701-1762.

74

[48] van der Linden, W.J. y Hambleton, R. K. (1997). Handbook of Modern

Item response Theory. New York: Springer-Verlag.

[49] Wang, X, Bradlow,E. T, & Wainer,H. (2003). A General Bayesian

Model for Testlets: Theory and Applications. Applied Psychological Mea-

surement, 26, 109-128.

[50] Spiegelhalter, D. J., Thomas, A., Best, N. G. e Gilks, W.R.(1996).

BUGS 0.5 examples (Vol. 1 Version i). Cambrigde, UK: University of

Cambride.

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP)

APLICACIONES DE TRI

1. APLICACIÓN 1: Un Tutorial de WinBUGS para TRI Para usar la Inferencia Bayesiana usando WinBugs asegúrese de contar con el programa. El programa puede ser obtenido de http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtml Para un uso efectivo del programa con todas sus funciones es necesario registrarse y obtener un archivo que es enviado anualmente. Otra posibilidad, sin registro previo es usar el OpenBugs que esta disponible en http://mathstat.helsinki.fi/openbugs/ Para comprender la metodología bayesiana para el modelo de Rasch que es un caso particular de la teoría de respuesta al Ítem puede revisar Bazán, J., Bolfarine, H., Leandro, A. R. (2007). Una versión anterior de dicho trabajo aparece disponible en http://www.ime.usp.br/~isbra/files/boletim/boletim_2004_v01_n02.pdf En este tutorial se usa un conjunto de datos denominados Math data. Si ud desea usar el WinBugs para sus propios datos, no necesita modificar la sintaxis del modelo. Solamente debe introducir sus propios datos especificando su número de sujetos (n) y el número de ítems de su prueba (k). Para mejorar la interpretación de los resultados obtenidos en el modelo revise a Bond, T.G and Fox, C.M (2005). 1.1 Descripción de los datos: Math Data Este tutorial emplea los datos de 14 ítems liberados, de la prueba de Matemática desarrollada por la UMC (Unidad de Medición de la Calidad Educativa) del Perú para la Evaluación Nacional del sexto grado de 1998 los cuales fueron aplicados a una muestra de 131 estudiantes de sexto grado de nivel socioeconómico alto. Estos datos han sido empleados en Bazán, J., Branco, M.D., Bolfarine, H. (2006) y Bazán, J., Bolfarine, H., Leandro, A. R. (2007). La prueba de la UMC cuenta con 32 ítems de selección múltiple con cuatro alternativas. Los 14 itenes liberados aparecen en la publicación http://www2.minedu.gob.pe/umc/admin/images/publicaciones/boletines/Boletin-13.pdf En la tabla aparece la correspondiente identificación del numero de iten con el numero en la prueba de la UMC Numero de item de Math data 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Numero de ítem en la prueba UMC 1 8 9 11 12 13 21 25 32 5 17 30 2 10

http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtml�

http://mathstat.helsinki.fi/openbugs/�

http://www.ime.usp.br/~isbra/files/boletim/boletim_2004_v01_n02.pdf�

http://www2.minedu.gob.pe/umc/admin/images/publicaciones/boletines/Boletin-13.pdf�

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) 1.2 Pasos de la Inferencia Bayesiana usando WinBugs Fase 1: Definir el modelo

1. Chequear el modelo 2. Llamar los dato 3. Compilar 4. Llamar los valores iniciales 5. Simular valores iniciales de las variables faltantes

Fase 2: Parámetros para la simulación

6. Definir parámetros a monitorear 7. Hacer la simulación MCMC

Fase 3: Evaluación de las cadenas generadas

8. Evaluar las cadenas generadas 9. Obtener medidas de resumen

FASE 1: DEFINIR EL MODELO Paso 1. Chequear el modelo Seleccionar model (señalar con el Mouse) como aparece en la figura abajo. En el menu seleccionar Model, luego Specification. Hacer click em Check Model

Se todo estuviera correcto, el mensaje abajo, en la parte izquierda es “model is syntaticaly correct”

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) Paso 2: Llamar los datos Seleccionar list (señalar con el Mouse) como aparece en la figura abajo. Hacer click en Load Data.

Si todo estuviera correcto, el mensaje abajo, en la parte izquierda es “data loaded” Paso 3. Compilar Hacer click em Compile de Specification Tool

Si todo estuviera correcto, el mensaje abajo, en la parte izquierda es “model compiled”

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) Paso 4: Llamar los valores iniciales Seleccionar list de los valores iniciales (señalar con el Mouse) como aparece en la figura abajo. Hacer click en Load Inits

. Se todo estuviera correcto, el mensaje abajo, em la parte izquierda es “this chain contains uninitialized variables” Paso 5 Simular valores iniciales de las variables faltantes Hacer click en Gen Inits

Se todo estuviera correcto, el mensaje abajo, en la parte izquierda es “inicial values generated, model initialized”

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) FASE 2: PARÁMETROS PARA LA SIMULACIÓN Paso 6 Definir parámetros para monitorear Seleccionar en el Menu, Inference, luego Samples. En la ventana, node, escribir los parámetros a monitorear. En el modelo Rasch son b y tetha. Cada vez que coloca un nodo haga click en Set. Al fina escriba en la ventana: *

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) Paso 7 Hacer la simulación MCMC En el menú seleccionar Model, luego Update. En la ventana, updates, escriba el numero de simulaciones que desea hacer. El default es 1000. Para el modelo de rasch la sugerencia es 4000 las cuales serán descartadas para la inferencia (proceso Bur-In).

Luego hacer click en update. Se todo estuviera correcto, el mensaje abajo, en la parte izquierda es “model is updating”. Al final aparece el tiempo que su computador usó para la simulación. Este tiempo depende del procesador que use. En mi caso duró 66 segundos.

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) FASE 3: EVALUACIÓN DE LAS CADENAS GENERADAS Paso 8 Evaluar la cadenas generadas 1. En la ventana Sample Monitor Tool, hacer clic en history. En este caso ud obtiene una grafica para cada parámetro del modelo que corresponde a los diferentes valores que toma el parámetro en cada iteración. En este caso, son 4000 valores. Lo que debe analizarse es si las cadenas (series de valores generados) son convergentes.

En el caso de los datos de Matemática, por inspección todas las cadenas son convergentes o estacionarias. 2. En la ventana Sample Monitor Tool, hacer clic en density. En este caso ud obtiene una grafica para cada parámetro del modelo que corresponde a los diferentes valores que toma el parámetro en cada iteración. La grafica corresponde a la distribución empirica obtenida de los valores generados.


En el caso de los datos de Matemática, por inspección todas las cadenas son unimodales y simétricas. 2. En la ventana Sample Monitor Tool, hacer clic en coda. En este caso ud obtiene dos nuevos archivos: Coda index y Coda for chain 1. Los cuales deben ser grabados como nombre .ind y nombre .out. Estos archivos permiten realizar un análisis mediante algunas medidas de evaluación de las cadenas disponibles en las librerías CODA y BOA disponibles en el programa R.

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) Las librerías se obtienen en BOA http://www.public-health.uiowa.edu/boa/Home.html CODA: http://cran.r-project.org/src/contrib/Descriptions/coda.html El programa R esta disponible en http://www.r-project.org/ Paso 9 Obtener estadísticas de resumen En la ventana Sample Monitor Tool, hacer click em Stat

Note que se obtiene medias de resumen de la distribución posterior de los parámetros del modelo. La media de a posteriori es comparable con las estimativas de obtenidas usando inferencia clásica. Pero a diferencia de dicha inferencia donde es necesario ciertas suposiciones para uso de teoría asintótica para obtener errores estándar asociados a dichas estimativas, en la inferencia bayesiana se puede obtener cualquier medida a posteriori como mediana y percentiles. En este caso se obtiene un resumen de 4000 valores generados usando MCMC. Paso 10 Obtener medidas definitivas y medida de comparación de modelos En la inferencia Bayesiana es importante generar una cadena lo suficientemente grande para obtener la convergencia de la misma. Para ello es importante estudiar la auto correlación de la serie, lo cual ayuda a determinar numero de saltos o thin que debe hacerse para obtener las estadísticas definitivas de los parámetros del modelo. Si hay una auto correlación alta es necesario un thin (salto) mayor para seleccionar los valores. También hay que considerar el Bur-in o valores iniciales a ser descartados. Esos aspectos son discutidos en los artículos de las referencias. Nosotros vamos a considerar las primeras 4000 iteraciones como Bur-in y

http://www.public-health.uiowa.edu/boa/Home.html�

http://cran.r-project.org/src/contrib/Descriptions/coda.html�

http://www.r-project.org/�

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) como la autocorrelacion en el modelo es baja como se muestra en el siguiente grafico, el thin será de 1 como aparece por default.

Para tener una medida de comparación de modelos frente a modelos alternativos es importante usar la medida DIC (Deviance Information Criteria). En el menú seleccionar Inference, luego DIC. En la ventana DIC tool seleccione set. Luego finalmente repita el paso 7 considerando 2000 iteraciones adicionales. Finalmente vuelva a la ventana DIC tool y presione DIC.

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) El resultado es Dbar = post.mean of -2logL; Dhat = -2LogL at post.mean of stochastic nodes Dbar Dhat pD DIC y 1465.900 1372.290 93.608 1559.510 total 1465.900 1372.290 93.608 1559.510

Finalmente repetimos el paso 9 para las nuevas 2000 iteraciones. Asegúrese de colocar en el espacio beg 4001 para que las estadísticas sean de las ultimas 2000 iteraciones.

Los primeros resultados aparecen a continuación node mean sd MC error 2.5% median 97.5% start sample b[1] -1.582 0.2523 0.006718 -2.097 -1.57 -1.102 4001 2000 b[2] -2.063 0.2788 0.008793 -2.627 -2.054 -1.544 4001 2000 b[3] -0.0929 0.2108 0.006927 -0.5039 -0.09345 0.3108 4001 2000 b[4] -2.994 0.3797 0.009508 -3.777 -2.985 -2.288 4001 2000 b[5] -2.212 0.2987 0.00923 -2.801 -2.203 -1.658 4001 2000 b[6] 0.6497 0.2167 0.007031 0.2158 0.6483 1.061 4001 2000 b[7] -2.862 0.355 0.00843 -3.59 -2.842 -2.203 4001 2000 b[8] -2.286 0.297 0.008845 -2.917 -2.277 -1.735 4001 2000 b[9] -1.527 0.247 0.007468 -2.031 -1.527 -1.058 4001 2000 b[10] -2.13 0.2955 0.009572 -2.726 -2.118 -1.566 4001 2000 b[11] -2.99 0.3734 0.01022 -3.731 -2.964 -2.312 4001 2000 b[12] 0.7283 0.2185 0.007656 0.303 0.7273 1.159 4001 2000 b[13] -1.813 0.2614 0.007499 -2.346 -1.81 -1.33 4001 2000 b[14] -3.272 0.4289 0.01122 -4.175 -3.258 -2.482 4001 2000 theta[1] -0.3447 0.5904 0.0115 -1.465 -0.3554 0.8927 4001 2000 theta[2] 0.8446 0.6733 0.01749 -0.4474 0.8302 2.159 4001 2000 theta[3] -1.292 0.548 0.01431 -2.333 -1.301 -0.2057 4001 2000 theta[4] -1.308 0.5399 0.01695 -2.31 -1.32 -0.1854 4001 2000 theta[5] 0.8582 0.6807 0.01573 -0.4268 0.8516 2.265 4001 2000

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) 1.3 Gráficos de interpretación de resultados En la siguiente grafica aparece un boxplot de las distribuciones de dificultad de los ítems ordenados de los mas fáciles a mas difíciles. El ítem 14 es el más fácil, el ítem 12 es el más difícil. Como puede observarse, considerando un nivel de habilidad de 0, apenas 3 ítems son difíciles para esta población de estudiantes de nivel socioeconómico alto.

[14][4] [11] [7]

[8] [5] [10] [2][13]

[1] [9]

[3]

[6] [12]

box plot: b

-6.0

-4.0

-2.0

0.0

2.0

En la siguiente grafica aparecen ordenados los estudiantes de acuerdo a su nivel de habilidad. Note que son pocos los estudiantes con habilidades menores a 0.

[92][56]

[91][116][4][67][110][123][3][131][14][28][100][53][115][43]

[84][81][55][89][10][103][11][19][42][125][120]

[73][95][1][39][18][71][121][86][26][98][111][126][17][49][66][23][128][51]

[108][118][8][99][62][20][70][21][127][106][48][32][107][30][122][59][34][82][75][93][113][97][61][65][63][69][46][105][64][44][77][90][36][117]

[13][35][78][109][112][114][54][76][68][37][58][119][22][41][12][25][9][130][60][72][129][45][57][88][87][124][40][94]

[96][50][27][15][74][83][47][5][102][24][33][6][7][2][80][29][79][38][31][52]

[101][85][104][16]

box plot: theta

-4.0

-2.0

0.0

2.0

4.0

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) 2. APLICACIÓN 2: Una comparación de TRI con TCT Un modelo rival para el estudio de tests o pruebas es el Modelo Clásico cuya expresión formal es la Teoría Clásica de los Test (TCT) y que se basa en el modelo lineal de Spearman (1904) ampliamente documentado por Lord y Novick (1968). Sin embargo, los modelos TRI resuelven problemas que la teoría clásica deja abiertos. En la TCT, el modelo usado se basa en la ecuación:

∑=

=I

iijj YT

1

para nj ,...,2,1=

donde jT es la puntuación total (Score) obtenida por el individuo j de la muestra. En la TCT

una tarea importante es el análisis de ítems, que se apoya principalmente en dos índices de amplio uso: 1. La probabilidad de respuesta positiva en el ítem i: )1( == iji YPp .

2. La discriminación del ítem, denotada jd , que indica la capacidad del ítem para discri-

minar entre casos con alto y bajo nivel del atributo medido por los I ítems de la prueba. Hay varias alternativas para jd , siendo la más usada B

jAjj ppd −= , donde A

jp es la

proporción de respuesta positiva en el tercio superior de la distribución de T y Bjp es la

proporción de respuesta positiva en el tercio inferior. Otra alternativa es la correlación de Pearson TX j

ρ entre jX y )( jXT − que en este caso es llamada Correlación biserial

puntual , que no se emplea en este trabajo. En ambas medidas debe ocurrir que 0>jd y

cuanto mayor sea jd , mayor poder de discriminación del ítem j.

La Teoría Clásica tiene problemas no resueltos, a saber, el primero es que no provee una medida de ajuste de los datos al modelo. El segundo es que la capacidad del ítem para medir el riesgo no está en un mismo eje con las puntuaciones o scores T de la prueba, pues en un caso se trata de una probabilidad y en el segundo de un puntaje total. Asociado con lo an-terior, está el hecho cierto que dos personas pueden tener igual puntuación T y sin embargo haber obtenido este mismo valor a partir de respuestas positivas a ítems correspondientes a diferentes niveles de intensidad del atributo medido por la prueba o test. Una explicación de la TCT se encuentra en Calderón,A (2005), Bazán, J.L. (1997) y Lord y Novick (1968). Un texto sobre TCT de descarga libre se encuentra en Internet en: http://psicolectivo.com/apache2-default/uploads/Teoria-Clasica-de-los-Test.pdf Un programa que hace análisis de TCT se encuentra en: http://www.visualstats.org/ 2.1 Escala de percepción de peso Este segundo ejemplo se basa en los datos de la investigación de Martínez, P., Zusman, L., y Calderón, A. (2003), relativa a trastornos alimentarios, donde se aplicó el Inventario de Conductas Alimenticias de Zusman (2000) que mide riesgo de trastorno alimentario (Anorexia, Bulimia, etc.) y factores asociados en adolescentes mujeres. Los datos provienen de una muestra probabilística de 2,141 alumnas distribuidas entre 18 colegios públicos y 8

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) privados, obtenidos a partir del Padrón de Centros Educativos 1999 del Ministerio de Educación. La prueba tiene varias áreas o escalas y de ellas se ha seleccionado la llamada Escala de Peso, que registra la “percepción y preocupación por el peso, rutinas, temores, controles y conductas patológicas asociadas”. Su importancia radica en que si bien para la adolescente en riesgo el peso se convierte en la manifestación cuantitativa del problema que la perturba, sin embargo, por razones culturales y de globalización, el peso es una preocupación general de las adolescentes, tengan un trastorno o no. Para efecto de análisis las respuestas de las participantes han sido pasadas a formato de variable binaria Y , donde el valor 0 indica poca o nula frecuencia (Nunca, Casi nunca) y el valor 1 revela una mayor frecuencia (A veces, Casi siempre, Siempre) de la conducta registrada por el ítem. Los 15 ítems son: 01 Me preocupa mi peso. 02 Me peso todos los días. 03 Pienso que mi rendimiento escolar ha mejorado desde que he comenzado a bajar de peso. 04 Subo y bajo de peso con facilidad. 05 Acudo a médicos y/o centros especializados para bajar de peso. 06 Me gusta que mi ropa me quede suelta. 07 Siento angustia cuando subo de peso. 08 Tengo miedo de pesarme. 09 Siento que mis padres exageran cuando se preocupan por mi peso. 10 Mi familia está pendiente de lo que como. 11 Quiero bajar de peso. 12 Pienso que es mejor ser delgada que inteligente. 13 Controlo mi peso. 14 Las mujeres queremos estar más flacas. 15 Mis amigas me dicen que estoy muy delgada.

Para este tipo de dato, donde no hay una “habilidad” por medir y la persona lo sabe, la opción de acertar al azar no es razonable, por lo que se puede prescindir del parámetro de acierto ic . Por otra parte, no se puede garantizar que todos los ítems tienen similar discri-

minación ia , y naturalmente, la “dificultad” ib de cada ítem representa el mayor o menor riesgo asociado a la conducta específica que se mide. El modelo debe ser uno de dos parámetros y para efecto de este ejemplo, usaremos el modelo logístico

141,2,..,2,115...,2,11

1),,|1(

)(====

+== − njIi

ebaUYP

iji bUaiijij

Siendo jU el riesgo en que está la persona de padecer un trastorno alimentario, y ii ba , los

parámetros del ítem o pregunta i del test 2.2 Estimación bayesiana usando WinBUGS Usamos WinBUGS (http://www.mrc-bsu.cam.ac.uk/bugs/welcome.shtml) para la estimación bayesiana. Siguiendo las recomendaciones de Patz y Junker (1999) y de Albert y Ghosh (1992), la secuencia jerárquica de distribuciones que se carga en WinBUGS es:

)(~,,| ijiijij pBernbaUY

)1

1)( iji bUaij e

p −+=

http://www.mrc-bsu.cam.ac.uk/bugs/welcome.shtml�


)1,0(~ NU j

),0(~ 2

ai Na σ

),0(~ 2bi LogNb σ

donde se tomó 2=aσ y 2/1=bσ pues el tamaño de muestra de 2,141 casos hacía poco

sensibles los resultados a las especificaciones de 1bσ y

2bσ (Patz y Junker, 1999).

2.3 Comparación de ítems según TCT y según TRI En el Cuadro N0 1 se presenta una comparación de los indicadores de Riesgo y Discriminación estimados según la teoría clasica (TCT) y la teoría de respuesta al ítem (TRI). Nótese que en el caso del modelo TRI es posible obtener además una medida de dispersión para cada estimación, porque la TRI provee de una distribución para cada parámetro. Una consecuencia es que con la TRI es posible obtener intervalos de confianza para esos valores, algo que facilita las comparaciones entre ítems, que es una tarea importante cuando se está en la fase de construcción de una prueba. El gráfico N0 1 es una diagrama de dispersión que compara visualmente los indicadores de riesgo (proporción de positivos en la TCT y parámetro b1j en TRI) en sus respectivas escalas. Análogamente, el gráfico N0 2 compara los índices de discriminación (dj en TCT y b2j en TRI) .

Cuadro N0 1 Indicadores de Ítems según modelos Clásico y de Respuesta al Item

Items TCT IRT

Indice de Riesgo Item bi Discriminación Item aj

Riesgo Item Discriminación Media D. Estándar Media D. Estándar Item 01 0.67 0.61 -0.64 0.04 1.02 0.06 Item 02 0.12 0.20 1.23 0.04 0.37 0.04 Item 03 0.12 0.28 1.39 0.05 0.64 0.05 Item 04 0.47 0.52 0.08 0.03 0.53 0.04 Item 05 0.05 0.11 1.86 0.07 0.50 0.06 Item 06 0.51 0.42 -0.03 0.03 0.37 0.03 Item 07 0.54 0.83 -0.24 0.06 1.91 0.14 Item 08 0.42 0.72 0.31 0.04 1.08 0.06 Item 09 0.41 0.53 0.25 0.03 0.51 0.04 Item 10 0.59 0.38 -0.24 0.03 0.29 0.03 Item 11 0.62 0.76 -0.65 0.06 1.78 0.12 Item 12 0.19 0.35 1.01 0.04 0.59 0.04 Item 13 0.45 0.53 0.15 0.03 0.50 0.04 Item 14 0.86 0.27 -1.28 0.05 0.63 0.05 Item 15 0.78 0.24 -0.82 0.03 0.32 0.04


Gráfico N0 1 Riesgo según TRI vs Riesgo según TCT

0.1 0.3 0.5 0.7 0.9

Riesgo TCT

-2

-1

0

1

2

Rie

sgo

TR

I

23

4

5

67

89

10

11

12

13

14

151

23

4

5

67

89

10

11

12

13

14

15

Gráfico N0 2 Discriminación según TRI vs Discriminación según TCT

0.0 0.2 0.4 0.6 0.8

Discriminación TCT

0.0

0.5

1.0

1.5

2.0

Dis

crim

inac

ión

TR

I

2

345

6

7

8

9

10

11

1213

14

15

1

2

345

6

7

8

9

10

11

1213

14

15

El gráfico No 1 muestra que los valores del indicador de riesgo en TCT y TRI producen la misma jerarquización de los ítems y por tanto son igualmente interpretables. Destaca el ítem 5 (Acudo a médicos y/o centros especializados para bajar de peso) como un ítem referido a un mayor riesgo. El ítem 14 (Las mujeres queremos estar más flacas) es un ítem correspondiente a un menor riesgo de todos.

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) Nótese que el modelo TRI permite diferenciar valores de riesgo que la TCT no logra. Así por ejemplo, los items 2 y 3 tienen igual riesgo TCT pero distinta media b1 en TRI (ver los valores en el Cuadro No 1) El Cuadro No 1 y el gráfico No 2 muestran que los valores del indicador de discriminación en TCT y IRT no necesariamente producen la misma jerarquización de los ítems, así por ejemplo, en TCT el ítem 13 (Controlo mi peso) es más discriminador que el ítem 12 (Pienso que es mejor ser delgada que inteligente) pero en IRT es al revés. No se interpreta aquí la significación psicológica de estas frases, eso corresponde a un profesional del área, pero si se observan los riesgos, resulta que el ítem 12 también es más riesgoso y eso cuadra más con la idea extrema de preferir la delgadez a la inteligencia. En general, aunque el modelo TRI presente la misma información del modelo TCT, provee al constructor del test de otras informaciones que TCT no tiene, por ejemplo, Intervalos de confianza para riesgos y capacidad de analizar la separación entre ítemes. 2.4 Análisis de la Percepción de peso El Cuadro N0 2 muestra las estadísticas de las puntuaciones en la Escala de Percepción de Peso, estimadas según la teoría clásica (denominadas Scores en la psicometría) y según el modelo TRI (U). En ambos casos un mayor valor indica una mayor propensión al riesgo. Aunque las dos teorías generan puntuaciones, por construcción las del TRI están en la misma escala que la de los parámetros b1j de los ítems, cosa que no sucede en la TCT, donde los parámetros de los ítems son proporciones.

Cuadro N0 2 Estadísticas de puntuaciones según modelos

Estadísticas de Percepción de Peso TCT TRI

Score U Mínimo 0 -2.00 Máximo 15 2.48 Media 6.81 0.00 D. Estándar 3.01 0.88 Asimetría 0.06 0.02 Kurtosis -0.79 -0.78 Correlación 0.96

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) El gráfico N0 3 compara las puntuaciones obtenidas según los dos modelos, proporcionando además intervalos de confianza de 95% para las puntuaciones TRI.

Gráfico N0 3 Puntuaciones en TCT vs puntuaciones TRI

2103874115235210233216232223208176119446N =

Score en Percepción de Peso TCT

1514131211109876543210

I.C. d

e 95

% e

n P

erce

pció

n de

Pes

o T

RI

3

2

1

0

-1

-2

-3

Del cuadro 2, se ve que los scores TCT son números enteros que van de 0 a 15, pues se obtienen como la suma simple de los 15 ítems binarios. En cambio las puntuaciones TRI forman un continuo. Lo anterior es una diferencia fundamental entre ambas teorías, pues la TCT obliga a que muchas personas obtengan igual puntuación, aún cuando tengan riesgos distintos, cosa que no sucede en la TRI. El gráfico 2 muestra cómo personas con igual puntuación TCT sí llegan a ser diferenciadas con las puntuaciones TRI, por eso lo de los intervalos de confianza que ilustran lo que pasa. Aunque la correlación alta entre escalas indica que proporcionan prácticamente los mismos órdenes entre personas, la continuidad en el caso TRI permite diferenciar casos de modo muy fino, que es algo importante en el diagnóstico clínico.

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) 2.5 Análisis de Ítems en el modelo TRI

Gráfico N0 4 Diagrama de cajas de parámetros TRI de riesgo

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8][9]

[10]

[11]

[12]

[13]

[14]

[15]

box plot: b1

-2.0

-1.0

0.0

1.0

2.0

Gráfico N0 5

Diagrama de cajas de parámetros TRI de Discriminación

[1]

[2]

[3]

[4] [5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

box plot: b2

0.0

0.5

1.0

1.5

2.0

2.5


Gráfico N0 6 Diagrama de dispersión de parámetros TRI

de Riesgo vs Discriminación

-1.6 -1.1 -0.6 -0.1 0.4 0.9 1.4 1.9

Riesgo TRI

0.0

0.5

1.0

1.5

2.0

Dis

crim

inac

ión

TR

I

2

34 5

6

7

8

9

10

11

1213

14

15

1

2

34 5

6

7

8

9

10

11

1213

14

15

La comparación de items puede hacerse visualmente via intervalos de confianza en diagramas de caja. Así el gráfico 4 muestra las distribuciones posteriores de los parámetros de riesgo b1j de los ítems (el riesgo va en el eje vertical) y los ubica mostrando su extensión y posibles traslapes. El gráfico 5 hace algo análogo con las discriminaciones. Finalmente el gráfico 6 es como un “mapa” de ítems que los identifica en sus dos características importantes. Así tenemos por ejemplo, que el Item 14 es de menor riesgo y menor discriminación, que el Item 5 es de mayor riesgo y poco discriminativo, mientras que el Item 7 es de riesgo mediano y bastante discriminativo. REFERENCIAS Albert, J.H. & Ghosh, M. (2000). Item response modeling. En Generalized Linear Models: A Bayesian Perspective (D. Dey,S. Ghosh & Mallick, eds.), Marcel-Dekker, New York, 173-193. Bazán, J., Branco, M.D., Bolfarine, H. (2006). A skew item response model. Bayesian Analysis. 1, 861- 892.

Bazán, J., Bolfarine, H., Leandro, A. R. (2007). Sensitivity analysis of prior specification for the probit-normal IRT model: an empirical study. Estadística, Journal of The Inter-American Statistical Institute.

Bond, T.G and Fox, C.M (2005).Applying the Rasch Model: Fundamental Measurement in the Human Sciences.Lawrence Erlbaum Associates Calderón, A. (2005). Una aplicación del Modelo de Respuesta al Item en el diagnóstico de Trastornos Alimentarios. Tésis para optar al título de Ingeniero Estadístico. Universidad Nacional Agraria La Molina. Lima Bazán, J.L. (1997). Metodología estadística de construcción de pruebas. Tésis para optar al título de Ingeniero Estadístico. Universidad Nacional Agraria La Molina. Lima

Apéndice: Minicurso MODELOS DE TEORIA DE RESPUESTA AL ITEM BAJO ENFOQUE BAYESIANO – Jorge Bazan, Arturo Calderón y Luís Valdivieso. (PUCP) F.M. Lord y M.R. Novick. (1968). Statistical Theories of Mental Test Scores. Reading, M.A. Addison-Wesley. Martínez, P., Zusman, L., Calderón, A. (2003). Estudio Epidemiológico de los Trastornos Alimentarios y Factores Asociados en Lima Metropolitana. Revista de Psicología, 21, 235-269. PUCP. Lima. Patz, R. J., y Junker, B. W. (1999). A straightforward approach to Markov Chain Monte Carlo methods for item response models. Journal of Educational and Behavioral Statistics. 24, 146-178.

· La TRI considera una distribuci on de probabilidades para los valores de las variables mani...

Documents

Transcript of · La TRI considera una distribuci on de probabilidades para los valores de las variables mani...