Produção de Medidas de Desempenho Educacional pela Teoria da Resposta ao Item e sua utilização...

Post on 07-Apr-2016

213 views 0 download

Transcript of Produção de Medidas de Desempenho Educacional pela Teoria da Resposta ao Item e sua utilização...

Produção de Medidas de Desempenho Educacional pela Teoria da Resposta ao Item

e sua utilização para a melhoria da qualidade de ensino

III CONAVE – Congresso Nacional de Avaliação em Educação

CME – COORDENAÇÃO DE MEDIDAS EDUCACIONAISCAEd/UFJF (32)4009-2071

Wellington@caed.ufjf.br

• 1 – conceitos básicos • 2 - Modelos matemáticos da TRI• 3 – Interpretação de Resultados• 4 – Tendências das avaliações no Brasil

CONTEÚDO

1 - CONCEITOS BÁSICOS

1 - CONCEITOS BÁSICOS UTILIZADOS NA TRI

1 - CONCEITOS BÁSICOS

Fundamentos da TRI

• O que são itens?– São os elementos que compõem os testes ou questionários

• O que é proficiência?– É a medida que representa um determinado traço latente (aptidão)

• Teoria da Resposta ao Item (TRI)– Grupo de modelos matemáticos e estatísticos que descrevem a associação entre a aptidão de um indivíduo e a probabilidade de uma resposta a um item

1 - CONCEITOS BÁSICOS

PRINCIPAIS PRODUTOS DA TRI

- Interpretação pedagógica da escala

- Comparabilidade de resultados:

- Entre diferentes avaliações em um mesmo período de tempo

- Entre diferentes avaliações em diferentes períodos de tempo

1 - CONCEITOS BÁSICOS

Como se calcula a proficiência de um aluno?

• I - AVALIAÇÃO EM LARGA ESCALA

• II – TEORIA DA RESPOSTA AO ITEM - TRI

• III – INDICADORES DE DESEMPENHO

1 - CONCEITOS BÁSICOS

I –AVALIAÇÃO EM LARGA ESCALA

1 - CONCEITOS BÁSICOS

Como construir uma escala

1 - CONCEITOS BÁSICOS

Escala: altura de uma pessoa

• Item 1 Você consegue guardar as malas no bagageiro interno de um ônibus?

• Item 2 Você consegue subir ou descer dois degraus de cada vez em uma escada?

• Item 3 Para conversar com as pessoas, você precisa olhar para baixo?

1 - CONCEITOS BÁSICOS

Respostas do Questionário

Nome Item 1 Item 2 Item 3Carolina Sim Não Não

Priscila Sim Sim Não

Leonardo Sim Sim Sim

1 - CONCEITOS BÁSICOS

Escala: item x medidaNome Item 1 Item 2 Item 3

Carolina Sim Não Não

Priscila Sim Sim Não

Leonardo Sim Sim Sim

1,5 1,6 1,7 1,8 1,9

Item 1 Item 2 Item 3

Carolina Priscila Leonardo

1 - CONCEITOS BÁSICOS

Questionário de altura

1 - CONCEITOS BÁSICOS

3 – estimação dos parâmetros dos itens

1 - CONCEITOS BÁSICOS

Posição dos itens na escala

Guardar a bagagemPés fora da cama

Atrás na fila

17169 4 15 7 20 18

12

11

10

14 5 13 6 3 2 19 8

1

1,5 1,6 1,7 1,8 1,9

1 - CONCEITOS BÁSICOS

Posição dos itens e pessoas na escala

17169 4 15 7 20 18

12

11

10

14 5 13 6 3 2 19 8

1

1,5 1,6 1,7 1,8 1,9

1 - CONCEITOS BÁSICOS

II – TEORIA DA RESPOSTA AO ITEM - TRI

• HISTÓRICO TRI

• FUNDAMENTOS – TRI

• MEDIDAS E ESCALAS

1 - CONCEITOS BÁSICOS

Avaliações em larga escala com a TRI• Análise segundo a TRI – Lord (1952)

– Probabilidade de acerto ao item em função da habilidade– Posicionamento dos itens em função da dificuldade na mesma escala da proficiência• Década de 1970– Desenvolvimento de testes adaptativos• Década de 1980– Desenvolvimento de softwares específicos para TRI• Década de 1990– Desenvolvimento de testes informatizados (CBT’s) e testes adaptativos informatizados (CAT’s)

1 - CONCEITOS BÁSICOS

Características das avaliações em larga escala no Brasil

• Até 1993: TCT• A partir de 1995: TRI• INEP

• Avaliações estaduais e municipais MG (2000), CE (1992), RS, RJ, PE, SP, ES, BA.

1995 1997 1999 2001 2003 2005 2007 2009

SAEB

SAEB e Prova Brasil

1 - CONCEITOS BÁSICOS

Características das avaliações em larga escala no Brasil

1° Momento

2° Momento

3° Momento

1 - CONCEITOS BÁSICOS

BIB- SAEB ATÉ 2005

POS1 POS2 POS3 POS1 POS2 POS31 1 2 5 14 1 3 82 2 3 6 15 2 4 93 3 4 7 16 3 5 104 4 5 8 17 4 6 115 5 6 9 18 5 7 126 6 7 10 19 6 8 137 7 8 11 20 7 9 18 8 9 12 21 8 10 29 9 10 13 22 9 11 310 10 11 1 23 10 12 411 11 12 2 24 11 13 512 12 13 3 25 12 1 613 13 1 4 26 13 2 7

CADERNOBLOCOS

CADERNOBLOCOS

1 - CONCEITOS BÁSICOS

BIB- A PARTIR DE 2005

1 - CONCEITOS BÁSICOS

MEDIDAS E ESCALAS

• A ESCALA SAEB

• CONTRUÇÃO DE TESTES

1 - CONCEITOS BÁSICOS

ESCALA SAEB

• Matriz de referência• Design do teste

1 - CONCEITOS BÁSICOS

ESCALAS DE PROFICIÊNCIACurva normal

1 - CONCEITOS BÁSICOS

ESCALA SAEB

1 - CONCEITOS BÁSICOS

ESCALA SAEB

250 270190

1 - CONCEITOS BÁSICOS

ESCALA SAEB

2 – MODELOS MATEMÁTICOS

2 – MODELOS MATEMÁTICOS DA TRI

CME – COORDENAÇÃO DE MEDIDAS EDUCACIONAISCAEd/UFJF (32)4009-2071Wellington@caed.ufjf.br

2 – MODELOS MATEMÁTICOS DA TRI

Modelo

UIRT

MIRT

Dicotômico

Politômico

1 PL

2 PL

3 PL

Dicotômico

Politômico

Modelo de crédito parcial

Modelo de resposta ponderada

Modelo de resposta nominal

MODELOS MATEMÁTICOS

Modelo de crédito parcial generalizado

2 – MODELOS MATEMÁTICOS DA TRI

FUNDAMENTOS DA TRI

MÉTODOS DE ESTIMAÇÃO

PARÂMETROS DE ITENS

MML

MMAP

SCORES

ML

MAP

EAP

MODELO LOGÍSTICO

1LP

2LP

3LP

1LP

2LP

3LP

MÉTODOS DE LINKAGENS

LINEARES

REGRESSÃO LINEAR

MÉDIA/SIGMA

MÉDIA/MÉDIA

CURVA CARACTERÍSTICA

NÃO LINEARES

CALIBRAÇÃO SIMULTÂNEA

PRÉ-FIXAÇÃO DE PARÂMETROS - FPIP

Testes Unidimensionais compostos por itensdicotômicos

2 – MODELOS MATEMÁTICOS DA TRI

Relação não-linear

)(11)1(),,,/1( biaiDe

ciciciaibiXiP

2 – MODELOS MATEMÁTICOS DA TRI

MODELOS DA TRI – 3PL

0,5

1

Proficiência

Pro

babi

lidad

e de

A

certo

0,3

250

ITEM PARÂMETROSA B C

1 0,010 250 0,30

0,65

2 – MODELOS MATEMÁTICOS DA TRI

MODELOS DA TRI – 3PL

Proficiência

ITEM PARÂMETROSA B C

1 0,010 250 0,302 0,020 250 0,30

0,5

1

Pro

babi

lidad

e de

A

certo

0,3

250

0,65

1

2

2 – MODELOS MATEMÁTICOS DA TRI

MODELOS DA TRI – 3PL

Proficiência

ITEM PARÂMETROSA B C

1 0,010 250 0,302 0,020 250 0,303 0,020 350 0,30

0,5

1

Pro

babi

lidad

e de

A

certo

0,3

250

0,65

1

2

3

350

2 – MODELOS MATEMÁTICOS DA TRI

MODELOS DA TRI – 3PL

Proficiência

ITEM PARÂMETROSA B C

1 0,010 250 0,302 0,020 250 0,303 0,020 350 0,304 0,020 350 0,20

0,5

1

Pro

babi

lidad

e de

A

certo

0,3

250

0,65

1

2

4

3

350

2 – MODELOS MATEMÁTICOS DA TRI

ITENS DE UM TESTE

2 – MODELOS MATEMÁTICOS DA TRI

2 – MODELOS MATEMÁTICOS DA TRI

EXEMPLOS DE ITENS – discriminação boa

2 – MODELOS MATEMÁTICOS DA TRI

EXEMPLOS DE ITENS – discriminação ruim

2 – MODELOS MATEMÁTICOS DA TRI

FUNDAMENTOS DA TRI

MÉTODOS DE ESTIMAÇÃO

PARÂMETROS DE ITENS

MML

MMAP

SCORES

ML

MAP

EAP

MODELO LOGÍSTICO

1LP

2LP

3LP

1LP

2LP

3LP

MÉTODOS DE LINKAGENS

LINEARES

REGRESSÃO LINEAR

MÉDIA/SIGMA

MÉDIA/MÉDIA

CURVA CARACTERÍSTICA

NÃO LINEARES

CALIBRAÇÃO SIMULTÂNEA

PRÉ-FIXAÇÃO DE PARÂMETROS - FPIP

Testes Unidimensionais compostos por itensdicotômicos

2 – MODELOS MATEMÁTICOS DA TRI

Métodos de Estimação

11 2

1

( , ,..., | ) ( ) ( )si si

nu u

s s ns i s i si

L u u u P Q

)(11)1()( bisaiDe

cicisPi

)(11)1()1()( bisaiDe

cicisQi

• Verossimilhança

2 – MODELOS MATEMÁTICOS DA TRI

Métodos de Estimação

• Máxima Verossimilhança - ML

1

( 1| ) log ( ) (1 ) log ( )n

is is isi

LogL u u Pi u Qi

Métodos interativos

• Máxima Verossimilhança Marginal – MML

• Máxima Verossimilhança Conjunta

2 – MODELOS MATEMÁTICOS DA TRI

Métodos de Estimação

• Métodos Bayesianos

Distribuição à posteriori

Função de verossimilhança Prioris x

- Distribuições utilizadas nas prioris População: normal Parâmetros dos itens

o a – log-normalo b – normalo c – beta

• Máxima Distribuição Marginal à Posteriori – MMAP

• Máxima à Posteriori – MAP

• Esperado à Posteriori - EAP

2 – MODELOS MATEMÁTICOS DA TRI

FUNDAMENTOS DA TRI

MÉTODOS DE ESTIMAÇÃO

PARÂMETROS DE ITENS

MML

MMAP

SCORES

ML

MAP

EAP

MODELO LOGÍSTICO

1LP

2LP

3LP

1LP

2LP

3LP

MÉTODOS DE LINKAGENS

LINEARES

REGRESSÃO LINEAR

MÉDIA/SIGMA

MÉDIA/MÉDIA

CURVA CARACTERÍSTICA

NÃO LINEARES

CALIBRAÇÃO SIMULTÂNEA

PRÉ-FIXAÇÃO DE PARÂMETROS - FPIP

Testes Unidimensionais compostos por itensdicotômicos

2 – MODELOS MATEMÁTICOS

MÉTODOS DE LINKAGEM

• Cultura de uma escala única nacional – SAEB

• Características da avaliação em larga escala de 1995 a 2007

2 – MODELOS MATEMÁTICOS

Equalização Vertical

• Avaliações do SAEB• Testes com conteúdos diferentes• Testes com descritores diferentes• Populações não equivalentes

2 – MODELOS MATEMÁTICOS

Designs ou Delineamentos para coleta de dados

Design para grupos não equivalentes através de itens comuns

Forma X

Grupo 1 Grupo 2

Itens comunscomum

Forma Y

Itens comunscomum

2 – MODELOS MATEMÁTICOS

LINKAGEM

• Processo para colocar diferentes testes em uma mesma escala (equalização vertical)

• Método adotado: Vertical equating

DESIGN TESTE SAEPE 2008 LÍNGUA PORTUGUESA 4ª SÉRIE EF 8ª SÉRIE EF 3º ANO EM

ITENS COMUNS ENTRE GRUPOS

2 – MODELOS MATEMÁTICOS

TRI padrão SAEB

MÉTODOS DE ESTIMAÇÃO

PARÂMETROS DE ITENS

MML

MMAP

SCORES

ML

MAP

EAP

MODELO LOGÍSTICO

1LP

2LP

3LP

1LP

2LP

3LP

MÉTODOS DE LINKAGENS

LINEARES

REGRESSÃO LINEAR

MÉDIA/SIGMA

MÉDIA/MÉDIA

CURVA CARACTERÍSTICA

NÃO LINEARES

CALIBRAÇÃO SIMULTÂNEA

PRÉ-FIXAÇÃO DE PARÂMETROS - FPIP

Testes Unidimensionais compostos por itensdicotômicos

• Precisão do teste• Ajuste do teste à população• Interpretação de escala • Indicadores de desempenho

3 – Interpretação de resultados

PRECISÃO DO TESTE3 – Interpretação de resultados

AJUSTE DO TESTE COM A POPULAÇÃOAJUSTE DO TESTE COM A POPULAÇÃOTESTE BEM AJUSTADOTESTE BEM AJUSTADO

3 – Interpretação de resultados

AJUSTE DO TESTE COM A POPULAÇÃOAJUSTE DO TESTE COM A POPULAÇÃOTESTE DESAJUSTADOTESTE DESAJUSTADO

3 – Interpretação de resultados

INTERPRETÇÃO DA ESCALA

3 – Interpretação de resultados

Ancoragem dos itens na escala

• Estatística: PONTO DE ANCORAGEM DO ITEM: Proficiência que corresponde a uma probabilidade

de acerto de 65%

• Especialistas pedagógicos: Alocação dos itens na escala por descritor e ponto de

ancoragem

3 – Interpretação de resultados

3 – interpretação de resultados

INDICADORES DE DESEMPENHO

• Interpretação de medidas de desempenho• Série histórica SAEB• IDEB

Interpretação de medidas de desempenho educacional

Posição: média

Variação: percentuais por padrão de desempenho

3 – Interpretação de resultados

Interpretação de medidas de desempenho educacional

Posição: média

Variação: percentuais por padrão de desempenho

3 – Interpretação de resultados

Interpretação de medidas de desempenho educacional

Posição: média

Variação: percentuais por padrão de desempenho

3 – Interpretação de resultados

Interpretação de medidas de desempenho educacional3 – Interpretação de resultados

• Série histórica SAEB – Rede pública LÍNGUA PORTUGUESA

150.0

170.0

190.0

210.0

230.0

250.0

270.0

290.0

310.0

1995 1997 1999 2001 2003 2005 2007 2009

5ºEF

9ºEF

3ºEM

3 – Interpretação de resultados

Série histórica SAEB – Rede pública MATEMÁTICA

150

170

190

210

230

250

270

290

1995 1997 1999 2001 2003 2005 2007 2009

5ºEF

9ºEF

3ºEM

3 – Interpretação de resultados

IDEB• Forma geral do Ideb: IDEB = N . P

• N = média da proficiência em Língua Portuguesa e Matemática, padronizada para um indicador entre 0 e 10, no exame realizado ao final da etapa de ensino• P = indicador de rendimento baseado na taxa de aprovação da etapa de ensino

3 – Interpretação de resultados

3 – Interpretação de resultados

Evolução do Ideb - Brasil• Rede Pública – Anos Iniciais Ens. Fundamental

3 – Interpretação de resultados

Evolução do Ideb - Brasil• Rede Pública – Anos Finais Ens. Fundamental

3 – Interpretação de resultados

Evolução do Ideb - Brasil• Rede Pública – Ensino Médio

3 – Interpretação de resultados

Evolução do Ideb - Estados• Rede Pública – Anos Iniciais Ens. Fundamental

3 – Interpretação de resultados

• Utilização de itens politômicos• Subescalas• Criticidade de corretores• CAT

4 - Tendências

• Utilização de itens politômicos - Testes de escrita para alfabetização - Redação

4 - Tendências

• Subescala

• Leitura/escrita - Alfabetização• Física/Química/Biologia e História/Geografia Ensino médio padrão ENEM

4 - Tendências

• Criticidade de corretores - 3 facetas - consistência e coincidência - BIB de corretores

4 - Tendências