Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente...

191
Public Disclosure Authorized Public Disclosure Authorized Public Disclosure Authorized Public Disclosure Authorized

Transcript of Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente...

Page 1: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

Pub

lic D

iscl

osur

e A

utho

rized

Pub

lic D

iscl

osur

e A

utho

rized

Pub

lic D

iscl

osur

e A

utho

rized

Pub

lic D

iscl

osur

e A

utho

rized

wb394321
Typewritten Text
45411
Page 2: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

Preencha a fi cha de cadastro no fi nal deste livro

e receba gratuitamente informações

sobre os lançamentos e as promoções da Elsevier.

Consulte também nosso catálogo

completo, últimos lançamentos

e serviços exclusivos no site

www.elsevier.com.br

Page 3: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

CIP-Brasil. Catalogação-na-fonteSindicato Nacional dos Editores de Livros, RJ

A561d Anderson, Prue, 1954- Desenvolvimento de testes e questionários para avaliação do desempenho educacional / Prue Anderson e George Morgan ; tradução Maria Lúcia de Oliveira. – Rio de Janeiro : Elsevier, 2011. il. – (Pesquisas do Banco Mundial sobre avaliações de desempenho educacional ; v. 2)

Tradução de: Developing tests and questionaires for a national assessment of educational achievement Apêndice Inclui bibliografia ISBN 978-85-352-3961-4

1. Testes e medidas educacionais – Estados Unidos. 2. Avaliação educacional – Estados Unidos. 3. Rendimento escolar – Estados Unidos. I. Morgan, George, 1945-. II. Título. III. Série.

10-4461. CDD: 371.261 CDU: 37.091.26

Do original: Developing Tests and Questionnaires for a National Assessment of Educational AchievementCopyright © 2008, by The international Bank for Reconstruction and Development/The World BankPublicado originalmente em Inglês pelo Banco Mundial. Em caso de discrepâncias, prevalecerá a versão original em inglês.

Esta obra foi elaborada pela equipe do Banco Internacional para Reconstrução e Desenvolvimento/Banco Mundial. As afirmações, interpretações e conclusões aqui contidas não expressam necessariamente a opinião dos diretores executivos da instituição ou dos governos que eles representam. O Banco Mundial não garante a exatidão dos dados incluídos nesta publicação. As fronteiras, cores, denominações e outras informações mostradas em qualquer mapa neste estudo não implicam nenhuma opinião da parte do Banco Mundial em relação à situação jurídica de qualquer território, bem como o endosso ou a aceitação de suas fronteiras.

This work was originally published by The World Bank in English as National Assessments of Educational Achievement, Volume 2: Developing Tests and Questionnaires for a National Assessment of Educational Achievement in 2008. This Brazilian Portuguese translation was arranged by Elsevier Brazil. Elsevier Brazil is responsible for the quality of translation. In case of any discrepancies, the original language will govern.

The findings, interpretations, and conclusions expressed herein are those of the author(s) and do not necessarily reflect the views of the Executive Directors of The World Bank or the governments they represent. The World Bank does not guarantee the accuracy of the data included in this work. The boundaries, colors, denominations, and other information shown on any map in this work do not imply any judgement on the part of The World Bank concerning the legal status of any territory or the endorsement or acceptance of such boundaries.

Direitos e permissõesO material contido nesta publicação é protegido por direito autoral. A cópia e/ou transmissão sem permissão de uma parte ou de todo o conteúdo poderão ser consideradas violação da lei aplicável. O Banco Internacional para Reconstrução e Desenvolvimento/Banco Mundial estimula a disseminação desta obra e normalmente permitirá com rapidez a reprodução de trechos deste relatório. Para obter permissão de fotocópia ou reimpressão de qualquer parte deste livro, envie um pedido contendo informações completas para Copyright Clearance Center Inc., 222 Rosewood Drive, Danvers, MA 01923, USA; telefone: 978-750-8400; fax: 978-750-4470; Internet: www.copyright.com. Todas as outras perguntas sobre direitos e licenças, inclusive direitos subsidiários, devem ser dirigidas ao Office of the Publisher, The World Bank, 1818 H Street NW, Washington, DC 20433, USA.Fax: 202-522-2422; e-mail: [email protected].

© 2011, The International Bank for Reconstruction and Development/The World Bank

Todos os direitos reservados e protegidos pela Lei no 9.610, de 19/02/1998.

Copidesque: Shirley Lima da Silva BrazRevisão: Andréa Campos Bivar e Jussara BivarEditoração Eletrônica: Estúdio Castellani

Elsevier Editora Ltda.Conhecimento sem FronteirasRua Sete de Setembro, 111 – 16o andar20050-006 – Centro – Rio de Janeiro – RJ – Brasil

Rua Quintana, 753 – 8o andar04569-011 – Brooklin – São Paulo – SP – Brasil

Serviço de Atendimento ao [email protected]

ISBN 978-85-352-3961-4Edição original: ISBN 978-0-8213-7497-9

Page 4: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

AGRADECIMENTOS

Uma equipe conduzida por Vincent Greaney (consultor do Grupo de Educação da Rede de Desenvolvimento Humano do Banco Mun-

dial) e Thomas Kellaghan (Centro de Pesquisas Educacionais, St. Patrick’s College, Dublin) preparou a série da qual este é o Volume 2. Também con-tribuíram para a série: Sylvia Acana (Uganda National Examinations Board), Prue Anderson (Australian Council for Educational Research), Fernando Cartwright (Canadian Council on Learning), Jean Dumais (Statistics Can-ada), Chris Freeman (Australian Council for Educational Research), Hew Gough (Statistics Canada), Sara Howie (University of Pretoria), George Morgan (Australian Council for Educational Research), T. Scott Murray (UNESCO Institute e Statistics) e Gerry Shiel (Educational Research Cen-tre, St. Patrick’s College, Dublin). O trabalho foi realizado sob a direção geral de Ruth Kagia, diretora do Setor de Educação do Banco Mundial, e Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto de 2007. Marguerite Clarke supervisionou as últimas etapas, até a revisão e a publicação.

Somos gratos às contribuições do painel de revisão: Al Beaton (Bos-ton College), Irwin Kirsch (Educational Testing Service) e Benoit Millot (Banco Mundial). Comentários adicionais muito úteis foram feitos por

Page 5: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

Helen Abadzi, Regina Bendokat, Marguerite Clarke, Robin Horn, Eliza-beth King, Maureen Lewis, Harry Patrinos, Carlos Rojas, Jee-Peng Tan, Eduardo Velez e Raisa Venalainen.

Recebemos valiosos subsídios e apoio de Carly Cheevers, David Har-ding, Aidan Mulkeen, Aleksandra Sawicka, Thi Tran, Hilary Walshe e Hans Wagemaker.

Desejamos agradecer às seguintes instituições a permissão de repro-duzir seu material no texto: Australian Council for Educational Research (Conselho Australiano de Pesquisas Educacionais), Educational Resear-ch Centre, Dublin (Centro de Pesquisas Educacionais, Dublin); Inter-national Association for the Evaluation of Educational Achievement (Associação Internacional para Avaliação do Aproveitamento Escolar); Massachusetts Department of Education (Departamento de Educação de Massachusetts); National Center for Education Statistics of the U.S. Department of Education (Centro Nacional de Estatísticas de Educação do Departamento de Educação, EUA), Organisation for Economic Co-operation and Development (Organização para a Cooperação e o De-senvolvimento Econômico, OCDE) e Papua New Guinea Department of Education (Departamento de Educação de Papua Nova Guiné).

A diagramação, a edição e a produção dos livros foram coordenados por Mary Fisk e Paola Scalabrin, do Escritório de Publicações do Banco Mundial.

O Irish Educational Trust Fund; o Bank Netherlands Partnership Pro-gram; o Educational Research Center, Dublin, e o Australian Council for Educational Research deram generoso apoio à preparação e publica-ção desta série.

A tradução desta série para o português só foi possível com o genero-so apoio da Russia Education Aid for Development Trust Fund.

Page 6: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

PREFÁCIO

A qualidade de qualquer exercício de avaliação escolar depende da qualidade dos instrumen-tos utilizados. De fato, se esses instrumentos

estiverem mal concebidos, a avaliação pode ser uma perda de tempo e di-nheiro. Este livro descreve como desenvolver instrumentos tecnicamente robustos para uma avaliação nacional do aproveitamento escolar, com foco especial na realização dessa tarefa em países em desenvolvimento. O Volu-me 1 descreve os principais objetivos e características de avaliações nacionais e se destina principalmente a formuladores de políticas e responsáveis por decisões na área da educação. O segundo livro e a maior parte dos seguintes fornecem, passo a passo, os detalhes sobre desenho, implementação, análise e apresentação das constatações de uma avaliação nacional e se destinam principalmente às equipes de avaliação nacional.

Desenvolvimento de testes e questionários para avaliação do desempenho educacional aborda a elaboração de dois tipos de instrumentos de coleta de dados: testes de aproveitamento dos alunos e questionários sobre fa-tores socioeconômicos e contextuais. A Parte I cobre o desenvolvimento de um marco de referência da avaliação, a construção de uma tabela de especificações para o teste, a elaboração de itens, a realização do pré-teste (ou teste piloto) e a formatação do teste final. A Parte II delineia as etapas e atividades observadas na construção de questionários sobre fa-

Page 7: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

tores socioeconômicos e contextuais. Os questionários serão usados para obter informações sobre alunos, professores, diretores ou pais relativas a variáveis que poderiam ajudar a explicar as diferenças no desempenho dos alunos no teste de aproveitamento. A Parte III descreve como criar um manual para aplicação do teste, de forma a garantir que todos os alunos façam o teste em condições padronizadas.

O Volume 3 enfoca questões práticas que devem ser levadas em conta na implementação de um programa de avaliação nacional em larga escala, incluindo logística, amostragem e limpeza e gerenciamento de dados. O Volume 4 trata de como gerar dados sobre itens e sobre pontuações de tes-tes e como estabelecer relação entre as pontuações do teste e outros fatores educacionais. Finalmente, o Volume 5 aborda como redigir relatórios com base nas constatações da avaliação nacional e como usar os resultados para aprimorar a qualidade do processo decisório das políticas educacionais.

À medida que os leitores avançarem na leitura deste volume, deve fi-car evidente que o desenvolvimento de instrumentos de avaliação é um exercício complexo, que demanda muito tempo e requer conhecimentos, habilidades e recursos consideráveis. Ao lado disso, a experiência tem de-monstrado que os benefícios resultantes de instrumentos bem concebidos podem ser substanciais em termos da qualidade da informação fornecida sobre os níveis de aproveitamento dos alunos e sobre os fatores escolares e não escolares que poderiam contribuir para elevar aqueles níveis de apro-veitamento. Instrumentos de boa qualidade podem fazer com que as cons-tatações sejam vistas como mais confiáveis pelos formuladores de políticas e por outros interessados. Também podem aumentar a probabilidade de que os formuladores de políticas usem os resultados de uma avaliação nacional para desenvolver planos e programas sólidos destinados a aprimorar a quali-dade do ensino. Se os resultados dos testes e questionários alcançarem esses resultados, estarão mais que justificados o tempo e o esforço envolvidos em seu desenvolvimento.

Marguerite ClarkeEspecialista Sênior em Educação

Banco Mundial

Page 8: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

OS AUTORES E

ORGANIZADORES

AUTORES

Prue Anderson é pesquisadora sênior do Conselho Australiano de Pes-quisas Educacionais (Australian Council for Educational Research). Desenvolveu materiais de avaliação da leitura para programas de testes de sistemas educacionais com alunos dos ensinos fundamental e médio. Tem trabalhando com programas de acompanhamento educacional na Austrália, em Brunei, Papua Nova Guiné e nas Filipinas. Atualmente, é gerente de projetos do programa de Avaliação de Escolas Internacionais. Outras áreas de seu interesse profissional incluem (1) mapeamento de dados de avaliação e sua comparação com resultados do currículo e mar-cos de referência e (2) mensuração de resultados sociais da educação.

George Morgan é consultor educacional. Foi pesquisador sênior da Divi-são de Mensuração e chefe do Grupo de Desenvolvimento de Testes de Matemática e Ciências do Conselho Australiano de Pesquisas Educacio-nais durante quase 30 anos. Desenvolveu currículos de matemática e ciên-cias e materiais de avaliação em todos os níveis educacionais, e trabalhou com programas de testes em grande escala. Mais recentemente, tem-se dedicado a projetos de avaliação no Camboja, Timor Leste, na República Democrática Popular do Laos, em Papua Nova Guiné e Samoa.

Page 9: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

ORGANIZADORES

Vincent Greaney é consultor educacional. Foi especialista-chefe de edu-cação do Banco Mundial e trabalhou em diversos países da África, Ásia e do Oriente Médio. Ex-professor; pesquisador do Centro de Pesquisas Educacionais do St. Patrick’s College, Dublin; e professor visitante Ful-bright na Western Michigan University, Kalamazoo; é membro do Hall of Fame de Leitura da Associação Internacional de Leitura. Suas áreas de interesse incluem avaliação, educação de professores, leitura e promo-ção da coesão social por meio da reforma de livros didáticos.

Thomas Kellaghan é diretor do Centro de Pesquisas Educacionais do St. Patrick’s College, Dublin, e é membro da Academia Internacional de Educação. Trabalhou na University of Ibadan na Nigéria e na Queen’s University em Belfast. Suas áreas de interesse em pesquisa incluem ava-liações e exames, condições adversas para a educação e relações casa-es-cola. Foi presidente da Associação Internacional para Avaliação Escolar de 1997 a 2001. Trabalhou com questões de avaliação na África, Ásia, América Latina e no Oriente Médio.

Page 10: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

PARTE I: A CONSTRUÇÃO DE TESTES DE APROVEITAMENTO 1

1 INTRODUÇÃO 3

2 DESENVOLVIMENTO DE UM MARCO DE REFERÊNCIA

DA AVALIAÇÃO 9

Tabela de especificações do teste 11Validade 17Idioma do teste 17Formato do item 18População-alvo de alunos a ser avaliada 25Apresentação de resultados 26Contextos 27

3 ELABORAÇÃO DE ITENS 29

Grau de dificuldade do item 31Tendenciosidade do item 33Material de estímulo 33Formato do item 36Itens de prática 48Diagramação e elaboração dos itens 49A equipe de elaboração de itens 55Painéis de itens 59Outros revisores 62Rastreamento de itens 63

SUMÁRIO

Page 11: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

4 PRÉ-TESTE DE ITENS 67

Desenho do formulário do pré-teste 70Impressão e revisão do pré-teste 75Realização do pré-teste 78Pontuação do pré-teste 79Confiabilidade 84

5 SELEÇÃO DE ITENS DO TESTE 87

6 PRODUÇÃO DO TESTE FINAL 93

Desenho do teste final 93Impressão e revisão 96

7 PONTUAÇÃO MANUAL DOS ITENS DO TESTE 101

PARTE II: CONSTRUÇÃO DE QUESTIONÁRIOS

8 DESENHO DE QUESTIONÁRIOS 109

Conteúdo do questionário 111Tabela de especificações do questionário 116Itens do questionário 116Formato do item 119Idioma do questionário 120Respondentes 121Aplicação do questionário 122Plano de análise de dados 122

9 ELABORAÇÃO DE ITENS DE QUESTIONÁRIOS 125

Questões 126Afirmações 126Categorias de respostas 127Lidando com questões delicadas 129Diagramação do questionário 130Revisão dos questionários 131

10 CODIFICAÇÃO DAS RESPOSTAS DOS QUESTIONÁRIOS 133

Preparação dos questionários para a entrada de dados 135Códigos em branco ou respostas ambíguas 135

11 CORRESPONDÊNCIA ENTRE QUESTIONÁRIOS E

DADOS DO TESTE 137

Questionários dos alunos 137

Page 12: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

Questionários dos pais 138Questionários do professor e do diretor 139

PARTE III: DESENHO DE UM MANUAL PARA APLICAÇÃO

DO TESTE 141

12 O MANUAL DO APLICADOR DE TESTE 143

Conteúdo do manual 144Uso do manual 145Características de um manual 146Quanto de detalhe é necessário? 148Questões de prática 149Teste dos itens 149Revisão 151

13 O APLICADOR DO TESTE 153

Escolha do aplicador do teste 153Observação de instruções 154Garantia da qualidade 156Lista de verificação do aplicador 156

14 INFORMANDO AS ESCOLAS SOBRE A AVALIAÇÃO

NACIONAL 159

APÊNDICES

A GLOSSÁRIO 161

B LEITURA ADICIONAL 167

C EXEMPLOS DE ITENS DE TESTE E DE

QUESTIONÁRIO E MANUAIS DE APLICAÇÃO 171

Itens do teste de aproveitamento 172Questionários 173Manuais 173Agradecimentos 174

ÍNDICE 177

Page 13: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

QUADROS

2.1 Currículo de Matemática em Papua Nova Guiné 112.2 Currículo de Inglês da Nova Zelândia 122.3 Exemplos de Itens de Múltipla Escolha 192.4 Exemplo de um Item de Resposta Fechada 202.5 Exemplos de Questões Abertas de Resposta Curta 202.6 Exemplo de um Estímulo para Redação 213.1 Exemplo de Material de Estímulo Irrelevante 353.2 Exemplo de um Item com Informação Inexata ou Enganosa 353.3 Exemplo de um Item de Múltipla Escolha 373.4 Pontuação em Sentenças Completas 383.5 Pontuação numa Lista 383.6 Reduzindo a Leitura 393.7 Item com um Comando Negativo 393.8 Distratores Mal Emparelhados 403.9 Lidando com Pares de Distratores 403.10 Item Aberto Confuso com Instruções Pouco Claras 433.11 Bom Exemplo de um Item de Resposta Fechada 443.12 Item com Crédito Parcial 453.13 Exemplo de um Item de Resposta Aberta com Guia de

Pontuação 463.14 Exemplo de um Item Fechado com Guia de Pontuação 473.15 Uso de Imagens para Reduzir Palavras 513.16 Como Simplificar as Imagens 523.17 Como Dar Nomes Claros aos Gráficos 523.18 Como Dar Nomes Claros aos Mapas 533.19 Deixando Espaço no Material de Estímulo 543.20 Exemplo de Folha de Estilo para Elaboradores de Itens 584.1 Exemplo de um Item nos Formatos de Múltipla Escolha e Aberto 794.2 Exemplo de uma Folha de Entrada de Dados para o Pré-teste 816.1 Exemplo de uma Folha de Rosto de Teste 948.1 Atitudes e Valores da Tabela de Especificações do Questionário 1179.1 Alinhamento Ruim de Caixas e Categorias de Respostas 1309.2 Melhor Alinhamento de Caixas e Categorias de Respostas 13110.1 Exemplo de Codificação em Escala Cinza 13410.2 Exemplo de Tratamento de Itens como Categorias Separadas

para a Entrada de Dados 13412.1 Instruções do Manual de Aplicação 147

Page 14: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

12.2 Informação para Professores e Diretores 14812.3 Aplicação de Itens de Prática 14913.1 Lista de Verificação da Aplicação: Um Exemplo das Filipinas 157

FIGURAS

1.1 Fluxograma de uma Avaliação Nacional 41.2 Visão Geral das Atividades de Avaliação Nacional 54.1 Exemplo de Ligação Circular de Itens 714.2 Modelo para Ligação Vertical de Itens 73C.1 Guia dos Materiais Encontrados na Internet sobre Testes,

Questionários e Manuais 172

TABELAS

1.1 Etapas da Avaliação Nacional para Desenvolvimento de Teste e Elaboração de Questionário 6

2.1 Tabela de Especificações para um Teste de Matemática do Primeiro Ciclo do Ensino Fundamental 13

2.2 Tabela de Especificações de Matemática do TIMMS, 3a e 4a Séries 142.3 Tabela de Especificações do Conteúdo de Matemática em Papua

Nova Guiné 162.4 Vantagens e Limitações de Diferentes Formatos de Itens 242.5 Formato de Itens do Teste de Matemática de Papua Nova Guiné 254.1 Itens de Ligação em Duas Unidades de Leitura 744.2 Parte de uma Planilha para Rastrear Itens em Diferentes

Formulários 755.1 Exemplo de Resultado da Análise de um Item de Múltipla

Escolha 885.2 Exemplo de Resultado da Análise de um Item Aberto de Crédito

Parcial 908.1 Componentes do Desenvolvimento de Questionário 1128.2 Funções da Leitura num Estudo Internacional: Pesos Usados

para Criar Duas Novas Variáveis , “Leitura com um Objetivo Utilitário” e “Leitura por Prazer” 118

Page 15: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

ABREVIAÇÕES

ACPA Alocação do Caderno de Prova do Aluno

CCN Comissão de Coordenação Nacional

ID Número de Identificação

NAEP Avaliação Nacional do Progresso Educacional – Estados Unidos

PIRLS Estudo Internacional sobre o Progresso do Letramento em Leitura

PISA Programa Internacional de Avaliação de Alunos

TCT Teoria Clássica dos Testes

TIMSS Estudo das Tendências Internacionais no Estudo de Matemática e Ciências

TRI Teoria de Resposta ao Item

Page 16: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

P A R T E

I A CONSTRUÇÃO

DE TESTES DE

APROVEITAMENTO

Page 17: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

1 INTRODUÇÃO

Uma avaliação nacional envolve muitas ativi-dades, desde o momento em que se decide realizá-la até o momento em que alguém

começa a ler um relatório com as constatações. Cada livro desta série de cinco volumes descreve algumas das atividades envolvidas numa ava-liação nacional, com ênfase especial na realização dessa avaliação em países em desenvolvimento. Provavelmente, parte da tecnologia neces-sária para realizar uma avaliação nacional satisfatória em países que ca-recem de forte tradição em pesquisas educacionais empíricas não estará disponível localmente. Portanto, esta série buscou explicar em detalhes as atividades de uma avaliação e, onde se mostrar relevante, ajudar os leitores (que, presumimos, serão os responsáveis por pelo menos alguns dos aspectos de uma avaliação) a compreender por que é necessário de-senvolver essas atividades.

O Ministério da Educação ou a comissão de coordenação nacional (CCN) nomeada por ele terão, usualmente, a responsabilidade geral de orientar e apoiar uma avaliação nacional. Sob a supervisão do mi-nistério ou da CCN, a maior parte do trabalho será realizada por um órgão de implementação que, por sua vez, supervisionará o trabalho do gerente de desenvolvimento de teste, dos especialistas em cada dis-

Page 18: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

4 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

ciplina e dos especialistas em análise estatística, além de ser o respon-sável pelas providências logísticas envolvidas na realização da avaliação nacional. Este livro, Desenvolvimento de testes e questionários para ava-liação do desempenho educacional, cobre, basicamente, as atividades do gerente de desenvolvimento de teste e dos especialistas nas disciplinas, bem como as providências para o pré-teste (veja Figura 1.1). Outros tópicos que aparecem na Figura 1.1, tais como amostragem, aspectos logísticos da avaliação (inclusive o contato com as escolas) e entrada e limpeza de dados, são abordados no Volume 3, e o Volume 4 cobre a análise estatística.

O fluxograma mostrado na Figura 1.2 resume os vários passos de uma avaliação nacional. Muitos dos passos estão descritos neste livro; os qua-dros ou atividades reticuladas referem-se aos aspectos da avaliação que

FIGURA 1.1

Fluxograma de uma Avaliação Nacional

Fonte: Elaborado pelo autor.

Pré-teste do teste e deitens do questionário

Seleção de itens finaisInterpretação de resultados

Elaboração de relatório

Ministério da Educação/Comissão de Coordenação

Nacional

Órgão implementador/Líder da equipe

Desenvolvimento do teste/Gerente

Análise Logística

Especialistasnas disciplinas

Análise de currículo, desenvolvimento do marco

de referência, elaboração deitens, pré-teste, seleção deitens finais, interpretação

de resultados

AmostragemEntrada e limpeza

de dadosAnálise estatística

Administraçãodo pré-teste

Contato com as escolasImpressão

Page 19: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

FIG

UR

A 1

.2

Vis

ão G

eral

das

Ati

vid

ades

de

Ava

liaçã

o N

acio

nal

Font

e: A

utor

es.

5. O

ger

ente

de

dese

nvol

vi-

m

ento

de

test

e tr

eina

os

e

labo

rado

res

de it

ens.

1. O

Min

isté

rio d

a E

duca

ção

o

u a

CC

N in

dica

o ó

rgão

impl

emen

tado

r. O

líde

r da

e

quip

e e

o ór

gão

impl

e-

men

tado

r el

abor

am a

ver

são

prel

imin

ar d

o m

arco

de

refe

rênc

ia d

a av

alia

ção

n

acio

nal.

2. O

Min

isté

rio d

a E

duca

ção

o

u a

CC

N e

out

ros

c

onco

rdam

com

o m

arco

de

refe

rênc

ia (

incl

usiv

e a

r

espe

ito d

os te

mas

e d

a

pop

ulaç

ão-a

lvo

a se

r

test

ada)

.

3. O

órg

ão im

plem

enta

dor,

o

líde

r da

equ

ipe,

o g

eren

te

d

e de

senv

olvi

men

to d

e

test

e e

os e

spec

ialis

tas

n

as d

isci

plin

as e

labo

ram

a

v

ersã

o pr

elim

inar

da

tabe

la

d

e es

peci

ficaç

ões

dos

te

stes

e q

uest

ioná

rios.

4. O

s es

peci

alis

tas

nas

d

isci

plin

as a

nalis

am o

c

urrí

culo

e e

scla

rece

m

os

obje

tivos

.

6. O

ger

ente

de

dese

nvol

vi-

m

ento

de

test

e e

o líd

er

da

equi

pe s

uper

visi

onam

a

ver

são

prel

imin

ar d

os

iten

s, d

as q

uest

ões

e do

m

anua

l de

aplic

ação

.

10. O

líde

r da

equ

ipe

e o

gere

nte

de d

esen

volv

i-

m

ento

de

test

e su

per-

visi

onam

a e

labo

raçã

o

pr

elim

inar

da

vers

ão fi

nal

dos

itens

, que

stio

nário

s e

do m

anua

l de

aplic

ação

.

9. O

ger

ente

de

dese

nvol

vi-

m

ento

de

test

e su

perv

i-

sio

na a

rev

isão

de

itens

e

q

uest

ões

e re

aliz

a pr

é-

-te

stes

adi

cion

ais,

se

n

eces

sário

.

8. O

órg

ão im

plem

enta

dor

r

ealiz

a o

pré-

test

e.7.

O ó

rgão

impl

emen

tado

r

org

aniz

a pa

inel

de

r

evis

ão.

15. O

órg

ão im

plem

enta

dor

supe

rvis

iona

a a

plic

ação

da a

valia

ção

naci

onal

.

11. O

órg

ão im

plem

enta

dor

orga

niza

pai

nel d

e

re

visã

o.

12. O

órg

ão im

plem

enta

dor

sele

cion

a a

amos

tra

de e

scol

as.

13. O

órg

ão im

plem

enta

dor

prov

iden

cia

a im

pres

são

de te

stes

, que

stio

nário

s

e

man

uais

.

14. O

órg

ão im

plem

enta

dor

trei

na a

plic

ador

es d

e

te

ste

e qu

estio

nário

,

us

ando

o m

anua

l.

16. O

órg

ão im

plem

enta

dor

supe

rvis

iona

a p

ontu

ação

dos

test

es, g

rava

ndo

todo

s os

resu

ltado

s e

faze

ndo

a lim

peza

dos

dado

s.

20. O

Min

isté

rio d

a E

duca

ção

e ou

tros

util

izam

os

resu

ltado

s.

19. O

Min

isté

rio d

a

E

duca

ção

ou a

CC

N

pu

blic

a os

rel

atór

ios.

18. O

órg

ão im

plem

enta

dor

elab

ora

vers

ões

prel

imi-

nare

s de

rel

atór

ios

e os

subm

ete

ao M

inis

tério

da

Edu

caçã

o ou

à C

CN

e

ou

tros

par

a re

visã

o.

17. O

órg

ão im

plem

enta

dor

anal

isa

os d

ados

.

Page 20: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

TAB

ELA

1.1

Eta

pas

da

Ava

liaçã

o N

acio

nal p

ara

Des

envo

lvim

ento

de

Test

e e

Ela

bo

raçã

o d

e Q

uest

ioná

rio

Eta

pa

Ati

vid

ade

Dur

ação

ap

roxi

mad

a P

esso

as e

nvo

lvid

as

1Pr

epar

ar o

mar

co d

e re

ferê

ncia

da

aval

iaçã

o; e

scla

rece

r o o

bjet

ivo

da a

valia

ção

naci

onal

, dos

test

es

e qu

estio

nário

s; e

sel

ecio

nar a

po

pula

ção

a se

r ava

liada

.

4 se

man

asO

Min

isté

rio d

a Ed

ucaç

ão o

u a

CC

N, o

órg

ão im

ple

men

tad

or,

esp

ecia

lmen

te o

líd

er d

a eq

uip

e, o

ger

ente

de

des

envo

lvim

ento

de

test

e, o

s p

rinci

pai

s in

tere

ssad

os e

form

ulad

ores

de

pol

ítica

s

Cria

r a

tab

ela

de

esp

ecifi

caçõ

es

e fa

zer

amp

las

cons

ulta

s p

ara

apro

vaçã

o.

4 a

6 se

man

asO

Min

isté

rio d

a Ed

ucaç

ão o

u a

CC

N, ó

rgão

imp

lem

enta

dor

, ger

ente

d

e d

esen

volv

imen

to d

e te

ste,

gru

po

de

esp

ecia

lista

s, p

rofe

ssor

es

exp

erie

ntes

, esp

ecia

lista

s na

s d

isci

plin

as, a

nalis

ta d

e d

ados

, el

abor

ador

es d

e ite

ns c

om e

xper

iênc

ia, p

rinci

pai

s in

tere

ssad

os e

fo

rmul

ador

es d

e p

olíti

cas

2El

abor

ar it

ens

do

test

e e

do

que

stio

nário

.a12

a 1

4 se

man

as (2

0 a

30 it

ens

por

ela

bor

ador

p

or s

eman

a)

Ger

ente

de

des

envo

lvim

ento

de

test

e, e

spec

ialis

tas

nas

dis

cip

linas

, el

abor

ador

es d

e ite

ns e

prin

cip

ais

inte

ress

ados

Prod

uzir

pré

-tes

tes

e ve

rsão

p

relim

inar

de

que

stio

nário

s.4

sem

anas

Líd

er d

a eq

uip

e, g

eren

te d

e d

esen

volv

imen

to d

e te

ste,

ela

bor

ador

es

de

itens

, pro

fi ssi

onai

s d

e d

esig

n e

dia

gra

maç

ão, e

rev

isor

es

Imp

rimir

pré

-tes

tes

e ve

rsão

p

relim

inar

dos

que

stio

nário

s.2

sem

anas

Órg

ão im

ple

men

tad

or, l

íder

da

equi

pe,

ger

ente

de

des

envo

lvim

ento

d

e te

ste

e el

abor

ador

es d

e ite

ns

Emb

alar

e d

istr

ibui

r p

ré-

-tes

tes

e ve

rsão

pre

limin

ar d

os

que

stio

nário

s.

2 a

3 se

man

asÓ

rgão

imp

lem

enta

dor

3A

plic

ar p

ré-t

este

s e

vers

ão

pre

limin

ar d

os q

uest

ioná

rios

nas

esco

las.

2 a

3 se

man

asÓ

rgão

imp

lem

enta

dor

e a

plic

ador

es d

e te

ste

Man

ual d

e p

ontu

ação

de

itens

(s

e re

que

rida)

.2

sem

anas

Líd

er d

a eq

uip

e, g

eren

te d

e d

esen

volv

imen

to d

e te

ste,

esp

ecia

lista

s na

s d

isci

plin

as e

ela

bor

ador

es d

e ite

ns

Faze

r a

entr

ada

de

dad

os d

o p

ré-t

este

.1

sem

ana

Órg

ão im

ple

men

tad

or, a

nalis

ta d

e d

ados

e p

esso

al d

e en

trad

a d

e d

ados

Page 21: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

4A

nalis

ar d

ados

do

pré

-tes

te e

do

que

stio

nário

.2

sem

anas

Órg

ão im

ple

men

tad

or, a

nalis

ta d

e d

ados

, ela

bor

ador

es d

e ite

ns e

g

eren

te d

e d

esen

volv

imen

to d

e te

ste

Sele

cion

ar it

ens

par

a te

stes

e

que

stio

nário

s.2

sem

anas

Ger

ente

de

des

envo

lvim

ento

de

test

e, a

nalis

tas,

ela

bor

ador

es d

e ite

ns e

prin

cip

ais

inte

ress

ados

5Pr

oduz

ir te

stes

fi na

is,

que

stio

nário

s e

man

uais

de

aplic

ação

.

2 se

man

asÓ

rgão

imp

lem

enta

dor

, ger

ente

de

des

envo

lvim

ento

de

test

e,

pro

fi ssi

onai

s d

e d

esig

n e

dia

gra

maç

ão, r

evis

ores

e e

lab

orad

ores

de

itens

Imp

rimir

test

es e

que

stio

nário

s.4

sem

anas

Órg

ão im

ple

men

tad

or, l

íder

da

equi

pe,

e g

eren

te d

e d

esen

volv

imen

to d

e te

ste

Emb

alar

e d

istr

ibui

r te

stes

e

que

stio

nário

s.2

a 3

sem

anas

(d

epen

den

do

de

dis

tânc

ia e

ac

essi

bili

dad

e)

Órg

ão im

ple

men

tad

or e

ger

ente

de

des

envo

lvim

ento

de

test

e

6A

plic

ar t

este

s e

que

stio

nário

s em

esc

olas

.3

a 4

sem

anas

Órg

ão im

ple

men

tad

or, g

eren

te d

e d

esen

volv

imen

to d

e te

ste,

e

aplic

ador

es d

e te

ste

Pont

uaçã

o m

anua

l de

itens

(se

req

uerid

a).

3 a

4 se

man

asG

eren

te d

e d

esen

volv

imen

to d

e te

ste

e el

abor

ador

es d

e ite

ns

7En

trar

dad

os e

lim

par

.4

a 6

sem

anas

Ana

lista

de

dad

os e

pes

soal

de

entr

ada

de

dad

os

Ana

lisar

dad

os.

2 a

3 se

man

asA

nalis

ta d

e d

ados

, ela

bor

ador

es d

e ite

ns e

ger

ente

de

des

envo

lvim

ento

de

test

e

8Pr

oduz

ir re

lató

rios

fi nai

s.4

a 5

sem

anas

Ana

lista

de

dad

os, e

lab

orad

ores

de

itens

e g

eren

te d

e d

esen

volv

imen

to d

e te

ste

Font

e: A

utor

es.

a Ser

á ne

cess

ário

alo

car

tem

po

adic

iona

l se

os it

ens

tiver

em d

e se

r tr

aduz

idos

par

a ou

tros

idio

mas

.

Page 22: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

8 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

recebem a maior parte da atenção neste livro. O livro também oferece vários pontos de destaque ou comentários comuns a mais de um aspecto da avaliação; foram repetidos em vários capítulos ou seções para facilitar a compreensão do leitor interessado em um único aspecto da avaliação nacional.

Informações adicionais relacionadas com o desenvolvimento do teste e a elaboração de questionários são fornecidas na Tabela 1.1. A tabela descreve o processo de construção de testes de aproveitamento e ques-tionários em oito etapas e também indica as pessoas responsáveis pelos componentes.

Em http://go.worldbank.org/M2O1YDQO90 você encontrará mui-tos exemplos de itens, itens de questionário e manuais de aplicação de teste. Este material, obtido de avaliações nacionais e internacionais, é apresentado para familiarizar as equipes de avaliação nacional com itens e tipos de itens em diversas áreas de currículo e com questionários ela-borados para alunos, professores, escolas ou diretores e pais.

Page 23: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

2 DESENVOLVIMENTO

DE UM MARCO DE

REFERÊNCIA DA

AVALIAÇÃO

Para que se possa determinar os conteúdos de uma avaliação, é fundamental dispor de um marco de referência que forneça um quadro

geral ou plano para orientar o desenvolvimento de testes de avaliação, questionários e procedimentos (Linn e Dunbar, 1992; Mullis et al., 2006). Tal marco de referência ajuda a fornecer uma boa compreensão do conceito que está sendo avaliado (por exemplo, aproveitamento em leitura ou matemática) e dos vários processos associados ao conceito. Deve incluir uma definição do que está sendo avaliado, identificar as características das tarefas realizadas durante o desenvolvimento do teste e fornecer uma base para a interpretação dos resultados (Kirsch, 2001; Messick, 1987). Um marco de referência pode ajudar a explicar o ob-jetivo de uma avaliação. Pode facilitar discussões e o processo decisório entre os interessados nas questões educacionais, esclarecendo conceitos--chave antes que se dê início à avaliação. O marco de referência também pode identificar variáveis-chave que tenham a probabilidade de estar associadas aos resultados (a pontuação) do teste, e pode ajudar a garantir que essas variáveis sejam incluídas no projeto da avaliação nacional.

Inicialmente, a comissão de coordenação deve concordar quanto à definição do que deve ser medido. Em muitas situações, o documento

Page 24: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

10 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

de currículo nacional conterá definições das principais áreas. As defi-nições de leitura, por exemplo, têm variado ao longo do tempo e entre sistemas de educação. Em alguns casos, a leitura tem sido entendida como a habilidade de pronunciar palavras. Em outros, leitura se refere à habilidade de identificar palavras individuais e dar seu significado. A leitura também tem sido definida como a habilidade de compreender ou extrair significado de um texto. Definições mais recentes vão além de simples habilidades de decodificação e incluem a habilidade de usar a informação contida nos textos, bem como desenvolver uma compre-ensão sobre eles. Também reconhecem que alunos e adultos leem por motivos diversos – por prazer ou para obter informação, por exemplo. Essas novas definições refletem-se em testes que incluem diferentes for-matos de textos, como pequenos contos, excertos de jornais, anúncios, sinais e gráficos.

O objetivo para o qual os dados serão coletados deve estar claro no desenvolvimento do teste. Consultas preliminares com os principais in-teressados e grupos de especialistas são um primeiro passo crucial para esclarecer o objetivo de uma avaliação nacional e, consequentemente, o que o teste deve avaliar, o que deve ser avaliado, quando deve ser avaliado e em que idioma os testes devem ser feitos. Especialistas em currículo devem ser envolvidos nessas decisões, bem como formuladores de políticas e gestores de educação, que terão condições de usar os resul-tados de uma avaliação como base para políticas educacionais, alocação de recursos e implementação de reformas.

As avaliações nacionais podem ser ferramentas poderosas para avaliar a eficácia de alguns aspectos do currículo. Avaliações bem concebidas também podem reforçar as intenções do currículo ao modelar os tipos de habilidades e entendimentos que os alunos devem ser capazes de demonstrar. Esses tipos de habilidades e os contextos nos quais são ava-liados devem operar em conjunto para apoiar objetivos abrangentes de políticas educacionais em áreas-chave de aprendizado. Os exemplos de alguns contextos abrangentes para a realização de avaliações nacio-nais, apresentados nos Quadros 2.1 e 2.2, refletem diversas prioridades educacionais.

Page 25: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 11

TABELA DE ESPECIFICAÇÕES DO TESTE

A tabela de especificações do teste é o documento fundamental que orienta o desenvolvimento do teste, a análise e a elaboração de rela-tórios. Descreve os dados que precisam ser coletados, define a exten-são do teste e especifica a proporção de itens que tratarão dos vários aspectos de um currículo. Uma boa tabela de especificações deve indicar o seguinte:

A proporção de itens de teste no formulário final que tratam de cada ��área de currículo (por exemplo, matemática, linguagem, ciências).A proporção de itens dentro da área de currículo que avaliam dife-��rentes habilidades (por exemplo, em matemática – número, medida, espaço e padrão; na escrita – ideias, conhecimento do conteúdo, es-trutura, estilo, vocabulário, soletração e gramática).

QUADRO 2.1

Currículo de Matemática em Papua Nova Guiné

O currículo cultural básico de matemática em Papua Nova Guiné para 2003 tem o seguinte fundamento geral:

Todos os cidadãos têm o direito de participar do futuro desenvolvimento da Pa-pua Nova Guiné. Por isso, os alunos precisam desenvolver sólidos conhecimentos de matemática, bem como habilidades e compreensões matemáticas.... Os alunos no nível fundamental serão capazes de associar novos conceitos matemáticos con-tidos nos cinco elementos deste programa a seu conhecimento cultural, de modo que sintam segurança para usar a matemática na vida diária. O curso de Cultura Matemática Elementar fornece muitas oportunidades para um aprendizado re-levante e objetivo baseado nos princípios da vida familiar. (Papua Nova Guiné, Departamento de Educação 2003: 2.)

O foco deste fundamento (combinado com documentos ministeriais de políticas e com uma substancial reestruturação do ensino fundamental) é inserir a matemática primária na vida cultural dos alunos das aldeias. As reformas têm dado prioridade à integração da matemática primária e da cultura local e à aplicação de entendi-mentos matemáticos à vida diária. Uma recente avaliação nacional desenvolvida para monitorar o aproveitamento dos alunos enfatizou o uso de contextos realistas para as questões e a avaliação de habilidades e entendimentos que tenham apli-cações práticas.

Page 26: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

12 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

QUADRO 2.2

Currículo de Inglês da Nova Zelândia

Os objetivos gerais do currículo de inglês da Nova Zelândia afirmam:

Os alunos devem ser capazes de se envolver com a linguagem, apreciá-la em seus variados aspectos e compreender, responder e usar a linguagem oral, escrita e visual efetivamente em diferentes contextos. (Nova Zelândia, Ministério da Edu-cação 2002: 9.)

Esses objetivos destacam a importância do interesse e do prazer na leitura e na com-preensão de uma ampla variedade de textos. Textos atraentes e tarefas significativas e prazerosas são considerações-chave nas avaliações nacionais de inglês. A ênfase na linguagem em todas as suas variedades reflete um forte compromisso com o reconhe-cimento e a valorização da cultura oral dos alunos Maori, bem como das formas escrita de inglês. Várias avaliações nacionais refletem esses objetivos.

A proporção de itens que tratam de diferentes habilidades de proces-��samento cognitivo (como conhecimento ou recuperação/memória, interpretação ou reflexão).A proporção de itens de múltipla escolha e itens abertos.��A proporção de itens destinados a diferentes tipos de textos de estí-��mulo em leitura (como narrativo, expositivo, processual e argumen-tativo) ou em matemática (como tabelas, gráficos e diagramas).

A tabela de especificações do teste detalhada na Tabela 2.1 baseia--se num currículo de matemática para as séries intermediárias da escola primária. Subtestes separados foram concebidos para medir as habili-dades dos alunos de fazer cálculos básicos, compreender conceitos ma-temáticos e solucionar problemas. Por exemplo, a célula formada pela interseção da área de conteúdo “Frações” e o comportamento intelectual “Habilidade de resolver problemas de rotina” representa o objetivo “Ha-bilidade de resolver problemas de rotina que envolvem frações”. Um comitê de especialistas nas disciplinas, que incluía professores, decidiu devotar cinco itens àquele objetivo. A célula que contém itens que tes-tam a habilidade de realizar operações com números inteiros recebeu a ponderação mais alta (25 itens). Muitas células ficaram vazias (sem itens). Os pesos relativos da importância atribuída a cada objetivo orien-

Page 27: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

TAB

ELA

2.1

Tab

ela

de

Esp

ecif

icaç

ões

par

a um

Tes

te d

e M

atem

átic

a d

o P

rim

eiro

Cic

lo d

o E

nsin

o F

und

amen

tal

Co

mp

ort

amen

tos

inte

lect

uais

Co

mp

utaç

ãoC

onc

eito

sSo

luçã

o d

e p

rob

lem

as

Áre

as d

e co

nteú

do

Co

nhec

i-m

ento

d

e te

rmo

s e

fato

s (A

1)

Hab

ili-

dad

e p

ara

real

izar

o

per

açõ

es

(A2

)To

tal

Co

mp

reen

-sã

o d

e co

ncei

tos

mat

emá-

tico

s (B

1)

Co

mp

reen

-sã

o d

e p

rinc

ípio

s m

atem

á-ti

cos

(B2

)

Co

mp

reen

-sã

o d

e es

trut

ura

mat

emá-

tica

(B

3)

Hab

ili-

dad

e d

e tr

aduz

ir

elem

ento

s d

e um

fo

rmul

ário

p

ara

out

ro

(B4

)

Hab

ili-

dad

e d

e le

r e

inte

rpre

tar

grá

fi co

s e

dia

gra

mas

(B

5)

Tota

l

Hab

ili-

dad

e d

e re

solv

er

pro

ble

mas

d

e ro

tina

(C

1)

Hab

ili-

dad

e d

e an

alis

ar

e fa

zer

com

pa-

raçõ

es

(C2

)

Hab

ili-

dad

e d

e re

solv

er

pro

ble

mas

o

roti

neir

os

(C3

)To

tal

Tota

l g

eral

1. N

úmer

os

in

teiro

s1

2526

14

72

418

142

218

62

2. F

raçõ

es 4

44

1 2

7 5

5 1

6

3. D

ecim

ais

8 8

51

6 5

19

4. M

edid

a2

23

2 5

3 3

10

5. G

eom

etria

02

2 4

0

4

6. M

apas

e

grá

fi cos

0 0

4 4

4

Tota

l ger

al3

3740

77

145

740

276

235

115

Font

e: C

entr

o d

e Pe

squi

sas

Educ

acio

nais

197

8: 4

4.

Page 28: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

14 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

taram o desenvolvimento do teste e, posteriormente, a compilação da versão final do teste.

A tabela de especificações de matemática do TIMMS (Tendências In-ternacionais no Estudo de Matemática e Ciências)1 mostrada na Tabela 2.2 define o formato dos itens e os processos cognitivos a serem avalia-dos nas 3a e 4a séries de uma forma um tanto diferente.

Claramente, as tabelas de especificações variam, dependendo de como se compreenda o conceito que está sendo medido e o objetivo da avaliação. Todas as pessoas envolvidas no desenvolvimento do teste devem compreender e aprovar as implicações de uma tabela de espe-cificações no que se refere ao que deve ser testado e ao que deve ficar de fora.

TABELA 2.2

Tabela de Especificações de Matemática do TIMMS, 3a e 4a Séries

Expectativas de desempenho

Número total de itensa

Itens de múltipla escolha

Itens de resposta

curta Itens de resposta

dissertativa

Conhecimento 42 35 7 0

Desempenho de procedimentos rotineiros

16 13 3 0

Uso de procedimentos complexos

24 21 2 1

Solução de problemas 20 10 3 7

Fonte: IEA, http://timss.bc.edu/timss1995i/TIMSSPDF/AMitens.pdf.a O número de itens refl ete o total do conjunto usado para formar 26 agrupamentos de teste em oito diferentes cadernos de prova. Nenhum aluno tinha de fazer o teste completo.

Dadas as limitações de tempo e recursos, não é possível testar todos os subelementos de uma área de currículo ou todos os tópicos cobertos num programa. Os itens do teste sempre devem referir-se às habilidades principais. Especialistas em currículo ou em disciplinas específicas de-vem ser consultados para determinar quais são essas habilidades.

A importância dada na tabela de especificações da avaliação nacional aos subelementos ou domínios de um currículo também depende da for-ma como os dados do teste serão apresentados (por pontuação total ou por domínio do currículo). Os formuladores de políticas educacionais

Page 29: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 15

devem ser consultados para se saber como gostariam que os dados do teste fossem apresentados.

Se os dados do teste forem apresentados como uma pontuação única para cada aluno numa área de currículo (matemática, por exemplo), então são necessários pelo menos 25 ou 30 itens. Quando se pretende apresentar resultados sobre um subelemento, como a compreensão so-bre espaço ou a capacidade de solucionar problemas num teste de mate-mática, poderia ser usado um número menor de itens.

A Tabela 2.3 fornece o exemplo de uma tabela de especificações para um teste de matemática para alunos das 3a, 5a e 8a séries em Papua Nova Guiné. Note-se que, no teste da 3a série, mais de 80% dos itens cobrem número e aplicação, espaço e forma, e medida. Somente quatro itens se referem a acaso e padrões. À altura da 8a série, os itens estão distribuídos mais uniformemente entre os subelementos.

Em geral, as tabelas de especificações se baseiam num currículo prescrito (ou pretendido). No entanto, se o currículo implementado (o que os professores ensinam) e o currículo alcançado (o que os alunos aprenderam) não são levados em consideração, um teste pode ser muito difícil ou muito fácil. Assim, não fornecerá uma descrição significativa da gama de aproveitamentos dos alunos na população--alvo. Se a maior parte dos alunos deixar de responder aos itens cor-retamente, o teste não revelará se esses alunos são capazes de de-monstrar habilidades que estão logo abaixo, ou bem abaixo, do nível de dificuldade dos itens no teste. Do mesmo modo, se a maior parte dos alunos responder a todos os itens corretamente, o teste não indi-cará se são capazes de demonstrar habilidades que estão logo acima, ou bem acima, da dificuldade dos itens do teste. Quando os dados de testes são muito difíceis ou muito fáceis, têm uso limitado para formuladores de políticas, escolas ou professores.

O grau de dificuldade do teste depende de seu objetivo. Se o objetivo é monitorar o desempenho de todos os alunos na população-alvo, então a distribuição de dificuldade dos itens do teste deve corresponder à dis-tribuição do aproveitamento da população-alvo. Como regra geral, dois terços do teste devem consistir em itens que dois terços da população teriam entre 30% e 70% de probabilidade de responder corretamente.

Page 30: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

16 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

(Na média, a probabilidade deve ser de 50%, pois isso ajudará a maxi-mizar a variação das pontuações nos testes dos alunos.) A outra terça parte do teste deve estar uniformemente dividida entre itens que mais de 70% dos alunos que fazem o teste tenham a probabilidade de respon-der corretamente e itens que menos de 30% tenham a probabilidade de responder corretamente. Embora a sensibilidade ao aproveitamento dos alunos refletida nesses números seja importante, não deve levar à exclu-são de áreas importantes do currículo simplesmente porque os alunos se saem muito mal ou muito bem nelas. A adequação de itens deve ser estabelecida no programa de pré-teste, em que os itens são aplicados a alunos com características similares às encontradas na população-alvo da avaliação nacional.

TABELA 2.3

Tabela de Especificações do Conteúdo de Matemática em Papua Nova Guiné

SérieNúmero e aplicação

Espaço e forma Medida Acaso

Padrões e álgebraa

Total de itens

3a série 10 7 4 2 2 25

5a série 10 10 7 4 4 35

8a série 10 10 8 6 6 40

Fonte: Material não publicado do Departamento de Educação em Papua Nova Guiné.a Álgebra é aplicada somente na 8a série.

Algumas avaliações nacionais estabelecem níveis de aproveitamento ou desempenho com base num padrão predefinido e identificam alunos que alcançaram esse padrão. Se o padrão é muito alto, o teste identi-ficará o pequeno número de alunos que demonstram esse nível de ha-bilidade, mas dará pouca informação sobre o nível de aproveitamento do restante da população: apenas informará que o nível está abaixo do padrão. Se o padrão for baixo, o teste identificará o grande número de alunos que demonstram esse nível de habilidade, mas dará pouca infor-mação sobre quaisquer níveis mais altos de habilidade que esses alunos poderiam também ter alcançado.

Page 31: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 17

VALIDADE

Validade é um conceito amplo que envolve fazer interpretações das pon-tuações ou das informações de testes e lhes dar usos adequados (Mes sick, 1989). Uma faceta da validade é a medida em que o conteúdo de um teste é representativo do currículo ou do conceito que está sendo medi-do. O gerente de desenvolvimento de teste deverá coordenar-se com um grupo de referência de especialistas nas disciplinas (como especialistas em currículo, por exemplo), a fim de garantir que os itens constituam amostra adequada de um currículo ou conceito. O grupo de especialistas não deve incluir os elaboradores de itens. Neste caso, a validade é uma questão associada a uma decisão, e não a algo de natureza estatística. O grupo de especialistas deve decidir se o teste representa a cobertura adequada de um tema especificado (como matemática da 4a série) e deve considerar se o desempenho no teste fornece evidência adequada do aproveitamento dos alunos na área temática.

IDIOMA DO TESTE

O marco de referência do teste deve esclarecer e justificar o idioma a ser usado num teste de avaliação nacional, ou mais de um, se for o caso. O idioma de um teste é, em geral, o meio de instrução. A tradução de itens do teste nos casos em que a instrução ocorre em vários idiomas tende a ser cara e consumir muito tempo. As versões de testes traduzidos preci-sam ser tão equivalentes quanto possível se os dados forem usados com propósitos comparativos. A seguir, estão algumas questões que devem ser levadas em conta para decidir se o teste de uma área particular do currículo será feito em um idioma ou em mais de um.

Avaliar alunos de séries mais avançadas num mesmo idioma de ins-��trução pode ser preferível se os recursos forem limitados.Reduzir as palavras usadas em itens do teste ao mínimo possível pode ��reduzir os custos de tradução, mas, em geral, isso descontextualiza o item, tornando o teste menos autêntico.

Page 32: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

18 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Excluir alguns alunos da população-alvo da avaliação nacional pode ��ser preferível a tentar acomodar todos os grupos linguísticos.Às vezes, o idioma pretendido de instrução não é o idioma realmente ��usado no ensino. Nessas situações, os itens do teste de avaliação na-cional poderiam usar o idioma real de instrução.No caso de alunos mais jovens, especialmente se o idioma de instru-��ção não for seu primeiro idioma, o teste pode ser aplicado oralmente. O aplicador do teste lê cada questão em voz alta ou usa um gravador e dá aos alunos tempo suficiente para responder. Essa forma de as-sistência pode ser especialmente adequada para testes de matemática e ciências aplicados a alunos das séries iniciais, que talvez consigam demonstrar maior grau de domínio da disciplina num teste aplicado oralmente que noutro no qual teriam de ler os itens por conta pró-pria. É óbvio que testes destinados a avaliar as habilidades de leitura independente dos alunos não devem ser aplicados oralmente.

FORMATO DO ITEM

Em avaliações que usam papel e lápis, os alunos respondem a uma sé-rie de questões ou estímulos. Suas respostas escritas ou desenhadas são usadas como evidência de seu nível de conhecimento, competência ou compreensão. Existem quatro formatos básicos de itens, ou modos de os alunos registrarem suas respostas:

Múltipla escolha��Resposta fechada��Resposta curta aberta��Redação ou resposta dissertativa��

Itens de múltipla escolha (veja Quadro 2.3) requerem que os alunos selecionem uma entre várias (em geral, quatro) opções. As opções po-dem estar escritas ou ser mostradas como imagens com títulos. Podem ser listadas numa coluna, mostradas como uma fileira horizontal ou apresentadas em duas colunas. O aluno indica sua resposta sombreando

Page 33: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 19

uma bolha, desenhando um círculo em torno de uma letra ou número, ou assinalando um quadro para selecionar um segmento de texto ou um diagrama. Os itens de múltipla escolha têm uma única opção inequivo-camente “correta” e várias outras plausíveis, mas incorretas. Em http://go.worldbank.org/M2O1YDQO90 você encontrará muitos exemplos de itens de múltipla escolha de linguagem, matemática e ciências para alunos do ensino fundamental.

Itens de respostas fechadas (veja Quadro 2.4) têm uma resposta cor-reta gerada pelo aluno. Pequenas variações na forma como a resposta é apresentada são, em geral, aceitáveis. Pode-se pedir aos alunos que escrevam uma ou duas palavras, sublinhem uma palavra ou um número num texto ou numa tabela, desenhem uma linha ou um quadriculado, ou indiquem uma área de um diagrama. Itens de respostas fechadas tam-bém podem requerer que os alunos selecionem várias opções que aten-dam a certos critérios ou combinem uma série de pares de sentenças ou diagramas. (Em http://go.worldbank.org/M2O1YDQO90, veja os itens 6, 9, 11 e 19 relativos ao Teste de Matemática da NAEP 1990–2000 para a 4a série e os itens C011032 e C031053 no Teste de Ciências do TIMSS 2003 para a 4a série.)

QUADRO 2.3

Exemplos de Itens de Múltipla Escolha

1. O que teria maior probabilidade de ser medido em mililitros?

A. A quantidade de líquido numa colher de chá

B. O peso (massa) de um alfinete

C. A quantidade de gasolina num tanque

D. A espessura de 10 folhas de papel.

Fonte: IEA 1998, item da amostra.Nota: A é a resposta correta.

2. Uma caixa de suco de laranja custa R$3,35. Um pão de forma custa R$2,75. Qual dos valores a seguir é o menor de que você precisa para comprar o suco de laranja e o pão?

R$5,75 R$7,00 R$6,10 R$6,00

Fonte: Conselho Australiano de Pesquisas Educacionais, s.d., item da amostra.Nota: A resposta correta é R$6,10.

Page 34: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

20 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

QUADRO 2.4

Exemplo de um Item de Resposta Fechada

Esta é uma sentença numérica:

2.000 + � + 30 + 9 = 2.739

Que número deve ser colocado onde está o � para que a sentença seja verdadeira?

Resposta: _________________

Fonte: IEA 1998, item da amostra.

Questões abertas de resposta curta (veja Quadro 2.5) requerem que os alunos gerem uma resposta para a qual pode haver várias opções diferentes e corretas. Em geral, a resposta correta requer alguma explicação, a demons-tração de um processo ou um desenho detalhado (mais de uma ou duas linhas). Podem requerer que o aluno escreva uma ou duas sentenças; com-plete uma série de passos ou equações; ou complete vários aspectos de um mapa, gráfico ou diagrama. (Em http://go.worldbank.org/M2O1YDQO90, veja os itens 6, 7 e 11 em “Apêndice B: Resgate de Golfinho”, Itens da Amostra de Leitura Internacional da 4a série do PIRLS 2006.)

QUADRO 2.5

Exemplos de Questões Abertas de Resposta Curta

a. Como você pode saber a idade de uma árvore depois que ela é cortada?

_____________________________________________________________________

_____________________________________________________________________

b. Escreva um exemplo de como as máquinas ajudam as pessoas em seus trabalhos.

_____________________________________________________________________

_____________________________________________________________________

Fonte: IEA 1998, item da amostra.

Itens de resposta dissertativa ou redação (veja Quadro 2.6) reque-rem que os alunos desenvolvam uma resposta extensa, às vezes com-plexa, a um estímulo (prompt, na expressão em inglês). A resposta pode cobrir uma ou mais páginas de texto, possivelmente incluindo

Page 35: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 21

diagramas. Existem muitos modos “corretos” de responder numa re-dação ou dissertação. (Em http://go.worldbank.org/M2O1YDQO90, veja a questão 9, “Um Juiz Justo”, Itens de Leitura do PISA Internacio-nal de Leitura 2000, e itens 33, 35 e 39 em Leitura Principal, NAEP 1990-2006: 4a Série.)

QUADRO 2.6

Exemplo de um Estímulo para Redação

Os estímulos para redação podem ser escritos ou ilustrados. É importante que os alu-nos compreendam o tipo de elaboração que se está pedindo que façam. Por exem-plo, pode-se pedir aos alunos que expliquem suas ideias, expressem uma opinião, escrevam um argumento persuasivo ou uma história. Em geral, essa informação é dada como parte das instruções de aplicação do teste.

A imagem do estímulo mostrada no exemplo foi usada em Papua Nova Guiné a fim de avaliar as habilidades linguísticas dos alunos para elaborar uma história narrativa. O aplicador do teste disse aos alunos que poderiam usar as ideias contidas na figura ou elaborar suas próprias ideias para uma história sobre caçada.

Escreva uma história sobre uma caçada.

Fonte: Papua Nova Guiné, Departamento de Educação, 2004.

Page 36: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

22 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Os primeiros três formatos de itens são mais comumente usados em avaliações nacionais, em parte devido ao custo de se fazer uma pontuação manual confiável de um grande número de redações. O documento que contém o marco de referência do teste deve indicar os percentuais estima-dos de diferentes tipos de itens no teste final. Deve também incluir amos-tras de tipos de itens para ajudar os membros da comissão de coordenação e outros interessados a se familiarizarem com a abordagem da avaliação.

A escolha do formato do item e a forma como os itens são pontuados alteram significativamente o custo total do teste. Itens que requerem pontuação manual custam mais e tomam mais tempo, atrasando, assim, a publicação de um relatório. É preciso desenvolver guias de pontuação manual, e os avaliadores têm de ser contratados e treinados. Quanto mais complexo o guia de pontuação, maiores os custos. Itens que envol-vem redação e resposta dissertativa tendem a ser os mais caros. Custa menos pontuar itens de múltipla escolha, mas sua construção é mais dis-pendiosa que a de outros tipos de itens. A seguir, apresentamos algumas questões relativas ao custo dos itens que devem ser levadas em conta no processo de seleção do formato dos itens para o teste.

Itens de múltipla escolha são, em geral, pontuados como corretos ou incorretos pelos programas de computação que fazem análise de dados. Não é necessário pontuar os itens antes da análise. Basta entrar com as respostas dos alunos num computador. Essas respostas são registradas eletronicamente com um escâner ou, então, a entrada é feita manual-mente. O escaneamento é mais econômico para testes de grande escala; requer equipamento especial e, às vezes, suporte técnico. Itens escanea-dos podem ser limitados a um formato particular de resposta (como sombrear bolhas). Se a entrada de dados for feita manualmente, pode-se usar uma maior variedade de estilos de múltipla escolha (como desenhar círculos em torno de palavras, marcar quadros ou traçar linhas para se-lecionar opções).

Itens de múltipla escolha não devem ser simplesmente pontuados como corretos ou incorretos antes da análise de dados. Podem ser ob-tidas valiosas informações diagnósticas sobre o desempenho dos alunos quando se registra cada opção. Se os dados estiverem sendo escaneados, deve-se garantir que todas as respostas sejam registradas. O custo da

Page 37: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 23

entrada manual de dados para itens de múltipla escolha fica reduzido quando se usa uma diagramação consistente.

Os itens de respostas fechadas devem ser pontuados manualmente por-que diversas respostas diferentes podem ser aceitáveis. Os guias de pon-tuação devem especificar a faixa de respostas aceitáveis e inaceitáveis. Em geral, a faixa de possíveis opções corretas para itens de resposta fechada é limitada. Os guias de pontuação são relativamente simples e claros, e o tempo de treinamento dos avaliadores pode ser razoavelmente breve, mas os controles de qualidade têm de ser implementados e mantidos.

Os itens abertos de resposta curta são pontuados manualmente. O nú-mero e a variedade de respostas aceitáveis e inaceitáveis podem ser grandes. Assim, os guias de pontuação podem ser bastante complexos e requerer cuidadoso treinamento dos avaliadores. A permanente verificação cruzada durante a classificação é essencial para o controle de qualidade.

Os itens com resposta dissertativa têm guias de pontuação complexos e exigem treinamento detalhado dos avaliadores. É essencial que se faça uma permanente classificação dupla de algumas ou de todas as redações durante a pontuação para garantir o controle de qualidade. Os manuais de pontuação também precisam ser detalhadamente elaborados para que se tenha um treinamento eficaz. Devem incluir exemplos de respostas que correspondam a cada um dos níveis do guia de pontuação.

Diferentes formatos de itens podem ser combinados no mesmo teste. Por exemplo, um teste pode consistir em alguns itens de múltipla escolha, alguns itens de respostas fechadas e algumas questões abertas de resposta curta.

Os elaboradores de itens devem se esforçar para garantir que o forma-to de cada item do teste ajude a avaliar, de forma adequada e eficiente, determinado resultado do aprendizado. Também devem tentar mini-mizar a quantidade de leitura, escrita ou contas desnecessárias para se responder a um item em particular.

As decisões sobre qual formato ou formatos usar num teste e em que proporção usá-los devem basear-se tanto na adequação do formato para medir um conceito, uma área de conhecimento ou habilidade, quanto nas limitações práticas (por exemplo, a qualificação requerida para desenvolver diferentes formatos de itens e o custo da pontuação manual). A Tabela 2.4 resume algumas vantagens e limitações de formatos de itens.

Page 38: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

TAB

ELA

2.4

Van

tag

ens

e Li

mit

açõ

es d

e D

ifer

ente

s Fo

rmat

os

de

Iten

s

Form

ato

do

item

Van

tag

ens

Lim

itaç

ões

Múl

tipla

esc

olha

Mui

tos

itens

de

um t

este

pod

em a

valia

r

�um

a am

pla

var

ied

ade

de

resu

ltad

os d

o ap

rend

izad

o.O

s ite

ns p

odem

faze

r d

istin

ções

sut

is

entr

e co

nhec

imen

tos

e co

mp

reen

sões

dos

al

unos

.N

ão s

e re

que

r p

ontu

ação

man

ual,

e o

test

e fi c

a re

lativ

amen

te b

arat

o.

É ne

cess

ário

ter

com

pet

ênci

a p

ara

des

envo

lver

iten

s d

e al

ta q

ualid

ade.

Os

alun

os n

ão g

eram

com

pre

ensã

o.

�O

s al

unos

pod

em t

enta

r ad

ivin

har.

Resp

osta

fech

ada

(resp

osta

com

um

a ou

d

uas

pal

avra

s)O

s p

róp

rios

alun

os lo

caliz

am a

info

rmaç

ão

ou s

e le

mb

ram

del

a.A

pon

tuaç

ão m

anua

l é r

elat

ivam

ente

fáci

l.

Os

itens

em

ger

al a

valia

m u

ma

gam

a

�lim

itad

a d

e re

sulta

dos

(bas

icam

ente

, re

cup

eraç

ão e

lem

bra

nça)

.

Itens

ab

erto

s d

e re

spos

ta c

urta

(res

pos

ta c

om

uma

ou d

uas

sent

ença

s)Po

dem

req

uere

r q

ue o

s al

unos

ger

em a

ltos

níve

is d

e co

mp

reen

são.

Os

itens

pod

em a

valia

r um

a va

ried

ade

de

resu

ltad

os.

A c

omp

reen

são

par

cial

às

veze

s p

ode

ser

med

ida.

Req

uer-

se c

omp

etên

cia

par

a es

crev

er it

ens

clar

amen

te fo

caliz

ados

nece

ssár

io d

isp

or d

e av

alia

dor

es

trei

nad

os e

med

idas

de

cont

role

de

qua

lidad

e, o

que

ele

va o

s cu

stos

.Ite

ns q

ue r

eque

rem

tem

po

par

a o

alun

o

�re

spon

der

red

uzem

a g

ama

de

resu

ltad

os

que

pod

em s

er a

bor

dad

os.

Red

ação

ou

resp

osta

dis

sert

ativ

aA

luno

s p

odem

dem

onst

rar

a p

rofu

ndid

ade

de

sua

com

pre

ensã

o.Po

de-

se m

edir

uma

gam

a d

e

�co

mp

reen

sões

par

ciai

s.

Pod

e-se

ab

ord

ar u

ma

gam

a lim

itad

a d

e

�re

sulta

dos

nece

ssár

io d

isp

or d

e av

alia

dor

es

trei

nad

os e

med

idas

de

cont

role

de

qua

lidad

e, o

que

ele

va o

s cu

stos

.

Font

e: A

utor

es.

Page 39: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 25

Os testes de matemática de Papua Nova Guiné têm diferentes pro-porções de questões de múltipla escolha e questões abertas de resposta curta, dependendo da série avaliada (veja Tabela 2.5). A 8a série tem mais itens que a 3a. A maior parte desse aumento é representada pelo maior número de itens abertos de resposta curta.

O tempo de que os alunos dispõem para responder ao teste deve ser suficiente para permitir que a maior parte deles tente responder ao máximo de itens. É importante obter informação sobre o tempo que os alunos levam para responder aos itens do pré-teste. Os testes variam em extensão, mas os alunos devem ser capazes de tentar responder à maio-ria dos itens em cerca de 40 minutos. Testes que contêm basicamente itens de múltipla escolha podem conter mais itens que aqueles em que predominam os itens de resposta curta. Os testes para alunos do ensino médio podem incluir mais itens, e os alunos podem ter mais tempo para responder às questões. Se os alunos não estiverem familiarizados com o formato dos itens de uma avaliação, provavelmente precisarão de mais tempo para responder aos itens.

TABELA 2.5

Formato de Itens do Teste de Matemática de Papua Nova Guiné

Série Múltipla escolha Aberto de resposta curta

3a série 20 5

5a série 25 10

8a série 25 15

Fonte: Papua Nova Guiné, Departamento de Educação, 2004.

POPULAÇÃO-ALVO DE ALUNOS A SER AVALIADA

O documento que contém o marco de referência do teste deve definir a população-alvo para a avaliação (por exemplo, 4a série) e deve indicar por que essa população em particular foi selecionada. Em determinado país, o documento com o marco de referência poderia, por exemplo, justificar a seleção da 3a série com base no fato de que, após essa série, a taxa de evasão é considerável; poderia justificar o teste na 4a série por-

Page 40: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

26 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

que, a essa altura, a maior parte dos alunos deve conseguir ler; ou pode-ria justificar um teste durante a 8a série para avaliar o aproveitamento do aprendizado dos alunos nesse importante ponto do sistema educacional. O documento do marco de referência também poderia especificar sub-populações de alunos que poderiam ser excluídos da amostra nacional, como alunos com necessidades educacionais especiais ou alunos de es-colas pequenas em áreas muito remotas.

APRESENTAÇÃO DE RESULTADOS

Desde o início, deve-se chegar a um acordo com a comissão de coorde-nação sobre como os resultados devem ser apresentados. Na Irlanda, a Avaliação Nacional de Leitura em Inglês apresentou pontuações sepa-radas relativas a tipo de texto e processo cognitivo. O documento do marco de referência da avaliação propôs avaliar duas escalas de tipo de texto (literário e informativo) e duas escalas de processo (recuperação de informação e inferência-interpretação) para a 1a série. Na 5a série, propôs avaliar três subescalas de tipo de texto (literário, informação--contínuo e informação-descontínuo) e três escalas de processo (recupe-ração de informação, inferência e interpretação-avaliação) (Eivers et al., 2005). A Pesquisa Internacional de Letramento de Adultos usou textos não contínuos para avaliar o desempenho na escala de documentos. O marco de referência para o Estudo Internacional sobre o Progresso do Letramento em Leitura (PIRLS) especificava que classificaria os itens do teste em função dos dois objetivos de leitura: leitura como experiên-cia literária e leitura para adquirir e usar informação. Também propôs combinar as duas escalas e dar uma pontuação geral de letramento em leitura (Campbell et al., 2001).

A comissão de coordenação deve ser informada de que a apresen-tação de resultados por subescalas depende dos resultados da análise de itens. Avaliações internacionais e muitas avaliações nacionais usam a modelagem de resposta ao item para determinar se os itens do teste se ajustam adequadamente às subescalas. Nessa etapa, a comissão de coordenação poderia receber uma introdução não técnica ao conceito

Page 41: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 27

de apresentação de resultados por níveis de aproveitamento, usualmente chamados de níveis de proficiência, e seria pedido a seus membros que definissem a forma preferida de apresentação dos resultados do teste. O desempenho dos alunos poderia ser descrito em função do percentual de itens respondidos corretamente ou dos níveis, como avançado (excede o padrão esperado), proficiente (alcança o padrão esperado), básico (não alcança o padrão esperado) ou abaixo do básico (desempenho abaixo do nível básico). O número de níveis de proficiência talvez tenha de ser revisto em função dos resultados do pré-teste e da análise do teste final. O Volume 4 desta série cobre tanto a teoria de resposta ao item quanto os níveis de proficiência.

O marco de referência também deve indicar os tipos de relatórios da avaliação nacional a serem publicados ao final de uma avaliação. Esses relatórios poderiam incluir um relatório técnico; uma série de relatórios resumidos para audiências específicas, como treinadores de professores, órgãos encarregados de currículos e formuladores de políticas; e notas de imprensa e sessões informativas.

CONTEXTOS

Muitos formuladores de políticas educacionais usam as avaliações na-cionais para obter informações contextuais adicionais sobre fatores que podem afetar ou influenciar diretamente a qualidade do aprendizado dos alunos em áreas de currículo específicas. A comissão de coordenação deve dar uma orientação geral sobre a seleção das variáveis contextuais a serem avaliadas. Essa informação, por sua vez, pode ser usada pelo órgão implementador para orientar o desenvolvimento do questionário. Infor-mações contextuais podem interessar particularmente a formuladores de políticas que buscam compreender as razões das diferenças nos níveis de aproveitamento dos alunos.

Muitas avaliações enfocam o contexto familiar dos alunos e da esco-la. Fatores familiares normalmente incluem situação socioeconômica, às vezes medida em função dos bens existentes no domicílio, nível de edu-cação dos pais, idioma falado em casa, estrutura e tamanho da família,

Page 42: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

28 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

ajuda para os estudos em casa, processos familiares (como leitura para as crianças e outras formas de orientação que encorajem o aprendizado) e relações casa-escola.2 Os contextos da escola frequentemente incluem recursos da escola e da sala de aula, administração e organização da es-cola, natureza e nível de treinamento dos professores, estratégias instru-cionais e ambiente na sala de aula. Algumas avaliações coletam dados sobre atitudes dos alunos com relação à escola e à área temática indivi-dual, interesses e comportamentos (por exemplo, o total de tempo gas-to fazendo trabalhos domésticos, trabalhando ou lendo por prazer). Os detalhes de como conceber e redigir os itens do questionário serão vistos mais adiante neste livro. Em http://go.worldbank.org/M2O1YDQO90 você também poderá encontrar exemplos de itens de questionário des-tinados a obter informação contextual sobre alunos, pais, professores e diretores.

NOTAS

1. Após o terceiro estudo, esta série de estudos passou a se chamar Tendências Interna-cionais no Estudo de Matemática e Ciências, e a sigla TIMSS foi mantida.

2. Note-se que, em alguns países, existe uma resistência à ideia de se coletarem dados sobre as características socioeconômicas.

Page 43: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

3 ELABORAÇÃO DE ITENS

Este capítulo descreve as características de bons itens num teste, as diretrizes para a elaboração de itens, a estruturação e organização de itens

que comporão um teste, e a pontuação de itens.1 Também descreve os papéis do pessoal envolvido no desenvolvimento do teste – a equipe de elaboração de itens e outros revisores –, que trabalha sob a orientação do gerente de desenvolvimento de teste.

Deve-se ter em mente que a qualidade de um teste depende, em grande medida, de quão claramente atenda a seu objetivo e da exatidão com que os itens correspondam a uma tabela de especificações bem concebida. Os itens de boa qualidade são claros, relevantes para o currí-culo e focalizam um aspecto claramente definido do aprendizado. Eles apresentam tarefas atraentes, genuínas, e não distinguem entre alunos de diferentes contextos idiomáticos e culturais.

Um bom item tem as seguintes características:

Avalia uma área-chave de aprendizado.��Apresenta uma tarefa construtiva e significativa.��Pode ser facilmente associado a importantes características contidas nos ��documentos do marco de referência ou na tabela de especificações.

Page 44: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

30 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

É justo.��O estímulo gira em torno de questões centrais, e não de detalhes ��periféricos ou triviais.Deixa claro para os alunos o que se pede deles.��Tem sentido intrínseco e não depende da compreensão de algo que ��constituía a base de um item anterior.Se for um item sobre vocabulário, é direcionado para o significado da ��palavra no contexto do texto, e não para um conhecimento geral.De preferência, é expresso em termos positivos, pois formas negati-��vas tendem a causar confusão.

Os elaboradores de itens podem se beneficiar muito com o exame de modelos relevantes de itens de alta qualidade. Muitas organizações de testes publicam amostras de itens na internet. Itens de teste liberados para uso público também podem ter origem em testes internacionais, como o TIMMS (Tendências Internacionais no Estudo de Matemática e Ciências), o PISA (Programa Internacional de Avaliação de Alunos) e o PIRLS (Estudo Internacional sobre o Progresso do Letramento em Leitura), e em avaliações nacionais de outros países, como a Avaliação Nacional do Progresso Educacional (NAEP) dos Estados Unidos. Em http://go.worldbank.org/M2O1YDQO90, você pode encontrar muitos exemplos de itens dessas e de outras fontes. Endereços na internet são fornecidos no Apêndice B.

Itens de teste liberados para uso público podem ser usados em outros testes, desde que o conteúdo e o fraseado sejam adequados. Esse tipo de material pode ser uma fonte barata e útil de itens de teste. Com frequência, esses itens (junto com as respostas) estão disponíveis na internet. Portanto, não devem ser usados caso haja a probabilidade de os alunos terem acesso a eles antes de fazer um teste de avaliação nacional. Também é possível obter a permissão de autoridades relevantes para usar itens adequados de testes seguros. Essa abordagem pode ser mais barata que o desenvolvimento de itens. No entanto, especialistas em currículo precisarão rever esses itens e fazer um teste prévio para avaliar sua adequação.

Leva tempo até que se adquira sólida experiência na elaboração de itens para cada seção de uma tabela de especificações. Os elaboradores

Page 45: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 31

de itens devem ter um entendimento comum da terminologia de itens e daquilo que os itens pretendem medir. Para alcançar essa compreensão, devem tentar classificar cada item rascunhado à medida que vão sendo desenvolvidos, usando critérios como os seguintes:

Formato do item (por exemplo, múltipla escolha, fechado, aberto).��Tipo de texto (para um teste de leitura) (por exemplo, narrativo, ��descritivo).Série pretendida (por exemplo, 5�� a série).Produto do aprendizado (por exemplo, soma de números inteiros de ��dois dígitos ou identificação da ideia central numa história).Processo cognitivo (por exemplo, conhecimento, lembrança, inter-��pretação ou síntese).

Não há como saber, em todas as situações, o nível de processamento cognitivo envolvido na resposta a um item. Se os alunos não tiverem familiaridade com um processo, como resumir um parágrafo de infor-mação, isso pode exigir um nível de processamento mais alto do que se estiverem acostumados a fazer resumos.

GRAU DE DIFICULDADE DO ITEM

Chegar ao nível adequado de dificuldade para os itens é uma tarefa desa-fiadora para a maior parte dos elaboradores de itens. Em muitos países, o conteúdo do currículo pretendido é muito difícil para a maioria dos alunos. Como consequência, os elaboradores de itens frequentemente têm de elaborar muitos itens para medir habilidades mais fáceis que as listadas nos currículos pretendidos. Por exemplo, testes de aproveita-mento em matemática concebidos para a 5a série muitas vezes incluem itens baseados em objetivos que os alunos deveriam ter dominado nas 3a e 4a séries.

Professores experientes, mais que funcionários da área de educação ou acadêmicos, apresentam maior probabilidade de ter uma boa percepção dos prováveis graus de dificuldade dos itens. No entanto, o julgamento

Page 46: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

32 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

do professor, embora possa ser útil, não é adequado. A realização de um pré-teste dos itens em amostras de alunos com características aproxima-damente iguais às da população-alvo é essencial para se obterem dados preliminares objetivos sobre os graus de dificuldade dos itens. Isso pode ajudar a evitar o erro comum de se desenvolverem testes com itens que depois se revelam muito difíceis.

Dependendo de inúmeros fatores, alguns itens considerados simples pelo elaborador de itens podem acabar se mostrando bastante difíceis. Do mesmo modo, itens concebidos para ser difíceis podem ser fraseados ou apresentados de tal modo que se revelem bastante fáceis. No caso de itens que usam o formato de múltipla escolha, os elaboradores devem evitar o seguinte:

Introduzir dicas gramaticais ou lógicas no comando e na chave que ��apontem a resposta correta, como um comando que corresponde a uma palavra no singular e todas as opções, menos uma, apresentadas como plurais.Introduzir termos absolutos, como “sempre” ou “nunca”, que pode-��riam eliminar algumas opções ou apontar a resposta correta.Fazer a resposta correta muito mais longa ou mais detalhada que as ��demais opções.Incluir uma palavra ou frase-chave extraída do material de estímulo ��na opção correta, mas não nas outras opções.Apresentar as opções numa ordem ilógica ou num padrão confuso.��Fazer com que as opções e a chave se superponham significativamen-��te, de modo que discernir a “melhor” resposta dependa de habilidades linguísticas, e não do conhecimento sobre o que está sendo testado.Incluir questões que podem ser respondidas sem referência ao estí-��mulo.

No caso de respostas construídas, é importante desenvolver critérios claros de pontuação que produzam como resposta aquilo que o item se destina a medir.

Page 47: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 33

TENDENCIOSIDADE DO ITEM

Os alunos trazem para o teste uma grande diversidade de conhecimen-tos e entendimento cultural. Eles não devem ser penalizados ou privile-giados caso tenham experiências de vida que não sejam relevantes para o conhecimento, as habilidades e os entendimentos que o teste pretende avaliar. Por exemplo, itens sobre um esporte masculino popular pode-riam deixar as meninas em desvantagem.

Os itens também podem ser tendenciosos quando perturbam ou in-comodam alguns alunos, mas não outros. O material de estímulo não deve violar sensibilidade ética, cultural ou de qualquer outro tipo. Não deve haver qualquer possibilidade de que alguns alunos possam se sentir ofendidos, amedrontados ou perturbados pelo material do teste. O ge-rente de desenvolvimento de teste deve sensibilizar os elaboradores de itens quanto às várias formas de tendenciosidade. Os painéis de revisão devem ser encorajados a ficar atentos a itens do teste ou do questioná-rio que possam ser tendenciosos ou ofensivos. O Volume 4 desta série apresenta uma técnica estatística que pode ser usada para ajudar a iden-tificar itens tendenciosos tanto na etapa de pré-teste quanto durante a elaboração do teste final.

MATERIAL DE ESTÍMULO

O material de estímulo fornece o contexto para um item. Pode ser parte de um texto, um diagrama, um gráfico, uma tabela, um mapa ou uma combinação de tudo isso.

Em geral, o desenvolvimento do teste começa com a seleção ou criação do material de estímulo adequado. Os testes de leitura usu-almente se baseiam em textos longos que se prestam a uma série de itens ou a uma unidade que cobre uma gama de habilidades rele-vantes. Os testes de matemática e ciências podem incluir material de estímulo curto, como vários números a serem somados ou uma equação a ser completada. Itens de matemática e ciências também podem incluir um estímulo mais complexo, como um gráfico, um

Page 48: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

34 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

mapa, uma tabela ou um diagrama com uma série de itens associados relativos a diversas habilidades.

O material de estímulo deve apresentar claramente a principal carac-terística a ser avaliada. Não deve conter detalhes supérfluos, repetitivos ou desnecessários. Um bom material de estímulo tem as seguintes ca-racterísticas:

É substantivo e merece ser examinado detidamente.��Tem a probabilidade de interessar à audiência-alvo.��É bem escrito e bem desenhado.��É desafiador na medida certa, não muito difícil nem muito fácil.��Não apresenta desafios artificiais.��É factualmente correto.��Oferece oportunidade para questões que estimulam a busca.��É completo.��

Onde adequado, é importante prover algum contexto para o material de estímulo. O contexto pode ser fornecido por meio de um título ou de uma breve introdução. Por exemplo, o trecho de um romance de ficção científica poderia ser apresentado assim: “Esta passagem foi extraída de um romance que se passa no futuro.”

Preferencialmente, as imagens devem ser parte intrínseca do mate-rial de estímulo, oferecendo significado adicional. Se as imagens forem incluídas simplesmente como decoração, não ajudarão os alunos a com-preender o texto.

Às vezes, o material de estímulo cria um contexto artificial e des-necessário para um item. O Quadro 3.1 contém material irrelevante. Na realidade, este item aborda a superfície de uma área. Na vida real, Irene não estaria preocupada com a quantidade mínima de papel que deveria usar. De fato, ela poderia precisar de uma pequena quantidade adicional para dobrar sobre as bordas. Os alunos mais capazes poderiam responder a este item incorretamente se deixassem uma margem de pa-pel adicional. Uma melhor redação para o item seria simplesmente a seguinte: “O comprimento de um lado de um cubo é 80cm. Qual a área da superfície do cubo?”

Page 49: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 35

QUADRO 3.1

Exemplo de Material de Estímulo Irrelevante

Irene embrulhará este cubo com papel. Qual a menor quantidade de papel de em-brulho que ela usará?

Um estímulo que tente descrever um contexto real deve ser factual-mente acurado. É provável que a informação contida no Quadro 3.2 seja factualmente inexata. Em geral, os seres humanos não apresentam o tipo de padrão de crescimento mostrado. As crianças que tendem a ser altas em geral demonstram esse traço desde bem novas. Se o material de estímulo requer padrões de crescimento desiguais, seria preferível usar plantas a pessoas para objetivos comparativos.

QUADRO 3.2

Exemplo de um Item com Informação Inexata ou Enganosa

O gráfico mostra a mudança nas alturas de Mário e Rita à medida que ficam mais velhos.

80 cm

160

120

80

40

0

Mario

Lita

2 4 6 8 10

altu

ra (

cm)

idade (anos)

Page 50: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

36 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Os itens devem ser escritos na linguagem mais simples e clara pos-sível. O fraseado deve ser simples o bastante para que se possa esperar, numa medida razoável, que os alunos sejam capazes de lê-lo:

Evite vocabulário difícil.��Evite sentenças longas.��Não use sentenças enroladas.��Não use uma lógica difícil.��Evite questões ambíguas ou vagas.��Evite negativas duplas.��Evite inconsistências (por exemplo, usando diferentes unidades de me-��dida nas opções ou diferentes termos para se referir à mesma coisa).Não use fraseado vago ou termos não familiares que não estejam ade-��quadamente definidos.

FORMATO DO ITEM

São descritos dois formatos principais: múltipla escolha e resposta curta (veja Capítulo 2).2 Considere usar um formato de múltipla escolha para:

Limitar o número de opções.��Produzir uma resposta sucinta.��Evitar que os alunos tenham de copiar grandes trechos do texto de ��estímulo.Cobrir uma grande gama de tópicos eficientemente.��

Considere usar um formato de resposta curta (fechada ou aberta) para:

Testar significados que os alunos precisem gerar por conta própria.��Testar diferentes níveis de compreensão, usando um item de crédito ��parcial que dê uma pontuação total para uma resposta que mostre compreensão de uma ideia complexa e uma pontuação parcial para uma resposta que mostre compreensão de apenas uma parte simples da ideia.

Page 51: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 37

Testar uma gama restrita e claramente definível de possíveis respostas ��corretas.Buscar uma resposta numa situação em que a resposta correta seria ��claramente revelada num formato de múltipla escolha, dada a falta de opções incorretas plausíveis.

Os alunos devem ter um comando adequado de vocabulário e ex-pressão para responder a itens de resposta curta. Não use questões de resposta curta se houver a probabilidade de os alunos terem de copiar uma grande quantidade do texto de estímulo.

Elaboração de Itens de Múltipla Escolha

Um item de múltipla escolha consiste em um comando e diversas opções de resposta. Às vezes, quando se requer uma resposta falso-verdadeiro, só são necessárias duas opções. No entanto, esses itens são, de certa forma, inefi-cazes. Oferecer quatro ou cinco opções é o mais usual. A opção correta é a chave, enquanto as opções incorretas são os distratores (Quadro 3.3).

O comando de um item pode assumir várias formas, como:

Uma sentença incompleta.��Uma pergunta explicitamente formulada.��Uma sentença à qual falta alguma informação (Carlos tem ______ ��irmãos).

QUADRO 3.3

Exemplo de um Item de Múltipla Escolha

Tânia tem três flores. Ganha mais duas flores do seu pai.Quantas flores Tânia tem ao todo?

comando

A 2

B 3

C 4

D 5 chave (resposta correta)

distratores

Page 52: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

38 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Se o comando é uma sentença incompleta, deverá conter informação suficiente para indicar a natureza da questão. O aluno não deve precisar ler os distratores para inferir a questão. Todas as opções de uma sentença incompleta devem:

Ser gramaticalmente consistentes com o comando.��Ser escritas num estilo semelhante.��Ser corretamente pontuadas.��Começar com uma letra minúscula e terminar com um ponto final.��

Lembre-se dos seguintes pontos durante a elaboração de itens de múltipla escolha:

Pontue sentenças completas corretamente. �� No Quadro 3.4, todas as op-ções são sentenças completas com a pontuação adequada.Pontue listas adequadamente. �� No Quadro 3.5, as opções são listas de palavras. Essas opções não são pontuadas.

QUADRO 3.4

Pontuação em Sentenças Completas

O que Miguel achou do mercado?

A Estava cheio de gente, e a comida era boa.

B Era barato, e a comida era deliciosa.

C A comida era boa, mas não havia ninguém lá.

D Era barato, mas a comida não era muito boa.

QUADRO 3.5

Pontuação numa Lista

Quanto tempo Joel ficará na casa de seu avô?

A uma semana

B duas semanas

C um mês

D dois meses

Page 53: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 39

Minimize a quantidade de leitura. �� Para minimizar a quantidade de lei-tura requerida, o elaborador de itens deve pôr a maior parte possível do item no comando (veja o Quadro 3.6).Evite comandos negativos. �� Como um comando negativo causa confu-são, seu uso deve ser evitado. Se o comando só pode ser expresso na forma negativa, destaque a palavra “não” usando negrito ou itálico (veja o Quadro 3.7). Se um comando negativo for inevitável, as op-ções nunca deverão ser negativas.Varie o uso de distratores emparelhados. �� Os métodos de construção de dis-tratores devem variar ao longo do teste, de modo que não surjam padrões para auxiliar os alunos. Por exemplo, não é aconselhável emparelhar a chave (B) com seu oposto (A) (Quadro 3.8). Se o padrão no Quadro 3.8 aparecer com frequência ao longo do teste, ficará óbvio para alguns alunos já familiarizados com testes que precisam considerar apenas os distratores emparelhados (A e B). Uma solução é escrever alguns itens nos quais a chave não é um dos opostos emparelhados. Outra solução é incluir dois pares de opostos no item, como mostrado na Quadro 3.9.

QUADRO 3.6

Reduzindo a Leitura

Por quanto tempo Joel ficará na casa de seu avô?

Não assim Mas assimCarlos foi para Carlos e sua família foram paraA o rio com sua família. A rio.B a praia com sua família. B praia.C o campo com sua família. C campo.D as montanhas com sua família. D montanhas.

QUADRO 3.7

Item com um Comando Negativo

O que os pais de Mário disseram que ele não podia ter em casa?

A seu cachorro de estimação

B seus sapatos com chulé

C a manta do cavalo

D uma cesta de frutas

Page 54: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

40 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

QUADRO 3.8

Distratores Mal Emparelhados

Tom não gostou do casaco porque era

A muito grande.

B muito pequeno.

C da cor errada.

D pouco agasalhante.

QUADRO 3.9

Lidando com Pares de Distratores

Tom não gostou do casaco porque era muito

A grande.

B leve.

C pequeno.

D pesado.

Evite usar certos distratores. �� Distratores que contêm palavras como sempre e nunca, nenhum dos acima e todos dos acima devem ser evita-dos porque, em geral, os alunos os eliminam facilmente.Use números adequados de distratores. �� Desenvolva itens com a chave e quatro distratores plausíveis (cinco opções ao todo), se possível, e então faça um pré-teste de todos os distratores. Use os distratores que têm as melhores propriedades estatísticas (veja o Volume 4 desta série).Varie a posição da chave. A �� posição da chave deve variar de um item para o seguinte. Não deve haver um padrão óbvio em seu posiciona-mento. As opções podem ser arrumadas começando da mais curta para a mais longa, ou da mais longa para a mais curta, ou podem ser ordenadas aleatoriamente. Certifique-se de que a chave nem sempre seja a opção mais longa.

As boas opções apresentam as seguintes características:

Têm comprimentos semelhantes e são escritas num estilo semelhan-��te ao da chave. A chave não deve se destacar dos distratores por seu comprimento, fraseado ou outra qualidade superficial.

Page 55: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 41

Variam em estilo de item a item, ou seja, não são repetitivas.��Não dão uma dica da resposta a outro item.��Não incluem distratores parcialmente corretos, como opções empa-��relhadas em que cada distrator contém uma opção incorreta e uma correta.Não induzem ao erro nem confundem devido à falta de clareza ou à ��ambiguidade.Não se superpõem em significado. Os distratores têm de ter significa-��dos distintos uns dos outros. Os distratores não devem ser sinônimos. Um significado particular em um distrator não deve ser incluído no significado general de outro distrator.Incluem uma chave inquestionavelmente correta ou que constitui ��uma resposta acurada defensável, e não simplesmente a melhor das opções apresentadas.Têm distratores inquestionavelmente incorretos, embora sejam ra-��zoáveis e plausíveis. Qualquer distrator absurdamente incorreto re-duz o número de escolhas reais disponíveis para o aluno e não agrega nada ao item.

Elaboração de Itens de Resposta Curta

Itens de resposta curta devem ser claramente focalizados para produzir como resposta a expressão da habilidade que pretendem avaliar. Bons itens de resposta curta são claros e exatos. Os guias de pontuação devem ser desenvolvidos ao mesmo tempo em que se desenvolvem os itens. Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de guias de pontuação para itens de resposta curta. Veja, por exemplo, Itens Liberados do PISA de Matemática de 2006 e Guia de Pontuação de Itens da Amostra de Leitura Internacional para a 4a série do PIRLS de 2001.

Em geral, os itens de resposta curta são classificados como abertos quando a resposta correta exige uma ou duas sentenças ou vários acrés-cimos a um diagrama.

Itens abertos, em geral, têm inúmeras possíveis respostas corretas. Itens de resposta curta são classificados como resposta fechada quando

Page 56: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

42 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

uma ou duas palavras ou uma linha num diagrama são suficientes para a resposta. Itens de resposta fechada em geral têm um número muito limitado de respostas corretas.

Itens abertos devem se referir a habilidades significativas em áreas--chave do currículo, de modo a justificar o tempo de teste que os alunos gastarão para respondê-los. Os alunos também devem ter a possibilidade de dar breves respostas corretas a itens abertos. A maior parte do tempo que os alunos gastam com um item deve ser devotada a encontrar uma solução, e não a registrar suas respostas.

Num item de resposta curta, é importante considerar qual poderia ser uma resposta incorreta. Se todas as respostas coerentes imagináveis têm a probabilidade de ser corretas, talvez o item pouco contribua para a avaliação de uma habilidade específica. O item deve ser construído de forma a garantir que existam respostas incorretas plausíveis.

Certifique-se de que itens de resposta curta têm mais de duas respos-tas possíveis. Itens para os quais existam apenas duas possíveis opções, como “fechado” ou “aberto”, dão aos alunos uma chance de 50% de adivinhar a resposta correta. Tal item poderia ser ampliado pedindo-se aos alunos que deem razões para suas respostas. O item poderia, então, ser pontuado em função da seleção correta de “aberto” ou “fechado” e também da explicação. Alunos que selecionassem a opção correta, mas não dessem uma explicação, receberiam a pontuação zero.

Os itens não devem dar ajuda excessiva ao leitor para que compre-enda o significado do estímulo. Por exemplo, um item não deve resu-mir as ideias-chave num parágrafo do estímulo ou deixar explícita uma inferência no estímulo. É preferível citar algo do estímulo a resumir ou interpretar o significado.

Um risco que se corre com os itens abertos é que os alunos podem respondê-los superficialmente. A resposta “porque é importante”, por exemplo, poderia ser tecnicamente correta em várias questões, mas seria uma resposta fraca. Às vezes, uma resposta potencialmente superficial pode ser incluída na questão para eliminá-la da gama de possíveis res-postas corretas. Por exemplo, um item pode ser fraseado assim: “Por que o acidente de Renata é importante nesta história?” Os alunos não podem responder simplesmente “porque o acidente é importante”. Quando se

Page 57: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 43

trata de itens abertos, em geral são necessárias instruções como, por exemplo, “explique sua resposta” ou “dê razões para sua resposta” para evitar uma resposta sucinta como “sim” ou “não”.

Um item efetivo de resposta curta deve estabelecer uma tarefa clara e específica que busca uma resposta específica. O item deve permitir que os alunos demonstrem, com razoável rapidez, seu domínio da habilidade requerida. O exemplo no Quadro 3.10 não atende a qualquer desses ob-jetivos. Não se diz aos alunos que eles precisam fazer uma caixa com as maiores dimensões possíveis. Essa resposta, no entanto, é o critério para que recebam uma pontuação 3. O item também é de baixa qualidade porque consome muito tempo. As habilidades que estão sendo avaliadas não justificam a quantidade de tempo de que os alunos precisariam para testar as possibilidades e chegar à resposta correta. O problema precisa ser simplificado para que os alunos possam demonstrar as habilidades relevantes de forma eficiente.

QUADRO 3.10

Item Aberto Confuso com Instruções Pouco Claras

Deve-se fazer uma caixa aberta com um retângulo de papelão de 150cm por 100cm, cortando quadrados do mesmo tamanho em cada canto e usando fita adesiva para emendar as partes. Qual o tamanho do quadrado que você cortaria de um dos can-tos? Dê uma razão (ou razões) para escolher esse tamanho.

____________________________________________________________________________

____________________________________________________________________________

Guia de pontuação: o número de pontos vai de 0 a 3.

3 pontos: descreve um quadrado de 20cm e uma caixa com dimensões de 110cm por 60cm por 20cm; também explica que esse tamanho de caixa tem a maior capaci-dade

2 pontos: descreve um quadrado de 20cm a ser cortado em todos os cantos, mas não dá qualquer explicação

1 ponto: descreve quaisquer tamanhos possíveis de quadrado com um lado de menos de 50cm

0 ponto: dá as dimensões de um quadrado com mais de 50cm (uma resposta impos-sível)

9: em branco

Page 58: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

44 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Quando um aluno não responde a um item específico por uma entre diversas razões (como pular a questão porque a achou difícil ou por não ter tido a oportunidade de tentar respondê-la porque o item não estava no caderno de prova que recebeu), em geral se atribui um código 9 (não uma pontuação) para denotar dados em branco. A questão de dados em branco está coberta, com algum nível de detalhamento, no Volume 3.

Os itens de resposta curta devem ter um fraseado claro e simples (veja o Quadro 3.11).

QUADRO 3.11

Bom Exemplo de um Item de Resposta Fechada

Cada pessoa cava à mesma velocidade.

Uma pessoa pode terminar de cavar um jardim em 12 horas.

Duas pessoas podem terminar de cavar o mesmo jardim em 6 horas.

Quanto tempo levariam quatro pessoas? ________

Quanto tempo levariam x pessoas? ________

Desenvolvimento de Guias de Pontuação para Questões de Crédito Parcial

As respostas a algumas questões de resposta curta têm duas ou mais categorias de respostas corretas. Essas são conhecidas como questões de crédito parcial. O guia de pontuação deve diferenciar entre respostas mais abrangentes, exatas ou sofisticadas, e respostas incompletas ou par-cialmente corretas. As melhores respostas recebem uma pontuação mais alta. O exemplo no Quadro 3.12 tem o guia de pontuação para uma questão de crédito parcial para desenhar um quadrado, e pode receber até 3 pontos.

Os seguintes tipos de itens podem ser pontuados como crédito parcial:

Pede-se aos alunos que deem duas razões para o comportamento de um ��personagem. Os alunos que dão duas razões corretas recebem a pontua-ção 2, e os que dão uma razão correta recebem a pontuação 1.

Page 59: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 45

QUADRO 3.12

Item com Crédito Parcial

O comprimento do lado de um quadrado é 10cm.

Desenhe esse quadrado no espaço a seguir. Use sua régua.

Guia de pontuação:

3 pontos: desenha um quadrado com 4 lados de 10cm de comprimento e 4 ângulos retos

2 pontos: desenha um retângulo com 2 lados de 10cm comprimento e 4 ângulos retos

1 ponto: desenha uma forma de 4 lados com 2 lados de 10cm de comprimento, mas sem ângulos retos

0 ponto: desenha qualquer outra forma

9: em branco

Os alunos recebem uma pontuação mais alta para uma compreensão ��mais sofisticada; por exemplo, a pontuação 2 num teste de leitura poderia refletir a compreensão da ironia em determinada passagem, enquanto a pontuação 1 é atribuída para a leitura literal do texto.Uma pontuação 2 pode incluir a identificação tanto da causa quanto ��da consequência, enquanto uma pontuação 1 requer a identificação correta de apenas uma dessas.Em matemática, uma pontuação 3 é dada para a solução correta de ��um problema e a explicação adequada do método, a pontuação 2 é atribuída para a solução correta sem uma explicação, enquanto a pontuação 1 é dada para a descrição de um método adequado com cálculos incorretos.

A distinção entre pontuações de crédito total ou crédito parcial deve ser clara.

Certifique-se de que os exemplos de respostas com pontuação 1 que aparecem no guia de pontuação não sejam simplesmente respostas bre-ves ou com fraseado pobre, mas que realmente satisfaçam aos critérios de 2 ou 3 pontos. Também é importante deixar clara a diferença entre respostas de 1 ponto e respostas incorretas. Essa distinção pode ser a mais difícil de fazer na pontuação de algumas questões de crédito parcial.

Page 60: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

46 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Os exemplos seguintes mostram que itens abertos de resposta curta nem sempre permitem crédito parcial. O item no Quadro 3.13 mostra que, embora os alunos possam dar diversas respostas, recebem pontua-ção 1 ou zero.

É importante fazer o pré-teste de itens de crédito parcial para garantir que as categorias de crédito parcial sejam estatisticamente robustas (veja Capítulo 5).

QUADRO 3.13

Exemplo de um Item de Resposta Aberta com Guia de Pontuação

João e Miguel encontram uma árvore com 400 mangas.

João diz que Miguel agora tem uma chance de 160% de derrubar uma manga.

Você concorda com João ou discorda dele?

Explique.

____________________________________________________________________________

____________________________________________________________________________

Guia de pontuação:

1 ponto: Discorda e menciona o limite percentual.

Discorda porque não é possível ter 160%.

Discorda porque é impossível.

Discorda porque 100% é o máximo que se pode alcançar.

0 ponto: Concorda (com ou sem explicação).

Discorda e não se refere ao limite percentual.

Discorda porque existem mais de 160 mangas.

9: em branco

Fonte: Departamento de Educação das Filipinas 2004.

Um exemplo de item de resposta curta com o guia de pontuação compactado está apresentado no Quadro 3.14. No pré-teste, os alunos que responderam “80%” ou “80 por cento” receberam pontuação 2, en-quanto os que simplesmente escreveram “80” receberam pontuação 1. As estatísticas mostraram que os alunos que deram a resposta que valia 2 pontos tiveram uma pontuação média muito mais alta no teste de

Page 61: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 47

matemática, enquanto aqueles que deram a resposta de valor 1 tiveram a pontuação geral média semelhante à dos que tiveram zero nesse item. Como resultado dessa informação do pré-teste, o guia de pontuação foi alterado: os alunos que responderam com “80%” ou “80 por cento” rece-beram 1 ponto, enquanto os que responderam “80” ou deram qualquer outra resposta inaceitável tiveram zero.

QUADRO 3.14

Exemplo de um Item Fechado com Guia de Pontuação

Mangueira

Miguel está em sua fazenda tentando acertar algumas mangas com a atiradeira.

Quando a árvore tem 50 mangas, ele tem 20% de chance de acertar. Sua chance de acertar uma manga duplica quando o número de mangas duplica. Estime a chance de Miguel acertar uma manga numa árvore com 200 mangas.

________________________________________________________________________

Guia de pontuação:

1 ponto: 80% ou 80 por cento

0 ponto: qualquer outra resposta, inclusive simplesmente “80”, sem “%” ou “por cento”

9: em branco

Fonte: Departamento de Educação das Filipinas 2004.

Elaboração de Itens para Unidades

Unidades são grupos de itens com um estímulo comum. As unidades podem consistir em um conto ou um gráfico, seguidos por um conjunto de questões. Os princípios básicos para a elaboração de itens de múltipla escolha ou de resposta curta aplicam-se a itens associados a unidades.

Diversos pontos devem ser considerados durante a redação prelimi-nar de itens baseados em unidades:

Os itens devem ser independentes uns dos outros. Os alunos não ��devem ter de responder a um item corretamente para responder a outros itens corretamente.

Page 62: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

48 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Os itens não devem se superpor. Cada item deve avaliar um aspecto ��claramente diferente do estímulo.Os itens devem avaliar uma gama de habilidades. Por exemplo, os ��itens não devem avaliar repetidamente a recuperação de uma infor-mação diretamente explicitada ou a ideia central de cada parágrafo do estímulo.Os itens numa unidade devem cobrir uma gama de níveis de dificul-��dade, começando, em geral, com um item fácil.A informação dada no comando ou nas opções de múltipla escolha de ��um item não deve ajudar o aluno a responder a outro item.Os itens devem avaliar aspectos significativos (e evitar aspectos tri-��viais) do estímulo.Os itens devem estar na mesma página que a unidade ou na página ao ��lado (no caso de um estímulo longo).

Unidades com oito ou mais itens associados tendem a ter alguns itens duplicados, superpostos ou triviais. Alguns itens podem ser eliminados durante o painel de itens. Alternativamente, a equipe de desenvolvi-mento de teste poderia desenvolver dois formulários para o pré-teste usando a metade dos itens em um formulário e os demais no segundo.

A seção de linguagem encontrada em http://go.worldbank.org/M2O1YDQO90 contém muitos exemplos de unidades seguidas de um conjunto de questões. (Veja, por exemplo, os itens que se seguem a “Le-bre Anuncia o Terremoto”, em Itens da Amostra de Leitura Internacional para a 4a série do PIRLS de 2001 ou “O Acordo de Petra”, em Questões da Amostra de “Lendo a Austrália”, Ano 3.)

ITENS DE PRÁTICA

Os itens de prática são essenciais para garantir que os alunos não sejam pe-nalizados pela falta de familiaridade com o formato de itens ou com a for-ma como devem apresentar suas respostas às questões do teste. Em geral, o aplicador do teste repassa os itens de prática com os alunos, de acordo com instruções muito específicas contidas no manual de aplicação.

Page 63: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 49

Quando os testes incluem itens de resposta curta, é especialmente importante que os alunos compreendam que tipo de respostas se espera deles. Os alunos precisam compreender, por exemplo, onde escrever sua resposta para completar uma sequência numérica ou o quanto se espera que escrevam em resposta a um item que requer uma explicação. Deve-se explicar aos alunos que eles não serão penalizados por cometer pequenos erros de soletração ou gramaticais, a menos que isso seja parte do que está sendo medido. As instruções devem encorajá-los a tentar responder a todos os itens.

Os itens de prática devem ser desenvolvidos para todos os formatos de resposta no teste. Por isso, esses itens são escritos, em geral, já perto do final da fase de desenvolvimento do teste, quando já se sabem os tipos de questões contidas no teste. Os itens de prática devem ser muito fáceis; por exemplo, pedir aos alunos para escrever a resposta a 2 + 2 numa linha ao lado da soma:

2 + 2 = __________

Dá-se ênfase a como os alunos registram suas respostas. Neste caso, os alunos devem escrever a resposta na linha.

O painel de itens deve rever todos os itens de prática, que também de-vem passar por um pré-teste. Se vários formulários de pré-teste forem usa-dos, os mesmos itens de prática devem ser usados em cada um deles.

DIAGRAMAÇÃO E ELABORAÇÃO DOS ITENS

A diagramação e o desenho dos itens são cruciais para a clareza e a atratividade de um teste. Os alunos têm maior probabilidade de ten-tar responder aos itens de um teste bem apresentado e de fácil leitura. Os especialistas que desenham os testes devem adotar um estilo con-sistente, com um formato agradável. Pode-se contratar um especialis-ta em diagramação e desenho para criar todas as imagens. Em http://go.worldbank.org/M2O1YDQO90, você encontra muitos exemplos de itens bem apresentados e apoiados por ilustrações de boa qualidade.

Page 64: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

50 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Diretrizes Básicas

A seguir, você tem algumas diretrizes básicas para diagramações e dese-nhos bem-sucedidos de testes.

Use um tipo grande (por exemplo, 36) para numerar os itens, de ��modo que os alunos possam localizar facilmente cada item.Deixe um espaço adequado se os alunos tiverem de anotar uma res-��posta. (Isso é especialmente necessário para alunos das primeiras sé-ries do fundamental, que podem ter letras muito grandes.)Deixe espaço suficiente entre os itens, de modo que os alunos possam ��ver claramente onde termina um item e onde começa o seguinte.Use o comprimento da linha para a resposta de um item, deixando ��claro para os alunos o quanto se espera que escrevam. Uma linha curta é adequada a uma resposta de uma palavra. Duas ou três linhas mais longas sugerem que o aluno deve escrever uma ou duas senten-ças em resposta ao item.Dê a cada item um título exclusivo, e imprima esse título perto do ��número do item, num tipo pequeno em escala cinza, na margem es-querda. Um título de identificação exclusivo ajudará a garantir o ras-treamento acurado dos itens. Os números dos itens podem mudar, especialmente se os itens aparecem em múltiplos cadernos de prova.Seja consistente no uso de aspas simples ou duplas, itálicos, sublinha-��dos, negritos e maiúsculas.Certifique-se de que a diagramação e as imagens usadas no pré-teste ��dos itens sejam o mais parecido possível com a apresentação dos itens no formulário final do teste. Mudanças no desenho e na diagramação de itens podem afetar a dificuldade de um item.

Qualidade das Imagens

As imagens usadas no teste têm de ser claras, com linguagem e títulos simples, adequados. As imagens devem ser desenhadas por um artista gráfico. Imagens escaneadas ou tiradas da internet em geral não têm qua-

Page 65: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 51

lidade adequada. Em geral, fotografias também são inadequadas, porque aumentam os custos de impressão. Usualmente, um artista gráfico deve redesenhar as fotos. O uso de um mesmo artista gráfico para desenhar todas as imagens, fotográficas ou não, dará consistência à diagramação e ao desenho do teste.

Onde possível, devem ser usadas imagens para aprimorar a clareza e reduzir o número de palavras em um item (veja o Quadro 3.15). Ima-gens simples são mais eficazes. A imagem deve apresentar o conceito com clareza e de forma limpa (veja o Quadro 3.16). Não é necessário parecer real. Se possível, devem ser usados desenhos, e extensas áreas sombreadas devem ser evitadas.

QUADRO 3.15

Uso de Imagens para Reduzir Palavras

A seguinte imagem descreve uma experiência científica muito melhor que um longo parágrafo:

Qual a parte da planta que absorve A MAIOR QUANTIDADE de água?

Fonte: IEA 2007, item da amostra.

Gráficos e mapas devem receber títulos de forma clara e consistente (veja os Quadros 3.17 e 3.18).

Parte A

Parte B

Parte C

Parte D

Parte AA

Parte B

Parte CParte D

B

C

D

Page 66: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

52 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

QUADRO 3.16

Como Simplifi car as Imagens

Esta imagem transmite um sistema complexo de maneira simples:

Fonte: Departamento de Educação das Filipinas, 2004.

QUADRO 3.17

Como Dar Nomes Claros aos Gráfi cos

Nomes claros e consistentes como esses no seguinte gráfico ajudam os alunos a com-preender questões complexas rapidamente:

Esta tabela mostra temperaturas em vários momentos de quatro dias.

Em que dia e em que momento a temperatura mostrada na tabela era a mesma que a mostrada no termômetro?

TEMPERATURA

6h 9h 12h 15h 18h

Segunda-feira 15° 17° 24° 21° 16°

Terça-feira 20° 16° 15° 10° 9°

Quarta-feira 8° 14° 16° 19° 15°

Quinta-feira 8° 11° 19° 26° 20°

A. Segunda-feira, 12h

B. Terça-feira, 6h

C. Quarta-feira, 15h

D. Quinta-feira, 15h

Fonte: Mullis et al., 2000.

A

B

C

D E

40°35°30°25°20°15°10°5°

Termômetro

Page 67: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 53

QUADRO 3.18

Como Dar Nomes Claros aos Mapas

Deve-se ter a preocupação de dar títulos claros aos elementos de um mapa. No mapa seguinte, os nomes de continentes são mostrados com todas as letras maiúsculas, enquanto os oceanos têm apenas a inicial maiúscula:

Fonte: Papua Nova Guiné, Departamento de Educação 2004.

Conforme mostrado no Quadro 3.19, os espaços deixados nos gráfi-cos permitem que o material de estímulo seja lido com facilidade.

Ao decidir o tamanho da fonte e o comprimento da linha, os especia-listas que desenham e formatam o teste devem considerar o seguinte:

Usar tipo 14 para a 3�� a e a 4a séries e tipo 12 para séries mais avançadas.Reduzir a largura dos textos de estímulo a aproximadamente 10 a 14 ��palavras por linha.Certificar-se de que a quebra de linha ocorra num ponto apropriado. ��Não permitir que uma palavra apareça sozinha numa linha.

Equador

OceanoPacífico

OceanoPacífico

AMÉRICADO SUL Oceano

Índico

OceanoAntártico

Áreas onde vivem dugongos

OceanoAtlântico

OceanoÁrtico

ÁFRICA

AMÉRICADO NORTE

EUROPEÁSIA

AUSTRÁLIA

Page 68: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

54 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

QUADRO 3.19

Deixando Espaço no Material de Estímulo

O espaço neste desenho agrega legibilidade ao material de estímulo:

A figura anterior mostra uma caixa contendo um material que poderia ser um sólido, um líquido ou um gás. O material, então, é posto numa caixa quatro vezes maior.

Olhe as figuras a seguir. Elas mostram como diferentes tipos de material terão aparências diferentes quando postos numa caixa maior.

A. Identifique qual figura mostra um sólido, qual mostra um líquido e qual mostra um gás. (Escreva as palavras Sólido, Líquido ou Gás na linha ao lado de cada figura a seguir. Use cada palavra apenas uma vez.)

B. Explique suas respostas.

Fonte: IEA, 2003, item da amostra.

S031

372

Page 69: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 55

As diagramações de opções de múltipla escolha devem ser consisten-tes. Cada opção deve ser identificada. As seguintes opções de diagrama-ção são recomendadas:

Uma coluna vertical de opções nomeadas de cima para baixo:��ABCDUma linha horizontal de opções nomeadas da esquerda para a direita:��A B C DDuas colunas verticais de opções, nomeadas de cima para baixo na ��primeira coluna e também de cima para baixo na segunda coluna:A CB D

A EQUIPE DE ELABORAÇÃO DE ITENS

O gerente de desenvolvimento de teste lidera e gerencia a equipe de ela-boração de itens e supervisiona todo o programa, desde a fase de desen-volvimento e realização de painéis, passando pelo pré-teste, até a seleção de formulários finais para o teste. O gerente deve saber lidar bem com pessoas e ter habilidades organizacionais.

As responsabilidades do gerente de desenvolvimento de teste in-cluem:

Selecionar uma equipe de elaboradores de itens.��Certificar-se de que os elaboradores de itens entenderam a tabela de ��especificações.Aperfeiçoar a tabela de especificações.��Estabelecer um conjunto de regras ou protocolos para apresentar, ��classificar e armazenar os itens.Certificar-se de que os elaboradores de itens estejam cientes da quan-��tidade de espaço que os itens podem ocupar na página.

Page 70: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

56 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Definir e monitorar os processos do painel de itens.��Monitorar o progresso do desenvolvimento de itens de acordo com o ��estabelecido na tabela de especificações do teste.Rever os itens com grupos de especialistas ou com os principais inte-��ressados.Monitorar a qualidade dos itens.��Seguir o desenvolvimento dos itens para que esteja de acordo com o ��cronograma.Registrar detalhes de todos os itens desenvolvidos, incluindo a histó-��ria do pré-teste e mudanças feitas durante a análise.Garantir que a tabela de especificações esteja refletida no teste final.��

A elaboração de itens requer atenção a detalhes, criatividade, rigor intelectual, profundidade de conhecimento sobre o conteúdo e a boa compreensão do desenvolvimento dos alunos numa área de aprendiza-do. Idealmente, os elaboradores de itens devem demonstrar as seguintes características:

Devem ter iniciativa e disposição para realizar uma ampla busca de ��materiais de estímulo interessantes e devem ser capazes de desenvol-ver materiais de estímulo de alta qualidade.Devem ser capazes de aceitar retornos sobre seu trabalho e comentar ��o trabalho de outros elaboradores de itens com o mesmo grau de de-sapego, sem personalizar nada.Devem demonstrar o desejo de alcançar a excelência em seu trabalho ��e disposição para estar atentos a detalhes durante o desenvolvimento e o refinamento dos itens.

Vale a pena considerar a possibilidade de se fazer um teste de seleção inicial para escolher os elaboradores de itens. O teste poderia consistir em dar aos potenciais elaboradores 30 minutos para gerar itens baseados num conjunto de materiais de estímulo. Esse teste pode ser seguido por uma entrevista durante a qual se pediria aos candidatos para explicar a razão de suas respostas ao teste de seleção. O painel de entrevista pode-ria verificar se os potenciais elaboradores de itens estão preparados para aceitar críticas a seu trabalho.

Page 71: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 57

Idealmente, alguns elaboradores experientes deveriam ser envol-vidos no treinamento de novos elaboradores de itens. Esses elabo-radores experientes talvez tenham de ser recrutados em outro país, como consultores, se não houver no país pessoas com o conhecimento adequado. Os consultores para elaboração de itens poderiam realizar sessões de treinamento, rever itens à medida que forem sendo desen-volvidos, ou desempenhar ambas as tarefas. Após receberem treina-mento, os elaboradores de itens que trabalharem em tempo integral podem levar vários meses até chegar ao ponto de começar a produzir itens de qualidade razoável.

As seguintes questões devem ser abordadas durante o treinamento:

Qual o objetivo geral do teste?��Quais os tipos de estímulos adequados para os itens?��Quais segmentos do currículo serão abordados pelo teste?��Qual a proporção de itens que abordarão os diferentes aspectos do ��currículo?Que idioma (ou idiomas) será usado?��Qual o nível adequado de simplicidade do vocabulário e da gramática ��a serem usados?Que formatos de item serão usados e em que proporção?��Quais as especificações para a publicação (número de páginas do ca-��derno de prova, tamanho da página, número de itens por página)?Quantos itens são propostos para a versão final do teste?��Quantos itens têm de ser desenvolvidos?��Como será revista a versão preliminar dos itens do teste?��Qual o tempo destinado ao desenvolvimento, ao pré-teste e à seleção ��dos formulários finais?Existem questões sensíveis ou limitações culturais que devam ser ��consideradas durante a produção da versão preliminar do material de estimulo e dos itens?

Todos os elaboradores de itens devem ter o mesmo entendimento das respostas a essas questões. Também devem monitorar consistentemente o próprio trabalho e o dos demais. Todos os elaboradores de itens devem

Page 72: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

58 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

ter cópias da tabela de especificações final do teste, bem como a com-preensão comum de seus conteúdos.

No longo prazo, pode-se economizar muito tempo se o estilo de apresentação dos itens for especificado em detalhes desde o início. O gerente de desenvolvimento de teste deve criar uma folha de estilo que especifique exatamente como os itens e os guias de pontuação devem ser apresentados. A folha de estilo deve cobrir todos os aspectos da dia-gramação, incluindo a seleção das fontes, o tamanho das fontes, o uso de recuos, a colocação de títulos e todos os tipos de detalhes que precisam ser incluídos, como visto no exemplo do Quadro 3.20.

QUADRO 3.20

Exemplo de Folha de Estilo para Elaboradores de Itens

TRADIÇÕES PASCAIS (título, Arial 16 em negrito)

Questão 1: Tradições Pascais (subtítulo, Times New Roman 12 em negrito)

O que as pessoas deram umas às outras no Domingo de Páscoa? (questão, Times New Roman 12 em negrito)

<insira meia linha > (instrução para publicação em itálico e entre parênteses)

Tipo de texto Formato do item Processo

Informação Fechado Recuperação

(tabela com 3 colunas e 2 linhas: títulos das colunas, Times New Roman 12 em negrito; corpo da tabela, Times New Roman 12 sem negrito)

Guia de pontuação (subtítulo, Times New Roman 12 em negrito)

1 ponto: refere-se a ovos (Times New Roman 12 em itálico)

Deram-se ovos de presente. (marcador, Times New Roman 10) �

Decoraram ovos. �

0 ponto: refere-se a panquecas, a outra coisa ou vago

panquecas. �

Deram-se outras coisas. �

Esse guia mostra que os elaboradores de itens têm de dar à sua uni-dade um título usando Arial 16 em negrito com maiúsculas. O restante do texto do item é em Times New Roman. A maior parte é em tipo 12.

Page 73: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 59

A questão deve ser intitulada, em negrito, “Questão 1”. O nome da unidade deve vir em seguida, conforme mostrado. O item e o espaço para a resposta do aluno ficam abaixo da questão. O elaborador de itens insere e completa uma tabela para mostrar o tipo de texto, o formato do item e o processo que os alunos usam para responder. O guia de pontuação é intitulado conforme se mostra. Os critérios para a pontuação são mostrados em itálico, e os exemplos de respostas dadas pelos alunos são recuados, destacados com marcadores em tipo 10. Seguindo o guia, os elaboradores de itens podem ajudar a garantir que o pré-teste e os itens finais sejam preparados de maneira consistente, funcional e eficiente.

Os elaboradores de itens precisam receber um retorno claro e regu-lar, bem como instruções construtivas a respeito dos próprios itens e de como correspondem à tabela de especificações. Desse modo, pode-rão aprender com seus erros, desenvolver suas habilidades e refinar seus itens. Os elaboradores de itens precisam reunir-se de modo regular e frequente em painéis de itens para analisar seu trabalho. O gerente de testes deve estar preparado para substituir elaboradores que não sejam capazes de desenvolver itens de alta qualidade após um período razoável de treinamento.

PAINÉIS DE ITENS

Um painel de itens consiste em um pequeno grupo (entre três e seis) de elaboradores de itens que revisam, em conjunto, o material desenvol-vido por um deles ou por mais de um. O objetivo do painel é aceitar, modificar ou rejeitar o material. A abordagem de equipe, que é parte do processo de controle de qualidade, ajuda a obter múltiplas perspectivas de itens individuais. A menos que os elaboradores de itens sejam alta-mente experientes, os itens ainda passam por uma revisão considerável depois do painel de revisão.

Os membros do painel devem preparar suas críticas antes do encon-tro do painel de itens. Devem ter bastante tempo para examinar os itens e anotar sugestões de aprimoramento.

Page 74: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

60 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

O painel deve criticar cuidadosamente o material de estímulo – con-texto, conteúdo, fraseado, linguagem, diagramação e ilustrações – para se certificar de que todos os aspectos do estímulo sejam relevantes para a tabela de especificações, de que vale a pena incluí-los no teste e de que sejam claros e concisos. Depois disso, devem-se examinar detalhadamen-te todos os itens para garantir que o fraseado esteja sem ambiguidade e o formato adequado e que o item claramente se refira a habilidades e áreas de conteúdo especificadas na tabela de especificações. O conjunto de itens também é examinado para se avaliar em que medida o equilíbrio geral dos itens reflete a tabela de especificações. Os membros do painel devem explorar todas as possibilidades de melhorar o estímulo e os itens e, onde necessário, sugerir novos itens.

Durante o painel de itens, os elaboradores de itens devem explicar seu trabalho e estar preparados para aceitar críticas construtivas. O líder do pai-nel deve se certificar de que existe ampla concordância sobre as mudanças a serem feitas em itens individuais. Os elaboradores de itens devem docu-mentar as mudanças sugeridas e, em seguida, fazer a revisão dos itens.

Pode haver necessidade de um especialista em idiomas nos painéis nos quais os elaboradores de itens estejam elaborando testes em outro idioma que não o seu primeiro idioma. O especialista em idiomas precisa ter uma boa compreensão das habilidades linguísticas da população-alvo do teste.

Um especialista nas disciplinas poderia ser incluído no painel, espe-cialmente se a área de conteúdo for complexa. Pode ser útil envolver um desses especialistas em alguns painéis para esclarecer questões de conteúdo, mas esse envolvimento talvez não precise ser contínuo. Não é provável que o especialista no tema esteja preocupado com os pequenos detalhes da elaboração de itens.

É aconselhável que os painéis de itens não incluam formuladores de políticas nem principais interessados. Os pequenos detalhes sobre os quais o painel delibera não são atribuições suas.

Os membros do painel devem considerar todos os aspectos de um item:

Está sendo avaliado o conteúdo certo?��O formato do item está adequado para os alunos que serão testados?��

Page 75: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 61

O item tem substância ou é trivial?��O item tem um fraseado claro e sem ambiguidade?��Existem erros de soletração ou palavras faltando?��Se o item é de múltipla escolha, as opções são semelhantes e signifi-��cativas?Se o item é de múltipla escolha, a resposta correta pode ser obtida, ��claramente e sem ambiguidades, da informação dada (o comando, o material de estímulo ou ambos)?O formato do item está atraente e bem organizado?��O grau de dificuldade da maior parte dos itens permitirá que apro-��ximadamente 40% a 80% dos alunos testados deem uma resposta correta?Se o item requer pontuação de crédito parcial, cada pontuação tem a ��probabilidade de atrair pelo menos 10% dos respondentes?O item parece ser desprovido de tendenciosidade e justo para os prin-��cipais subgrupos da população-alvo?

O painel também deve considerar formas de aprimorar o item:

Encurtando-o.��Acrescentando mais informação.��Mudando expressões ou o fraseado.��Acrescentando um diagrama ou imagem.��Dando a ele um novo formato de item.��

Os elaboradores de itens devem receber retornos regulares e frequen-tes desde o momento em que começam a desenvolver os itens. Os painéis de itens devem se reunir pelo menos uma vez por semana, se possível.

A revisão do material pode ser uma tarefa complexa. O painel precisa de um líder para garantir que as recomendações sejam unânimes e que se alcance um consenso sobre as mudanças a serem feitas. O elaborador de itens não é a pessoa adequada para decidir quais mudanças adotar ou quais sugestões ignorar. As recomendações do líder do painel devem ser exatas o bastante para que os elaboradores de itens tenham clareza sobre quais mudanças fazer.

Page 76: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

62 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Às vezes, o trabalho de refrasear itens de outras pessoas pode gerar intensas discussões. O líder do painel deve focalizar a discussão no apri-moramento dos itens e garantir que o painel trabalhe construtivamente para alcançar seu objetivo.

Todos os membros do painel, incluindo os elaboradores de itens ex-perientes, devem ter seu trabalho revisto. É normal que surjam sugestões para amplas revisões, especialmente no caso do trabalho de elaboradores ainda sem muita experiência. A crítica de itens não deve ser vista como direcionada a uma pessoa. Os elaboradores de itens que não conseguem se engajar em discussões intensas e refrasear seus itens devem ser subs-tituídos.

OUTROS REVISORES

O grupo de especialistas ou de principais interessados deve ter várias oportunidades de rever o conjunto de itens durante o trabalho de de-senvolvimento de itens. Esse procedimento pode ajudar a garantir que os itens do teste sejam de boa qualidade e consistentes com a tabela de especificações. O gerente de desenvolvimento de teste em geral apre-senta todos os itens, ou uma seleção deles, a um grupo de referência selecionado para esse propósito.

A primeira revisão com o grupo de referência deve ocorrer razoavel-mente no início do processo de desenvolvimento de itens, para garantir que os elaboradores de itens estejam trabalhando na direção certa. O grupo de referência pode sugerir refinamentos em alguns aspectos da tabela de especificações, especialmente se os elaboradores de itens esti-verem tendo dificuldade para seguir algumas especificações. Os elabo-radores de itens também podem necessitar de instrução mais específica sobre materiais aceitáveis e inaceitáveis.

Normalmente, faz-se uma revisão depois de completada a elaboração preliminar de todos os itens para garantir que os principais interessados os aprovem antes da realização do pré-teste. Uma revisão final permite que os principais interessados aprovem a seleção de itens para o formu-lário final do teste.

Page 77: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 63

RASTREAMENTO DE ITENS

O rastreamento de itens é fundamental. Cada item deve ter um título exclusivo que possa ser rastreado em cada etapa, desde o pré-teste até a análise.

O número de itens que precisa ser desenvolvido é de aproximada-mente 2,5 vezes a 3 vezes o número requerido para o formulário final do teste. Em geral, é necessário produzir diversos cadernos de pré-teste para cada série escolar. Alguns dos mesmos itens devem aparecer em diferentes cadernos. Isso permite que todos os itens do pré-teste sejam ligados à mesma escala e possam ser comparados. O título de cada item tem de ser independente da ordem do item no caderno, de modo que aqueles duplicados em diferentes cadernos e os exclusivos possam ser claramente identificados.

O rastreamento de itens na etapa de análise pode ser complicado. Pode ser muito difícil acompanhar um item se o analista deixar de dar um título exclusivo a ele. O tipo de software utilizado pode complicar ainda mais o problema. O software em geral numera os itens automa-ticamente. Se alguns itens forem eliminados durante a análise do pré--teste, o software renumerará os itens; desse modo, o número de um item na análise talvez não corresponda mais ao número na análise inicial ou ao número no caderno de prova. A atribuição de um título único e exclusivo a cada item no caderno de prova e em cada uma das análises ajudará a evitar esse problema.

O título de um item deve ser o mais significativo possível. O gerente de desenvolvimento de teste deve se coordenar com o analista de dados para estabelecer quantos caracteres podem ser usados num título. Paco-tes de software de análise têm limites diferentes. A seguinte convenção para titulagem é utilizada por uma agência de testes num teste de leitu-ra, escrita e matemática aplicado ao longo de vários anos:

O primeiro caractere é L, M ou E para Leitura, Matemática ou Escrita.��Caracteres 2 e 3 indicam o ano em que o item foi aplicado (por exem-��plo, 07 para 2007).Caracteres 4, 5 e 6 significam o item (começando com 001).��

Page 78: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

64 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Por exemplo, M06003 indica que o item é de um teste de matemáti-ca aplicado em 2006 e é o terceiro no conjunto de itens.

Os itens devem receber um título durante o desenvolvimento. O mesmo título deve ser impresso nos cadernos de pré-teste e nos formulá-rios finais. Os títulos podem ser impressos num tipo pequeno em escala cinza, na margem oposta ao número dos itens nos cadernos de prova, como mostrado a seguir:

M06003 5 Complete esta soma. 6 + 7 = ________

É essencial manter a história completa de cada item desenvolvido. O analista de dados precisa de um registro das chaves para itens de múl-tipla escolha e da localização dos itens nos cadernos de pré-teste. Com frequência, os relatórios devem conter informações sobre o formato dos itens e os processos que cada item avaliou. O gerente de desenvolvimen-to de teste deve criar e manter uma planilha para manter um registro de cada item, de suas classificações e de sua situação, bem como de quais-quer mudanças que possam ter sido feitas no item.

O exemplo a seguir mostra alguns títulos contidos numa planilha que registra todos os itens de leitura para um teste:

nome da unidade �� nome dado à unidade (por exemplo, “Carros de corrida”)

título do item �� título de seis dígitos (por exemplo, L06003)conteúdo do item �� fraseado da questão do testesituação atual �� descrição indicando se o item está disponível

para uso (por exemplo, liberado como um item de prática, rejeitado pelo cliente, per-missão de direitos autorais recusada)

chave �� resposta correta a uma questão de múltipla escolha

pontuação máxima �� número máximo de pontos naquele itemtipo de texto �� gênero do texto (por exemplo, narração, infor-

mação)

Page 79: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 65

formato do item �� formato da questão do teste (por exemplo, múltipla escolha)

processo�� processo cognitivo (por exemplo, recupera-ção de informação)

notas da análise �� mudanças feitas no item depois do pré-teste

Os itens devem ser armazenados num local seguro. Todos os mate-riais relevantes associados ao desenvolvimento de uma unidade ou de um item devem ser armazenados com aquele item. Mesmo o material que não foi usado no pré-teste deve ser mantido, porque poderá ser usa-do mais tarde na mesma série ou em outras. A fonte de documentos ou ilustrações deve ser registrada e armazenada com a unidade ou o item, para que se possa pedir permissão para reprodução, se necessário. De-vem ser mantidas cópias de documentos originais, de modo que quais-quer modificações subsequentes possam ser identificadas.

A maior parte dos itens pode ser armazenada eletronicamente. Como medida de precaução, deve-se manter o backup dos arquivos de itens em outro computador ou em outro disco. O título correto e uma classifi-cação completa e acurada ajudam a garantir que os itens estejam arma-zenados nas pastas adequadas do computador e possam ser recuperados facilmente por outras pessoas. Os itens tendem a sofrer constantes revi-sões, inclusive mudanças nos guias de pontuação e em ilustrações, bem como pequenos aprimoramentos no fraseado. A última versão do item deve ser facilmente identificável a partir da informação contida na pasta do arquivo.

NOTAS

1. Para informação adicional sobre a construção de itens de teste, ver Chatterji (2003), Haladyna (1999), Kubiszyn e Borich (2000) e Linn e Miller (2004).

2. A Avaliação Nacional do Progresso Educacional dos Estados Unidos inclui um com-ponente de escrita (Conselho Diretor da Avaliação Nacional, s.d.).

Page 80: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

4 PRÉ-TESTE

DE ITENS

A construção de testes para uma avaliação na-cional usa, na maior parte dos casos, a tec-nologia que tem sido desenvolvida para o

desenho de testes destinados a avaliar e divulgar o aproveitamento de alunos individuais. Como esses testes são usados para discriminar entre desempenhos de alunos, todos os alunos farão basicamente o mesmo tes-te. O objetivo de uma avaliação nacional é bastante diferente: não se tra-ta de discriminar entre alunos, mas de descrever à medida que os alunos num sistema educacional como um todo (ou em partes dele claramente definidas) adquiriram os conhecimentos e habilidades prescritos em um currículo. Para fazer isso, o teste deve fornece uma cobertura adequada do currículo, o que pode requerer que se trabalhe com uma amostra do conteúdo do currículo muito maior que a usada em testes destinados a avaliar alunos individualmente. A necessidade de uma ampla cobertura do currículo é reforçada quando uma avaliação busca identificar áreas de currículo em que os alunos apresentam pontos fortes e pontos fracos.

Para lidar com essas questões, muitas avaliações nacionais e interna-cionais usam um número muito maior de itens que o utilizado em um teste concebido para avaliar alunos individualmente. No entanto, para evitar pôr um peso muito grande sobre os alunos individualmente, cada

Page 81: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

68 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

um responde a apenas uma parcela do número total de itens numa ava-liação. Assim, é preciso fornecer vários conjuntos alternativos de itens no planejamento de cadernos que passam de um aluno a outro. O nú-mero exato varia de uma avaliação nacional para outra.

Essa abordagem, embora desejável em muitos sentidos, traz consi-go diversas complicações para a aplicação de uma avaliação nacional. Em primeiro lugar, o desenho do teste é complexo, porque é necessário garantir a superposição e a correspondência de itens de diferentes su-bamostras. Segundo, a aplicação é mais complexa porque é necessário garantir que os alunos recebam os cadernos certos e que as instruções dadas sejam adequadas para todos os cadernos. Finalmente, a combina-ção de dados de múltiplos conjuntos de itens requer procedimentos es-tatísticos relativamente complexos. Por todas essas razões, muitos países em desenvolvimento não têm usado cadernos de teste que passam de um aluno a outro em suas avaliações nacionais.

A maior parte dos comentários nas páginas seguintes e também no Capítulo 5 aplica-se tanto a situações em que uma equipe de avaliação nacional usa múltiplos cadernos de prova quanto àquelas em que se opta por um único caderno de prova para medir o aproveitamento do apren-dizado numa área temática. As duas abordagens requerem que se dê grande atenção à realização de um cuidadoso pré-teste.

O pré-teste, ou teste-piloto, é um elemento essencial do desenvolvi-mento do teste.

Um pré-teste é aplicado a alunos com as mesmas características da-queles que farão o teste final. Devem ser incluídas escolas de diferente tamanhos, em diferentes áreas, com alunos de variados contextos socio-econômicos. Idealmente, o pré-teste é realizado um ano antes do teste, na mesma época em que se fazem as provas finais. Por exemplo, o pré--teste poderia ser dado aos alunos da 5a série em novembro de 2010 e o teste final aos alunos da 5a série, em novembro de 2011. Na prática, esse cenário talvez não seja possível, e o pré-teste poderia ser realizado com alunos que têm alguns meses a mais ou a menos de experiência es-colar que a população-alvo. Por exemplo, alunos da 6a série podem pas-sar por um pré-teste no início do ano escolar para fornecer dados a um teste que será aplicado aos alunos da 5a série no final do ano escolar.

Page 82: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 69

Os alunos que participarem do pré-teste não devem fazer o teste fi-nal. Se o teste final for aplicado a uma amostra aleatória estatisticamente selecionada, a amostra final deve ser extraída antes da seleção de escolas para o pré-teste.

É boa prática fazer o pré-teste de um número de itens que seja duas ou três vezes o número requerido para o teste final. A extensão de cada formulário do pré-teste deve ser semelhante à do teste final. É útil dar títulos aos formulários em ordem alfabética de acordo com a série; por exemplo, cinco formulários da 3a série receberiam títulos 3A, 3B, 3C, 3D e 3E, e cinco formulários da 8a série seriam 8A, 8B, 8C, 8D e 8E.

Vários formulários de pré-testes serão necessários para cada sé-rie. Idealmente, os formulários para cada série devem ser distribuídos aleatoriamente em cada classe. Se forem usados três formulários para a 5a série (5A, 5B e 5C), cada escola deve receber uma combinação de todos os três formulários. Se não for possível seguir esse procedimento, é importante garantir que cada formulário seja distribuído em todos os segmentos do pré-teste da amostra. Por exemplo, o formulário 5A não deve ser dado apenas a alunos da cidade; o formulário 5B, somente a alunos das áreas rurais do norte; e o formulário 5C, apenas a alunos das áreas rurais do sul. Os formulários devem ser tão equivalentes quanto possível à tabela de especificações do teste.

A ligação dos formulários do pré-teste é essencial para que os itens possam ser comparados. A ligação significa que parte dos mesmos itens aparece em diferentes formulários. Alguns formulários de pré-teste ine-vitavelmente serão mais difíceis que outros. Ao ligar os formulários, a dificuldade geral dos itens pode ser determinada independentemente do formulário no qual apareceram. É necessário fazer a ligação horizontal quando se testar apenas uma série. A ligação vertical será requerida se mais de uma série estiver sendo testada.

Um mínimo de 200 alunos deve tentar todos os itens do pré-teste em cada série. Se existirem três formulários de pré-teste para a 5a série, então pelo menos 600 alunos farão o pré-teste. Dos 200 alunos que farão cada item do pré-teste, pelo menos 150 respostas são necessárias. Inevitavelmente, alguma perda de dados ocorrerá durante o pré-teste. Por qualquer razão inesperada, uma escola pode se retirar do programa

Page 83: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

70 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

de pré-teste no último minuto ou aplicar o teste a um número de alunos menor que o previsto. Também é improvável que todos os alunos ten-tem todos os itens do pré-teste.

Dado que o pré-teste deve ser realizado sob as mesmas condições do teste final, o tempo de que os alunos dispõem para fazer o teste deve ser o mesmo que terão no teste final. Talvez não se saiba o número de itens que os alunos podem completar no tempo permitido. Se for esse o caso, então se deve montar um formulário com uma amostra dos itens do pré--teste e aplicá-lo em algumas classes antes que o pré-teste seja montado. Com isso, será possível garantir que o número de itens em cada formu-lário do pré-teste seja realista. Uma avaliação nacional não é um teste de velocidade. A maior parte dos alunos deve ter tempo de tentar a maior parte dos itens.

Deve-se tentar completar todos os pré-testes no período de duas a três semanas.

O pré-teste fornece a oportunidade de se avaliarem a adequação e a qualidade dos itens. Também permite que muitos aspectos da aplicação do teste sejam ajustados. Os aplicadores do pré-teste deverão fornecer as seguintes informações:

Os alunos tiveram suficientes questões de prática, com instruções e ��explicações suficientemente claras?O tamanho do teste foi adequado ou muito longo? E aproximada-��mente quantos alunos terminaram 10 minutos mais cedo?Os alunos pareciam atraídos pelo teste?��Os alunos dispunham de recursos suficientes, como lápis e borrachas?��As instalações da escola eram adequadas para a realização de um teste?��Os professores e alunos compreenderam o objetivo do teste?��

DESENHO DO FORMULÁRIO DO PRÉ-TESTE

A análise dos dados do pré-teste fornece a base para a seleção dos itens que entrarão no teste final. Muitas avaliações nacionais preparam dife-rentes formulários de cadernos de prova associados a cada série. Essa

Page 84: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 71

abordagem ajuda a conseguir uma cobertura do currículo maior que no caso de um teste único e, ao mesmo tempo, ajuda a garantir que os alunos não sejam submetidos a testes excessivamente longos. A diagra-mação e a ligação do teste devem ser feitas de forma adequada, para garantir que os dados possam ser combinados em uma única escala. O analista de dados, o estatístico ou o principal profissional de computação precisam estar envolvidos no desenho do pré-teste para garantir a obser-vação das exigências relativas aos dados.

Formulários ligados partilham itens comuns. Em geral, são requeridos entre 8 e 10 itens comuns. Existem vários modos de ligar os formulários.

Com um único conjunto comum de itens de ligação, os mesmos 8 a 10 itens de ligação são repetidos em cada formulário. Observe que, se os itens de ligação têm um desempenho fraco na análise (com característi-cas estatísticas ruins), a ligação dos formulários será fraca e a qualidade geral da análise, consequentemente, será enfraquecida.

O segundo modo é a ligação circular. Diferentes conjuntos de itens são usados entre pares de formulários. Por exemplo, o formulário 3A pode ser ligado ao formulário 3B por meio do conjunto X de itens, o formulário 3B ao formulário 3C por meio do conjunto Y de itens, e o formulário 3C ligado, por sua vez, ao formulário 3A por meio do con-junto Z de itens. Cada formulário também contém itens exclusivos que não aparecem em nenhum dos outros (Figura 4.1).

Um terceiro modo é a ligação linear, que segue o modelo de ligação circular, sem, no entanto, excluir o conjunto Z de itens. Assim, o for-

FIGURA 4.1

Exemplo de Ligação Circular de Itens

Fonte: Criação dos autores.

conjunto de itens exclusivo de 3C

Formulário 3A

conjunto de itens X

conjunto de itens Z

conjunto de itens exclusivo de 3A

Formulário 3B

conjunto de itens X

conjunto de itens Y

conjunto de itens exclusivo de 3B

Formulário 3C

conjunto de itens Y

conjunto de itens Z

Page 85: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

72 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

mulário 3A seria ligado ao 3B, e o 3B ligado ao 3C, mas não haveria qualquer ligação entre os formulários 3A e 3C.

Se não estiver claro qual será o desempenho dos itens, é preferível usar a ligação circular e um número maior de itens de ligação que o ne-cessário. Na ligação circular, mesmo que falhe um conjunto de itens de ligação, as ligações entre os formulários serão preservadas.

As ligações podem ser tanto horizontais (em uma única série) quan-to verticais (em diferentes séries – por exemplo, entre a 3a e a 5a séries). Se não se pretende estabelecer uma ligação vertical entre os formulá-rios finais, então as ligações no pré-teste devem enfatizar fortes liga-ções horizontais. Podem ser incluídas ligações verticais mínimas para permitir a comparação de dados do pré-teste entre diferentes séries. Tecnicamente, são necessários apenas 8 ou 10 itens em comum entre as séries. Estimar o que define um bom item de ligação vertical é mais difícil que estimar o que define uma boa ligação horizontal. Como se trata de um pré-teste e como a qualidade dos itens de ligação é des-conhecida, é aconselhável ter pelo menos 16 itens de ligação vertical distribuídos por cada formulário.

Quando se pretende que os formulários finais sejam ligados vertical-mente, é importante ter muitos mais itens de ligação vertical no pré-teste que o requerido no teste final, de modo que os melhores itens de ligação possam ser selecionados para o formulário final. Um modelo alternativo de pré-teste para formulários finais com ligação vertical é mostrado na Figura 4.2. O modelo se baseia na distribuição aleatória de formulários A, B e C em cada classe.

Neste exemplo bastante elaborado, os formulários 3A, 5A, 7A e 10A são ligados verticalmente, de forma linear, a um conjunto de 8 a 10 itens. Os itens são ligados de modo semelhante nos formulários B e C. Existem, ao todo, 8 a 10 itens de ligação horizontal entre os formulários A e B da 3a série e da 7a série e, ao todo, 8 a 10 itens de ligação hori-zontal entre os formulários B e C da 5a série e da 10a série. Esse número de ligações horizontais é aceitável. Se os formulários de teste não serão distribuídos aleatoriamente dentro de cada classe, ou se os elaboradores de itens não estiverem seguros quanto à qualidade dos itens de ligação horizontal, devem ser incluídas mais ligações horizontais em cada série.

Page 86: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 73

Os itens de ligação devem ser localizados perto do começo ou no meio dos formulários de teste, em vez de no final, para evitar que os alunos não respondam aos itens. Os itens de ligação devem ser localiza-dos numa ordem semelhante em cada um dos cadernos e também nos cadernos de prova. Isso evita que diferenças no desempenho dos alunos possam ser atribuídas à ordem ou à posição dos itens. Pequenas diferen-ças na localização dos itens de ligação são inevitáveis. Grandes diferenças devem ser evitadas.

Os itens de ligação devem ficar na faixa média de dificuldade. Em geral, os alunos com habilidade média na população-alvo devem ter de 40% a 60% de probabilidade de responder a esses itens corretamente. Como se trata de um pré-teste, a dificuldade dos itens para a população

FIGURA 4.2

Modelo para Ligação Vertical de Itens

Fonte: Criação dos autores.

4 a 5 itenscomuns a3A e 3B

4 a 5itenscomunsa 5Be 5C

4 a 5 itenscomuns a7A e 7B

3ª série Formulário A

8 a 10 itens comuns a 3A e 5A

5ª série Formulário A

8 a 10 itens comuns a 5A e 7A

7ª série Formulário A

8 a 10 itens comuns a 7A e 10A

10ª SérieFormulário A

3ª sérieFormulário B

8 a 10 itens comuns a 3B e 5B

5ª sérieFormulário B

8 a 10 itenscomuns a5B e 7B

7ª sérieFormulário B

8 a 10 itenscomuns a7B e 10B

10ª sérieFormulário B

4 a 5itenscomunsa 10Be 10C

3ª sérieFormulário C

8 a 10 itenscomuns a 3C e 5C

5ª sérieFormulário C

8 a 10 itenscomuns a5C e 7C

7ª sérieFormulário C

8 a 10 itenscomuns a7C e 10C

10ª sérieFormulário C

Page 87: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

74 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

do pré-teste não será conhecida; os elaboradores de itens terão de fazer a melhor estimativa possível do grau de dificuldade. Se não tiverem cer-teza da exatidão de suas estimativas, é aconselhável aumentar o número de itens de ligação.

Se os itens estiverem organizados em unidades, é melhor ligar os for-mulários com itens tirados de duas ou mais unidades, caso os itens as-sociados a uma delas não funcionem bem. Não é necessário usar todos os itens de uma unidade para fazer a ligação; alguns itens podem ser comuns e outros exclusivos, como mostrado na Tabela 4.1. Ambas as unidades, “Encontrando um animal de estimação” e “Monte Avarapa”, aparecem nos formulários 3A e 3B da 3a série. Há três itens comuns a cada unidade e a cada formulário. O pré-teste tem itens adicionais ex-clusivos.

TABELA 4.1

Itens de Ligação em Duas Unidades de Leitura

Unidades de LeituraItens comuns a

3A e 3BItens exclusivos

de 3AItens exclusivos

de 3B

“Encontrando um Animal de Estimação”

3, 4, 6 2, 7 1, 5

“Monte Avarapa” 1, 2, 5 3 4

Fonte: Criação dos autores.

Se o pré-teste incluir uma combinação de formatos de itens, os itens de ligação devem refletir essa combinação.

Os itens devem ter títulos exclusivos impressos em escala cinza pró-ximos ao item em cada formulário de teste no qual apareça o item. Itens com o mesmo título devem ser idênticos em todos os aspectos, exceto em sua ordem de aparecimento num formulário de teste. Itens com li-geiras variações em seus fraseados devem ter títulos diferentes.

Os elaboradores de itens devem criar uma planilha com uma lista de todos os itens; títulos separados devem mostrar quais itens aparecem em quais formulários e em que ordem. A Tabela 4.2 mostra parte de uma planilha de amostra que cobre três unidades (“Cachorros”, “Elisa” e “Bang”) de um teste de leitura da 5a série.

Page 88: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 75

TABELA 4.2

Parte de uma Planilha para Rastrear Itens em Diferentes Formulários

Nome daunidade

Títulodo item

Formulário5A

Formulário5B

Formulário5C

Formulário5D

“Cachorros” R070101 1 1 4 4

“Cachorros” R070102 3 3 5 5

“Cachorros” R070103 2

“Cachorros” R070104 2

“Elisa” R070201 1

“Elisa” R070202 2 1

“Elisa” R070203 3 2

“Elisa” R070204 3

“Bang” R070301 4 6

“Bang” R070302 5 7

Fonte: Criação dos autores.

Os itens de três unidades aparecem à esquerda. Os números nas colu-nas mostram a ordem em que aparece cada um desses itens em cada um dos formulários de pré-teste. Os primeiros dois itens em “Cachorros” são comuns aos quatro formulários.

IMPRESSÃO E REVISÃO DO PRÉ-TESTE

Cada item submetido a um pré-teste deve aparecer tal como aparecerá no formulário final. Assim também, materiais de estímulo, gráficos e ilustrações devem ser apresentados como se pretende que apareçam no teste final. Idealmente, a ordem de aparecimento dos itens de ligação deveria ser idêntica, mas, na prática, pode variar ligeiramente.

O material de estímulo para itens de leitura deve aparecer (a) na mesma página que os itens ou (b) no lado esquerdo da página, ficando os itens no lado direito da página, para permitir que os alunos passem com facilidade dos itens para o texto.

A página de rosto do caderno de pré-teste não precisa conter to-dos os detalhes exigidos no formulário final. Deve pedir informações

Page 89: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

76 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

sobre escola do aluno, série, gênero, primeiro idioma e idioma falado na família, e idade. Como, de maneira geral, os dados do pré-teste não são divulgados, não há necessidade de obter os nomes dos alunos no pré-teste. Alguns detalhes relativos a características sociocultu-rais são necessários no formulário final e podem não ser exigidos no pré-teste. A diagramação dos itens deve ser consistente em todos os formulários de teste.

A seguinte lista de verificação pode ser útil durante a preparação ou a revisão da impressão dos materiais do pré-teste:

Títulos (grandes e claros).��Margens – superior, inferior, esquerda e direita (consistentes).��Numeração das páginas (consistente).��Números dos itens (grandes e claros).��Títulos dos itens (aplicados).��Linhas para os alunos escreverem as respostas (claras e de compri-��mento adequado).Fraseado dos itens (tipo tamanho 12 ou 14).��Número de palavras por linha (10 a 12).��Material de estímulo (claro, preferentemente num tipo diferente do ��usado nos itens).Material de estímulo e itens associados (na mesma página ou na oposta).��Cabeçalhos e legendas (consistentes e úteis).��Verificação da soletração (feita).��

Alguns testes incluem opções de pontuação em escala cinza. Por exemplo, 0 ou 1 poderiam ser dados para um item a ser pontuado incorreto ou correto, respectivamente. A opção de pontuação para itens que não são mostram uma tentativa de resposta pelo aluno nor-malmente é 9, conforme visto no Capítulo 3. Os avaliadores podem simplesmente fazer um círculo em volta da pontuação adequada. A inserção de pontuações relembra aos avaliadores a gama de opções de pontuação.

Todos os cadernos de prova e manuais de aplicação precisam passar por uma revisão detalhada e completa. Os revisores devem avaliar os

Page 90: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 77

itens do teste como se eles mesmos estivessem respondendo às questões. Devem certificar-se de que o material atende aos seguintes critérios:

As instruções iniciais e os itens de prática estão claros e sem ambi-��guidade.Os itens estão claros e sem ambiguidade.��O material de estímulo está claro e é de leitura fácil.��As opções de múltipla escolha incluem uma resposta correta e outras ��opções que são todas claramente incorretas.Cada uma das opções da múltipla escolha faz sentido.��Existe um espaço adequado para os alunos registrarem as respostas, ��quando solicitados.O material de estímulo para leitura está na mesma página que os itens ��ou na página da esquerda, com os itens na página oposta à direita.Os itens numa unidade são independentes; isto é, a resposta a um ��item não está dada no comando ou nas opções de outro item.Os itens de ligação são idênticos.��Não existe qualquer erro de soletração ou gramatical.��A diagramação dos vários formulários de teste é consistente.��

A revisão é fundamental. Erros graves podem ocorrer e têm ocorrido em praticamente todas as etapas do processo de pré-teste. O pré-teste representará uma séria perda de tempo, esforços e fundos se contiver er-ros tipográficos e inconsistências. Isso reduz a utilidade dos dados, por-que itens incorretos do pré-teste não podem ser usados no formulário final do teste. Portanto, é importante usar revisores experientes e alocar tempo suficiente para a revisão.

Os cadernos do pré-teste devem ser conferidos quando chegarem da impressão. Devem ser feitas conferências aleatórias de cada pacote ou caixa de cadernos para garantir o seguinte:

Todas as páginas foram impressas claramente.��As páginas estão na ordem correta.��As páginas não estão duplicadas.��A leitura de estímulo para cada unidade está na página correta.��As ilustrações estão claras.��

Page 91: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

78 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Os cadernos de pré-teste devem ser impressos e conferidos bem antes de seu envio para as escolas. Essa providência dará tempo para reimpres-são, caso seja necessário. Como as tiragens para o pré-teste são, em geral, pequenas, a reimpressão, se necessária, custará relativamente pouco.

REALIZAÇÃO DO PRÉ-TESTE

Os alunos não devem ter qualquer dúvida sobre como apresentar suas respostas a cada item ou questão do pré-teste ou do teste final. Os tes-tes são projetados para testar o conhecimento de uma importante área do currículo – não as habilidades dos alunos de adivinhar como devem apresentar suas respostas. Os alunos devem receber oportunidades ade-quadas durante o pré-teste, tanto no começo do pré-teste quanto no início das seções dentro do pré-teste, para que façam os itens de prática. É particularmente importante dar um número adequado de itens de prá-tica (por exemplo, 3 ou 4) aos alunos de sistemas educacionais nos quais não exista uma tradição de testes do tipo múltipla escolha.

O número de itens nos formulários de pré-teste pode ser igual ao dos formulários finais ou ligeiramente menor. É importante que todos os alunos tentem responder a todos os itens do pré-teste. Se o pré-teste for muito longo, ou se contiver muitos itens difíceis na parte final, então poucos itens do final do teste serão respondidos.

Comece cada formulário com alguns itens fáceis, para que os alunos mais fracos sintam-se encorajados a tentar fazer todo o teste. Em geral, é desejável distribuir a dificuldade dos itens subsequentes de tal modo que os alunos persistam, em vez de abandonarem todo o teste quando se defrontarem com uma série de itens difíceis. Tente fazer com que a dificuldade geral de cada formulário do pré-teste seja basicamente igual. Evite que qualquer um dos formulários esteja cheio de itens difíceis, porque os alunos podem desistir. Se isso acontecer, os itens na parte final do formulário não terão dados suficientes para que se possa fazer uma boa análise do pré-teste.

O pré-teste oferece a oportunidade de se experimentar versões alter-nativas de itens em diferentes formulários. Por exemplo, um item pode

Page 92: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 79

ser testado como uma questão de múltipla escolha e como um item aberto (Quadro 4.1).

Diferentes fraseados de itens abertos também podem passar por um pré-teste. Observe que versões alternativas de itens não devem ser usa-das como itens de ligação; itens de ligação devem ser idênticos.

QUADRO 4.1

Exemplo de um Item nos Formatos de Múltipla Escolha e Aberto

13 + 17 + 8 =

(A) 28 (B) 30 (C) 38 (D) 110

OU

13 + 17 + 8 = _______

PONTUAÇÃO DO PRÉ-TESTE

O objetivo de coletar dados de pré-teste é obter informações que aju-darão a selecionar itens de boa qualidade para o teste final. Em geral, as pontuações e os nomes dos alunos não precisam ser ligados. As princi-pais questões para pontuação do pré-teste são controle de qualidade e consistência no tratamento das respostas dos alunos.

Todas as pontuações exigem procedimentos de controle de qualida-de. Em geral, é mais econômico fazer a pontuação do pré-teste e a en-trada de dados manualmente, porque o número de itens é manejável. Os avaliadores e o pessoal que faz a entrada de dados devem ser treinados adequadamente. O gerente de desenvolvimento de testes deve provi-denciar para que a qualidade dos trabalhos seja conferida duas vezes por dia, a fim de garantir consistência e confiabilidade. Essas conferências podem ser feitas com mais frequência nas etapas iniciais e talvez com menos frequência nas etapas mais avançadas se o trabalho de um avalia-dor for considerado satisfatório.

Saber o percentual de alunos que não tentaram responder a itens do pré-teste fornece uma informação útil sobre como estruturar o formulá-rio final do teste. A seguir, as diretrizes gerais relativas a esta questão:

Page 93: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

80 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Se 15% ou mais dos alunos não tiverem tentado responder a vários ��itens no final de um teste, o pré-teste pode ter sido muito longo. Considere fazer o teste final mais fácil, mais curto ou ambos.Se 15% ou mais dos alunos não tiverem tentado responder a um item ��que não está no final do teste, pode haver algo errado na forma como o item foi apresentado ou ele pode ser muito difícil. Os alunos po-dem ter ignorado o item, não souberam como registrar sua resposta ou não compreenderam o fraseado. Considere rever e fazer o pré--teste de um novo item.Se certo grupo na população (por exemplo, 15% ou mais de meninas) ��não tiver tentado responder a um item que foi respondido pela maior parte dos alunos, o item pode ser tendencioso. Considere não incluí--lo no teste final.Se 15% ou mais dos alunos consistentemente não tentaram responder ��a itens num formato específico (por exemplo, itens abertos), esses alunos podem não ter compreendido como registrar suas respostas ou podem ter precisado de mais itens de prática para aprender a res-ponder a esse tipo de item. Considere acrescentar itens de prática adicionais ou faça uma amostra de itens desse formato e teste-os no-vamente.

Em geral, pontuações em branco ou que não foram tentadas apare-cem como 9. Assegure-se de que nenhum item do teste tenha uma pos-sível pontuação correta de 9. Se isso ocorrer, pode-se usar X (ou outra letra do alfabeto) para denotar pontuações em branco.

Pontuadores e avaliadores precisam ter clareza sobre as regras para pontuar as respostas em branco. Uma resposta em branco é, em geral, aquela em que o aluno não fez qualquer marca de lápis. Qualquer ten-tativa de responder a um item, ainda que ilegível ou ininteligível, é, em geral, tratada como resposta incorreta, e não em branco.

Devem ser criados guias de pontuação para itens de múltipla escolha, a fim de permitir que o elaborador de teste ou o revisor obtenham o maior número possível de dados úteis de cada item.

Um item de múltipla escolha com quatro opções, por exemplo, po-deria ser codificado como 1, 2, 3, 4, 8 ou 9. Podem ser usados números

Page 94: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 81

adicionais para refletir mais opções. Os números 1, 2, 3 e 4 indicam a opção que o aluno selecionou. Um código 7 pode ser usado para mostrar que um aluno selecionou duas ou mais opções e possivelmente não com-preendeu como responder a um item de múltipla escolha. No Volume 4 desta série usamos o código 8 para indicar que o aluno não tentou o item e 9 para mostrar que aquele item não foi aplicado ao aluno (estava em outro formulário de teste) e, portanto, não deve ser pontuado como incorreto.

Itens de múltipla escolha nunca devem entrar no computador como “correto” ou “incorreto”. O formato dos itens de múltipla escolha deve ter uma numeração-padrão implícita de 1 a 4 ou 5, dependendo do nú-mero de opções.

O avaliador ou a pessoa que faz a entrada de dados simplesmente registra o número (implícito) da opção que o aluno selecionou para cada item de múltipla escolha. Nem o avaliador nem quem faz a entrada de dados têm necessidade de saber qual a opção correta ou se a resposta do aluno está certa ou errada. A entrada da folha de dados poderia se pare-cer com o exemplo da Quadro 4.2.

QUADRO 4.2

Exemplo de uma Folha de Entrada de Dados para o Pré-teste

Fonte: Autores.

O elaborador de itens tem de dar ao analista de dados uma lista das opções corretas, ou chaves, para cada item, enquanto o analista de da-dos as registrará no programa de software. O software de análise, então, computará cada resposta do aluno como correta ou incorreta, de acordo com a lista de chaves.

2 3 2 1

Aluno

Almir Barros

Míriam Campos

Alberto Duarte

Opções escolhidas por cada aluno para cada item

Q4Q1 Q2 Q3

2 3 1 4

4 3 2 4

Ordem de aparecimento das questões no formulário do teste

Page 95: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

82 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

O conhecimento das opções incorretas selecionadas pelos alunos dá aos elaboradores de itens uma informação importante sobre a qualidade dos itens de múltipla escolha e sua possível utilidade para o formulário final do teste. Por exemplo, se quase nenhum aluno selecionar qualquer de duas opções incorretas, essas duas opções evidentemente não funcio-naram como distratores efetivos.

Itens abertos e de resposta fechada são, em geral, pontuados com 0 (incorreto), 1 (correto) ou 9 (em branco). As questões de crédito parcial poderiam ser pontuadas com 0, 1, 2 ou 9.

A pontuação manual de itens do pré-teste requer treinamento e con-trole de qualidade semelhantes à pontuação manual do teste final. Um elaborador de itens com experiência deverá fazer o treinamento e super-visionar a pontuação de itens do pré-teste. Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de guias de pontuação para itens abertos de linguagem, matemática e ciências.

Os elaboradores de itens devem usar respostas do pré-teste para rever e refinar seus guias de pontuação e suas categorias de pontua -ção antes que comece a pontuação do pré-teste. Antes do início da pontuação manual, os elaboradores de itens devem extrair uma amostra de cadernos de prova completos do pré-teste e comparar as respostas efetivas dos alunos a itens de resposta curta com aquelas antecipadas no guia de pontuação. Os elaboradores de itens devem usar a amostra para incluir exemplos de respostas dos alunos em seus guias de pontuação. Os guias de pontuação devem incluir tanto res-postas incorretas quanto as corretas. O guia de pontuação de crédito parcial no Quadro 3.12 mostra exemplos de respostas reais de alunos que correspondem a cada uma das categorias do guia de pontuação, inclusive as pontuações zero.

Os elaboradores de itens devem refinar ou expandir seus guias de pontuação para levar em conta a gama de respostas realmente dadas pelos alunos. Às vezes, essas revisões podem ser bastante amplas. Os alunos tendem a surgir com respostas não antecipadas, mas corretas, ou com formas não costumeiras, mas exatas, de expressar suas ideias. Tais exemplos devem ser acrescentados aos manuais de pontuação, se forem razoavelmente comuns. Se muitos alunos derem respostas de difícil clas-

Page 96: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 83

sificação como corretas ou incorretas, os elaboradores de itens precisam deixar claro em seus guias de pontuação como fazer essas distinções. Um painel ou o gerente de desenvolvimento de teste devem rever os guias de pontuação antes que os cadernos do pré-teste sejam pontuados.

Durante a pontuação manual, os elaboradores de itens devem receber retornos dos avaliadores a respeito de quaisquer outros aperfeiçoamen-tos que possam ser necessários no guia de pontuação. Se houver necessi-dade de revisões significativas em um item do guia, o item talvez tenha de ser repontuado, de acordo com o guia de pontuação revisto, para garantir a consistência.

É essencial rever os guias de pontuação de forma que os critérios para pontuar e os exemplos dados correspondam à gama real de possí-veis respostas dos alunos. Se os guias de pontuação não forem revistos, alguns itens serão perdidos, porque nenhuma das respostas dos alunos pode atender às excessivas demandas do guia. A pontuação de outros itens pode ser não confiável porque os avaliadores, não sabendo como pontuar as respostas que não se enquadram nas diretrizes de pontuação, terão de tomar as próprias decisões individualmente.

Em geral, pontuações mais altas para questões de crédito parcial indi-cam uma resposta mais sofisticada ou extensa. Uma pontuação 2 sugere uma resposta “melhor” que uma pontuação 1. Dados de crédito parcial do pré-teste podem ser usados para colher informação sobre categorias de respostas dos alunos, e isso pode ajudar a refinar itens do pré-teste ou os guias de pontuação. As respostas a um item de crédito parcial do pré--teste podem ser codificadas como 0, 1, 2 ou 3, embora essas pontuações possam não ser hierárquicas. Nesses sistemas de pontuação não hierár-quicos, uma pontuação 3 não é considerada mais sofisticada que uma pontuação 2 ou 1. Cada pontuação 1, 2 e 3 denota um tipo de resposta correta, mas diferente. Por exemplo, pode haver três diferentes modos de resolver um problema de matemática. O guia de pontuação pode ser bastante complexo de modo a permitir essas três possibilidades. Se todos os alunos do pré-teste escolherem o mesmo método, o elaborador de itens poderia rever o guia de pontuação para se concentrar no método mais popular, com uma breve referência às outras possibilidades. O guia de pontuação seria revisto para o teste final, mostrando uma pontuação 1

Page 97: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

84 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

para a resposta correta, independentemente do método usado para re-solver o problema.

Os elaboradores de itens devem informar ao analista de dados quando itens de crédito parcial são usados para indicar categorias, em vez de hie-rarquias, pois isso permitirá que o analista diferencie entre as respostas. O analista pode atribuir uma pontuação 1 a cada categoria de resposta correta. Assim, é muito importante que os avaliadores compreendam quando estão pontuando itens hierárquicos de crédito parcial e itens de crédito parcial relativos a categorias. Todas as questões de crédito parcial no teste final devem ser tratadas como hierárquicas.

O Volume 4 desta série tem uma seção especial sobre análise de da-dos do pré-teste. Nela, estão cobertas as duas abordagens de análise: a teoria clássica dos testes (TCT) e a teoria de resposta ao item (TRI). A TRI é frequentemente usada para analisar itens de teste, fazer a ligação de formulários de teste e desenvolver escalas para apresentar os resulta-dos de uma avaliação nacional (Beaton e Johnson, 1989); tem diversas vantagens quando usada para desenvolver escalas a partir dos dados da avaliação. A TRI permite que um item seja caracterizado independen-temente de qualquer amostra de indivíduos que tenha respondido a ele, assim como permite que um respondente individual seja caracterizado independentemente de qualquer amostra de itens aos quais tenha res-pondido. Assim, a TRI é particularmente útil quando múltiplos con-juntos de itens são aplicados aos alunos em uma avaliação. No entanto, também apresenta algumas desvantagens – em especial, a complexidade do procedimento, que requer níveis consideráveis de habilidade e expe-riência. Quando essas habilidades e experiências não estão disponíveis num país, a aplicação da teoria clássica dos testes pode ser vista como aceitável.

CONFIABILIDADE

Tanto o pré-teste quanto o teste final devem demonstrar evidências de que foi feito um teste de confiabilidade. Uma medida de confiabilidade é um indicador da consistência dos resultados do teste. A confiabilida-

Page 98: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 85

de depende da qualidade dos itens do teste, do próprio teste, da forma como os testes foram aplicados, das características do grupo de alunos (como o grau de empenho com que fazem o pré-teste ou os testes de avaliação nacional) e da qualidade da pontuação dos itens do teste. A questão da confiabilidade está coberta no Volume 4 desta série.

Os índices de confiabilidade do teste variam de 0 a 1; o 0 representa um teste no qual as respostas dos alunos são totalmente inconsistentes (por exemplo, um teste no qual todos os alunos dão respostas aleatórias a todos os itens), enquanto o 1 representa um teste que mede um domí-nio com consistência perfeita.

O órgão implementador deve obter evidência do grau de confiabili-dade com que os itens individuais do pré-teste se correlacionam. Essa in-formação fornece uma medida da consistência interna dos itens do teste. Observe que essa abordagem presume que os itens selecionados meçam um único conceito ou traço, como habilidade matemática ou linguísti-ca. Normalmente, as equipes de avaliações nacionais e internacionais tendem a omitir itens que não sejam relativamente homogêneos, isto é, itens que não meçam um único conceito ou traço. A homogeneidade pode ser avaliada usando-se uma abordagem como alfa de Cronbach, as fórmulas 20 ou 21 de Kuder-Richardson, ou um coeficiente de con-fiabilidade split-half; todos eles encontrados no software de estatística SPSS©.

Se o teste de avaliação inclui itens de resposta aberta ou livre, o órgão implementador deve definir que o método de pontuação é confiável. O órgão deve certificar-se de que cada avaliador ou corretor de itens aber-tos esteja treinado para julgar se as respostas de um aluno são aceitáveis. Tal treinamento exigirá que os avaliadores trabalhem com a equipe de desenvolvimento de teste para documentar a lista de respostas aceitá-veis e inaceitáveis para cada questão aberta. Depois do treinamento, pares de avaliadores trabalhando de forma independente devem pontuar cada item aberto de pelo menos 60 cadernos de prova do pré-teste se-lecionados aleatoriamente, e o percentual de concordância exata entre pontuadores para o conjunto geral de itens deve ser calculado. O órgão implementador deve pedir esclarecimentos aos elaboradores do teste nos casos em que os avaliadores tenham dúvidas quanto à aceitabilidade

Page 99: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

86 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

de determinada resposta. Uma cuidadosa pontuação de itens abertos do pré-teste deve ajudar a garantir que haja pouco espaço para discordância sobre respostas aceitáveis e inaceitáveis durante a pontuação de itens numa avaliação nacional. Em http://go.worldbank.org/M2O1YDQO90, você encontra diversos exemplos de pontuação de itens abertos.

Page 100: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

5 SELEÇÃO DE

ITENS DO TESTE

A seleção de itens do pré-teste para o teste final (coberta, em mais detalhes, no Vo-lume 4) depende, em primeiro lugar, e

principalmente, do marco de referência, especialmente da tabela de especificações. Em segundo lugar, das propriedades de mensu-ração dos itens.

Tipicamente, os seguintes critérios de seleção são adotados para cada item:1

O item corresponde à tabela de especificações.��O percentual de alunos que acerta o item fica entre 40% e 80%.��O item mostra uma baixa taxa de respostas em branco.��O índice de discriminação (correlação entre a pontuação do item e a ��pontuação total do teste) é superior a 0,2.A confiabilidade do teste é aprimorada com a inclusão do item.��A tendenciosidade do item está dentro de limites aceitáveis para os ��principais grupos de alunos.

As seguintes considerações são específicas para itens de múltipla es-colha:

Page 101: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

88 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

O ponto bisserial para a chave é positivo e superior a 0,2.��Todos os distratores são plausíveis (isto é, foram selecionados por ��pelo menos 5% de alunos) e têm pontos bisseriais zero ou negativos.

A Tabela 5.1 mostra o resultado típico de uma análise de um item de múltipla escolha. Estatisticamente, o item funciona bem.

TABELA 5.1

Exemplo de Resultado da Análise de um Item de Múltipla Escolha

Critério Opção

A (0) B (0) C (0) D (1)

Contagem 90 14 21 254

Percentual 23,7 3,7 5,5 67,0

Ponto bisserial −0,26 −0,21 −0,16 0,39

Habilidade média −0,02 −0,48 −0,14 0,54

Fonte: Criação dos autores.

Os cabeçalhos da coluna mostram o número de categorias ou op-ções no item (A, B, C, D). A opção D é a chave, ou opção correta, e é mostrada com a pontuação 1 entre parênteses. As opções A, B e C são mostradas com pontuações 0 entre parênteses. A linha “Contagem” mostra o número de alunos que selecionaram cada opção; 254 alunos selecionaram a opção correta. A linha “Percentual” apresenta o percen-tual de dados (a contagem expressa como um percentual do número de alunos): 67% dos alunos selecionaram a opção correta. Esse resultado mostra que o item está dentro de uma faixa aceitável de dificuldade. O item é bastante fácil. Apenas 3,7% dos alunos selecionaram a opção B, o que sugere que essa opção é fraca ou implausível. A reelaboração dessa opção para torná-la mais plausível possivelmente poderia aprimorar o item; o item precisaria passar por um pré-teste mais uma vez. A linha se-guinte mostra o ponto bisserial para cada opção. O ponto bisserial para a resposta correta é 0,39. Os pontos bisseriais para as opções incorretas são todos negativos. Nos itens de múltipla escolha, o ponto bisserial para a chave é o mesmo que o índice de discriminação para o item. A última

Page 102: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 89

linha mostra a habilidade média. A habilidade média dos alunos que selecionaram a opção correta é consideravelmente mais alta que a dos alunos que selecionaram as opções incorretas. Esse resultado também mostra que o item está funcionando bem.

As seguintes considerações são específicas de itens abertos:

Se o item é pontuado dicotomicamente, o índice de discriminação (cor-��relação entre a pontuação do item e a pontuação total) é superior a 0,2.Se o item confere crédito parcial, a discriminação é positiva e supe-��rior a 0,3.Se o item é pontuado dicotomicamente, a maior parte dos itens deve ��estar na faixa de dificuldade de 40% a 80%.Se o item confere crédito parcial, cada categoria de pontuação atrai ��pelo menos 5% de respostas.Se o item confere crédito parcial, o percentual geral (calculado combi-��nando-se as respostas a diferentes categorias parcialmente corretas) de alunos que conseguem acertar um item está na faixa de 40% a 80%.Se o item confere crédito parcial, a habilidade média dos alunos cla-��ramente decresce, da mais alta até a mais baixa categoria de respostas para questões de crédito parcial.

Um resultado típico de uma análise de um item aberto de crédito parcial com boas estatísticas é mostrado na Tabela 5.2. Os títulos das colunas mostram as categorias de respostas dos alunos. Alunos que res-ponderam ao item incorretamente receberam pontuação zero. Uma res-posta parcialmente correta ganhou pontuação 1, enquanto a resposta totalmente correta recebeu pontuação 2. Respostas em branco são mos-tradas como 9 e também são pontuadas como zero. O índice geral de discriminação é 0,47, o que é alto. Observe-se que, para itens de crédito parcial, o índice de discriminação não é o mesmo que o ponto bisserial para a categoria de pontuação mais alta. A contagem e o percentual cor-retos são mostrados nas duas primeiras linhas. Praticamente a metade dos alunos que tentaram esse item deu uma resposta incorreta. Mais de 5% responderam a cada categoria de crédito parcial, o que sugere que vale a pena manter essas categorias.

Page 103: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

90 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

TABELA 5.2

Exemplo de Resultado da Análise de um Item Aberto de Crédito Parcial

Critério

Categoria de resposta dos alunosÍndice de discriminação = 0,47

0 (0) 1 (1) 2 (2) 9 (0)

Contagem 1.466 425 268 809

Percentual 49,4 14,3 9,0 27,3

Ponto bisserial 0,09 0,11 0,45 −0,48

Habilidade média −1,66 0,53 0,90 −1,90

Fonte: Criação dos autores.

O ponto bisserial aumenta de zero até a pontuação 2, mostrando que as categorias estão tendo o desempenho esperado. A habilidade média dos alunos que receberam pontuações 2 é −0,9. Alunos que receberam pontuações 1 têm habilidade média de −1,53. A diferença é superior a 0,5 e sustenta a manutenção das duas categorias no guia de pontuação porque mostram alunos com habilidades bastante diferentes.

O percentual de alunos que não tentaram responder a esse item é bastante alto: 27,3%. Esse número precisa ser considerado no contexto do padrão de itens em branco no conjunto do teste. Nesse caso, a maior parte dos itens abertos teve percentagens de respostas em branco acima de 20. O problema foi causado pela falta de familiaridade dos alunos com esses tipos de itens e pela relutância em respondê-los, e não por um problema específico com o item.

O nível geral de dificuldade do teste final deve ser adequado ao seu objetivo. Um teste final concebido para monitorar o desempenho de todos os alunos na população-alvo deve ter uma gama de dificuldades que corresponda às habilidades da população. Avaliações desenhadas para objetivos diferentes, como identificar alunos que atendam a um padrão de referência predefinido, podem incluir itens muito fáceis ou muito difíceis, dependendo do nível em que se estabeleça o padrão de referência.

Até o momento, a experiência adquirida no desenvolvimento de pré--testes para uma avaliação nacional sugere que os elaboradores de itens tendem a desenvolver itens que, na média dos casos, são muito difíceis.

Page 104: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 91

Parte dessa tendência pode derivar de suas experiências anteriores com a elaboração de questões para exames públicos, em que as questões ten-dem a ser calibradas num nível de dificuldade relativamente alto. Além disso, muitos elaboradores de itens de pré-teste tendem a viver em áreas urbanas e não têm compreensão dos baixos níveis de aproveitamento que podem ser encontrados em áreas rurais remotas.

Se muitos itens do pré-teste forem muito difíceis e se o pré-teste não tiver o número suficiente de itens fáceis que correspondam aos critérios da tabela de especificações, deve-se fazer outra rodada de pré-teste com um novo conjunto de itens mais fáceis. Do mesmo modo, se houver um número insuficiente de itens difíceis, será necessário um pré-teste adi-cional com itens mais difíceis.

As pessoas que analisarão os dados do teste final também devem ana-lisar os dados do pré-teste. Quaisquer problemas com a forma como os elaboradores de itens fornecem informações sobre a classificação dos itens e das chaves, ou com a forma como os itens foram pontuados, po-dem ser resolvidos durante a análise do pré-teste.

A equipe de elaboração de itens deve ser envolvida na interpretação da análise de dados do pré-teste e nas decisões sobre quais itens excluir do teste final e quais itens com estatísticas fracas deveriam ser incluídos. As decisões sobre a inclusão ou exclusão de itens devem levar em conta a tabela de especificações e as áreas do currículo que o teste deve avaliar.

Em geral, apenas um formulário final de um teste é usado em cada série. Pode consistir em dois ou três testes separados, como um teste de matemática, um teste de leitura e um teste de escrita. Esses testes po-dem ser combinados em um único caderno ou impressos em cadernos separados.

As questões que se aplicaram ao pré-teste, relativas à necessidade de itens de ligação e sua seleção e localização, também se aplicarão ao teste final se houver vários formulários.

Alguns itens fazem excelente sentido conceitual, mas têm estatísticas fracas. Esse resultado pode indicar um problema na forma como o item foi apresentado. Os alunos podem não ter familiaridade com o voca-bulário ou com a forma como devem dar suas respostas, ou o material de estímulo pode ser confuso. Idealmente, itens com estatísticas muito

Page 105: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

92 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

fracas devem ser revistos e passar por um novo pré-teste. No entanto, quando itens com estatísticas ruins se referem a critérios importantes na tabela de especificações e não existem outros itens disponíveis, talvez seja necessário incluí-los no teste final.

Em princípio, os itens nunca devem ser alterados entre o pré-teste e os formulários finais, porque as alterações poderiam afetar as estatísticas do item de forma desconhecida. Na prática, as agências de testes tendem a fazer pequenas alterações em alguns itens – em geral, não mais que em quatro ou cinco num teste de 30 itens. Essas pequenas alterações poderiam incluir:

Mudar uma ou duas palavras para aprimorar a clareza ou reduzir a ��dificuldade de vocabulário.Eliminar a opção mais fraca entre as cinco opções de um item de ��múltipla escolha.Corrigir erros gramaticais ou melhorar a clareza de expressão.��Melhorar a diagramação, como a posição dos títulos num diagrama ��ou a consistência dos títulos.

NOTA

1. Os exemplos usados neste capítulo baseiam-se em análises de itens que usam a abor-dagem da teoria clássica dos testes. O Volume 4 contém essa abordagem de forma mais detalhada. Também apresenta outro método de análise de itens, a teoria de resposta ao item, que usa uma abordagem estatística diferente e uma terminologia um pouco diferente.

Page 106: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

6 PRODUÇÃO

DO TESTE FINAL

DESENHO DO TESTE FINAL

O analista de dados ou estatístico deve ser envolvido no desenho do formulário final. É sua atribuição certificar-se de que o desenho atende aos seguintes requisitos:

O formato em que são fornecidas as informações socioeconômicas e os ��dados sobre os fatores de contexto dos alunos é adequado à análise.O método de registrar as respostas ao item é adequado para a análise.��A natureza e abrangência dos guias de pontuação são adequadas para ��a análise.As ligações horizontais com dados do testes dos anos anteriores ou ��as ligações verticais que podem ser necessárias são estatisticamente sólidas.

As informações sobre dados socioeconômicos e fatores de contexto dos alunos requeridas na folha de rosto dos cadernos de prova relacio-nam-se com o objetivo do teste e a forma como os dados do teste serão apresentados. Os alunos devem ser capazes de completar as informações pedidas com facilidade e exatidão. Em geral, as informações da folha de rosto incluem o seguinte:

Page 107: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

94 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Nome da escola��Nome completo do aluno��Gênero do aluno��Idade ou data de nascimento do aluno��Série ou classe do aluno��Idioma do aluno [primeiro idioma e o falado em casa].��

Em alguns países, os alunos podem ter números exclusivos de identi-ficação nacional. Esses números devem ser usados quando disponíveis.

Também é útil incluir uma opção na página de rosto para o aplicador do teste registrar se os alunos perderam todo o teste ou parte dele devi-do a ausências ou doenças, ou se os alunos com deficiências receberam assistência especial para escrever suas respostas (veja o Quadro 6.1).

QUADRO 6.1

Exemplo de uma Folha de Rosto de Teste

MONITORAMENTO DA AVALIAÇÃO DA EDUCAÇÃO: 4a SÉRIE

Seção para o aluno completar:

Escola _____________________________________________________________________

Estado _____________________________________________________________________

Série _______________________________________________________________________

Primeiro nome ______________________________________________________________

Sobrenome _________________________________________________________________

Sou um menino. ��Sou uma menina. �Idade: � anos e � meses

O idioma que uso com mais frequência em casa é o português. Sim � Não �

Seção para o aplicador do teste completar:

Este aluno esteve ausente no seguinte teste deste caderno:

Leitura �Matemática �Este aluno recebeu assistência especial para Leitura � Matemática �Descreva a assistência especial fornecida: ______________________________________

Fonte: Papua Nova Guiné, Departamento de Educação, 2004.

Page 108: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 95

Em geral, é mais fácil garantir que as identidades dos alunos estejam corretamente registradas e ligadas aos dados adequados se os testes de todas as disciplinas estiverem em um único caderno. Evitam-se potenciais proble-mas de identificação se as informações contidas na folha de rosto do caderno de prova único forem completadas, de forma acurada e legível, antes da primeira sessão de teste. Se for usado um único caderno, o aplicador do tes-te deve tomar muito cuidado para garantir que os cadernos de prova sejam entregues aos alunos certos antes de cada subsequente sessão de teste.

Se forem usados múltiplos cadernos, serão necessários procedimentos efetivos para fazer a correspondência entre candidatos e cadernos. Os seguintes riscos estão associados ao uso de múltiplos cadernos:

Os alunos podem escrever seus nomes de formas diferentes em dife-��rentes cadernos.Os alunos podem usar nomes diferentes em diferentes cadernos: ��uma forma reduzida num caderno e o nome completo em outros; um nome religioso ou cultural num caderno e o nome de família em outro; ou o primeiro nome em um e o nome do meio em outro.Os alunos podem escrever todo o nome ou parte dele de forma ilegí-��vel em pelo menos um dos cadernos.Os alunos podem deixar de escrever seus nomes em um caderno ou ��em mais de um deles.

A diagramação e as diretrizes sobre a aplicação do teste devem ser claras e consistentes. Na medida do possível, a diagramação do pré-teste e o formato do teste final devem ser idênticos.

O teste deve começar com alguns itens fáceis para encorajar os alunos mais fracos.

Em seguida, devem vir itens que cobrem diferentes níveis de dificul-dade, sem seguir qualquer padrão específico, de modo que os alunos não tenham de batalhar com uma série de itens difíceis até desistirem. Tam-bém é importante que alguns alunos mais lentos tenham uma chance de tentar parte dos itens mais difíceis, colocando esses itens mais ou menos no início do teste. O teste deve terminar com alguns itens mais difíceis, porque os alunos com menores habilidades têm menor probabilidade de

Page 109: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

96 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

terminar o teste. Os itens que se referem a um estímulo comum (por exemplo, um parágrafo ou mapa) devem ser apresentados juntos, inde-pendentemente de seu grau de dificuldade.

As diretrizes para a colocação de itens de ligação no formulário final são as mesmas observadas no pré-teste (veja Capítulo 4). Itens de ligação hori-zontal são necessários para se ligar a um teste anterior se o aproveitamento estiver sendo comparado ao longo do tempo. Ligações verticais são necessá-rias para comparar o aproveitamento entre séries. Os itens de ligação devem ser colocados (a) no começo do caderno de prova ou perto da metade dele e (b) numa posição semelhante em cada caderno de prova.

Os títulos dos itens devem ser impressos em escala cinza nos cadernos de prova, a fim de facilitar a localização e o rastreamento dos itens (veja Capítulo 3).

O gerente de desenvolvimento de teste deve fornecer ao analista de dados uma planilha mostrando onde o item aparece em cada caderno, incluindo os itens de ligação.

As decisões sobre como os alunos registrarão suas respostas devem ser to-madas durante a fase de desenho da tabela de especificações (veja Capítulo 2). Com frequência, os alunos preenchem as respostas ao item no caderno de prova. A diagramação dos itens deve permitir espaço adequado para que os alunos registrem suas respostas. A diagramação dos itens também deve designar um espaço para os avaliadores registrarem suas pontuações.

Em outras situações, especialmente nas séries mais avançadas, podem ser usadas folhas de respostas separadas. Essas folhas de respostas devem mostrar com clareza como fazer a ligação entre a resposta e o item, ou entre a opção impressa no caderno de prova e a posição correspondente na folha de respostas. Se os itens no caderno de prova estiverem organi-zados em unidades, será útil organizar a diagramação da folha de respos-tas em unidades semelhantes.

IMPRESSÃO E REVISÃO

Estes são alguns dos fatores que determinam a extensão do caderno de prova:

Page 110: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 97

Número de áreas temáticas cobertas��Amplitude da cobertura dentro das áreas temáticas��Formato do item��Uso de ilustrações��Extensão dos materiais de estímulo��Tamanho da fonte��Fundos disponíveis para custear a impressão.��

Os elaboradores de itens devem saber, desde o início, o número de páginas proposto para o formulário final do teste. Se ficar evidente que a extensão do teste será limitada, o material de estímulo, bem como os diagramas e outras ilustrações, devem ser limitados. Qualquer que seja a quantidade de espaço disponível, a diagramação dos itens deve ser clara e bem organizada.

Em geral, cadernos com menos de 20 páginas (10 folhas) são impres-sos em papel A4 (210mm-297mm) e grampeados em um dos lados. Ca-dernos maiores tendem a ser impressos em papel A3 (420mm-297mm) e grampeados no meio.

Cadernos com maior número de páginas em geral permitem o uso de maior diversidade de material de estímulo interessante e itens mais ima-ginativos. Do lado negativo, gasta-se mais com sua impressão e distribui-ção. Também requerem mais espaço de armazenagem para embrulhar e durante a fase de pontuação, o que pode aumentar consideravelmente os custos gerais.

Em geral, os testes são impressos dos dois lados de uma folha. A qua-lidade mínima do papel tem de ser suficiente para garantir que os itens impressos de um lado da página não interfiram com a legibilidade dos itens impressos do outro lado da mesma página.

As fotografias requerem papel de mais alta qualidade para garantir boa reprodução. Finalmente, diagramas detalhados também requerem papel de melhor qualidade.

Se os alunos tiverem de escrever no caderno de prova, o papel deve ser forte o bastante para que escrevam suas respostas sem rasgar o papel e para que o escrito num lado da página não apareça do outro lado.

Page 111: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

98 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

O papel da folha de rosto às vezes é de melhor qualidade que o usado no restante do caderno de prova, mas isso tende a aumentar os custos e, em geral, não é necessário.

Muitas vezes, é útil imprimir os cadernos para diferentes séries com tintas de cores diferentes. Isso ajuda a garantir que os alunos recebam os cadernos adequados. As cores das tintas escolhidas devem ser de fácil leitura.

Um revisor com grande experiência deve revisar os formulários finais. Também vale a pena pedir que colegas competentes que não estiveram envolvidos no desenvolvimento do teste leiam o formulário final para garantir que ele faça sentido da perspectiva do usuário do teste.

Existem dois períodos fundamentais para a revisão dos formulários finais do teste.

Depois que os formulários finais tiverem sido montados, devem ser revisados pelo gerente de desenvolvimento de teste, pelos elaboradores de itens encarregados dessa tarefa e, finalmente, por um revisor pro-fissional. Os elaboradores de itens devem conferir as correções feitas pelo revisor. Os formulários finais deverão ser revisados uma segunda vez quando as matrizes chegarem da gráfica. As matrizes são imagens das páginas do teste tal como serão reproduzidas por uma impressora. Em geral, a gráfica entregará as matrizes poucos dias depois de receber o teste. O gerente de desenvolvimento de teste pode assumir a respon-sabilidade de revisar as matrizes ou pode preferir contratar um revisor profissional para essa tarefa. Deve-se alocar pelo menos duas semanas para revisão e correção dos formulários finais. Pode haver necessidade de mais tempo, dependendo da disponibilidade dos membros da equipe encarregados de fazer as correções dos cadernos.

Com frequência, os revisores encontram centenas de pequenos er-ros, especialmente o uso inconsistente de maiúsculas, pontuação, for-matação, desenho final e soletração incorreta. Se as revisões do pré-teste tiverem sido minuciosas e amplas, e se apenas mudanças substantivas mínimas tiverem sido feitas nos itens, então, em teoria, a revisão dos formulários finais deve revelar poucos erros, ou nenhum. Na prática, isso raramente acontece. Podem surgir erros nos formulários finais em lugares onde não haviam aparecido antes. Em geral, os revisores preci-

Page 112: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 99

sam de vários dias para revisar inteiramente os formulários finais do teste e as orientação para aplicação, mesmo que os pré-testes tenham sido revisados anteriormente.

Quando for necessário imprimir uma grande quantidade de material, deve-se fazer uma reserva na agenda dos impressores com várias sema-nas ou até meses de antecedência. A gráfica informará o tempo previsto para realizar a tarefa. Às vezes, a equipe da avaliação nacional pode ne-gociar um pagamento adicional para a entrega do material antes da data prevista e estabelecer desincentivos ou penalidades caso haja atraso.

Os impressores podem cometer erros de impressão nos cadernos de prova. O erro mais comum é a falta de algumas páginas em alguns ca-dernos. O gerente de elaboração de testes deve conferir aleatoriamente as caixas com os cadernos finais para detectar algum erro.

Page 113: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

7 PONTUAÇÃO MANUAL

DOS ITENS DO TESTE

A equipe da avaliação nacional deve se certi-ficar de que os avaliadores que vão fazer a pontuação manual dos formulários finais do

teste estejam bem treinados. A essa altura, os guias de pontuação já terão sido revisados durante o pré-teste e deverão estar na forma quase final. Antes de começar a pontuação manual final, os elaboradores de itens poderiam selecionar uma pequena amostra de formulários finais completados, conferir a clareza e eficiência dos guias de pontuação e, possivelmente, fazer pequenas revisões.

É preciso planejar com bastante antecedência o estabelecimento de um centro de classificação para a pontuação manual e definir processos eficazes de pontuação. A equipe da avaliação nacional deve ter respon-dido às seguintes questões antes de dar início à pontuação manual:

Onde os materiais do teste serão armazenados?��Como serão levados até os centros de classificação?��Como será garantida a segurança dos materiais do teste? (Os testes e ��manuais de pontuação não devem sair da sala.)

Page 114: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

102 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Qual é o cronograma da pontuação manual? A pontuação será orga-��nizada em unidades diárias, em turnos (incluindo um turno notur-no)? Os avaliadores trabalharão nos fins de semana?Como os avaliadores registrarão os dados?��Qual é o equipamento de classificação necessário? Em geral, dá-se ��preferência a canetas vermelhas ou verdes, porque as pontuações nessas cores podem ser vistas claramente nos cadernos dos alunos. Pequenos adesivos são úteis para sinalizar os itens a respeito dos quais os avaliadores têm dúvidas.Os avaliadores serão pagos pelo número de testes que classificarem ��ou pelo tempo gasto na classificação? Ambos os métodos apresentam vantagens e desvantagens.

No primeiro caso, os avaliadores podem se apressar e ser menos cui-dadosos na medida em que tentem pontuar o maior número possível de testes. No último, os avaliadores podem não se dedicar inteiramente à tarefa, e sua produção pode ser baixa. Um meio-termo adequado pode-ria ser o pagamento pelo tempo gasto, mas com um número mínimo de testes que deveriam ser completados a cada dia.

A equipe necessária num centro de classificação é composta por um avaliador-chefe, avaliadores líderes e avaliadores. As pessoas responsá-veis pela seleção de avaliadores devem entrevistar os candidatos e con-firmar suas referências.

O avaliador-chefe é responsável pelas operações rotineiras. Deve garan-tir que os avaliadores observem o cronograma, resolver quaisquer questões relativas à classificação, supervisionar o gerenciamento dos procedimentos de controle de qualidade e manter a segurança do teste. O avaliador-chefe deve ser um avaliador experiente, com habilidades comprovadas em opera-ções de gerenciamento, e deve estar preparado para substituir os membros da equipe cujo desempenho se prove insatisfatório.

Os avaliadores líderes são responsáveis por monitorar a classificação de uma área temática determinada e implementar procedimentos de controle de qualidade.

Cada teste deve ter pelo menos um avaliador líder (por exemplo, um avaliador líder para matemática e um avaliador líder para leitura).

Page 115: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 103

Os avaliadores líderes devem ser especialistas numa área temática, ter experiência com classificação e impor respeito.

Os avaliadores pontuarão as respostas dos alunos. Em geral, os pro-fessores são bons avaliadores. Os avaliadores devem ser diligentes, con-sistentes e confiáveis, e conhecer sua área temática.

O gerente de desenvolvimento de teste em geral indica elaboradores de itens com experiência em áreas temáticas relevantes para treinar os avaliadores. De preferência, a pessoa que fizer o treinamento dos avalia-dores também deveria ter tido grande envolvimento no desenvolvimen-to dos itens e dos guias de classificação. A pessoa que fizer o treinamento dos avaliadores deve ser especialista nos temas relevantes. O gerente de desenvolvimento de teste poderia assumir o papel de treinar avaliadores em sua área temática. Idealmente, a pessoa que fizer o treinamento de avaliadores para o pré-teste também deverá treinar os avaliadores dos formulários finais.

Deve-se alocar tempo suficiente para vários períodos de treinamento de avaliadores em cada grupo de avaliadores. O treinamento deve enfatizar que os avaliadores terão de ler uma variedade de respostas corretas possí-veis. Algumas podem não ser aquilo com que o avaliador está habituado, podem ter pouca semelhança com as respostas contidas em livros didáticos ou estar expressas numa linguagem pobre ou num vocabulário não conven-cional. O treinamento de avaliadores deve cobrir os seguintes pontos:

Os avaliadores têm pouca ou nenhuma liberdade para determinar a ��adequação de uma resposta; suas opiniões ou preferências pessoais não poderão influenciar a avaliação.Os alunos não devem ser penalizados por erros de soletração ou gra-��maticais em leitura, matemática ou ciências, a menos que seja impos-sível decifrar o trabalho do aluno.Os avaliadores têm de buscar o conselho do avaliador líder quando ��não tiverem certeza de como pontuar determinada resposta.Os avaliadores devem usar a mesma pontuação (em geral 0) consis-��tentemente para todas as respostas incorretas e todas as ilegíveis ou ininteligíveis, inclusive nos casos em que o aluno escreveu uma única letra ou garatujou uma única linha.

Page 116: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

104 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Os avaliadores devem usar o mesmo código de pontuação (em ge-��ral, 9) consistentemente para mostra que o aluno não fez nenhuma tentativa de responder ao item – ou seja, nenhuma marca de lápis aparece no espaço fornecido para a resposta.Para facilitar a entrada de dados, os avaliadores devem usar apenas o ��espaço fornecido no caderno de prova quando estiverem fazendo a pontuação manual.Os avaliadores não devem ser responsáveis por combinar pontuações ��para dar um total geral.

No treinamento, a ênfase deve ser posta em garantir que os avalia-dores compreendam o que está incluído na tarefa de pontuação e em alcançar consistência na pontuação. Os métodos de treinamento tendem a variar. O exemplo seguinte mostra um dos métodos sugeridos, mas existem muitos outros.

O treinador pede aos avaliadores que respondam a cada item pontua-��do manualmente no teste. Esse processo familiariza os avaliadores com o item e garante que o leram e entenderam adequadamente.O treinador dá a cada avaliador 4 ou 5 cadernos de prova respondidos ��por alunos. O treinador discute o primeiro item e o guia de pontua-ção e, então, os avaliadores pontuam esse item em seus cadernos de prova. O treinador encoraja o grupo a discutir quaisquer discrepân-cias ou dúvidas sobre como pontuar uma resposta. Os avaliadores são encorajados a partilhar respostas que possam ser diferentes dos exemplos no guia de pontuação. Depois que o primeiro item tiver sido adequadamente discutido, o treinador passa para o item seguinte e para as orientações para pontuá-lo. Em geral, esse método de trei-namento requer várias horas.Os avaliadores têm uma segunda sessão de treinamento na qual tra-��balham em pares. Pontuam alguns testes individualmente e, então, conferem o trabalho uns dos outros e discutem os itens sobre os quais tiveram julgamentos diferentes. Se não puderem chegar a um acordo, devem consultar o treinador. Depois de encerradas as sessões de trei-namento, o avaliador líder assume a responsabilidade pelo gerencia-

Page 117: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 105

mento dos avaliadores. O avaliador-chefe deve informar o treinador se surgir alguma questão durante a pontuação dos testes.No processo de pontuação dos cadernos de prova, o avaliador-líder ��deve selecionar alguns itens problemáticos a cada dia e fazer discus-sões rápidas sobre eles para manter o foco e a consistência.

O trabalho de checar a qualidade de itens de resposta curta para uma avaliação nacional poderia incluir uma segunda checagem de quase 100% de todos os cadernos de prova. Em geral, os avaliadores líderes fazem a checagem. Podem reduzir gradualmente o processo de checagem dupla a entre 10% e 20% dos cadernos de prova à medida que os avaliadores se tornam consistentes e confiáveis em suas pontuações.

Se houver um grande grupo de avaliadores trabalhando, vários avaliadores líderes principais serão necessários para garantir a quali-dade da checagem e fornecer retorno imediato aos avaliadores sobre quaisquer erros que estejam cometendo. O avaliador-chefe deve re-querer que os avaliadores façam novamente a pontuação de itens nos primeiros cadernos que pontuaram e nos quais cometeram erros de pontuação. Os procedimentos para pontuações discrepantes também devem ser esclarecidos. Em geral, a pontuação do avaliador-chefe é a que conta.

Um teste de linguagem poderia incluir um ou mais itens cuja resposta requeira uma redação. Em geral, as redações são pontuadas duas vezes. O segundo avaliador pontua a redação sem saber a pontuação dada pelo primeiro. As duas pontuações são então comparadas. Em geral, aceita-se a diferença de um ponto e tira-se a média das duas pontuações. Dife-renças maiores entre as pontuações dos avaliadores exigem que, pelo menos, uma delas seja alterada. Essa mudança pode basear-se numa dis-cussão entre os dois avaliadores. Se não puderem chegar a um acordo, a questão deve ser levada ao avaliador-chefe para decisão.

A pontuação manual requer uma intensa concentração. Os avalia-dores não devem trabalhar durante muito tempo num mesmo dia ou durante muito tempo sem fazer um intervalo. Em geral, um período de trabalho entre seis horas e seis horas e meia por dia é considerado a jornada máxima. Um dia de trabalho pode consistir em uma sessão de

Page 118: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

106 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

três horas pela manhã, com um breve intervalo, e uma sessão de três horas à tarde, com um breve intervalo. As pessoas que trabalham mais lentamente podem necessitar de uma meia hora extra para completar o número esperado de testes por dia. Deve-se exigir dos avaliadores que completem uma folha de presença diária.

Page 119: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

P A R T E

II CONSTRUÇÃO DE

QUESTIONÁRIOS

Page 120: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

8 DESENHO DE

QUESTIONÁRIOS

Um questionário é um conjunto de itens de-senhados para obter informações sobre uma pessoa. O tipo de informação pode variar

amplamente e incluir dados sobre características pessoais; qualificações e práticas de trabalho; condições de trabalho e recursos; ou fatores so-cioeconômicos e contextuais de uma pessoa, bem como suas atitudes, crenças ou opiniões a respeito de certas questões.

Uma avaliação nacional busca obter uma estimativa confiável do apro-veitamento dos alunos (medido num teste especialmente concebido para isso) e informações (obtidas com um questionário) sobre variáveis-chave associadas a diferenças no aproveitamento. Os testes coletam informação sobre o desempenho dos alunos, e os questionários – quando usados junto com os testes – coletam dados sobre variáveis que poderiam estar associa-das a diferenças nos níveis de desempenho dos alunos ou ajudar a explicá--las. Por exemplo, os dados do questionário podem sugerir que escolas que não têm bibliotecas estão associadas ao baixo desempenho dos alunos ou que escolas em que os professores participam regularmente de progra-mas de desenvolvimento profissional estão associadas ao alto desempenho dos alunos. Esses dados sugerem formas úteis de redirecionar os recursos educacionais para aprimorar o aprendizado dos alunos.

Page 121: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

110 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Um bom questionário coleta dados sobre variáveis para as quais os formuladores de políticas desejam ter informações acuradas, variáveis sobre as quais têm a possibilidade de atuar e que pretendem influenciar, bem como variáveis que, segundo as evidências de pesquisas, podem afetar o aproveitamento dos alunos.

Um erro comum que se comete durante o desenho de questioná-rios é coletar um excesso de informações. Em geral, os formuladores de políticas estão interessados apenas em informações sobre algumas variáveis-chave. Além disso, mesmo quando possam existir boas ra-zões científicas para se coletarem certos tipos de dados, considerações sobre as consequências políticas e sociais de se coletar o dado pode-riam indicar que uma avaliação nacional não é o mecanismo mais adequado para fazê-lo.

Com frequência, as informações podem ser coletadas de outras fon-tes, sem necessidade de usar questionários, em países que mantêm regis-tros acurados e confiáveis de características das escolas, dos professores e dos alunos. Vale a pena descobrir se os registros governamentais são uma fonte útil de informação, porque o acesso a esses registros pode ser mais barato e mais fácil que a aplicação de questionários.

O desenho do questionário deve descrever claramente os tipos de dados que serão coletados, como serão analisados e apresentados e como as constatações poderiam contribuir para melhorar a educação. Os prin-cipais passos no desenho de um questionário são os seguintes:

Decidir qual o objetivo de um questionário e como os dados serão ��usados.Desenvolver uma tabela de especificações que especifique os respon-��dentes, as áreas principais, os tipos de itens, os protocolos de codifi-cação ou pontuação e o protocolo de aplicação (a ser completado por um entrevistador ou autoaplicado).Escrever os itens, usando grupos (ou painéis) de indivíduos expe-��rientes para rever e refinar os itens, e diagramar o formulário de modo que os respondentes possam usá-lo sem dificuldade, e que as pessoas que farão a entrada dos dados possam processar os dados com eficiência.

Page 122: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 111

Especificar um plano de análise de dados para processar a informa-��ção coletada e criar variáveis e indicadores para a análise estatística subsequente.Fazer o pré-teste dos questionários para estabelecer a adequação de ��itens e de categorias de respostas.Analisar os dados do pré-teste do questionário, refinar os questioná-��rios e produzir os questionários finais para aplicação.

A Tabela 8.1 oferece detalhes sobre os passos para o desenvolvimento de um questionário e sobre as pessoas envolvidas.

Os questionários e as instruções para sua aplicação devem ser pre-parados e pré-testados simultaneamente aos testes. Assim, as tabelas de especificações dos questionários devem ser desenvolvidas ao mesmo tempo em que as tabelas de especificações do teste e os questionários devem ser escritos e submetidos a um painel, e os itens do teste estão sendo escritos e submetidos a um painel.

CONTEÚDO DO QUESTIONÁRIO

Um questionário deve colher informações sobre variáveis-chave que po-deriam ajudar a explicar diferenças no desempenho de alunos num teste de aproveitamento. No entanto, há um número infindável de variáveis interligadas que podem afetar o desempenho dos alunos. Um questioná-rio pode focalizar apenas algumas delas.

Os formuladores de políticas em geral querem informações sobre variáveis associadas a importantes questões da educação em seu país, como idioma de instrução, disparidades na distribuição de recursos edu-cacionais ou atitudes relativas à educação de meninas. Possivelmente, os formuladores de políticas não saberão quais variáveis investigar. Eles podem fornecer uma longa lista de variáveis obtidas de sua experiência pessoal e de observações ou que considerem que “teriam” de estar num questionário. Essa lista precisa ser reduzida a alguns tópicos bem foca-lizados que tenham possibilidade de ser úteis para modelar o conteúdo do questionário.

Page 123: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

TAB

ELA

8.1

Co

mp

one

ntes

do

Des

envo

lvim

ento

de

Que

stio

nári

o

Co

mp

one

nte

Des

criç

ãoP

esso

as e

nvo

lvid

as

1. O

bje

tivo

Escl

arec

er o

ob

jetiv

o e

o us

o p

oten

cial

dos

dad

os d

o q

uest

ioná

rio.

Form

ulad

ores

de

pol

ítica

s, p

rinci

pai

s in

tere

ssad

os e

ger

ente

d

e d

esen

volv

imen

to d

e te

stes

.

2. T

abel

a d

e es

pec

ifi ca

ções

Des

enha

r a

tab

ela

de

esp

ecifi

caçõ

es d

o q

uest

ioná

rio p

ara

esp

ecifi

car

resp

ond

ente

s, á

reas

prin

cip

ais,

tip

os d

e ite

ns,

cod

ifi ca

ção

e p

roto

colo

de

aplic

ação

.

Ger

ente

de

des

envo

lvim

ento

de

test

es, e

spec

ialis

tas

nas

dis

cip

linas

, ana

lista

de

dad

os, e

lab

orad

ores

de

itens

ex

per

ient

es, p

rofe

ssor

es e

xper

ient

es, f

orm

ulad

ores

de

pol

ítica

s e

prin

cip

ais

inte

ress

ados

.

3. It

ens

Ano

tar

os it

ens

do

que

stio

nário

.G

eren

te d

e d

esen

volv

imen

to d

e te

ste

e el

abor

ador

es d

e ite

ns.

Aum

enta

r a c

lare

za e

a u

tilid

ade

em p

ainé

is d

e qu

estio

nário

.G

eren

te d

e de

senv

olvi

men

to d

e te

stes

e e

labo

rado

res

de it

ens.

Revi

sar

os q

uest

ioná

rios.

Ger

ente

de

des

envo

lvim

ento

de

test

es, f

orm

ulad

ores

de

pol

ítica

s e

prin

cip

ais

inte

ress

ados

.

4. P

lano

de

anál

ise

dos

dad

osEs

peci

fi car

o p

lano

par

a pr

oces

sar i

nfor

maç

ão, p

ara

cria

r var

iáve

is

e in

dica

dore

s pa

ra m

ediç

ão, e

par

a tip

os d

e an

ális

e.A

nalis

ta d

e d

ados

e g

eren

te d

e d

esen

volv

imen

to d

e te

stes

.

5. P

ré-t

este

Des

enha

r, p

rod

uzir

e re

visa

r q

uest

ioná

rios

par

a p

ré-t

este

. G

eren

te d

e d

esen

volv

imen

to d

e te

stes

, ela

bor

ador

es d

e ite

ns,

pro

fi ssi

onai

s d

e d

esig

n e

dia

gra

maç

ão e

rev

isor

es.

Escr

ever

inst

ruçõ

es p

ara

pré

-tes

te d

e q

uest

ioná

rios

e tr

eina

r ap

licad

ores

.G

eren

te d

e el

abor

ação

de

test

es e

ela

bor

ador

es d

e ite

ns.

Faze

r o

pré

-tes

te d

os q

uest

ioná

rios,

ao

mes

mo

tem

po

em

que

os

test

es e

stão

pas

sand

o p

or u

m p

ré-t

este

.G

eren

te d

e el

abor

ação

de

test

es, g

eren

te d

e lo

gís

tica

e ap

licad

ores

de

test

e.

6. Q

uest

ioná

riofi n

alA

nalis

ar d

ados

do

pré

-tes

te d

o q

uest

ioná

rio.

Ger

ente

de

des

envo

lvim

ento

de

test

es e

ana

lista

de

dad

os.

Refi n

ar q

uest

ioná

rio e

inst

ruçõ

es d

e ap

licaç

ão c

om b

ase

nos

dado

s do

pré

-test

e e

nos

reto

rnos

dos

apl

icad

ores

do

pré-

test

e.G

eren

te d

e el

abor

ação

de

test

es, e

lab

orad

ores

de

itens

e

anal

ista

de

dad

os.

Prod

uzir

o fo

rmul

ário

fi na

l do

que

stio

nário

.G

eren

te d

e d

esen

volv

imen

to d

e te

stes

, ela

bor

ador

es d

e ite

ns,

pro

fi ssi

onai

s d

e d

esig

n e

dia

gra

maç

ão e

rev

isor

es.

Font

e: C

riaçã

o d

os a

utor

es.

Page 124: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 113

Os formuladores de políticas podem não saber que o processo de analisar e relatar dados do questionário é dispendioso e requer conhe-cimentos técnicos. Como os recursos são invariavelmente limitados, os questionários precisam ser concisos e altamente relevantes. Os dados coletados também têm de ser tecnicamente aceitáveis, caso se pretenda que sejam usados para explicar o desempenho dos alunos. Os modelos usados por outras avaliações nacionais podem fornecer uma orientação aproximada. No entanto, cada país tem as próprias necessidades, que devem determinar o que é apropriado para o questionário.

O gerente de desenvolvimento de testes ou a pessoa responsável pela produção do questionário talvez precise fornecer aos formuladores de políticas alguma orientação a respeito de variáveis-chave que tenham a probabilidade de produzir informações úteis. Para fazer isso, talvez precisem apresentar aos formuladores de políticas alguns exemplos re-levantes para ajudá-los a considerar como poderiam usar as informações coletadas. Essas informações ajudarão a refinar um pouco mais a lista de variáveis que serão levadas em conta.

Como os questionários serão desenhados para tratar de tópicos que os respondentes provavelmente conhecem, os tópicos variarão para alunos, pais, professores e diretores. As seções seguintes sugerem tópicos ade-quados para os questionários de cada um desses grupos.

Questionários dos Alunos

Os questionários dos alunos podem coletar as seguintes informações:

Gênero, idade e idioma (em geral, esses dados são coletados na pági-��na de rosto do caderno de prova).Antecedentes educacionais, como anos de escolaridade e períodos ��fora da escola.Oportunidades de frequentar uma escola.��Expectativas de sucesso e atitudes pessoais ou familiares sobre os va-��lores da escola.Percepções sobre o ambiente da sala de aula, como sentimento de ��segurança, camaradagem de outros alunos ou apoio dos professores.

Page 125: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

114 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Questionários dos Pais

Os questionários dos pais podem coletar as seguintes informações:

Nacionalidade, gênero e idioma.��Ambiente em casa, como acesso a livros, escrivaninhas e iluminação.��Antecedentes da família, como educação dos pais e idioma falado ��em casa.Atitudes relativas à educação, como compromisso de mandar os fi-��lhos para a escola, percepções sobre o valor e relevância da educação ou percepções sobre a qualidade da educação.Atenção aos deveres de casa e recursos disponíveis em casa para o ��estudo dos filhos.Disponibilidade de educação a um custo possível e acessibilidade da ��educação para os filhos.Expectativas do aproveitamento escolar dos filhos.��Envolvimento com a escola, como participação na sala de aula ou em ��comitês.Natureza dos boletins escolares sobre o progresso dos filhos e seu ��valor.Apoio financeiro à escola na forma de pagamentos de livros didáticos ��e taxas..

Questionários dos Professores

Os questionários dos professores podem coletar as seguintes informações:

Gênero e idade.��Primeiro idioma.��Condições de ensino, como tamanho da classe, acesso a recursos, ��percentual de alunos que têm livros didáticos, acesso a professores substitutos em casos de doença e assistência para lidar com alunos desafiadores.Experiência educacional, qualificações como professor e número de ��anos nesta escola.

Page 126: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 115

Compromisso profissional com o aprendizado, como interesse pelo ��desenvolvimento profissional e acesso a ele, interesse em ensinar e tempo gasto para preparar as aulas.Disponibilidade de apoio instrucional, como visitas à sala de aula por ��diretores, inspetores ou supervisores escolares.Metodologia de ensino, como idioma de instrução, uso de avaliação e ��estilo de ensino adotado.Satisfação com as condições de trabalho, como carreira, remuneração ��e nível de supervisão.Relacionamento com a comunidade escolar, como interações com os ��pais, envolvimento em comitês escolares e participação em eventos da comunidade local.Distância entre a casa do professor e a escola.��

Questionários do Diretor da Escola

Os questionários para diretores podem coletar as seguintes informações:

Gênero e idade.��Experiência educacional e gerencial, e qualificações.��Ambiente da escola, como qualidade dos prédios e instalações, bem ��como disponibilidade de recursos.Registros da escola, como flutuações no número de alunos, taxa de ��absenteísmo de alunos ou professores, e frequência com que os alu-nos mudam de escola.Compromisso profissional com a liderança da escola, como interes-��se pelo desenvolvimento profissional e acesso a ele, e interesse pela educação.Estilo de liderança e uso do tempo.��Satisfação com as condições de trabalho, como carreira, remunera-��ção, e nível e frequência de supervisão.Relacionamento com a comunidade escolar, como interações com os ��pais e participação em eventos da comunidade local.

Page 127: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

116 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

TABELA DE ESPECIFICAÇÕES DO QUESTIONÁRIO

É necessária uma tabela de especificações para guiar o desenvolvimento de um questionário. Ela descreve as questões de políticas mais impor-tantes que fornecerão o foco do questionário; identifica os respondentes; lista as variáveis-chave que serão abordadas; e especifica o formato dos itens, os tipos de categorias de respostas e o protocolo de aplicação.

O Quadro 8.1 fornece um exemplo da tabela de especificações de um questionário usado para coletar informações sobre valores e atitudes dos alunos com relação à escola e à sua comunidade local. Recentes reformas na educação e novas disciplinas curriculares estão sendo intro-duzidas em escolas, enfatizando a necessidade de se ensinar aos alunos a valorização de sua comunidade local e a aquisição de habilidades que os ajudarão a contribuir, de forma construtiva, para a vida de sua co-munidade como adultos. Os formuladores de políticas em Papua Nova Guiné queriam colher informações sobre as expectativas dos alunos a respeito da escola e suas percepções sobre a escola e a comunidade. O questionário foi aplicado a todos os alunos que participaram de testes de avaliação nacional.

ITENS DO QUESTIONÁRIO

Várias considerações devem ser feitas no processo de decidir sobre o número de itens num questionário, incluindo quantidade de tempo dis-ponível para responder às questões, recursos disponíveis para a análise e complexidade da análise requerida. Um questionário curto e limitado que seja analisado adequadamente e forneça informações úteis é preferí-vel a um longo e abrangente que nunca seja totalmente processado.

O número de itens necessários para medir uma variável específica depende da natureza da variável. Algumas variáveis, como gênero ou idade, podem ser medidas diretamente. Outras, como situação socioe-conômica, tendem a ser construídas a partir de vários itens, como nível de educação dos pais, situação de trabalho, localização do domicílio e posse de bens.

Page 128: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 117

QUADRO 8.1

Atitudes e Valores da Tabela de Especifi cações do Questionário

Parte I

Áreas

Atitudes com relação

à escola

Crenças sobre a vida em Papua

Nova Guiné

Percepções da comunidade

localNúmero de questões 10 15 15Respondentes 3a série

5a série8a série

5a série8a série

5a série8a série

Categorias de respostas

Sim ou Não Sim ou Não Sim ou Não

Parte II

Atitudes com relação à escola

Crenças sobre a vida em Papua Nova Guiné

Percepções da comunidade local

Crenças sobre aproveitamento pessoal, duração pretendida da escolarização e planos pessoais para o futuro

Atitudes com relação à educação: ensino no idioma local, educação compulsória, papel da escola, educação de meni-nas e papéis das mulheres

Nível de cooperação percebido na comuni-dade local: apoio à esco-la, envolvimento local em eventos da comunidade e partilha de recursos

Percepções de ajuda recebida de professores, camaradagem dos alunos, intimidação e disposição para fazer amizade com pessoas de fora da comunidade

Atitudes com relação à comunidade: intenção pessoal de permanecer na comunidade local ou razões para sair

Atitude percebida da comunidade local com relação a meninas e mulheres

Parte III

ValoresCrenças sobre a vida em Papua Nova Guiné

Percepções da comunidade local

Valores sobre resolução de conflitos

Atitudes com relação a conflitos e solução de disputas

Nível percebido de emprego construtivo na comunidade local e uso de meios pacíficos para resolver problemas

Valores sobre hábitos de higiene pessoal

Atitudes com relação a álcool e drogas

Percepções de problemas causados pelo uso de drogas e álcool na comunidade local

Fonte: Papua Nova Guiné, Departamento de Educação 2004.

Page 129: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

118 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Uma variável direta é o dado derivado de uma medida direta. Uma variável agregada combina dados de dois ou mais itens para representar um conceito.

Em geral, os formuladores de políticas têm mais facilidade para in-terpretar os resultados de análises baseadas em variáveis diretas, e não em variáveis agregadas. As decisões sobre se é necessário dispor de uma va riável direta ou de uma variável agregada para apoiar um conceito devem basear-se em boas práticas de pesquisa e nas condições do país. Tanto pesquisas nacionais quanto internacionais têm usado variáveis agregadas. Em um estudo internacional, por exemplo, as variáveis “lei-tura com um objetivo utilitário” e “leitura por prazer” se basearam em variáveis agregadas (veja Tabela 8.2).

TABELA 8.2

Funções da Leitura num Estudo Internacional: Pesos Usados para Criar Duas Novas Variáveis , “Leitura com um Objetivo Utilitário” e “Leitura por Prazer”

Pesos

Item (abreviado) Objetivo utilitário Prazer

Ajuda-me na escola. 0,75

Ajuda-me a passar nas provas. 0,74

Ajuda-me com temas futuros na escola. 0,73

Ajuda-me a trabalhar melhor. 0,65

Posso passar para a faculdade. 0,65

Ajuda-me a conseguir um bom emprego. 0,63

Meus pais acham que é importante. 0,58

É prazeroso. 0,76

É empolgante. 0,72

É interessante. 0,71

É como entrar em outro mundo. 0,68

É bom pensar sobre coisas que leio. 0,54

É divertido pensar que sou um personagemnuma história.

0,53

É bom fi car sozinho. 0,53

Ajuda-me a relaxar. 0,50

Fonte: Dados extraídos de Greaney e Neuman, 1990 (Tabela 8, registros inferiores a 0,20 foram ex-cluídos).

Page 130: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 119

As questões específicas de um país são relevantes para se deci-direm quantos itens serão necessários para medir uma variável. Por exemplo, num país em que os professores têm formação bastante uniforme, e todos têm pelo menos dois ou três anos de educação su-perior em instituições reconhecidas, uma única variável direta pode ser suficiente para medir os anos de educação terciária. No entanto, num país em que as condições dos professores variam muito, a quali-dade das instituições de ensino é desigual e muitos professores podem ter recebido apenas um treinamento prático no trabalho, pode haver necessidade de agregar diversas variáveis diretas para representar um conceito “educação dos professores” que reflita adequadamente a si-tuação. Do mesmo modo, num país rico, os recursos educacionais em casa podem ser medidos por uma única variável direta relativa ao acesso à internet, mas, num país pobre, os recursos educacionais em casa podem ser mais bem representados por um agregado de variáveis diretas que incluam acesso a uma escrivaninha, uma cadeira, uma lâmpada, lápis, papel e livros didáticos.

As decisões sobre o uso de uma única variável direta ou de uma va-riável agregada para obter uma medida também dependem das crenças sobre a significância das possíveis variáveis diretas. Por exemplo, para medir a experiência de ensino, se sua qualidade varia amplamente em função de onde os professores estejam empregados e se existe a crença de que o local do emprego anterior do professor também poderia afetar o desempenho dos alunos; então, deve-se coletar a informação de onde o professor tem trabalhado e o tempo que passou em cada emprego. Se existe uma crença de que o número de anos de experiência de ensino poderia afetar o desempenho dos alunos, independentemente de onde os professores adquiriram sua experiência, então é provável que uma única variável direta seja suficiente.

FORMATO DO ITEM

Itens de escolha obrigatória são processados com muito mais facilidade, rapidez e economia que itens abertos. Como os itens de escolha obri-

Page 131: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

120 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

gatória fornecem um número limitado de categorias entre as quais sele-cionar uma resposta, o processamento dos dados é simplesmente uma questão de entrar com a seleção do respondente num computador. As respostas às questões abertas, em contraste, têm de ser processadas ma-nualmente antes de se entrar no computador.

Em geral, os dados de questionários são resumidos para apresentação. Por exemplo, respostas à questão de quanto tempo os alunos gastam para chegar à escola todo dia podem ser categorizadas em alguns poucos grandes blocos, como menos de uma hora, entre uma e duas horas, e mais de duas horas. Numa versão aberta desse item, alguns alunos infor-marão o tempo em minutos e outros em horas; outros podem escrever “muito tempo” e outros ainda podem dar uma resposta ilegível. A faixa de respostas será grande, e a classificação das respostas necessariamente envolverá um elemento de subjetividade, dificultando, inclusive, a deci-são de como classificar a resposta “muito tempo”.

Itens de escolha obrigatória são preferíveis quando se pode fazer uma boa estimativa da provável gama de respostas que a maior parte dos res-pondentes dará. No entanto, se houver algum grau de incerteza, então podem ser usadas categorias com distinções mais refinadas do que as requeridas para a elaboração de relatórios. Depois da entrada dos dados num computador, podem ser tomadas decisões sobre quais categorias dão pouca informação e quais podem ser combinadas ou abandonadas (por exemplo, se nenhum aluno as selecionou).

O uso de itens abertos pode ser factível se o questionário estiver sen-do aplicado a uma pequena amostra e se existirem recursos disponíveis para classificar as respostas manualmente. Itens de pré-teste que permi-tam respostas abertas às vezes são úteis para obter informação destinada a gerar categorias para uma versão com escolha obrigatória que integrará o formulário final do teste.

IDIOMA DO QUESTIONÁRIO

O idioma usado num questionário deve ser um idioma no qual os res-pondentes tenham a maior probabilidade de conseguir ler e escrever

Page 132: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 121

fluentemente. No entanto, a escolha do idioma precisa ser balanceada com as economias de escala. Em geral, os questionários são aplicados no mesmo idioma do material do teste.

RESPONDENTES

Considerando-se que sempre se coletam informações sobre a situação socioeconômica dos alunos e sobre seus fatores contextuais na página de rosto dos cadernos de prova, a seleção dos respondentes do ques-tionário depende do que os formuladores de políticas queiram saber e da factibilidade de se obter essa informação de maneira confiável e eficiente.

Estes são alguns problemas que podem estar associados aos respon-dentes:

Os alunos podem ser muito jovens para preencher um questionário ��de forma confiável e exata.A falta de recursos pode limitar a aplicação dos questionários a um ��pequeno grupo, como professores ou encarregados de turma, e não a milhares de alunos.Muitos pais podem ser analfabetos ou não retornar os questionários.��Os professores e os encarregados de turma podem não estar motiva-��dos para preencher um longo questionário, ou achar muito ameaça-dor responder às questões honestamente.

Qualquer que seja a decisão sobre os respondentes, a amostra se-lecionada para um questionário deve ser representativa da população. Se o questionário estiver sendo aplicado a alunos, a amostra que foi extraída para o teste deve ser a mesma que responderá ao questionário. Devem ser consultados especialistas em amostragem sobre os tamanhos de amostra requeridos para a aplicação a professores, encarregados de turma e pais.

Page 133: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

122 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

APLICAÇÃO DO QUESTIONÁRIO

Com frequência, os questionários são respondidos por escrito ou aplica-dos numa entrevista. A entrevista requer a presença de um entrevistador treinado para fazer as perguntas e anotar as respostas dos entrevistados (talvez aplicando códigos fornecidos no formulário do questionário).

Em avaliações de grande porte, a maior parte dos questionários é escrita e aplicada em grupos para minimizar os custos. Os questioná-rios devem conter instruções sobre como as questões devem ser res-pondidas. As instruções poderiam incluir as razões da coleta daquelas informações.

A coleta dos dados dos questionários pode ser feita sob a supervisão de uma pessoa que recolherá os formulários depois de completados pe-los respondentes.

PLANO DE ANÁLISE DE DADOS

Um plano de análise de dados especifica o tipo de informação que será fornecida em cada item do questionário e como essa informação será usa-da na análise. A assistência de um estatístico durante a fase de desenho do plano aumentará a confiança de que os dados podem ser analisados significativamente e de que as constatações serão rigorosas e defensáveis (veja o Volume 4 desta série).

O plano deve mostrar o seguinte:

As características de mensuração das variáveis. A forma como os ��dados do questionário podem ser analisados depende das caracte-rísticas de mensuração das variáveis. Números agregados a variáveis nominais ou categóricas (por exemplo, gênero) são, de fato, apenas rótulos e só podem ser usados para distinguir entre grupos. Nú-meros agregados a escalas ordinais (por exemplo, para representar respostas a um questionário indicando o grau de concordância com uma afirmação) fornecem informações sobre valores relativos, em-bora frequentemente sejam tratados em análises estatísticas como

Page 134: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 123

se possuíssem as propriedades de intervalos (por exemplo, tempe-ratura) ou de escalas de razão (por exemplo, número de anos de experiência como professor).Como os dados de diversas variáveis serão agregados para produzir ��uma nova variável e como a nova variável será usada. Por exemplo, um índice de pobreza poderia ser construído com diversas variáveis, como renda familiar, localização do domicílio, número de cômodos da casa, posse de bens, número de filhos e nível de educação dos pais. No desenho do plano, deve-se considerar como as variáveis se-rão agregadas para representar pobreza.

Page 135: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

9 ELABORAÇÃO DE ITENS

DE QUESTIONÁRIOS

A partir da forma como um item é construído, deve estar claro qual é a informação reque-rida. Além disso, os respondentes devem ser

capazes de fornecer essa informação. Assim, não se pediria a alunos das primeiras séries para lembrar quantos dias faltaram às aulas durante o ano escolar, porque provavelmente não seriam capazes de dar uma res-posta confiável. Na melhor das hipóteses, poderiam se lembrar de quan-tos dias faltaram na semana anterior.

O fraseado dos itens deve ser o mais simples e claro possível. O vo-cabulário deve ser familiar, e as sentenças devem ser curtas e diretas. A menos que seja aplicado oralmente, todos os respondentes devem ser capazes de ler o questionário. Também é importante que todos inter-pretem os itens do questionário do mesmo modo. Caso contrário, será difícil interpretar os resultados de maneira significativa.

A primeira parte do item de um questionário pode ser uma questão, uma sentença incompleta ou uma afirmação que os respondentes devem avaliar.

Os respondentes devem ser abordados num estilo consistente. Uma das duas formas pode ser usada:

Page 136: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

126 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Referindo-se a “você”, por exemplo, “Quantos anos você tem?”��Referindo-se a “Eu”, por exemplo, “Eu venho para a escola …”��

QUESTÕES

As questões devem ser claras e sem ambiguidade. A seguinte questão é ambígua: Há quanto tempo você é professor?

Essa questão confunde o tempo transcorrido desde o treinamento e o tempo dedicado a ensinar. Qualquer pessoa que tenha parado de le-cionar por algum tempo e retornado, como no caso de mulheres que fi-caram algum tempo cuidando de suas famílias, terá dúvidas sobre como responder à questão. Não é claro se essa questão é uma medida da expe-riência do professor ou do tempo transcorrido desde o seu treinamento. Existem pelo menos duas questões aqui:

Quando você completou seu treinamento como professor?Quantos anos de experiência de ensino você tem?

A segunda questão ainda é problemática porque não está claro como poderiam ser medidos os anos de experiência de ensino. Por exemplo, cinco anos de experiência lecionando em tempo parcial, uma vez por semana, devem ser contados como cinco anos ou como o equivalente a um ano? Se quase todos os postos de ensino no país forem de horário integral, então a ambiguidade é improvável, mas, se muitos forem de tempo parcial, a situa-ção se complica. A questão poderia ser apresentada assim:

Quantos anos de experiência de ensino em tempo integral (ou o equiva-lente a tempo integral) você tem?

Pode ser necessário definir o que se quer dizer com “equivalente”.

AFIRMAÇÕES

Itens que começam com uma afirmação em geral requerem que os res-pondentes façam algum tipo de avaliação da afirmação, como “concordo fortemente”, “concordo”, “discordo” ou “discordo fortemente”.

Page 137: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 127

Afirmações na forma negativa, como “Eu não gosto de escola”, devem ser evitadas, porque podem ser confusas. Se solicitados a responder se concordam ou discordam, os alunos que gostam de escola devem sele-cionar uma categoria “discordo”. Em geral, as crianças menores conside-ram difícil lidar com negativas duplas.

Mantenha as afirmações tão neutras quanto possível. Uma afirmação que diz “Eu gosto de escola” é melhor que outra que diz “Eu adoro es-cola”. Os alunos podem expressar seu amor pela escola selecionando a resposta “concordo fortemente”.

As afirmações devem se centrar numa questão. Assim, afirmações como “Eu dou duro e me saio bem em meus deveres de casa” devem ser evitadas. Os alunos que se saem bem na escola, mas não dão duro, ficarão sem saber qual resposta selecionar. Os alunos que dão duro podem concordar fortemente com essa afirmação, embora não se saiam bem em seus deveres de casa. A afirmação ficaria melhor se dividida em duas: “Eu dou duro na escola”; “Eu me saio bem nos meus deveres de casa”.

CATEGORIAS DE RESPOSTAS

Boas categorias de respostas têm o mesmo significado para todos os res-pondentes.

As seguintes categorias de respostas têm a probabilidade de apresen-tar diferentes significados para diferentes pessoas:

Quantos livros estão na biblioteca da sala de aula?A. nenhumB. poucosC. algunsD. muitos

As categorias de respostas para o item devem ser quantificadas de forma que o significado seja claro:

Page 138: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

128 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Quantos livros estão na biblioteca da sala de aula?A. não há bibliotecaB. 1 a 10C. 11 a 20D. mais de 20

Às vezes, as categorias de respostas podem ter significado diferente para diferentes respondentes, mas essa diferença é parte da informação buscada, conforme mostra o seguinte item:

Quão boa é a biblioteca de sua escola?A. não há bibliotecaB. ruimC. adequadaD. boaE. excelente

Se o item é sobre o nível de satisfação do respondente com a biblio-teca da escola, independentemente de qualquer medida objetiva de sua qualidade, então é um bom item. Se o item estiver combinado com itens que quantifiquem – por exemplo, aproximadamente quantas estantes de livros ou computadores existem na biblioteca –, então a percepção do respondente pode ser comparada com medidas mais objetivas sobre as instalações da biblioteca.

As categorias de respostas precisam levar em conta o nível de exati-dão das respostas que os respondentes têm a probabilidade de conseguir dar. É improvável que os respondentes saibam, com alguma precisão, o número de livros numa biblioteca, a menos que seja um número muito pequeno.

As categorias de respostas precisam cobrir todas as respostas possíveis. Se houver algumas categorias importantes e várias outras secundárias, é melhor listar as mais importantes e incluir a opção “outras”. O pré-teste ajuda a identificar as principais categorias.

As categorias de respostas não devem se superpor nem deixar hiatos. Ambos os erros são mostrados na seguinte questão:

Page 139: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 129

Há quanto tempo você leciona nesta escola?A. menos de 5 anosB. menos de 10 anosC. mais de 10 anos

Os professores com menos de 5 anos de experiência de ensino não saberão se devem selecionar a primeira ou a segunda opção. Professores com 10 anos de experiência não têm opção que lhes sirva.

Os itens do questionário que começam com uma afirmação que os respondentes deverão avaliar podem ter muitas categorias diferentes de respostas. É importante que as categorias não se superponham. Alguns exemplos de categorias de respostas que têm sido usadas no questioná-rio do professor pelo TIMMS (Tendências Internacionais no Estudo de Matemática e Ciências) são:

Sim, não��Concordo fortemente, concordo, discordo, discordo fortemente��Quase todos os dias, uma ou duas vezes por semana, uma ou duas ��vezes por mês, nunca ou quase nuncaDe jeito nenhum, um pouco, bastante, muito��Não tem importância, um pouco importante, muito importante.��

LIDANDO COM QUESTÕES DELICADAS

Algumas questões são delicadas, como perguntar se os professores têm um segundo emprego para complementar seu salário. Se a maior parte dos respondentes provavelmente não responderá à questão honestamen-te, ela deve ser deixada de lado. Os formuladores de políticas podem estar muito interessados nessa informação, mas não faz sentido coletar dados não confiáveis. Às vezes, podem ser coletadas informações rela-cionadas que não sejam tão delicadas.

Incluir perguntas sobre questões delicadas pode ofender aos respon-dentes, que se recusarão a responder ao restante dos itens ou devolverão o questionário. Se existe preocupação quanto à sensibilidade a alguma questão, o melhor é não incluí-la no questionário.

Page 140: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

130 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

DIAGRAMAÇÃO DO QUESTIONÁRIO

Existem duas considerações fundamentais quanto à diagramação e ao desenho de questionários: (a) facilidade de uso para o respondente e (b) facilidade de uso para o processamento dos dados. É fácil usar os ques-tionários quando eles têm as seguintes características:

Um modo simples e consistente de responder às questões.��Uma apresentação limpa e clara.��Questões separadas e facilmente identificáveis.��Categorias de respostas claramente associadas a cada questão.��Títulos, fontes e diagramação consistentes.��Categorias de respostas codificadas para a entrada de dados.��

As categorias de respostas podem ser apresentadas de muitas ma-neiras. Podem estar numa coluna vertical ou numa linha horizontal. Os respondentes podem fazer um círculo em torno de uma letra ou de um número, ou marcar uma caixa para indicar sua seleção. É preferível manter a consistência no estilo de resposta.

O Quadro 9.1 apresenta o exemplo de um item no qual as respos-tas não estão claramente identificadas com as categorias de respostas. O Quadro 9.2 mostra melhor alinhamento.

QUADRO 9.1

Alinhamento Ruim de Caixas e Categorias de Respostas

O seguinte exemplo mostra um alinhamento ruim de caixas e categorias de respostas:

Quanto tempo você leva para chegar à escola na maior parte dos dias?

Menos de 15 minutos � 15 minutos � 30 minutos � 45 minutos �

1 hora � mais de 1 hora �

As caixas estão situadas entre as categorias de respostas, em vez de estarem clara-mente alinhadas com apenas uma categoria.

Fonte: Autores.

Page 141: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 131

QUADRO 9.2

Melhor Alinhamento de Caixas e Categorias de Respostas

O seguinte exemplo mostra um bom alinhamento de caixas e categorias de respostas:

Com que frequência as seguintes pessoas de sua família o ajudam em seu dever de casa?

Nunca ou quase

nunca

Algumas vezes por

ano

Cerca de uma vez por mês

Várias vezes

por mês

Várias vezes por semana

a) Sua mãe � � � � �b) Seu pai � � � � �c) Seus irmãos e irmãs � � � � �d) Um de seus avós � � � � �

Fonte: Autores.

REVISÃO DOS QUESTIONÁRIOS

A elaboração de questionários é muito mais difícil do que parece. Todos os itens têm de ser cuidadosamente examinados e revistos para garan-tir que sejam claros e não contenham ambiguidade. Recomenda-se que um painel faça a revisão do questionário. Os membros do painel devem incluir elaboradores de itens, alguém que tenha familiaridade com as características da população respondente e alguém capaz de garantir que os itens sejam culturalmente adequados. Hoje em dia, algumas avalia-ções nacionais e internacionais checam como os respondentes interpre-tam os itens antes da aplicação principal do questionário.

Será útil que os membros do painel tentem completar o questioná-rio como se fossem os respondentes. Esse processo ajudará a identificar onde as categorias de respostas poderiam estar pouco claras, superpostas ou deixando de incluir alguns tipos de resposta.

Os membros do painel devem criticar os itens, especialmente para deixar claros o fraseado e a adequação das categorias de respostas. De-vem se certificar de que o fraseado é tão simples e claro quanto possível, que o estilo de itens é consistente e que os itens estão apresentados numa ordem lógica, com instruções adequadas.

Page 142: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

132 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Os membros do painel devem conferir se os itens correspondem à tabela de especificações do questionário e certificar-se de que cada item fornece a informação requerida.

Também precisam checar se o número de itens usados é adequado para medir cada variável com um nível suficiente de exatidão.

Depois que o questionário tiver sido aprimorado, os formuladores de políticas devem ter a oportunidade de revê-lo. Os formuladores de polí-ticas precisam aprovar os itens, especialmente se tocam questões politi-camente delicadas. Os formuladores de políticas também devem checar se os itens fornecerão informações úteis.

Depois de aprimorados, os questionários devem passar por um pré--teste, junto com os materiais do teste. O pré-teste fornece a oportu-nidade de melhorar a qualidade dos itens e reduzir o tempo e o custo de processamento dos dados do questionário final. Os itens que não funcionarem (por exemplo, aqueles em que os respondentes ficam con-fusos) podem ser abandonados, e as categorias de resposta podem ser expandidas ou reduzidas.

Depois da aplicação do questionário, o aplicador deve ouvir a opinião dos respondentes (alunos ou professores) a respeito dos itens que não estão claros ou que não contêm informação adequada. Os aplicadores devem se certificar de que nenhum item seja considerado ofensivo por tocar em questões delicadas.

Uma análise estatística mais formal das respostas pode indicar que as ca-tegorias de respostas precisam ser mais sutilmente diferenciadas. Por exem-plo, se a maior parte dos alunos selecionar determinada categoria de respos-ta para um item, a categoria deve ser dividida em categorias mais sutilmente diferenciadas, para que se possa obter informação mais exata.

Se a faixa de possíveis respostas a um item for potencialmente muito ampla e difícil de prever, o item deve ser deixado em aberto no pré--teste. Então, as respostas obtidas poderão ser classificadas e usadas para gerar categorias para um item de escolha forçada no questionário final. Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de avaliações nacionais e internacionais de questionários para alunos, professores, encarregados de turma e pais. Também inclui exemplos de guias de pontuação para respostas abertas.

Page 143: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

10 CODIFICAÇÃO DAS

RESPOSTAS DOS

QUESTIONÁRIOS

Antes de dar entrada no computador, as cate-gorias de respostas têm de ser codificadas. A codificação pode ser alfabética ou numérica.

Os códigos alfabéticos em geral requerem que os respondentes façam um círculo em torno de uma letra para dar sua resposta. Esse método pode não ser adequado para alunos mais jovens. Marcar uma caixa ou sombrear círculos pode ser uma tarefa mais fácil para pessoas com habi-lidades de letramento limitadas. Se os itens usarem esse tipo de diagra-mação, deverão ser codificados numericamente.

Se for usada a codificação numérica, a primeira categoria de respos-ta recebe, em geral, o código 1, a segunda recebe o código 2, e assim por diante. A entrada de dados é mais eficiente se os códigos estiverem impressos no questionário. Pode-se usar uma fonte pequena em escala cinza, conforme se vê no Quadro 10.1. No exemplo, as categorias de resposta estão numeradas sob as caixas: andando é a categoria 1, trans-porte público é a categoria 2, e assim por diante. O aluno marca a caixa que se aplica ao seu caso. A pessoa que faz a entrada de dados dá entrada no número da caixa que o aluno selecionou.

Se os respondentes tiverem a oportunidade de selecionar mais de uma categoria de resposta para um item, cada categoria deve ser tratada como

Page 144: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

134 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

um item separado para efeito de entrada e processamento dos dados. Esse procedimento possibilita rastrear quais são as categorias selecionadas por cada respondente. O item no Quadro 10.2 é apresentado ao respondente como uma questão com múltiplas respostas possíveis; no entanto, é trata-do como oito itens separados durante a entrada de dados.

QUADRO 10.1

Exemplo de Codifi cação em Escala Cinza

Hoje eu vim para a escola

Caminhando � Usei transporte público � Usei transporte privado � Montando um animal �

1 2 3 4

QUADRO 10.2

Exemplo de Tratamento de Itens como Categorias Separadas para a Entrada de Dados

Se você não veio à escola na última semana, marque uma ou mais caixas para mostrar o motivo.

��Eu estava doente.

��Tive de ajudar meus pais.

��O tempo estava ruim.

��Eu não tinha comida.

��Minha família teve problemas.

��Eu não tinha um uniforme limpo nem roupas adequadas para usar.

��Não era seguro (problemas de conflitos e desordens).

��Outro _______________________________________

Fonte: Autores.

As respostas à primeira categoria (ausente por doença) são registradas como 1 ou em branco, respostas à segunda (ajudando os pais) são regis-tradas como 1 ou em branco, respostas à terceira categoria (tempo ruim) são registradas da mesma forma, e assim por diante, para cada uma das oito categorias.

1

1

1

1

1

1

1

Page 145: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 135

PREPARAÇÃO DOS QUESTIONÁRIOS PARA A ENTRADA DE DADOS

Os dados do questionário podem ser escaneados com equipamento especial ou registrados manualmente. O desenho e a diagramação do questionário têm de ser customizados quando se usar um escâner.

Se a entrada de dados estiver sendo feita manualmente, as informa-ções podem ser passadas diretamente do questionário se as categorias de respostas tiverem sido codificadas. No entanto, as pessoas que fazem a entrada de dados podem ter dificuldade de manter um alto nível de exatidão, especialmente se não tiverem familiaridade com esse tipo de trabalho. Também é provável que a exatidão seja comprometida se a diagramação dos itens variar demais ou se alguns itens tiverem um gran-de número de categorias de respostas.

A entrada de dados será facilitada se os pontuadores e avaliadores escreverem o código para a categoria selecionada na margem esquerda, perto do número de cada item. A entrada de dados, então, se torna uma questão de apenas entrar os códigos escritos na margem. Quan-do se acrescentam caixas levemente sombreadas na margem para os pontuadores e avaliadores escreverem os códigos, o processo fica mais eficiente.

CÓDIGOS EM BRANCO OU RESPOSTAS AMBÍGUAS

Às vezes, os respondentes não respondem aos itens ou dão respostas ambíguas, como, por exemplo, selecionando mais de uma categoria de resposta quando as categorias são mutuamente exclusivas.

A coleta de informação sobre respostas em branco indica se os res-pondentes deixaram de responder de forma consistente a alguns itens. Por exemplo, o questionário pode ser muito longo, de modo que os últimos itens não são respondidos, ou um item pode estar muito pró-ximo de outros itens e não ser percebido. A coleta de informação so-bre respostas ambíguas também indicará se um item é pouco claro para muitos respondentes ou se eles não compreendem como completar o questionário.

Page 146: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

136 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

A pessoa responsável pela entrada de dados precisa saber como codi-ficar respostas em branco ou ambíguas. Os códigos usados para respostas em branco ou ambíguas não devem ser confundidos com aqueles usados para categorias de resposta.

Uma letra do alfabeto pode ser usada para denotar resposta em branco ou nenhuma tentativa, como um X. O código para respostas ambíguas poderia ser uma segunda letra, como Y. Os itens de múltipla escolha num teste usam códigos 9 para em branco e 8 para a seleção de duas ou mais opções. Em geral, esses códigos não são usados para questionários porque alguns itens do questionário provavelmente terão oito ou nove categorias de respostas.

Page 147: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

11 CORRESPONDÊNCIA

ENTRE QUESTIONÁRIOS

E DADOS DO TESTE

A correspondência entre os dados do ques-tionário e os do teste será orientada pelas necessidades da análise e da apresentação

dos resultados. Todas as correspondências devem ser estabelecidas cla-ramente e sem ambiguidades antes da coleta de dados. Poderá ser difícil ou impossível corrigir qualquer erro de correspondência descoberto de-pois que os dados tiverem sido coletados. Esses erros podem fazer com que se tenha de abandonar algumas das análises planejadas.

QUESTIONÁRIOS DOS ALUNOS

O modo mais fácil de fazer a correspondência entre os questionários dos alunos e os dados do teste é imprimir os testes e os questionários em um único caderno. O aluno registra seu nome no caderno, e o aplicador do teste certifica-se de que o aluno trabalhe no próprio caderno em cada uma das sessões do teste.

Se os questionários do teste estiverem em documentos separados, um método de fazer a correspondência dos dados é etiquetar tanto os testes quanto os questionários com os nomes dos alunos. Os nomes são

Page 148: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

138 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

retirados da lista da escola e devem ser idênticos nas duas etiquetas. Mais uma vez, o aplicador do teste precisa certificar-se de que os alunos trabalhem em testes e questionários que tragam seus nomes claramente impressos.

Se não for possível etiquetar com antecedência os cadernos e questio-nários separados, os questionários dos alunos precisam ter informações de identificação suficientes para permitir sua correspondência com os dados do teste. É preferível atribuir uma identidade numérica (ID) aos alunos para garantir que usem o mesmo número de ID em cada caderno e questionário. O aplicador de teste terá de supervisionar esse procedi-mento. O analista de dados também deverá ter uma lista com os nomes e os números de ID dos alunos, de modo que os nomes possam ser usa-dos como um backup caso ocorram erros no ID.

Não é desejável confiar nos nomes dos alunos para fazer corres-pondência com os formulários. A menos que os nomes sejam absolu-tamente idênticos em cada formulário e sejam registrados, de forma idêntica, pela pessoa que faz o processamento dos dados, sem qual-quer erro de grafia, o computador não poderá fazer a correspondência entre eles. Assim, a correspondência terá de ser feita manualmente, um exercício que consome tempo e recursos. Alguns alunos tornarão mais difícil a correspondência por nomes, pois usarão diferentes no-mes (como nomes incompletos, nomes de família ou nomes religio-sos) em diferentes formulários; escreverão de forma ilegível em um ou mais formulários; ou deixarão de escrever seu nome em um ou mais formulários.

QUESTIONÁRIOS DOS PAIS

Em geral, faz-se a correspondência entre os questionários dos pais e os dados dos alunos. A correspondência provavelmente será feita a partir dos nomes dos alunos. Podem ocorrer os mesmos problemas que se apli-cam aos questionários dos alunos. Devem ser estabelecidos procedimen-tos adequados para garantir a consistência.

Page 149: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 139

QUESTIONÁRIOS DO PROFESSOR E DO DIRETOR

Em geral, só se faz a correspondência dos questionários do professor e do diretor com a série e a escola. Se a série dos alunos é conhecida, a infor-mação sobre o professor pode ser usada na análise dos dados do aluno. O aplicador de teste deve verificar se os professores e diretores fornece-ram essa informação no questionário.

Quando forem devolvidos, os questionários de cada escola devem ser guardados em pacotes separados. Assim, mesmo que a informação sobre a escola não tenha sido fornecida em alguns questionários, é possível obter informações relevantes de outros questionários no mesmo pacote.

Page 150: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

P A R T E

III DESENHO DE UM

MANUAL PARA

APLICAÇÃO DO TESTE

Page 151: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

12 O MANUAL DO

APLICADOR DE TESTE

É necessário haver um manual para orientar a aplicação do teste, que deve ser padronizado de modo que todos os alunos façam o teste sob as mesmas condições. O principal objetivo do manual é especificar as con-dições exatas em que o teste deve ser realizado, incluindo as exigências e os procedimentos de preparação que assegurem a segurança do teste. Os alunos que fazem o teste precisam receber as mesmas questões de prática e as mesmas instruções sobre como apresentar suas respostas. Todos devem dispor do mesmo tempo para fazer o teste, com o mesmo grau de supervisão.

O desempenho dos alunos numa avaliação nacional deve ser uma medida de sua habilidade de responder aos itens sem apoio externo. Os alunos devem compreender o que têm de fazer e como apresentar suas respostas, mas não devem receber qualquer outro tipo de ajuda nem ter acesso a qualquer recurso que não seja parte do teste. A observância dos procedimentos estabelecidos em um manual de aplicação deve garan-tir isso. Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de manuais de aplicação do teste e manuais para o exercício da função de coordenação que cabe à escola.

Page 152: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

144 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

CONTEÚDO DO MANUAL

Os manuais de aplicação devem fornecer informações que respondam às seguintes questões:

A que se destina o teste?��Breve explicação do objetivo do teste e do modo como os dados ��

serão usados.Quais os testes aplicados, quais os alunos testados e quando são tes-��tados?

Quais testes estão sendo aplicados na escola.��

Quais os alunos que devem fazer cada teste.��

Datas e horários de aplicação do teste.��

Ordem de aplicação dos testes.��

Tempo de aplicação de cada teste.��

Intervalos requeridos entre a aplicação dos testes.��

Quaisquer opções de flexibilidade na agenda de aplicação.��

Quais os materiais de teste necessários?��Lista de todos os materiais de teste fornecidos.��

Quantidades de cada material de teste fornecido, como um por ��

aluno ou um por professor.Lista de quaisquer materiais que a escola tenha de fornecer, como ��

lápis e borrachas.Como a sala deve ser preparada para o teste?��

Instalações físicas que a escola precisa fornecer, como carteiras e ��

cadeiras.Os recursos que poderiam ajudar os alunos devem ser retirados da ��

sala ou cobertos, como tabelas de multiplicação ou cartazes que contenham regras gramaticais.

Qual a preparação necessária?��Como o diretor ou o encarregado de turma poderiam motivar fun-��

cionários da escola e alunos a apoiar a aplicação do teste antes da aplicação real.Quais informações o aplicador do teste poderia pedir, como uma ��

lista com os nomes dos alunos da classe.

Page 153: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 145

Como os cadernos de prova poderiam ser separados, numerados ��

ou nomeados para que estejam disponíveis para uso.Como seria preciso organizar grupos de alunos para o teste.��

Como o�� teste deve ser realizado?Como os alunos devem escrever seus nomes nos cadernos e re-��

gistrar as informações socioeconômicas e contextuais na folha de rosto.Quando e como o aplicador deve verificar se os alunos registra-��

ram corretamente as informações na folha de rosto do caderno de prova.Como as questões de prática devem ser aplicadas e explicadas.��

Que instruções os alunos devem receber sobre o teste.��

Qual nível de apoio o aplicador pode oferecer durante o teste.��

De quanto tempo os alunos dispõem para completar o teste.��

Quais condições o aplicador precisa manter durante o teste.��

Quem deve ter permissão para entrar na sala durante a aplicação ��

do teste.Como os materiais do teste devem ser guardados?��

Procedimentos para garantir a segurança dos materiais antes, du-��

rante e depois do teste.Quem pode ser contatado caso haja necessidade de ajuda?��

Detalhes sobre como contatar a pessoa que pode ajudar a resolver ��

problemas ou dar informações adicionais.

As informações adicionais podem ser incluídas no manual de apli-cação para reduzir o movimento dos cadernos de prova que entram e saem das escolas. É provável que essas informações variem, depen-dendo de o teste ser aplicado por um órgão externo ou por professo-res da escola.

USO DO MANUAL

Tanto o encarregado de turma ou diretor da escola quanto o aplicador do teste precisam usar o manual. Algumas avaliações preparam ma-

Page 154: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

146 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

nuais separados para diretores ou para aqueles que têm a responsabili-dade geral pela realização das atividades da avaliação nacional dentro de cada escola.

O encarregado de turma (ou o diretor) precisa do manual a fim de garantir que sua escola esteja adequadamente preparada para a aplicação do teste. Deve conhecer bastante sobre o teste para encorajar os funcio-nários e os alunos a apoiar a aplicação e motivar os alunos a tentar fazer o melhor possível. O encarregado de turma (ou o diretor) ou o respon-sável pela coordenação da avaliação nacional na escola (se alguém tiver sido designado para isso) devem ter informação suficiente para organizar a escola e certificar-se de que os alunos corretos estão disponíveis no horário requerido e com os materiais adequados; e que os materiais do teste possam ser armazenados em segurança.

Os aplicadores de teste precisam que o manual lhes diga exatamente o que têm de fazer para aplicar o teste corretamente, quando e como fazê-lo. Eles precisam verificar se os materiais estão disponíveis em nú-mero suficiente e se os alunos corretos foram selecionados para fazer o teste. Precisam saber quais informações dar aos alunos sobre o teste, como explicar as questões de prática e o tempo de que dispõem para fa-zer o teste. Também devem saber que procedimentos de segurança usar para armazenar os materiais do teste.

CARACTERÍSTICAS DE UM MANUAL

Um bom manual contém todas as informações necessárias, e seu uso é fácil. A informação está ordenada logicamente, as instruções são claras e completas, a linguagem é simples e direta. Marcadores, caixas ou tabelas facilitarão a leitura das informações. Um bom manual deve ter uma ta-bela de conteúdos com títulos claros (veja o Quadro 12.1).

Page 155: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 147

QUADRO 12.1

Instruções do Manual de Aplicação

Em uma avaliação nacional, as seguintes informações apareceram num tipo grande (Arial 14), ocupando toda a página de abertura do manual de aplicação:

Por favor, leia este Manual de Aplicação antes que seus alunos façam o teste.

Os alunos têm de fazer este teste durante DOIS DIAS.

O teste está dividido em quatro sessões. Os alunos devem fazer duas ses- �sões por dia.

Os alunos devem fazer um intervalo entre cada sessão. �

Não deixe que os alunos façam todo o teste de uma única vez. �

Regras de Aplicação

Os professores devem supervisionar todas as sessões durante todo o tempo. �

Os alunos NÃO devem levar os cadernos de prova para fora da sala ou traba- �lhar neles depois que o professor tiver saído.

Os alunos devem usar lápis com borrachas na ponta, fornecidos pela escola. �

Os alunos não devem usar nenhum material da sala de aula, como livros de �exercícios, dicionários ou calculadoras, enquanto fazem o teste.

Os alunos não devem receber ajuda para responder às questões. Por exem- �plo, se um aluno não compreender o que deve ser feito, explique de novo as questões de prática e diga para que faça o melhor possível, mas não dê qualquer ajuda adicional.

Segurança do Teste

Os materiais do teste devem ser ARMAZENADOS COM SEGURANÇA DU- �RANTE TODO O TEMPO.

Os cadernos de prova dos alunos NÃO devem ser copiados em nenhuma �hipótese.

Os alunos NÂO devem levar os cadernos de prova para casa. �

Fonte: Papua Nova Guiné, Departamento de Educação 2004.

Page 156: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

148 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

QUANTO DE DETALHE É NECESSÁRIO?

As informações sobre as condições gerais de aplicação do teste e a prepa-ração de materiais de teste devem ser abrangentes e, ao mesmo tempo, tão sucintas quanto possível (veja o Quadro 12.2).

QUADRO 12.2

Informação para Professores e Diretores

A informação sobre os materiais do teste devem ser concisas e estar listadas de modo a facilitar a checagem. O seguinte extrato de uma ampla avaliação realizada em Papua Nova Guiné diz ao encarregado de turma ou ao diretor quais materiais foram enviados à escola e como saber quais turmas participarão do teste:

Materiais do Teste

Seu Inspetor Escolar lhe dirá quais turmas em sua escola devem participar deste teste.

Você deve ter recebido os seguintes materiais:

uma carta de apresentação para o encarregado de turma �

um caderno de prova para cada aluno que participará do teste �

um manual de aplicação para cada professor que aplicará o teste �

um questionário para cada professor participante com questões sobre seu his- �tórico

um lápis com borracha na ponta para cada aluno participante �

Se estiver faltando algum material, ou se esses não forem suficientes, por favor, contate seu Inspetor Escolar

Fonte: Departamento de Educação de Papua Nova Guiné 2004.

As instruções que o aplicador do teste dará aos alunos devem estar escritas com todos os detalhes. Qualquer coisa que o aplicador do tes-te tiver de dizer aos alunos sobre o teste, as questões de prática ou as condições da aplicação do teste deve estar datilografada. O aplicador do teste deve ler do manual, sem fazer qualquer mudança no fraseado. Esse procedimento garante que todos os alunos que estão fazendo o teste recebam exatamente as mesmas instruções.

Page 157: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 149

QUESTÕES DE PRÁTICA

O Quadro 12.3 apresenta instruções gerais de procedimento e uma des-crição do objetivo das questões de prática. As instruções que o aplicador dá aos alunos estão escritas em detalhes e destacadas numa caixa som-breada. O aplicador deve ler essas instruções como estão impressas. A ilustração de dinheiro que faz parte das questões de prática nos cader-nos dos alunos também é mostrada no manual de aplicação, para que o aplicador saiba o que os alunos estão vendo sem ter de ler no manual e segurar um caderno de prova aberto ao mesmo tempo.

TESTE DOS ITENS

O manual deve estar preparado para ser testado durante o pré-teste dos itens do teste. O pré-teste do manual revelará quaisquer equívocos ou ambiguidades que requeiram esclarecimento ou refinamento na versão final. Como as condições do pré-teste ou teste-piloto devem ser tão se-melhantes quanto possível às do teste final, o manual deve estar o mais próximo possível da forma final quando se fizer o teste dos itens.

QUADRO 12.3

Aplicação de Itens de Prática

Este exemplo contém parte das instruções para a aplicação de algumas questões de prática:

Primeiro Dia: Sessão 1

QUESTÕES DE PRÁTICA DE MATEMÁTICA PARA A 3a SÉRIE (aproximadamente 10 minutos)

Certifique-se de que cada aluno recebeu o próprio caderno de prova com seu nome escrito na página de rosto. As questões de prática são fornecidas para mostrar aos alunos diferentes modos de apresentar suas respostas. Peça aos alunos para abrir seus cadernos nas Questões de Prática de Matemática (primeira página).

Page 158: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

150 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

DIGA

Vamos trabalhar um pouco com matemática hoje, para que vocês descubram todas as coisas diferentes que podem fazer em matemática. Em primeiro lu-gar, faremos algumas questões de prática, para que vocês saibam como fazer e como mostrar suas respostas.

Segure um caderno de prova dos alunos e mostre as questões de prática. Verifi-que se todos os alunos encontraram as questões certas.

DIGA

Vamos ver a primeira questão de prática. Vou ler para vocês.

Este é o desenho de duas moedas.

Quanto valem essas duas moedas juntas?

São 2 toea, ou 7 toea, ou 25 toea ou 205 toea?

Preencha o pequeno círculo ao lado da resposta correta. Preencha apenas um círculo.

Espere até que todos os alunos tenham terminado e, então, verifique suas res-postas.

DIGA

A resposta é 25 toea. Você precisava preencher o pequeno círculo ao lado de 25 toea. Se tiver errado, apague e preencha o círculo na resposta correta.

Espere até que todos os alunos tenham corrigido seus trabalhos, se necessário.

Fonte: Departamento de Educação de Papua Nova Guiné 2004.

Page 159: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 151

Em geral, as instruções sobre a aplicação do teste podem ser escritas a qualquer momento depois que a tabela de especificações tiver sido fina-lizada. As tabelas de especificações devem especificar todas as exigências relativas ao número de testes e à sua extensão e quais alunos devem fazer o teste.

Durante o pré-teste, o aplicador deve coletar as seguintes informações para ajudar o gerente de desenvolvimento de teste a refinar o teste final:

Se os alunos precisaram de todas as questões de prática, se havia um ��número suficiente de questões de prática e se as explicações estavam suficientemente claras.Se o teste tinha a extensão adequada ou se era muito longo, e apro-��ximadamente quantos terminaram mais de 10 minutos antes da hora (se forem usados diferente formulários na mesma classe, o aplicador pode comparar o tempo que os alunos precisaram para preencher cada formulário).Se os alunos pareciam envolvidos no teste.��Se os alunos tinham recursos adequados e suficientes, como lápis ou ��borrachas.Se as instalações da escola eram adequadas para a realização de um ��teste.

REVISÃO

O gerente de desenvolvimento de teste e os elaboradores de itens são responsáveis pela revisão e pelo aprimoramento das instruções para as questões de prática. As questões de prática e as instruções para aplicação devem ser dadas no mesmo tipo de painel usado para a revisão de itens.

O gerente de desenvolvimento de teste e a pessoa responsável pela logística da produção e distribuição dos testes devem rever e refinar os procedimentos para a movimentação dos cadernos de prova dentro e fora das escolas.

Várias pessoas com formação e situação socioeconômica semelhantes às dos aplicadores de teste também devem rever todo o manual para ve-

Page 160: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

152 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

rificar se as instruções estão claras e esclarecer quaisquer ambiguidades que possam surgir.

Como no caso de todos os materiais do teste, o manual deve ser total e regularmente revisado por pessoas experientes nesta tarefa. As ins-truções para as questões de prática e a aplicação do teste podem ser revisadas da forma adequada apenas se o revisor dispuser de cópias dos cadernos de prova relevantes dos alunos.

Page 161: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

13 O APLICADOR

DO TESTE

ESCOLHA DO APLICADOR DO TESTE

As pessoas devem estar seguras de que o teste foi aplicado em condições padronizadas. Os aplicadores de teste devem ser vistos por todos como pessoas confiáveis.

A escolha do aplicador do teste depende das condições vigentes em cada país. Os inspetores escolares podem ser aplicadores ideais em al-guns países, mas problemáticos em outros. Se os inspetores veem a apli-cação do teste como uma tarefa adicional que não se enquadra em suas atribuições, que usa recursos escassos ou pela qual têm pouco interesse, podem não ter motivação para fazer o trabalho adequadamente.

Algumas avaliações nacionais usam aplicadores externos. Idealmente, são pessoas que podem seguir instruções rigorosamente, têm tempo e re-cursos para fazer a tarefa de forma adequada e não têm qualquer interesse particular no resultado do teste que vá além do propósito de aplicá-lo corre-tamente. No Timor Leste, por exemplo, os recenseadores foram treinados e pagos para aplicar uma avaliação nacional nas escolas. Eram pessoas que entendiam a importância de coletar dados de forma sistemática e não ti-nham nenhum interesse investido no desempenho dos alunos. Seu trabalho foi supervisionado para garantir que fosse de um padrão adequado.

Page 162: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

154 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Em alguns países, a aplicação de uma avaliação nacional por professores comprometeria seriamente a credibilidade dos dados, mas pode não ocorrer o mesmo em outros países. O principal problema de se pedir que os profes-sores apliquem o teste é que eles poderão, deliberada ou não intencional-mente, oferecer ajuda aos alunos. Existem muitas razões possíveis para esse fenômeno. Alguns professores podem se preocupar com a ideia de que os dados do teste serão usados para julgar seu desempenho como professores. Podem sentir que precisam ajudar os alunos com o teste para manter seu emprego ou seu status profissional. Coordenadores escolares podem sentir que sua situação esteja mais ameaçada ainda. Alguns professores podem sentir que o teste é uma medida injusta de seu trabalho ou do desempe-nho dos alunos e se sentir obrigados a dar assistência para fazer com que o teste seja “justo”. Alguns professores podem ter a intenção de aplicar o teste conforme instruídos, mas talvez não consigam abandonar seu papel de instrutores. Podem ajudar aos alunos sem nem ao menos perceber que estão fazendo isso ou porque não podem suportar ver os alunos batalhando com as questões sem lhes oferecer ajuda.

O Volume 3 desta série aborda a seleção dos aplicadores de teste e descreve algumas vantagens e desvantagens de diferentes tipos de apli-cadores de teste.

OBSERVAÇÃO DE INSTRUÇÕES

O manual deve distinguir entre instruções específicas que devem ser seguidas ao pé da letra e instruções mais gerais que permitem ao aplica-dor algum espaço para adaptá-las às condições da classe. O aplicador do teste não deve desviar-se de qualquer instrução específica. O pré-teste do manual deve ajudar a identificar quaisquer erros ou ambiguidades nas instruções.

Os aplicadores de teste somente devem ajudar os alunos a compreen-der o que devem fazer e como apresentar suas respostas. Os aplicadores de teste devem deixar claro que não podem ajudar qualquer aluno a responder às questões. Não devem oferecer ajuda para interpretar uma questão, explicar o significado de uma palavra ou sugerir formas como o

Page 163: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 155

aluno poderia tentar responder a uma questão. Se um aluno pede ajuda, o aplicador deve apenas encorajá-lo a fazer o melhor possível.

Os aplicadores não devem traduzir em outro idioma para os alunos, a menos que haja instruções específicas para que desempenhem esse papel.

Em alguns testes, os aplicadores podem ler as questões para os alunos. O aplicador de teste deve ler lenta e claramente todo o teste em voz alta, questão por questão, ou ler questões específicas a pedido dos alunos. Em qualquer dos casos, o aplicador deve ler as palavras da questão exata-mente como estão impressas e no mesmo idioma.

Os aplicadores devem dispor de um relógio de pulso ou de outro tipo de relógio. Devem escrever no quadro negro ou num papel a hora exata em que o teste começa e a hora em que termina. Os aplicadores devem certificar-se de que os alunos compreenderam quanto tempo têm para fazer o teste. Isso, em geral, envolve dizer aos alunos quanto tempo têm no começo e dar um aviso quando faltarem 10 minutos, 5 minutos ou 2 minutos para o prazo final, dependendo da extensão do teste.

Os aplicadores devem encorajar discretamente os alunos a tentar re-solver o teste inteiro caso estejam obviamente gastando muito tempo com uma questão e relutem em seguir adiante. Os aplicadores podem fazer isso simplesmente sugerindo ao aluno, em voz baixa, que escreva a melhor resposta possível e, então, tente a questão seguinte.

Somente materiais especificados no manual serão permitidos na sala durante a aplicação do teste. Em geral, os alunos trazem seus próprios lápis e borrachas para o teste. Caixas de lápis e bolsas não devem ser permitidas. Qualquer coisa que possa ajudar os alunos a responder às questões do teste deve ser removida da sala. Os alunos não devem ter acesso a recursos como dicionários ou calculadoras, a menos que as con-dições do teste permitam seu uso explicitamente.

O aplicador do teste, os alunos que participam do teste e, possivelmente, um supervisor devem ser as únicas pessoas na sala durante a aplicação.

O diretor ou outros professores não devem ter permissão de andar em volta da sala. O gerente de testes deve ser notificado de mudanças inevitáveis nas condições de aplicação do teste.

Durante a aplicação do teste, o aplicador deve coletar informações sobre quaisquer variações que ocorram nas condições de aplicação para alunos

Page 164: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

156 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

individuais. Muitas vezes, a folha de rosto do caderno de prova terá espaço para o aplicador indicar quais alunos estavam ausentes durante todo o teste ou parte dele. Se um aluno tiver de sair da sala por causa de doença e não completar o teste, o aplicador deve registrar essa informação.

Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de instruções gerais e específicas para aplicadores de teste. Também oferece algumas sugestões sobre como diagramar um manual de aplicação de teste.

GARANTIA DA QUALIDADE

Os aplicadores devem ser selecionados em função de sua adequação para a tarefa. Devem ser fluentes no idioma em que está escrito o manual. Também devem estar comprometidos a executar bem sua tarefa.

Independentemente de seus níveis de experiência ou qualificações acadêmicas, os aplicadores têm de ser treinados. Devem participar de uma sessão de treinamento que explique o objetivo do teste e o papel que terão em sua aplicação. Devem compreender que seguir as instru-ções é importante, e devem ter a oportunidade de praticar a aplicação de testes administrando-o a seus companheiros. Devem ter a oportunidade de fazer perguntas sobre os procedimentos descritos no manual.

Se os professores forem aplicar o teste a seus alunos, o treinamento deve garantir que compreenderam o objetivo do teste e que os dados não serão usados para julgá-los. Devem compreender a importância de não ajudar os alunos a responder às questões.

Os aplicadores devem ser supervisionados pelo menos durante parte do tempo em que estejam aplicando o teste. Talvez não seja possível supervisionar todas as pessoas, mas verificações aleatórias de alguns apli-cadores devem ser factíveis.

Também é recomendável pedir aos aplicadores que preencham e as-sinem listas de verificação para garantir que completaram suas tarefas.

LISTA DE VERIFICAÇÃO DO APLICADOR

Os detalhes do que deve estar na lista de verificação do aplicador varia-rão, dependendo de quem esteja aplicando o teste e dos procedimentos

Page 165: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 157

desenvolvidos para rastrear os cadernos e garantir a segurança. O Qua-dro 13.1 fornece um exemplo de uma lista de checagem da aplicação usada nas Filipinas. Um exemplo adicional pode ser visto no Volume 3 desta série.

QUADRO 13.1

Lista de Verifi cação da Aplicação: Um Exemplo das Filipinas

O aplicador deve marcar todos os itens para mostrar que completou o trabalho, assi-nando o formulário no final.

Nome Data

Tarefa Referência Tempo Completado

1. Complete o formulário Alocação do Caderno de Prova do Aluno (ACPA) inserindo o número do teste em ordem consecutiva e colocando os nomes dos alunos em ordem alfabética.

Formulário ACPA

10min �

2. Aplique o questionário do professor. Formulário do questionáriodo professor

15min �

3. Complete o formulário de comentários. Formulário de comentários do professor

10min �

4. Distribua o teste a cada aluno e marque ausente naqueles que não compareceram.

Formulário ACPA

10min �

5. Leia a introdução das Diretrizes. Diretrizes para o Aplicador, p. 7

5min �

6. Peça aos alunos para fornecer os dados relativos ao aluno na folha de rosto do teste.

Diretrizes para o Aplicador, p. 9

5min �

7. Verifique se todos os alunos completaram os detalhes sobre os alunos na folha de rosto.

10min �

8. Siga as instruções para a Sessão 1. Diretrizes para o Aplicador, pp. 11-13

60min �

9. Nos intervalos, peça aos alunos que saiam da sala em fila e deixem seus testes sobre as carteiras.

15min �

10. Siga as instruções para a Sessão 2. Diretrizes para o Aplicador, pp. 15-17

60min �

Page 166: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

158 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Nome Data

Tarefa Referência Tempo Completado

11. Nos intervalos, peça aos alunos que saiam da sala em fila e deixem seus testes sobre as carteiras.

15min �

12. Siga as instruções para a Sessão 3. Diretrizes para o Aplicador, pp. 19-21

70min �

13. Recolha todos os cadernos de prova e confira seu retorno usando o formulário ACPA.

Formulário ACPA

10min �

14. Conte todos os testes e certifique-se de que todos foram devolvidos.

Formulário ACPA

5min �

15. Dispense a turma. 2min �16. Assine o formulário ACPA. Formulário

ACPA2min �

17. Recolha e empacote todos os materiais do teste na caixa fornecida, incluindo:i. Formulário ACPAii. Questionário do professoriii. Formulário de comentários do professoriv. Todos os testes completadosv. Todos os testes não usados

10min �

18. Guarde os materiais em segurança. 10min �19. Devolva o material para seu supervisor

distrital do RAMSE (Avaliação Regional de Matemática, Ciências e Inglês).

Formulário de distribuição para supervisor do RAMSE

Tem-po de

viagem

20. Devolva esta lista de verificação completada a seu supervisor distrital.

Lista admi-nistrativa do RAMSE

2min �

Assinatura do administrador: _______________________________

Fonte: Departamento de Educação das Filipinas 2004.

Page 167: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

C A P Í T U L O

14 INFORMANDO AS

ESCOLAS SOBRE A

AVALIAÇÃO NACIONAL

Os alunos precisam ser motivados para ten-tar fazer o melhor possível numa avaliação nacional. Em geral, é mais fácil motivar os

alunos quando os professores explicam a eles o objetivo do teste e se certificam de que compreenderam que o resultado final será usado para ajudar a aprimorar a qualidade da educação, e não para julgar os alunos ou as escolas.

Todos os alunos precisam se sentir encorajados a participar, espe-cialmente aqueles com menos habilidades. A decisão sobre o melhor momento para informar aos alunos as datas do teste dependerá das cir-cunstâncias da escola. Se os alunos se sentirem ameaçados por um teste e ficarem longe da escola, então é preferível não dizer a eles a data exata da aplicação do teste. Se os alunos estiverem animados com a possibi-lidade de fazer um teste e se sentirem mais confortáveis para vir para a escola, então é preferível dizer a eles a data exata.

O órgão implementador deve certificar-se de que as escolas estejam informadas sobre o objetivo do teste com bastante antecedência. A in-formação pode ser dada por meio de seminários, cartas ou contatos te-lefônicos. É aconselhável ser honesto e claro sobre quais dados estão sendo coletados, como serão apresentados e usados e quais informações

Page 168: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

160 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

de retorno que a escola receberá sobre o desempenho dos alunos (ou se não receberá nada).

Os diretores e professores das escolas participantes devem saber que suas escolas e classes foram selecionadas para ajudar a obter informações sobre o que os alunos sabem e não sabem. O objetivo de se coletarem essas informações é ajudar a aprimorar o sistema educacional nacional. Escolas ou classes individuais não estão sendo julgadas em uma avaliação nacional com base numa amostra. Os diretores e professores das escolas participantes também devem ser informados de que todos os dados do teste e todas as respostas dos questionários serão tratados como confi-denciais.

É necessário seguir certos procedimentos para garantir que as escolas concordem em participar de uma avaliação antes que sejam designados aplicadores externos para a escola. Também é necessário garantir que os aplicadores externos recebam todas as instruções necessárias, como uma carta de apresentação, de modo que possam estar seguros de que a escola os apoiará e os ajudará a cumprir suas responsabilidades. O Volume 3 contém sugestões adicionais sobre como informar as escolas, inclusive o modelo de uma carta que poderá ser usado.

Page 169: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

A P Ê N D I C E

A GLOSSÁRIO

amostra aleatória: Grupo de alunos selecionados estatisticamente que aten-dem a determinados critérios, incluindo uma distribuição de variáveis-chave que correspondem à distribuição das mesmas variáveis em toda a coorte.

análise de dados: Uso de uma metodologia estatística para analisar e interpretar os dados do teste.

analista de dados: Pessoa responsável pela análise estatística de dados.

aplicador: Pessoa que supervisiona a realização do teste e é responsável por garantir que as condições estejam de acordo com os padrões estabe-lecidos no manual de aplicação.

área de aprendizado: Uma área de grande importância num currículo, como matemática ou ciências.

avaliador: Pessoa que faz a pontuação manual de itens de acordo com um guia de pontuação.

avaliador-chefe: Pessoa responsável pelo gerenciamento do centro de classificação e pela solução de discrepâncias nas pontuações.

avaliador líder: Um avaliador experiente responsável pela verificação cruzada

Page 170: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

162 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

centro de classificação: Local em que é organizada a pontuação manual de itens do teste e os avaliadores são treinados e supervisionados.

chave de múltipla escolha: Opção correta num item de múltipla es-colha.

classificação de discrepâncias: Procedimento para solucionar conflitos entre pontuações durante a verificação cruzada ou resultantes de clas-sificações duplas das respostas geradas pelos alunos; em geral, esses pro-cedimentos são administrados pelo avaliador-chefe.

classificação dupla: Processo de classificar duas vezes as respostas aos itens geradas pelos alunos; a pessoa que faz a segunda classificação não vê a primeira.

comando: Parte de um item de múltipla escolha que precede as opções, em geral uma questão, sentença incompleta ou instrução.

condições padronizadas: Condições do teste especificadas no manual de aplicação, mantidas idênticas para todos os alunos aos quais o teste é aplicado; todos os alunos recebem a mesma quantidade de apoio, as mesmas instruções e têm o mesmo tempo para fazer o teste.

confiabilidade do teste: A medida em que a evidência coletada é sufi-ciente para fazer generalizações.

conjunto de itens: Coleção de itens submetidos a um teste piloto ou pré-teste e de itens seguros de testes anteriores que são adequados para uso em testes futuros.

coorte completa: Todos os alunos de um país que atendem a certos crité-rios, como estar em determinada série, em determinado momento.

correlação ponto bisserial: Método usado em análise de itens para for-necer uma medida da correlação (relação) entre a pontuação (correto ou incorreto) que os alunos obtêm para um item individual e a pontuação geral que obtêm nos demais itens.

dado: Informação coletada de um teste, em geral registrada num pro-grama de software num computador.

Page 171: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 163

dados agregados: Dados combinados para expressar uma pontuação geral, como uma pontuação única derivada de um teste de 30 itens.

distratores: Opções incorretas num item de múltipla escolha.

escala cinza: Tonalidade cinza-claro usada na impressão dos materiais.

folha de respostas: Folha separada do caderno de prova usada pelos alu-nos para registrar suas respostas aos itens do teste.

formuladores de políticas: Funcionários governamentais que elaboram e definem políticas educacionais.

formulário final: Cadernos de prova aplicados a uma amostra da popu-lação.

guia de pontuação: Descrições das categorias de pontuação usadas para classificar respostas aos itens geradas pelos alunos.

item: Parte específica de um teste com uma pontuação individual; pode ser uma pergunta, uma sentença incompleta ou uma única parte de um teste ou questionário com uma pontuação ou código individual.

item de crédito parcial: Item que tem duas ou mais categorias de respos-tas corretas; em geral, essas categorias são hierárquicas para os itens do formulário final do teste, mas podem não ser para itens do pré-teste ou itens de teste.

itens abertos de resposta curta: Itens que requerem que um aluno gere uma resposta curta, tal como uma ou duas sentenças, ou faça diversas modificações numa tabela, num gráfico ou diagrama.

itens de ligação: Itens replicados em dois ou mais cadernos de prova para permitir a comparação entre os dados resultantes da aplicação dos cadernos.

itens de múltipla escolha: Itens que requerem que os alunos selecionem a única resposta correta a uma questão entre diversas opções.

itens de resposta fechada: Itens que requerem que os alunos produzam uma resposta curta com um conjunto pequeno e finito de respostas corretas.

Page 172: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

164 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

itens discriminativos: Itens que diferenciam entre o desempenhos de alunos de alta habilidade e baixa habilidade: ou seja, os alunos com alta habilidade têm maior probabilidade do que aqueles com baixa habili-dade de responder corretamente ao item.

itens imparciais: Itens que são um teste justo do aproveitamento e não conferem vantagem a certos grupos com base em características irrele-vantes para o conhecimento ou a habilidade que estão sendo avaliados.

itens protegidos: Itens que foram mantidos fora do conhecimento públi-co; podem ter sido aplicados num teste anterior, mas suas condições impediram a duplicação ou o vazamento.

ligação circular: Ligação de um grupo de formulários de teste, do primeiro ao último formulário.

ligação horizontal: Ligação de itens entre formulários de um mesmo ano ou série.

ligação linear: Ligação de um grupo de formulários de teste, cada um ligado ao seguinte, mas sem que o primeiro seja ligado ao último.

ligação longitudinal: Ligação de formulários de teste ao longo do tem-po.

ligação vertical: Ligação de formulários de teste usados em diferentes séries por meio do uso de itens comuns.

manual de aplicação: Conjunto de instruções escritas sobre como, quan-do e onde os testes devem ser realizados; o manual também pode incluir informações sobre a movimentação dos cadernos de prova que entram e saem das escolas.

marco de referência: Documento que define o objetivo do teste e indica o que deve ser medido, como deve ser medido, por que está sendo me-dido e como deve ser apresentado.

material de estímulo: Texto, diagramas ou gráficos que fornecem o con-texto para um ou mais itens.

Page 173: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 165

objetividade do teste: A medida em que o teste não é afetado pela esco-lha de tarefas ou escolha de avaliador; isto é, a tarefa é justa e inclusiva, e os critérios para tomar decisões sobre a pontuação estão claros.

painel de itens: Pequeno grupo de três a seis pessoas que fazem a revisão crítica e refinam todos os aspectos dos itens para garantir que sejam de alta qualidade.

pontuação: Pontos atribuídos à resposta de um aluno com base nas ca-tegorias de um guia de pontuação.

pontuação dicotômica: Item que é pontuado como correto ou incorreto, tendo, portanto, duas pontuações possíveis, 0 e 1.

pontuação manual: Atribuição de pontuação às respostas dos alunos feita por pontuadores humanos (não por máquinas).

população-alvo do teste: Os alunos aos quais o teste será aplicado.

pré-teste: Outro nome para um teste-piloto realizado antes do teste fi-nal com uma pequena amostra de alunos para estabelecer a qualidade e adequação de itens, questionários e manuais de aplicação.

redação: Dissertação escrita em resposta a um estímulo, em geral com meia página ou mais.

respostas em branco: Itens aos quais o aluno não fez qualquer tentativa de responder.

respostas incorretas: Itens para os quais a resposta do aluno se enquadra na categoria de pontuação 0 (zero).

revisão: Revisão detalhada de todos os aspectos de um texto para garan-tir que esteja claro, consistente e livre de erros.

subelemento: Aspectos ou agrupamentos dentro de uma área de cur-rículo; por exemplo, a área de matemática pode ser separada em subele-mentos de número, espaço, padrão e medida.

tabela de especificações: Especificações sobre os critérios que os itens finais do teste devem observar, incluindo a proporção de itens que abor-

Page 174: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

166 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

dam cada aspecto de uma área de currículo, extensão do teste, formato do item e quaisquer outros critérios ou limitações relativos ao desenvol-vimento do teste.

teste: Um ou mais itens aos quais os alunos respondem em condições pad-ronizadas; os itens são elaborados para permitir que os alunos demons-trem seu conhecimento, suas habilidades e seus entendimentos.

teste-piloto: Outro nome para o pré-teste realizado antes do teste final com uma pequena amostra de alunos para estabelecer a qualidade e ade-quação de itens, questionários e manuais de aplicação.

unidade: Coleção de itens baseada num mesmo material de estímulo.

utilidade do teste: A medida em que o teste atende a seu objetivo.

validade do teste: Um amplo conceito que envolve fazer interpretações adequadas e usar as pontuações ou as informações contidas no teste.

verificação cruzada da classificação: Revisão das pontuações manuais para garantir que correspondam consistentemente às categorias de pon-tuação do guia de pontuação; em geral, a revisão é feita imediatamente pelo avaliador-chefe, a fim de dar um retorno imediato aos avaliadores sobre a qualidade de seu trabalho.

Page 175: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

A P Ê N D I C E

B LEITURA ADICIONAL

Allen, N. L., J. R. Donoghue e T. L. Schoeps. 2001. The NAEP 1998 Technical Re-port. Washington, DC: National Center for Education Statistics.

Baker, F. 2001. The Basics of Item Response Theory. College Park, MD: ERIC Clear-inghouse on Assessment and Evaluation, University of Maryland.

Beaton, A. E. e E. G. Johnson. 1989. “Overview of the Scaling Methodology used in the National Assessment.” Journal of Educational Measurement 29: 163–75.

Bloom, B. S., M. D. Engelhart, E. J. Furst, W. H. Hill e D. R. Krathwohl. 1956. Taxonomy of Educational Objectives: Handbook 1 – Cognitive Domain. Londres: Longmans, Green.

Campbell, J. R., D. L. Kelly, I. V. S. Mullis, M. O. Martin e M. Sainsbury. 2001. Framework and Specifications for PIRLS Assessment 2001. Chestnut Hill, MA: International Study Center, Boston College.

Chatterji, M. 2003. Designing and Using Tools for Educational Assessment. Boston: Allyn and Bacon.

Centro de Pesquisas Educacionais. 1978. Drumcondra Attainment Tests, Manual, Level II, Form A. Dublin: Educational Research Centre.

Conselho Australiano de Pesquisas Educacionais. S.d. Literacy and Numeracy Na-tional Assessment (LANNA), Sample Questions, Numeracy Year 5. http://www.acer.edu.au/documents/LANNA_Y5NumeracyQuestions.pdf.

Conselho Diretor da Avaliação Nacional. S.d. Writing Framework and Specifications for the 1998 National Assessment of Educational Progress. Washington, DC: U.S. Department of Education.

Page 176: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

168 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Departamento de Educação das Filipinas. 2004. Region-wide Assessment for Math-ematics, Science, and English (RAMSE): Basic Education Assistance for Mindanao (BEAM). Manila: Philippine Department of Education.

Eivers, E., G. Shiel, R. Perkins e J. Cosgrove. 2005. The 2004 National Assessment of English Reading. Dublin: Educational Research Centre.

Forster, M. 2000. A Policy Maker’s Guide to International Achievement Studies. Cam-berwell, Australia: Australian Council for Educational Research.

———. 2000. A Policy Maker’s Guide to Systemwide Assessment Programs. Camber-well, Austrália: Australian Council for Educational Research.

Greaney, V. e S. B. Neuman. 1990. “The Functions of Reading: A Cross-Cultural Perspective”. Reading Research Quarterly 25 (3):172–95.

Haladyna, T. M. 1999. Developing and Validating Multiple-Choice Test Items. 2a ed. Hillsdale, NJ: Lawrence Erlbaum.

Harlen, W. (org.). 2008. Student Assessment and Testing. Vols. 1–4. Londres: Sage. IEA (Associação Internacional para Avaliação do Aproveitamento Escolar). 1998.

Third International Mathematics and Science Study—TIMSS Sample Items. Chest-nut Hill, MA: International Study Center, Boston College. http://www.edinfor-matics.com/timss/pop1/mpop1.htm, http://timss.bc.edu/timss1995i/TIMSSP-DF/BSItems.pdf/, and http://www.ed.gov/inits/Math/timss4_8.html.

———. 2007. TIMSS 2003, Science Items, Released Set. Fourth Grade. S011026. Chestnut Hill, Mass.: TIMSS & PIRLS International Study Center, Boston Col-lege. timss.bc.edu/PDF/T03_RELEASED_S4.pdf.

Kirsch, I. 2001. The International Adult Literacy Survey (IALS): Understanding What Was Measured. Research Report RR-01-25. Princeton, NJ: Educational Testing Service.

Kubiszyn, T. e G. Borich. 2000. Educational Testing and Measurement. Nova York: Wiley.

Linn, R. L. e S. B. Dunbar. 1992. “Issues in the Design and Reporting of the Na-tional Assessment of Educational Progress”. Journal of Educational Measurement 29 (2): 177–94.

Linn, R. L. e M. D. Miller. 2004. Measurement and Assessment in Teaching: Student Exercise Manual. Upper Saddle River, NJ: Prentice Hall.

Messick, S. 1987. “Large-Scale Educational Assessment as Policy Research: Aspi-rations and Limitations.” European Journal of Psychology and Education 2 (2): 157–65.

———. 1989. “Validity.” In Educational Measurement, 3a ed. R. L. Linn (org.), 13–103. Nova York: American Council on Education/Macmillan.

Mullis, I. V. S, A. M. Kennedy, M. O. Martin e M. Sainsbury. 2006. Assessment Framework and Specifications: Progress in International Reading Literacy Study. 2a

Page 177: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 169

ed. Chestnut Hill, MA: TIMSS and PIRLS International Study Center, Boston College.

Mullis, I. V. S., M. O. Martin, E. J. Gonzalez e S. J. Chrostowski. 2004. TIMSS 2003 International Mathematics Report: Findings from IEA’s Trends in Interna-tional Mathematics and Science Study at the Fourth and Eighth Grades. Chestnut Hill, MA: TIMSS and PIRLS International Study Center, Boston College.

Mullis, I. V. S., M. O. Martin, E. J. Gonzalez, K. D. Gregory, R. A. Garden, K. M. O’Connor, S. J. Chrostowski e T. A. Smith. 2000. TIMSS 1999 Interna-tional Mathematics Report. Findings from IEA’s Repeat of the Third International Mathematics and Science Study at the Eighth Grade. Chestnut Hill, Mass.: The International Study Center, Boston College. Timssandpirls. bc.edu/timss1999i/pdf/T99i_Math_2.pdf.

Nova Zelândia, Ministério da Educação. 2002. English in the New Zealand Curricu-lum. Wellington: Learning Media for the New Zealand Ministry of Education.

Nitko, A. J. 2004. Educational Assessment of Students. 4a ed. Upper Saddle River, NJ: Pearson, Merrill, Prentice Hall.

Papua Nova Guiné, Departamento de Educação 2003. Cultural Mathematics El-ementary Syllabus. Port Moresby: Papua New Guinea Department of Educa-tion.

———. 2004. National Curriculum Standards Monitoring Test. Port Moresby: Papua New Guinea Department of Education.

PISA (Programa Internacional de Avaliação de Alunos). 2004. Learning for Tomor-row’s World: First Results from PISA 200. Paris: OCDE.

Page 178: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

A P Ê N D I C E

C EXEMPLOS DE ITENS

DE TESTE E DE

QUESTIONÁRIO E

MANUAIS DE APLICAÇÃO

Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de itens de teste de aproveitamento, guias de pontuação, itens

de questionário e manuais que têm sido usados em vários contextos, in-clusive em avaliações nacionais e internacionais. A Figura C.1 mostra o diagrama do material encontrado. A maior parte dos itens, questionários e manuais está disponível para o público e pode ser acessada. Somos muito gratos pelo apoio das editoras e organizações (listadas no final deste Apêndice) que deram permissão para que seus materiais originais fossem reproduzidos.

Os exemplos podem dar às equipes de avaliação nacional ideias sobre tipos e formatos de itens, guias de pontuação, cobertura do conteúdo curricular, diagramação de testes e questionários e tipo de informação contida nos manuais de aplicação de testes. As equipes podem usar essas informações como subsídios para desenhar os próprios instrumentos de teste, guias de pontuação e manuais. Ao selecionar ou adaptar materiais, as equipes de avaliação nacional devem ter em mente os currículos na-cionais e a adequação do vocabulário e dos formatos de teste.

Page 179: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

172 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

ITENS DO TESTE DE APROVEITAMENTO

O material disponível em http://go.worldbank.org/M2O1YDQO90 contém itens de testes de matemática, linguagem e ciências. Espera-mos que os elaboradores de itens dessas disciplinas encontrem utilidade nesses itens quando estiverem desenvolvendo instrumentos de avaliação com base nos próprios currículos nacionais. A intenção não é que as equi -pes de avaliação nacional copiem esses itens. No âmbito de cada uma das três áreas, são apresentados, em primeiro lugar, arquivos de itens para as séries do ensino fundamental, seguidos dos arquivos de itens para o nível médio, que são seguidos, por sua vez, dos arquivos de itens que cobrem tanto o nível fundamental quanto o médio.

O material disponível na internet inclui uma grande coleção de itens de estudos nacionais realizados nos Estados Unidos nas áreas de matemática, leitura, ciências e escrita para a 4a, 8a e 12a séries, e de estudos separados para alunos com 9, 13 e 17 anos. Contém ainda itens dos testes de mate-mática para a 4a série do estado de Massachusetts. Itens usados em estudos nacionais na Austrália e na Irlanda também estão incluídos.

FIGURA C.1

Guia dos Materiais Encontrados na Internet sobre Testes, Questionários e Manuais

Nota: Clique no arquivo “Fontes” para acessar a fonte de itens, questões ou manuais individuais liberados, bem como ver uma lista de endereços na internet (onde disponível), por meio dos quais as informações liberadas foram obtidas.

Exemplos

Itens do teste eguias de pontuação Questionários Manuais

Linguagem

Matemática

Ciências

Aluno

Professor

Diretor e escola

Pais

Coordenador escolar

Aplicador do testee do questionário

Page 180: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 173

O material disponível em http://go.worldbank.org/M2O1YDQO90 também apresenta itens liberados de três avaliações internacionais: Ten-dências Internacionais no Estudo de Matemática e Ciências (TIMSS) (matemática e ciências para a 3a, 4a, 7a e 8a séries e para o último ano do ensino médio); Estudo Internacional sobre o Progresso do Letramento em Leitura (PIRLS) (linguagem para a 4a série); e Programa Internacio-nal de Avaliação de Alunos (PISA) (linguagem, matemática e ciências para alunos de 15 anos).

Alguns dos itens relacionados com linguagem aplicam-se a longas passagens de textos, um formato que talvez não seja adequado em algu-mas avaliações nacionais.

Em diversas situações, o formato do item retirado da internet difere daquele adotado no caderno de prova original. Observe que alguns itens do teste foram concebidos para testar duas ou mais séries.

O material disponível em http://go.worldbank.org/M2O1YDQO90 também inclui guias de pontuação relativos a testes específicos.

QUESTIONÁRIOS

O material disponível na internet contém amostras separadas de ques-tionários para alunos, professores, escolas, diretores e pais. A maior par-te dos questionários tem sido usada em estudos internacionais em países industrializados. Muitas das questões são específicas para determinados contextos educacionais e escolares. As equipes de avaliação nacional de-vem buscar adaptar algumas das questões mais relevantes, para que re-flitam a realidade econômica, social e escolar de seus países.

MANUAIS

O material disponível na internet inclui manuais com instruções especí-ficas sobre como aplicar testes e questionários. Também inclui manuais que apresentam os papéis e responsabilidades dos responsáveis pela co-ordenação da avaliação dentro das escolas. Essas responsabilidades in-

Page 181: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

174 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

cluem tarefas a serem realizadas antes, durante e depois da aplicação do teste e do questionário. Os exemplos cobrem tópicos como preparação dos aplicadores do teste; listagem dos equipamentos e materiais necessá-rios (como testes, questionários, lápis e um relógio de pulso ou de outro tipo); organização dos assentos, de modo a minimizar a possibilidade de cola; como lidar com amostra de itens; cuidados para que as orientações de tempo e horário sejam cumpridas; e identificação de tarefas que o aplicador deve completar ao final de cada sessão.

Parte do material será mais relevante em alguns países que em ou-tros. Alguns manuais, por exemplo, referem-se a testes pontuados por máquinas ou a folhas de respostas, que tendem a não ser usados em avaliações nacionais em muitos países em desenvolvimento. Os usuários devem ter o cuidado de não tentar replicar o conteúdo dos manuais; em vez disso, devem selecionar as ideias mais relevantes para seus contextos nacionais. As amostras estão incluídas para ajudar as equipes de avalia-ção nacional a desenvolver manuais com base em seus próprios testes. Alguns manuais contêm sugestões sobre como selecionar amostras de alunos dentro de escolas.

AGRADECIMENTOS

O Centro Nacional de Estatísticas de Educação do Departamento de Educação dos Estados Unidos (http://nces.ed.gov/nationsreportcard/about) deu permissão para reproduzir itens liberados do teste, dos ma-nuais para aplicadores e dos questionários da Avaliação Nacional do Pro-gresso Educacional (NAEP) dos Estados Unidos.

A Associação Internacional para a Avaliação do Aproveitamento Es-colar (http://www.iea.nl/ e http://timss.bc.edu/) deu permissão para a reprodução de material liberado do TIMSS e do PIRLS: itens, questioná-rios e manuais para coordenadores escolares e aplicadores de teste.

A Organização para a Cooperação e o Desenvolvimento Econômico (http://www.pisa.oecd.org/dataoecd/51/27/37474503.pdf) deu permissão para a reprodução de materiais liberados do PISA: itens do teste, questioná-rios e manuais de coordenadores escolares e aplicadores de teste.

Page 182: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 175

O material disponível na internet contém itens de matemática libe-rados para o público pelo Departamento de Educação de Massachusetts que estão disponíveis no site do departamento: http://www.doe.mass.edu/mcas/testitens.html.

O Conselho Australiano de Pesquisas Educacionais deu permissão para reproduzir itens de amostras e guias de pontuação de sua Avalia-ção Nacional de Letramento em Linguagem e em Matemática, Leitura, Anos 3, 5 e 7 (http://www.acer.edu.au/lanna/).

O Centro de Pesquisas Educacionais, Dublin (http://www.erc.ie/in-dex.php?s=7) deu permissão para reproduzir material de inglês e mate-mática: itens, um questionário e um manual para aplicadores de teste.

Page 183: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

ÍNDICE

Quadros, fi guras, notas e tabelas estão indicadas por q, f, n e t, respectivamente.

alunosmotivação dos, 159população para avaliação, 25questionários para, 113, 137-138

amostra aleatória, 68, 161análise de dados, 5f, 7t, 55

plano para questionários, 110, 122pré-teste, 91software para pontuação de testes de

múltipla escolha, 22análise, 4fanalista de dados, 7t, 161aplicação oral de testes, 18aplicadores. Veja aplicadores de testeaplicadores de teste

defi nição de, 161escolha dos, 153-154garantia da qualidade, 156instruções para, 147q, 154-156lista de verifi cação para, 156,

157-158qtarefas, 5f, 6ttópicos, 153-158

uso de caderno único vs. múltiplos cadernos e, 95

Veja também manual do aplicador de teste

aplicadores externos, 153, 160apresentação de resultados, 26-27áreas de aprendizado, 10, 29, 55, 161armazenagem eletrônica de itens do

teste, 65armazenagem segura de materiais do

teste, 65, 146, 147q, 158qassociação circular, 70–72, 71fatividades da avaliação nacional

fl uxograma das, 4, 5fvisão geral das, 4, 5-7f

ausência de alunos durante o teste, 155

Avaliação Nacional de Leitura em Inglês (Irlanda), 26

Avaliação Nacional do Progresso Educacional (NAEP) (Estados Unidos), 30, 65n

avaliador chefe, 102, 161

Page 184: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

178 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

avaliadores e pontuação manual de itens do teste, 102-106, 161

avaliadores principais, 102, 161cadernos múltiplos, procedimentos

para uso de, 95cartas de apresentação para aplicadores

externos, 160centro de classifi cação, 101, 102chave em itens de testes de múltipla

escolha, 37, 40-41, 91, 162classifi cação de discrepâncias, 162classifi cação dupla, 23, 162classifi cações de itens, 64, 65, 91códigos alfabéticos para respostas de

questionários, 133códigos numéricos para respostas a

questionário, 133comando em itens de múltipla escolha

do teste, 37-38, 39, 47, 162comissão de coordenação nacional

(CCN), 3, 4f, 5f, 6t, 9, 27condições padronizadas, 153, 162confi abilidade, 84-85, 87, 162conjunto comum de itens de ligação, 70conjunto de itens, 14t, 62, 64, 162coorte completa, 162correlação ponto bisserial, 87-90, 88t,

82t, 162correspondência entre questionários e

dados do teste, 137-138currículo e avaliação nacional, 4f, 5f,

10, 11qcustos

de processamento de dados de questionários, 131

de reimpressão do pré-teste, 78de impressão, 50, 98de aplicação do questionário, 121de testes traduzidos, 17, 18de pontuação manual dos itens, 21,

22, 23, 24tdados do teste e questionários,

correspondência entre, 137–138

dados socioeconômicos e contextuais, 26n

dados, defi nição de, 162defi nições

glossário, 161–166de áreas temáticas principais, 9-10

desempenho avançado de alunos, 27desempenho básico de alunos, 27desempenho de alunos abaixo do

básico, 27desempenho profi ciente dos alunos, 27desenho de cadernos que passam de

um aluno a outro, 68desenho gráfi co e itens do teste, 50–55,

51q, 52q, 53qdiagramação e desenho de itens

diretrizes básicas, 50escala cinza, uso dafolha de estilo para elaboradores,

58-59itens abertos de resposta curta Veja

itens abertos de resposta curtaitens de crédito parcial, 44-47, 45q,

46q, 47q, 82itens de múltipla escolha. Veja itens

de múltipla escolhaitens de redação ou resposta

dissertativa Veja itens de redação ou resposta dissertativa

itens de resposta curta. Veja itens de resposta curta

itens de respostas fechadas Veja itens de respostas fechadas

pré-testes, 76, 79, 79qprodução do teste fi nal, 95, 96qualidade de imagens, 9, 50–55,

51q, 52q, 53q, 54qquestionários, 129-130, 130qrespostas dos alunos, 96tópicos, 49-55unidades, 47-48, 166vantagens e desvantagens do, 23, 24t

diagramação e desenho de itens, 49-55

Page 185: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 179

difi culdade de itens, 15, 31-32, 90, 95diretores

avaliação nacional, informar sobre, 159-160

manual dos aplicadores para os, 145-146

disponibilidade de itens de teste na internet, 30

distratores em itens de múltipla escolha, 37, 39-41, 163

doença de aluno durante teste, 155elaboração de itens

amostras de itens de alta qualidade, 30

características de bons itens, 29-30difi culdades de itens, 15, 31-32, 95elaboradores, qualidades e

treinamento de, 55-59equipe de elaboração de itens,

55-59, 58q, 91equipe para, 55-59, 58q, 91formato de itens, 18–25, 36-49grupos de referência e, 62itens de prática, 48-49material de estímulo, 33-36, 35q,

54q, 75, 95, 164modelos de itens de alta qualidade,

30painéis de itens, 5f, 49, 59-62,

82-83, 165para questionários, 112t, 125-132rastreamento de itens, 63-65revisores, outros, 62tarefas, 6t, 7ttendenciosidade do item, 33tópicos, 29-65Veja também diagramação e desenho

de itenselaboradores de itens do teste,

qualidades e treinamento de, 55-59, 58q, 82-83

encarregado de turma, 115, 138, 145-146

equipe para elaboração de itens, 55-59, 58q, 91

escala cinzadefi nição de, 163opções de pontuação em, 76para títulos de itens, 50, 64, 74, 96respostas a questionário e, 133, 134q

escaneamento, uso de, 22especialistas nas disciplinas, 4f, 5f, 6t,

12Estudo Internacional sobre o Progresso

do Letramento em Leitura (PIRLS), 20, 27, 30, 41, 48

etapas do desenvolvimento do teste e desenho do questionário, 6-7t

exigências estatísticas do teste fi nal, 93extensão dos cadernos de prova, 96-98fatores da escola, 28fatores familiares, 28Filipinas, 156, 157-158qfl uxograma de atividades da avaliação

nacional, 4, 5ffolha de entrada de dados, 81-82,

81qfolha de estilo de itens, 58qfolha de estilo para elaboradores de

itens, 58-59folha de respostas, 96, 163formato de itens

pré-testes, 78, 79qquestionários, 119-120testes, 18-25, 30, 36-49Veja também elaboração de itens;

itens de resposta fechada; itens de redação ou resposta dissertativa; itens de múltipla escolha; itens abertos; itens de resposta curta

formato. Veja formato de itensformuladores de políticas

defi nição de, 163desenvolvimento do marco de

referência da avaliação e, 10, 14, 15, 27-28

Page 186: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

180 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

etapas da avaliação nacional em desenvolvimento de teste e desenho de questionário e, 6t

painéis de itens e, 60questionários e, 109-110, 112t, 111,

116, 117q, 118, 121, 129, 131garantia de qualidade, 79, 156gerente de elaboração de provas

conteúdo do questionário e, 111controle de qualidade pelo, 79manual do aplicador de teste e, 151rastreamento de itens, 64responsabilidades, 59, 62tarefas, 4f, 7ttreinamento do avaliador, 102

glossário, 161–166gráfi cos, uso de, 50, 52qgrupo de referência, revisão por, 62história do desenvolvimento dos itens

do teste, importância de registrar e guardar, 64

ID, número de identifi cação dos alunos, 94, 138

identidade numérica (ID) para alunos, 94, 138

idioma de testes e questionários, 17-18, 120

imagens em itens do teste, 50-55, 54qimagens, uso de, 51qimpressão e revisão, 6t, 7t

defi nição de revisão, 165do manual do aplicador de teste,

151do pré-teste, 75-78do teste fi nal, 96-99

índice de discriminação, 87, 88-89, 90tinformação contextual, 27-28informações socioeconômicas e

contextuais dos alunos, 93-95, 120informando as escolas sobre a avaliação

nacional, 159-160inspetores escolares como aplicadores

de teste, 153

instruçõespara alunos, 143, 145, 148, 149para aplicador do teste , 147q,

154-156Irlanda, 26item, defi nição de, 163itens de múltipla escolha

defi nição de, 18–19em questionários, 133-135, 136formato do item, 18-19, 21-23, 24t,

31-32, 37-41, 37q, 38q, 39q, 40q

guias de pontuação, 81-82seleção de itens de teste e, 87-88,

90titens de prática, 48-49, 149q, 151

em questionários, 149itens de resposta curta

formato do item, 18-20, 36-37, 41-44, 43q, 44

itens de crédito parcial e, 44-47, 45q, 46q, 47q

itens de prática e, 48pontuação manual de, 105

itens de resposta obrigatória em questionários, 119, 120

itens de respostas fechadasdefi nição de, 163formato do item, 18–19, 20q, 21-23,

24t, 36, 44q, 47qpontuação de, no pré-teste, 82confi abilidade de, 85pontuação manual de, 22, 24t

itens de teste liberados para o público, 30

itens discriminativos, 164itens e formulários ligados, 69–74, 71f,

73f, 74t, 91, 95, 163itens imparciais, 62, 164itens protegidos, 30, 164líder da equipe, 5f, 6tligação horizontal, 95, 164ligação linear, 72, 164

Page 187: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 181

ligação longitudinal, 164ligação vertical, 72-73, 73f, 95, 164listas de verifi cação

para aplicadores de teste, 156, 157-158q

para pré-testes, 76logística, 4fmais de uma categoria de respostas

possíveis ao questionário, 133-135, 134q

manual de aplicação. Veja manual do aplicador de teste

manual do aplicador de testecaracterísticas do, 146, 147qconteúdos de, 144-145defi nição de, 164detalhes necessários no, 146-149,

148qinstruções aos alunos, 143, 145, 148,

149instruções para, 147q, 154-156questões de prática, 149, 149q,

150qrevisão do, 151teste do, 149, 151tópicos, 143-151uso do, 145-146visão geral, 143

mapas, uso de, 50, 53qmarco de referência da avaliação

apresentação de resultados, 26-27contextos, 10, 11q, 27–28desenvolvimento, 9–28etapas no desenvolvimento do teste

e desenho de questionário, 6-7t, 8

idioma do teste, 17–18marco de referência, defi nição de,

164população de estudantes para

avaliação, 25tabela de especifi cações do teste,

11-16

validade e, 17visão geral do, 9–10Veja também tabela de

especifi cações; formato de itensmarco de referência, 6t, 164materiais permitidos durante o teste,

155material de estímulo, 33-36, 35q, 54q,

75, 95, 164Ministério da Educação, 3, 5fmodelagem de resposta ao item, 27NAEP. Veja Avaliação Nacional do

Progresso Educacional (Estados Unidos)

níveis de profi ciência, 27Nova Zelândia, 11qnúmeros nacionais de identifi cação para

alunos (ID), 94objetividade, 165objetividade do teste, 165opinião dos respondentes sobre os

questionários, 131-132órgão implementador, 4f, 5f, 6t, 7tpadrões predefi nidos para testes, 16página de rosto do cadernos do

pré-teste, 75-76página de rosto, informações na, 75,

93-94, 94q, 121painéis

item, 5f, 49, 59-62, 82-83, 165para revisão de questionários, 131

Papua Nova Guinécurrículo de matemática em, 11qtabela de especifi cações do

questionário em, 116, 117qtabela de especifi cações para

conteúdo de matemática em, 14, 15f

testes de matemática em, 23, 25tpercentagem de tipos de item de teste,

21Pesquisa Internacional de Letramento,

26-27

Page 188: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

182 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

PIRLS. Veja Estudo Internacional sobre o Progresso do Letramento em Leitura

PISA. Veja Programa Internacional de Avaliação de Alunos

planilha, uso, 64-65, 74-75, 75tpontuação

de itens de múltipla escolha, 81-82de pré-testes, 78-78, 81q, 83de questões de crédito parcial,

44-47, 45q, 46q, 47q, 82, 83defi nição de pontuação, 165guias, 22-23, 41, 44, 58-59, 58q, 65,

81-82, 163pontuações ou respostas em branco,

44, 79-81, 135-136, 164Veja também pontuação manual;

itens específi cos do testepontuação dicotômica, 88-89, 165pontuação manual

avaliadores e, 102-106custo da, 21, 22, 23, 24tde itens de múltipla escolha, 22de itens de respostas fechadas, 22,

24tde pré-testes, 79, 82, 83de questionários, 119de questões abertas de resposta

curta, 22, 24tdefi nição de, 165orientações para, 22–23, 81–83, 90,

93, 101, 103-105tarefas, 6t, 7tvantagens e desvantagens da, 23, 24tverifi cação cruzada da classifi cação

e, 22, 166pontuação na elaboração de itens, 38,

50pontuação para nenhuma tentativa de

resposta, 79pontuações ou respostas em branco,

44, 79–81, 135-136, 165população do teste, 25, 60, 74, 165

pré-teste de itensadequação de itens e, 15alunos que não tentaram responder

a itens do teste, 79confi abilidade e, 84-85dados do teste fi nal e, 90-92defi nição de pré-teste, 165desenho de formulário do pré-teste,

70-75, 71f, 73f, 74t, 75tdifi culdade de itens e, 31, 90folha de entrada de dados para,

81-82, 81qimplementação do pré-teste, 78-79,

79qimpressão e revisão de pré-teste,

75-78, 99manual do aplicador de teste e, 149,

151modelo e amostra de testes e, 30pontuação do pré-teste, 79-78, 81qrastreamento de itens e, 63tarefas, 5fteste piloto e, 165tópicos, 67-74visão geral, 67-70

pré-teste de itens, 67-85processos cognitivos, 12, 26, 31produtos do aprendizado, 31professores

avaliação nacional, informados sobre, 159-160

como aplicadores de teste, 154, 156questionários para, 114, 138

Programa Internacional de Avaliação de Alunos (PISA), 20, 30, 41

questionáriosafi rmações, 126-127aplicação de, 121categorias de respostas, 127-129codifi cação de respostas, 133-136,

134q, 165componentes do desenvolvimento

de, 110, 112t

Page 189: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 183

construção de, 107-122conteúdo de, 111-116correspondência com dados do teste,

137-138desenho de, 6–7t, 8, 109-122, 112telaboração de itens para, 112t,

125-132, 130qentrada de dados, 135fi nal, 112tformato, 129-130, 130qformato do item, 118t, 119-120idioma do, 120informação contextual, obtenção

de, 28passos do desenvolvimento de, 110plano de análise de dados, 112t, 122pré-teste, 112tquestões delicadas, 129questões, 126respondentes de, 121revisão de, 131-132tabela de especifi cações para, 112t,

111, 116, 117qquestionários dos pais, 114, 138questões abertas de resposta curta

confi abilidade e, 85defi nição de, 165formato do item, 18, 20–23, 24t,

36, 41-43, 45-46, 46qguias de pontuação, 44-47pré-testes, pontuação de, 82questionários e, 119, 132seleção de itens de teste e, 88-90,

90tquestões de crédito parcial

defi nição de, 165formato do item e, 36guias de pontuação para, 44-47,

45q, 46q, 47q, 82pré-testes, 83seleção de itens do teste e, 89-90,

90tquestões de prática, 149, 149q-150q

questões delicadas na elaboração de itens, 129

questões específi cas para cada país, 119rastreamento de itens, 63-65recenseadores como aplicadores de

teste, 153redação ou itens de resposta

dissertativa, 18, 20, 21q, 22, 24t, 105, 165

respondentes de questionários, 121resposta incorreta, 103, 165respostas ambíguas aos questionários,

135-136respostas ao questionários, 134qresultados, apresentação de, 26-27resumo de dados do questionário,

120revisão. Veja impressão e revisãorevisão e revisores, 49, 59-62, 82-83,

131-132, 151, 165rotulando formulários de teste, 69seleção de itens do teste, 87–92, 88t,

90tseleção de itens. Veja seleção de itens

do testesoftware, 63-64, 82subelemento, 14, 165supervisão dos aplicadores de teste, 156Tabela de especifi cações de teste. Veja

tabela de especifi caçõestabela de especifi cações, 11–16

para questionários, 112t, 111, 116, 117q

para testes, 6t, 11-16, 13t, 14t, 5f, 30, 59-60, 87, 165

tamanho da fonte. Veja diagramação e desenho de itens

TCT. Veja teoria clássica dos testestempo disponível para realização do

teste, 23, 69, 155Tendências Internacionais no Estudo

de Matemática e Ciências (TIMSS), 12, 14t

Page 190: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto

184 | SÉRIE PESQUISAS DO BANCO MUNDIAL SOBRE AVALIAÇÕES DE DESEMPENHO EDUCACIONAL

Tendências Internacionais no Estudo de Matemática e Ciências (TIMSS), 26n, 30, 128–129

tendenciosidade de itens, 33teoria clássica dos testes (TCT), 84,

92nteoria de resposta ao item (IRT), 84,

92nteste de linguagem, 105teste, defi nição, 166teste fi nal

defi nição de formulário fi nal, 166desenho do teste fi nal, 93-96impressão e revisão de, 96-99produção, 93-99, seleção de itens do teste e, 90-92

teste piloto, Veja pré-testeVeja também pré-teste de itens

teste-piloto, 166Veja também pré-teste de itens

Timor Leste, 153

TIMSS. Veja Tendências Internacionais no Estudo de Matemática e Ciências

tipo de texto, 30Veja também diagramação e desenho

de itenstítulos de itens, 50, 63-64, 69, 96tradução de testes, 17-18treinamento

de avaliadores, 102-105de elaboradores de itens, 57-59,

58q, 59para aplicadores de teste, 156

TRI. Veja teoria de resposta ao itemunidades, elaboração de itens para,

47-48, 166utilidade do teste, 78, 82, 166validade, 17, 166variável agregada, 118, 119, 122variável direta, 118, 119verifi cação cruzada da classifi cação, 22,

166

Page 191: Public Disclosure Authorized - World Bankdocuments.worldbank.org/curated/pt/...Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-visionou o projeto até agosto