Em Busca de uma Medida da Qualidade da...

1

Em Busca de uma Medida da Qualidade da Escola

Reynaldo Fernandes

[email protected]

Elaine Toldo Pazello

[email protected]

Roberta Loboda Biondi

[email protected]

Fabiana de Felicio

[email protected]

Resumo

Classificação JEL: I2 Educação; C01 Econometria; C5 Modelagem Econométrica.

Abstract

APRESENTAÇÃO EM PORTUGUÊS

FEA-RP/USP.

FEA-RP/USP.

EESP-FGV.

Metas - Consultoria em Pesquisa e Avaliação Educacional.

Este artigo procura contribuir para a identificação de uma medida de qualidade da escola menos sujeita a erros

de medida, e que traga mais informações relacionadas à influência da escola no desempenho dos estudantes,

relativamente às medidas usuais dos programas de school accountability. A proposta é a construção de uma

medida de qualidade composta por uma combinação linear ponderada de diversas medidas de resultados,

insumos e processos, onde a estrutura de pesos é definida por um modelo MIMIC (múltiplos indicadores e

múltiplas causas), e não de forma arbitrária, uma das vantagens do método desenvolvido. Os indicadores de

resultado utilizados são os valores adicionados calculados pelos modelos de efeito fixo e between, para o qual

propomos a correção das estimativas pelo número de alunos testados na escola, conhecido como shrinkage

estimator. A partir das estimativas por SUR e uma hipótese de identificação derivada do próprio modelo

propomos um indicador de qualidade. Realizamos uma aplicação para o Estado de São Paulo utilizando os

dados do SARESP 2008 e 2010 para o 5º ano do ensino fundamental. Encontramos uma medida de qualidade

da escola menos sujeita a erros de medida, mais estável e com menor correlação com as características

socioeconômicas dos alunos relativamente às outras medidas. Não surpreendentemente, o indicador também

demonstrou elevada correlação com os indicadores de resultado que a compõe. Nossa conclusão é que o método

teórico desenvolvido se mostrou robusto, principalmente no que se refere à estratégia de identificação, além de

apresentar bons resultados quando aplicados aos dados.

Palavras-chave: qualidade da escola, school accountability, modelos de valor adicionado, modelos MIMIC.

This works contributes to the identification of a school quality measure that is less subject to measurement errors

and also brings more information about the influence the school has over the students‟ achievement, relatively to

those commonly used on school accountability programs. It is proposed a quality measure, formed by a weighted

average of several results‟, input‟ and processes‟ mean, on which the weight structure is defined by a MIMIC

model (Multiple Indicators and Multiple Causes) and not of arbitrary form, which is one of this method‟s

advantages. The results‟ indicators used are the additional values calculated by the fixed effect and between

models, for which it is proposed the correction of the estimative by the school‟s number of tested students, known

as shrinkage estimator. We did the indicator based on SUR estimates and on identification hypothesis derived

from the model. We applied this method for the state schools of São Paulo using 2008 and 2010 SARESP‟s data.

We found a quality measure less subject to measurement errors, more stable and less correlation with the

socioeconomic characteristics of students than to the other measures. Not surprisingly, this measure also was

highly correlated with the result indicators that compose it. Our conclusion is that the theoretical method proved

to be robust, especially as regards the strategy for the identification, besides having good results when applied to

the data.

Key words: school quality, school accountability, Value-Added Models, MIMIC Models. Classificação JEL: I2 Educação

2

I. Introdução

A prática de avaliar escolas através do desempenho de seus estudantes em exames padronizados

tem se tornado cada vez mais freqüente em todo o mundo. Também tem sido usual atrelar recompensas,

sanções e assistência a tais resultados. Dado a importância de transmitir aos professores e pais o motivo

das escolas serem recompensadas ou penalizadas, indicadores simples de desempenho seriam desejáveis.

Talvez por esse motivo, a pontuação média dos estudantes da escola tem sido uma das medidas de

desempenho mais utilizadas pelos programas de school accountability.1 No entanto, medidas simples

podem ter propriedades não desejadas.

A estrutura de incentivos subjacente aos programas de school accountability depende,

fundamentalmente, da medida de desempenho considerada. Nesse ponto, dois potenciais problemas dos

programas têm sido ressaltados: i) “gaming” e ii) distorção de incentivos. O primeiro problema decorre

do fato que as escolas podem adotar estratégias para alterar os resultados dos exames que não mudam a

qualidade do ensino ministrado como, por exemplo, treinar e motivar os estudantes para os testes ou

excluir dos exames alunos de baixa proficiência. No segundo caso, o destaque tem sido dado ao fato que as

escolas, ao concentrar esforços nos aspectos cobrados pelos programas, são levadas a negligenciar outros

aspectos igualmente importantes. Em relação a isso, o estreitamento de currículo e a exclusão de alunos de

baixa proficiência tem sido uma preocupação2.

Neste artigo o interesse recai sobre um tipo específico de distorção de incentivos. Aquela que

advém do fato que os indicadores utilizados nos programas de school accountability serem medidas

imperfeitas dos objetivos restritos que eles se propõem a avaliar, ainda que nenhum “gaming” esteja

presente. Por exemplo, se um teste de matemática se propõe avaliar a capacidade das escolas em

proporcionar aos seus estudantes um bom aprendizado na disciplina, ele é imperfeito porque seus

resultados incorporam, além do esforço da escola, influências advindas da família, dos amigos e das

habilidades inatas dos estudantes, bem como do erro aleatório de medida. Kane e Staiger (2001 e 2002)

notaram que os resultados de exames padronizados são medidas sujeitas a muito ruído em virtude da

grande variância do termo erro, particularmente entre as pequenas escolas.

Mizala, Romaguera e Urquiola (2007) sugerem que policy makers estejam frente ao seguinte trade-

off: a) escolher uma medida que reflita mais as características socioeconômicas dos estudantes ou b) optar

por uma medida que ordene as escolas de forma a imitar uma loteria. Assim, por exemplo, a pontuação

média dos estudantes ordenaria escolas mais com base nas características socioeconômicas dos estudantes

do que com base na qualidade da escola. Já medidas que procuram reduzir a influência socioeconômica

1 Ver Kane e Staiger (2002) e Hanushek e Raymond (2003) para uma descrição dos programas americanos. Para uma discussão

da incipiente experiência brasileira sobre school accountability, ver Brooke (2006) e Andrade (2008).

2 Para uma discussão desses problemas, ver, entre outros, Jacob (2005 e 2007), Jacob e Levitt (2003), Hanushek e Raymond

(2003 e 2005) , Kane e Staiger (2002), Cullen e Reback (2006) e Reback (2007).

3

como, por exemplo, o valor adicionado, estariam muito influenciadas pelo erro aleatório de medida e,

portanto, produziriam rankings bastante voláteis. Premiar ou penalizar escolas com base no perfil dos

alunos que elas recebem ou com base em uma loteria traria conseqüências indesejáveis à estrutura de

incentivos implícita nos programas de school accountability. Por exemplo, escolas que são mal avaliadas

por receberem alunos pobres poderiam se sentir desestimuladas a melhorar a qualidade de ensino, uma vez

que o ranking de escolas reflete pouco do esforço realizado. Por outro lado, programas que têm como foco

as melhores e as piores escolas, para promover prêmios e punições, trazem pouco incentivo para as

grandes escolas. A probabilidade da escola aparecer no topo ou no fim do ranking é muito maior para as

pequenas, uma vez que a variância do erro diminui com o número de estudantes [Kane e Staiger (2002)].

Tentar identificar, nos resultados obtidos pelos estudantes nos exames padronizados, a parcela que

advém do trabalho da escola (ou do professor) tem sido a base para os Modelos de Valor Adicionado

(Value-Added Models – VAMs). Infelizmente, isso não é uma tarefa fácil. A literatura de VAMs apresenta

uma diversidade de modelos, envolvendo medidas relativamente simples de valor adicionado a complexos

modelos estatísticos, que necessitam admitir hipóteses questionáveis, não testáveis. Medidas simples

tendem a produzir instabilidade de rankings, em virtude da grande variância do erro aleatório de medida.

Já os modelos mais sofisticados exigem uma quantidade de dados (ex. testar todos os alunos, todos os anos

e nas mesmas disciplinas) que são disponíveis apenas em poucos sistemas de avaliação no mundo3.

A influência da escola no desempenho de seus alunos nos testes padronizados não é uma variável

diretamente observável e toda medida utilizada está sujeita a erros, sejam eles sistemáticos ou aleatórios.

Deste modo, seria mais apropriado considerar que qualquer medida de qualidade da escola, entendida

como a contribuição da escola para que seus alunos adquiram as habilidades e conhecimentos exigidos

pelos testes, divirja da “verdadeira” qualidade por um fator de escala mais um termo erro. O objetivo,

então, seria obter uma medida de qualidade onde a variância do erro, medida como proporção da variância

da qualidade, seja a menor possível4.

Uma forma de lidar com esse problema seria obter mais de uma medida da qualidade das escolas e,

então, extrair a média delas. O sistema de pesos dessa média deve ser apropriadamente calculado de forma

a minimizar a variância do erro. Kane e Staiger (2001) propõem utilizar os resultados dos testes de anos

anteriores para tal fim. No entanto, essa proposta possui dois inconvenientes. O primeiro é que ela

pressupõe que as escolas possuam um histórico de resultados em exames padronizados, o que não é

disponível para muitos dos novos programas de school accountability. O segundo é que, em virtude da

qualidade relativa das escolas não ser fixa ao longo do tempo, seria necessário impor alguma estrutura para

3 Para escolas (ou professores) com poucos alunos, as estimativas anuais do efeito escola (professor) estão sujeitas a muita

flutuação amostral. Existem, no entanto, estratégias – e.g. o Best Linear Unbiased Predictor usado no Tennessee Value Added

Assessment System (TVAAS) – que procuram lidar com esse problema. Para uma revisão e discussão dos VAMs ver, por

exemplo, McCaffrey at. al. (2003) e o simpósio do Journal of Education and Behavioral Statistics (2004).

4 Se o objetivo é apenas ordenar as escolas, o fator de escala não possui relevância para a análise.

4

tentar capturar a variação temporal na qualidade relativa das escolas. Kane e Staiger (2001) supõem que o

“efeito escola”, implícito na pontuação média dos estudantes da escola, segue um processo autoregressivo

de ordem um, onde o parâmetro do modelo é considerado o mesmo para todas as escolas5.

No presente artigo, sugerimos utilizar mais de uma medida de qualidade da escola extraídas de um

mesmo período de tempo6. Assim, propomos utilizar exames em diferentes disciplinas e mais de uma

medida de qualidade por disciplina, bem como variáveis de insumos e processos. Para tanto, sugerimos a

implementação de um modelo MIMIC (múltiplos indicadores e múltiplas causas), o qual trata a qualidade

da escola como uma variável latente e estimada a partir da correlação entre as variáveis “causas” e as

variáveis “indicadoras” de qualidade. No fundo, nossa proposta não diverge do procedimento utilizado por

vários programas de school accountability, ao utilizar um indicador que é uma média de diversas medidas

de resultados, insumos e processos. A diferença é que o sistema de pesos não é arbitrário7.

O modelo MIMIC tem sido utilizado por economistas para obter uma medida da Economia

Subterrânea, mas a validade de tal procedimento tem sido contestada por diversos comentadores8. A

principal crítica recai sobre a hipótese de que as variáveis “causas” afetam as variáveis “indicadoras”

exclusivamente através da Economia Subterrânea. Nosso argumento é que tal hipótese é menos restritiva

quando a variável latente é a qualidade da escola.

Entretanto, para nossos propósitos, uma restrição importante do modelo MIMIC padrão refere-se à

hipótese que, dado a variável latente, as variáveis indicadoras são mutuamente independentes. Se, por

exemplo, Y1 e Y2 são medidas da qualidade da escola extraídas dos resultados dos exames de leitura e

matemática, então, não seria razoável admitir que a covariância dos erros entre as duas medidas seja zero,

especialmente se os exames foram realizados no mesmo dia. Assim, abandonamos a hipótese de que as

covariâncias entre os erros das variáveis indicadoras, tomadas como medida de qualidade da escola, sejam

zero.

Por fim, uma restrição ao modelo MIMIC pode surgir em virtude do uso de variáveis de insumos e

processos educacionais. Economistas geralmente consideram medidas baseadas nos resultados dos

estudantes preferíveis a medidas baseadas em insumos ou processos educacionais. Isto em vista da fraca

correlação, freqüentemente encontrada, entre as variáveis de insumos e processos com o desempenho dos

estudantes. Deste modo, os incentivos de uma medida híbrida de qualidade da escola - incluindo variáveis

5 Na verdade, como eles trabalham com dois exames (leitura e matemática), eles supõem um vetor autoregressivo (VAR) de

primeira ordem e parâmetros idênticos para todas as escolas.

6 O que não significa que a inclusão de medidas de diferentes períodos não possa ser considerada.

7 Assim, a variável qualidade da escola é considerada unidimensional. Isso difere de grande parte dos modelos na literatura de

VAM, onde a qualidade da escola é considerada multidimensional: a qualidade da escola em propiciar o aprendizado em

matemática, em leitura etc.

8 Para o uso do modelo MIMIC na estimação da Economia Subterrânea ver, entre outros, Frey e Weck-Hannemann (1984),

Giles (1999a e 1999b), Dell‟Anno e Schneider (2003) e Bajada e Schneider (2005). Para uma avaliação crítica dessa abordagem

ver, entre outros, Helberger e Knepel (1988), Smith (2002), Hill (2002) e Breusch (2005).

5

de resultados, insumos e processos - seriam confusos. Como ressaltam Hanushek e Raymond (2003) “a

school could be rewarded for improving its procedures even if it does not result in additional student

achievement". Este tipo de argumentação, no entanto, minimiza as dificuldades de se obter uma medida da

qualidade da escola a partir dos resultados de exames padronizados. Nosso argumento é que se variáveis

de insumos e processos possuem alguma informação sobre a qualidade da escola não há porque desprezá-

la.

O restante deste artigo é organizado da seguinte forma. A seção II discute as dificuldades de se

extrair o sinal de qualidade da escola a partir dos resultados de exames padronizados. Na seção III,

analisam-se as vantagens e desvantagens dos modelos de efeito fixo e aleatório para obtenção do efeito

escola. A seção IV apresenta o modelo MIMIC proposto para se obter um indicador da qualidade da

escola. Uma estratégia de identificação do modelo MIMIC é apresentada na seção V. Outros problemas de

estimação, não tratados no presente artigo, são discutidos na seção VI. Na seção VII realizamos uma

aplicação do modelo MIMIC para o Brasil. E, por fim, a seção VIII conclui o artigo.

II. O Problema de Extrair o Sinal da Qualidade da Escola a partir dos Resultados de Exames

Padronizados

Rubin, Stuart e Zanutto (2004) argumentam que um problema básico na literatura de VAMs é a

falta de definição clara da quantidade que esses modelos buscam estimar. Se o interesse é estimar um

efeito causal (contribuição da escola para o desempenho de seus alunos) e efeitos causais são

inerentemente comparações de produtos potenciais (pontuação dos estudantes nos testes em diferentes

cenários), eles alegam que os VAMs falham em identificar o experimento do qual eles procuram se

aproximar. Quais são as unidades de tratamento (escolas ou estudantes em particular)? Qual é o tratamento

(estar na escola j ao invés da escola j‟ ou as práticas de ensino adotadas pela escola j)? Diferentes

experimentos podem gerar resultados diferentes.

Raudenbush e Willms (1995) definem dois tipos de efeitos causais que poderiam ser objeto de

estimação dos VAMs. O primeiro (efeito tipo A) seria de interesse dos pais, na escolha da escola de seus

filhos. O segundo (efeito tipo B) seria de interesse dos gestores do sistema educacional, para

responsabilizar o staff das escolas pelo desempenho de seus alunos. Eles definem o produto potencial do

aluno i na escola j (Yij) como uma função das características do aluno (Si), um erro aleatório (eij) e dois

aspectos da escola: contexto da escola (Cj) e práticas de ensino (Pj). Professores e diretores possuem pouco

controle sobre Cj, o qual inclui ambiente e composição social da escola. Em contraste, professores e

diretores possuem substancial influência sobre Pj.

Para pais seria irrelevante distinguir a contribuição de Cj e Pj no aprendizado de seus filhos e, na

escolha entre a escola j e a escola j‟, o pai do estudante i deveria observar

'''' ,,,,,, ijjjiijijjjiiji ePCSYePCSYQ , onde Qi é a qualidade da escola j, em comparação com a

6

escola j‟, para o estudante i. Para efeitos de school accountability, no entanto, a comparação desejada seria

jjePCSYePCSYEQ ijjjiijijjjiijj *** ,,,,,, , onde Qj é a qualidade da escola j ao adotar as práticas

de ensino Pj, em comparação com a qualidade que ela teria se adotasse as práticas de ensino *

jP . No

primeiro caso as unidades de tratamento seriam os estudantes da escola j, o tratamento seria estar na escola

j e o tratamento alternativo seria estar na escola j‟. Já no segundo caso as unidades de tratamento seriam as

escolas, o tratamento seria adotar as práticas de ensino P e o tratamento alternativo seria adotar as práticas

de ensino *P . Raudenbush e Willms (1995) argumentam que, com base nos dados usualmente disponíveis,

seria possível obter uma estimativa com pequeno viés para o efeito tipo A, mas não para o efeito tipo B.

Isso porque as práticas de ensino (P) não são definidas e, muito menos, observadas. Assim, os VAMs

teriam potencial em gerar quantidades estimadas de interesse para pais de alunos e que, combinadas com

outras informações, seriam úteis para estimular discussões sobre como melhorar as práticas de ensino das

escolas. Mas eles não gerariam medidas diretas para manter o staff das escolas responsabilizado pelo

desempenho de seus alunos.

O que grande parte dos VAMs para efeito escola parece estimar é algo ligeiramente diferente do

efeito tipo A de Raudenbush e Willms (1995). Em nossa opinião, no entanto, tais estimativas podem ser

muito úteis para programas de school accountability e não apenas para escolha de escolas. Vamos admitir

que os alunos de todas as escolas sejam testados ao final do curso e que todos eles concluam o curso na

escola que ingressaram e no tempo “correto”, de modo que fenômenos como evasão, repetência e

transferência de escola estejam ausentes. Seja kiM a proficiência em matemática obtida pelo aluno k ao

final de seu curso na escola i e A

kiM o produto potencial desse aluno sob o tratamento alternativo. Então, o

efeito do tratamento sobre o aluno k é A

kikiki MMQ e o impacto médio do tratamento sobre os tratados

é iiMMEQ A

kikii , onde Qi seria a medida de qualidade. Por essa perspectiva, a qualidade da escola

seria multidimensional: qualidade do ensino em matemática, leitura, ciências, história etc.9

Em muitos VAMs o tratamento alternativo parece ser a alocação aleatória do estudante k em uma

das escolas do sistema. Então, A

kiM pode ser definido como a proficiência esperada em matemática para o

aluno k da escola i caso ele tivesse sido aleatoriamente alocado em uma das escolas do sistema. Deste

modo, a qualidade da escola, no ensino de matemática, é definida como o impacto da escola no

aprendizado dos alunos que ela serve. Se 0iQ significa que os alunos da escola i estão, em média,

melhores do que estariam numa escola com características médias. Note que se as escolas forem altamente

especializadas para o público que recebe é possível observarmos 0iQ para todas as escolas.

9 Assim, se estamos interessado em uma única medida de qualidade da escola teríamos que gerar um índice que agregue essas

diferentes qualidades. Isso será feito na seção IV.

7

Neste ponto, a questão chave a ser esclarecida refere-se ao significado de se ordenar escolas com

base em tal indicador de qualidade. Suponha que a proficiência média dos alunos da escola i seja 80iM

e o produto potencial médio sob o tratamento alternativo seja 70A

iM . Já para escola j, esses valores

seriam 95jM e 90A

jM . Então, teríamos 10iQ e 5jQ , de modo que a escola i seria considerada

de melhor qualidade. Tal comparação supõe que um ganho de mesmo tamanho em qualquer ponto da

escala de proficiência representa o mesmo incremento de aprendizagem (ou habilidade). Uma escala que

possui tal propriedade é conhecida como escala de intervalos. Claramente, se a escala é representada pelo

número de itens corretos em uma prova ela não possui tal propriedade, uma vez que os itens não são de

igual dificuldade. No entanto, alguns psicometristas argumentam que uma escala obtida pela Teoria da

Resposta ao Item (TRI) é uma escala de intervalos, embora isso esteja longe de ser um consenso (Ballou,

2008). De qualquer modo, um ranking de qualidade das escolas obtido pelo procedimento acima seria mais

defensável caso a proficiência dos estudantes fosse obtida com base na TRI.

Ainda que possamos considerar que a escala de proficiência seja uma escala de intervalos, utilizar

tais estimativas para efeitos de accountability pode ser questionado. Poder-se-ia alegar, por exemplo, que é

mais difícil elevar a proficiência de um estudante de 90 para 95 do que de 70 para 80. Para analisar esse

ponto vamos admitir que as variáveis de contexto não sejam importantes para o aprendizado dos alunos e

que diferentes alunos são diferentemente afetados pelas práticas de ensino. Por exemplo, podemos

imaginar que os alunos com maiores proficiências são mais independentes das práticas de ensino do que os

alunos com baixas proficiências. Admita que, no exemplo acima, a escola j possui as melhores práticas de

ensino entre todas as escolas do sistema, enquanto a escola i possui práticas de ensino apenas ligeiramente

melhores do que as da escola média. Apesar disso, a escola i seria considerada de melhor qualidade. Isso

porque uma pequena melhora nas práticas de ensino produziria um incremento significativo para os alunos

da escola i, que possuem baixa proficiência. Deste modo, alguém poderia considerar injusto que a escola j,

que possui as melhores práticas de ensino, seja classificada abaixo da escola i. Por tal argumento, a escola

deveria ser avaliada por sua qualidade “intrínseca”, independentemente da contribuição ao aprendizado de

seus alunos.

A ideia que a escola (ou professor) deva ser avaliada(o) por sua qualidade “intrínseca” é

compartilhada por muitos pesquisadores na área de educação. Além das dificuldades de ordem operacional

(a dificuldade ou impossibilidade de se obter uma medida da qualidade das práticas de ensino -

Raudenbush e Willms, 1995), tal posicionamento parece estar mais fundamentado em alguma concepção

de justiça do que em incentivos. A concepção de justiça, além de difícil consenso, não parece ser um bom

guia para orientar um programa de school accountability.

Os programas de educational accountability estão baseados na idéia que os responsáveis pelo

aprendizado nas escolas (professores, diretores e gestores) podem alterar suas condutas e, assim,

proporcionar aos estudantes um melhor ensino. Melhorar a qualidade do ensino pode exigir alterações em

8

práticas e hábitos enraizados no processo escolar e, portanto, de difícil execução. Assim, o potencial de um

programa de educational accountability depende muito de sua capacidade em induzir mudanças nos

procedimentos adotados que contribuam para melhorar o ensino. Aqueles que acreditam que a qualidade

da educação pode melhorar admitem, ao menos implicitamente, que alguns dos responsáveis pela

educação (professores, diretores, gestores de rede ou governantes) podem fazer algo diferente do que vêm

fazendo. Nessa perspectiva, em algum nível (professores, escolas ou sistemas de ensino), a accountability

pode ser necessária.

Por esse ponto de vista, a medida de accountability deveria ser avaliada pelo incentivo que ela

produz. Programas de accountability com diferentes medidas de qualidade de escola podem gerar

diferentes incentivos. Por exemplo, avaliar o staff da escola com base em sua qualidade “intrínseca” pode

gerar o seguinte sinal a seus membros: melhorem suas práticas. Se a medida for a proficiência média dos

alunos ao final do curso, o sinal seria: melhorem suas práticas e procurem se alocar em escolas onde os

alunos já ingressam com alta proficiência (ou procurem selecionar alunos com alta proficiência) . No caso

de se utilizar o valor adicionado (diferença da proficiência média dos alunos entre o início e o final do

curso) como medida de qualidade da escola, a mensagem seria: melhorem suas práticas e procurem se

alocar em escolas onde o potencial de crescimento dos alunos é maior (ou procurem selecionar alunos com

alto potencial de crescimento)10

. Por fim, na medida aqui discutida (Qi) o sinal seria: melhorem suas

práticas e procurem escolas onde seu trabalho faz mais diferença (ou procurem selecionar alunos que seu

trabalho faz mais diferença). Esta última é a mais condizente com a eficiência, no sentido de aumentar a

proficiência média dos alunos do sistema como um todo.

Na análise acima consideramos que as variáveis de contexto não são importantes para o

aprendizado dos alunos, o que é pouco razoável. Como Qi não separa variáveis de contexto de variáveis

relacionadas às práticas de ensino, ela estaria sinalizando para professores e diretores, além dos aspectos

discutidos acima, a procurarem se alocar em escolas com boas variáveis de contexto. Por exemplo, a

depender do mecanismo de como professores são alocados às escolas, isso poderia levar que escolas com

piores variáveis de contexto acabariam por receber também aqueles professores de pior desempenho que,

em virtude disso, não conseguiram se colocar em escolas com maiores valores de Qi. Isso acabaria por

reduzir, ainda mais, o aprendizado dos alunos nas escolas com piores variáveis de contexto.

Enquanto isso vem a ser um problema, não significa que a medida Qi seja de utilidade apenas para

pais de alunos, no momento de escolher a escola de seu filho. Uma escola com um valor muito negativo de

Qi pode ser um sinal para o gestor do sistema que seria melhor fechá-la e redistribuir seus alunos entre as

demais escolas. O fato é que o impacto de um programa de school accountability sobre a proficiência

10 Suponha que a prática escolar considerada seja „ter bons professores‟. Então, caso seja mais fácil agregar valor a alunos de

menor proficiência, os professores procurariam as escolas onde os alunos ingressam com baixa proficiência. Se as escolas estão

interessadas em contratar bons professores e possuem liberdade para fazê-lo, o resultado final seria uma diminuição na

desigualdade de proficiência no sistema. Por outro lado, caso agregar valor seja mais fácil a alunos de maior proficiência, o

resultado final do programa de accountability seria um aumento da desigualdade de notas.

9

média dos alunos do sistema depende de todo o desenho do programa e não apenas da medida de

desempenho utilizada. Como são escolhidos os diretores de escolas? Diretores podem contratar e demitir

professores? Qual o tratamento dado às escolas de pior desempenho? Nosso argumento é que se uma boa

estimativa de Qi for disponível, então ela seria uma melhor medida da qualidade da escola i do que as

usualmente adotadas pelos programas de school accountability como, por exemplo, a pontuação média dos

estudantes da escola nos exames padronizados, a variação da pontuação média entre dois períodos de

tempo e a variação da pontuação média para uma coorte de estudantes entre diferentes séries. Sendo assim,

o problema passa a ser o de encontrar uma boa estimativa de Qi.

Com base na discussão anterior, podemos definir a proficiência em matemática obtida pelo aluno k

ao final de seu curso na escola i como:

ki

A

kiiki vMQM , (1)

ikiki QQv .

Em (1) iQ é o efeito escola que queremos identificar e kiv é a diferença entre o efeito da escola i

para o aluno k e a esperança do efeito escola para a escola i. Vamos admitir que 0, i

A

kiki QMvE e

2

vkivVar . Estamos considerando também que cada coorte de estudantes que entra na escola i a cada

ano é constituído de uma amostra aleatória de potenciais estudantes de determinada população, de modo

que i

vi

nvVar

2 , onde in é o número de alunos testados na escola i e

in

k

ki

i

i vn

v1

1.

O principal problema para se obter uma estimativa de iQ refere-se ao fato de A

kiM não ser

observado. Antes, no entanto, é preciso reconhecer que mesmo kiM não é diretamente observado. O que

dispomos é uma estimativa da proficiência de determinado aluno extraída da realização de um exame.

Definindo tal estimativa como kiP , temos:

kiikiki zMP , (2)

Em (2), o termo ki é um distúrbio aleatório individual que é independente da escola que o aluno

se encontra, enquanto o termo iz é um distúrbio aleatório que afeta todos os estudantes da escola i e pode

refletir um erro de procedimento do aplicador do exame ou algum evento que afetou a concentração ou a

10

motivação dos estudantes no dia do teste. Vamos admitir que 0,, ikiiikiki QMzEQME ,

2

kiVar , 2

zizVar e 0,,, ikikikiiki zvCovvCovzCov .

Substituindo (2) em (1) e extraindo a média por escolas obtemos (3).

i

A

iii MQP , (3)

iiii vz ,

2

22

z

i

vi

nVar

.

Em (3) observamos que o primeiro termo da variância do erro se reduz com o aumento do número

de alunos testados (ni), mas não o segundo. Kane e Staiger (2001 e 2002) argumentam que rankings de

escolas baseados em iP tendem a ser voláteis devido à magnitude da iVar , especialmente entre as

pequenas escolas.

A estratégia básica dos VAMs é encontrar uma estimativa de A

iM , substituí-la em (3) e, então,

obter-se uma estimativa de iQ . Vamos admitir que:

ki

A

ki aM bX'

ki . (4)

Em (4), kiX é um vetor de variáveis explicativas observáveis que pode incluir, caso seja disponível,

um medida da proficiência do estudante k no momento que ele ingressa na escola i. Vamos supor que

0kiXkiE , 2

kiVar e 0, kikiCov . Podemos pensar ki como o resíduo que seria obtido

da regressão de A

kiM sobre kiX , caso A

kiM fosse observada. Assim, o impacto sobre A

kiM de variáveis não

observadas, mas correlacionadas com kiX , seriam capturadas pelos parâmetros de (4). Extraindo a média

por escolas e substituindo o resultado de (4) em (3) obtemos (5).

iiii AP bX'

i (5)

aQA ii .

Evidentemente, iA produz a mesma ordenação de escolas do que iQ . Tomando iA como nossa

medida de qualidade da escola e considerando b o estimador de b , o procedimento padrão dos VAMs,

para se obter uma estimativa da qualidade da escola, é dado por (6).

11

iiiii APA bbXbX'

i

'

iˆˆˆ (6)

Em (6), o termo ibbX'

iˆ dá uma medida do viés de seleção, que decorre das escolas

receberem públicos diferentes. O primeiro elemento reflete o viés de seleção baseado em características

observadas, não eliminado devido ao erro de estimação de b . Já o segundo elemento reflete o viés de

seleção baseado em características não observadas. É razoável imaginar que exista uma associação positiva

entre qualidade de escolas ( iA ) e qualidade dos estudantes ( A

iM )11

. Assim, podemos estabelecer que:

kii CcA bbX'

iˆ , (7)

kiiki DdA . (8)

Em (7) podemos pensar kiC como a soma do resíduo e da constante que seriam obtidos de uma

regressão de bbX'

kiˆ sobre iA , caso bbX

'

kiˆ e iA fossem observados. O mesmo procedimento

valendo para kiD , podemos definir iiCEC kii , iiDED kii , ikiki CCc e ikiki DDd ,

onde 0 ikiiki AdEAcE , 2

ckicVar e 2

dkidVar . Assim, podemos reescrever (7) e (8) como:

kiii cCcA bbX'

kiˆ , (7‟)

kiiiki dDdA . (8‟)

Extraindo a média por escolas de (7‟) e (8‟) e substituindo os resultados em (6), obtemos (9).

iii AA ˆ , (9)

dc 1 ,

iiii lDC ,

iiii dcl .

Em (9) a estimativa da qualidade da escola i ( iA ) difere da “verdadeira” medida ( iA ) por um fator

de escala ( ) e por um termo de erro ( i ). Como o fator de escala não altera a ordenação de escolas, o

problema recai sobre o termo erro. O termo erro, por sua vez, é composto por um componente sistemático

11 Bons alunos tendem a ter pais com mais recursos e mais preocupados com a educação e que, por esses motivos, estão

dispostos a despender mais esforços e recursos para obter uma melhor escola para seus filhos. Por outro lado, boas escolas

tendem a ter mais demanda do que vagas disponíveis e, assim, podem lançar mão de algum critério de seleção. Tal critério,

provavelmente, visaria escolher alunos com maior potencial.

12

( ii DC ) e por um componente aleatório ( il ): iiii DCAiiAE ˆ . A redução do erro sistemático

depende de possuirmos boas variáveis explicativas de A

kiM e da capacidade de produzirmos boas

estimativas de b .

Ainda que o erro sistemático possa ser considerado pequeno, de modo que o viés de estimativa não

seja importante, ordenar escolas com base em iA pode ser problemático. Isso em virtude que a variância

de il pode ser expressiva. A variância de il é dada por (10).

i

dcvzi

nlVar

2222

2

(10)

Em (10) observamos que o segundo termo da variância de il se reduz com o aumento do número

de alunos testados, de modo que a imprecisão de estimativa tende a ser agravado entre as pequenas

escolas. Kane e Staiger (2002), analisando os dados da Carolina do Norte, mostram que, tanto para o score

médio como para o valor adicionado, virtualmente todas as escolas com os melhores e os piores

desempenhos foram pequenas. As pequenas escolas foram também mais prováveis de reportar maiores

mudanças no score médio e no valor adicionado de um ano para o próximo. Enquanto o problema de

variação amostral impõe volatilidade ao ranking de escolas nas duas medidas, ele é ainda mais grave para

o caso do valor adicionado.12

Kane e Staiger (2002) calculam que a parcela da variância, entre as pequenas

escolas, explicada por fatores não persistentes é de 27% no caso do score médio e 56% no caso do valor

adicionado.

Uma forma de mitigar o problema de variação amostral entre as pequenas escolas seria “ajustar” a

estimativa do fator específico, iiiii zDCAE , pelo número de alunos testados na escola. O

termo iE inclui, além da medida de qualidade, o erro sistemático ( ii DC ) e o erro aleatório que é

comum a todos os alunos da escola i ( iz ). Admita, então, que para determinada escola tenhamos duas

estimativas de iE , dadas por (11) e (12).

iii EA ˆ e (11)

iiEA . (12)

12 Uma medida simples de valor adicionado pode ser obtida de (6). Para isso basta que kiX inclua apenas a proficiência dos

alunos ao ingressar na escola e se considere 1ˆ b .

13

A primeira estimativa é obtida por (9), onde iiiii dcv . Já a segunda é dada por

G

i

iAG 1

ˆ1, onde G é o número de escolas. Dado que 0 ii EE e 0, iiCov , o melhor preditor

de iE é dado por (13):

AcAcA ii 1ˆ~, (13)

ii

i

VarVar

Varc

.

Em (13), iA

~ é um shrinkage estimator. Assim, quanto maior a variância da estimativa do efeito

específico da escola i, em relação à variância do efeito específico entre todas as escolas, menor o peso

dado à estimativa do seu fator específico. Essa relação depende do número de alunos testados na escola i,

de forma que escolas com muito poucos alunos tendem a ter um peso maior do fator escola médio. Para

implementar tal procedimento, necessitamos obter estimativas de iVar e iVar .

III. Estimando o Efeito Escola: Efeito Fixo versus Efeito Aleatório

Um aspecto envolvido na discussão sobre a estimação do efeito escola diz respeito à melhor forma

de representar tal efeito: como efeito fixo ou como efeito aleatório. Para analisar essa questão seria

conveniente reescrever kiP como:

kiiki wFP bX'

ki , (14)

iiii zDAdF )1( ,

kikikiki vdw .

Em (14), o fator escola específico, iF , diverge do fator de qualidade, iA , por um fator de escala

d1 e por um termo erro ii zD . Em uma regressão com dados em cross section não é possível

separar iAd)1( de ii zD e o máximo que podemos conseguir é uma estimativa não enviesada de iF .

A estimativa de b em um modelo de efeito fixo pode ser obtida por uma regressão em OLS de (15).

kiiki wPP bXX'

iki , (15)

ikiki www .

14

Para obtermos o shrinkage estimator, podemos considerar o estimador da 2

kiVar como:

HGN

wG

i

n

k

ki

w

i

1 1

2

22

ˆ

ˆˆ

, (16)

G

ii

inN .

Em (16), H é o número de regressores em (15). Definindo

i

kiiin

EVarVarEVar1

,

podemos considerar que a variância da distribuição, entre escolas, do estimador dado por (11) seja

iii VarEVarAVar ˆ . Então, dado que ii VarEVar , obtemos i

in

arV2ˆˆ e

G

i i

G

i

iinG

AAG

arV1

2

1

2 11ˆˆ

1

1ˆ .

Uma condição importante para que o modelo de efeito fixo funcione é que não haja seleção com

base em A

kiM . Se os alunos que freqüentam a mesma escola possuam um alto grau de homogeneidade em

A

kiM , o fato de um estudante estar matriculado em uma ou outra escola já seria um forte indicador de seu

potencial de aprendizagem. Assim, ordenar as escolas com base no score médio dos estudantes ou com

base nos fatores específicos estimados ( sFi 'ˆ ) pode não se mostrar muito diferente. Por exemplo, Mizala,

Romaguera e Urquiola (2007) mostram que, para o Chile, adicionar controles da condição socioeconômica

em uma regressão que já inclui dummies de escolas altera muito pouco o poder explicativo de uma

regressão cuja variável dependente é o score bruto dos estudantes.

Caso os alunos dentro das escolas sejam bastante homogêneos em relação à A

kiM e não haja seleção

por não observados, teríamos como consequência, que kiX variaria pouco dentro das escolas. Então, uma

regressão que utiliza apenas informações intra-escolas teria dificuldade para identificar b. Por outro lado,

se os alunos dentro das escolas são heterogêneos em relação à kiX , mas homogêneos em relação à A

kiM ,

seria uma indicação da existência de seleção por não observados. Ou seja, alunos com melhores

características observadas ( kiX ) apresentariam características não observadas ( kiu ) mais desfavoráveis.

Isso imporia, dentro das escolas, uma correlação negativa entre kiX e kid . Então, uma regressão que

utiliza apenas informações intra-escolas tenderia a produzir uma estimativa enviesada de b , no sentido de

aproximá-la de zero.

15

Uma alternativa seria estimar (14) por um modelo de efeito aleatório. O modelo de efeito aleatório

possui a vantagem de utilizar, além das informações intra-escolas, as informações entre escolas. Para

melhor avaliar esse ponto seria conveniente reescrever a equação (14) como:

kiiki wfFP bX'

ki , (14‟)

ii fFF .

Note que, por construção, 0ifE , onde F é a média dos efeitos específicos sFi ' . O

procedimento, então, é tratar if como um erro aleatório, onde 0kiXifE , 2

fifVar e

0, iki fwCov . Definindo kiiki wf , para a escola i temos:

22222

22222

22222

...

.

.

...

...

wffff

ffwff

fffwf

E

'ππΩ ii , (17)

onde Ω é uma matriz de dimensão ni X ni. De posse de uma estimativa para Ω , a forma geral do

estimador de efeito aleatório é dada por (18):

i

1

ii

1

i PΩ'XXΩ'XβG

i

G

i 1

1

1

ˆˆ . (18)

Então, para implementar (18), precisamos de Ω

. Uma estimativa de 2

pode ser obtida ao estimar

(14”) por OLS.

iii bXFP ' , (14”)

Assim, uma estimativa de 2

f seria dada por

G

i i

w

G

i

ifnGHG 1

2

1

22 11ˆˆ

1

1ˆ , onde 2ˆ

w é

obtido por (16). Para obter o shrinkage estimator, podemos considerar que i

in

arV2ˆˆ e 2ˆˆ

fiarV

.

16

O modelo de efeito aleatório, por também considerar as informações entre escolas, é menos afetado

pelo problema de viés de seleção de alunos com base em A

kiM . No entanto, a presença de correlação entre

as variáveis if e kiX enviesará os coeficientes estimados (viés de variável omitida). Nesse caso, o viés é

no sentido de afastar b de zero. O modelo de efeito aleatório é uma combinação do modelo de efeito

within (efeito fixo) e o modelo de efeito between (equação 14”). O peso dado a cada um desses efeitos

depende do número médio de estudantes dentro das escolas: quanto maiores forem as escolas, mais o

modelo de efeito aleatório tenderá se aproximar do modelo de efeito fixo (e.g. Wooldridge, 2002, ch. 10).

Então, se o tamanho médio das escolas for suficientemente grande não seria surpreendente encontrarmos

estimativas similares entre os modelos de efeito fixo e efeito aleatório.

Outra possibilidade seria considerar o modelo de efeito between, estimando (14”) por OLS. O

modelo de efeito between contorna o problema de viés de seleção, mas agrava o problema de viés

introduzido pela correlação entre if e kiX .

Em suma, nenhum dos modelos acima está isento de produzir medidas da qualidade da escola que

sejam seriamente influenciadas por erros de medidas, sejam eles sistemáticos ou aleatórios. Admitindo que

todas as variáveis incluídas em kiX impactem positivamente em A

kiM ( 0b ), então o modelo de efeito

fixo tende a produzir bb ˆ , caso haja seleção com base em A

kiM . Por sua vez, o modelo de efeito between

tende a produzir bb ˆ , caso haja uma associação positiva entre kiX e iQ . Sendo esse o caso, deve haver

uma combinação das estimativas de b , obtidas pelos modelos de efeito fixo e betwwen, que reduza o viés

de estimação. Em tal situação o modelo de efeito aleatório nunca será a pior alternativa, mas nada garante

que seja a melhor. Na prática, os modelos de efeito fixo e aleatório podem produzir estimativas do efeito

escola muito similares. Por exemplo, o modelo de efeito aleatório aplicado para o sistema educacional das

principais capitais brasileiras produziu estimativas praticamente idênticas ao do modelo de efeito fixo,

enquanto as estimativas do modelo de efeito between mostraram-se diferentes.

Ainda que tenhamos bb ˆ , o problema de erro de medida pode ainda ser grave. Note que o

procedimento de ajustar a estimativa do efeito escola pelo número de alunos testados pode mitigar o

problema de variação amostral que afeta principalmente as pequenas escolas, mas ele em nada afeta o

distúrbio aleatório que incide sobre todos os estudantes de uma determinada escola, o qual pode ser

significativo. Por outro lado, nada foi feito para lidar com o problema de viés de seleção baseado em

características não observadas.

Por fim, os modelos aqui analisados consideram a qualidade da escola como multidimensional:

qualidade do ensino em matemática, leitura, ciências, história etc. Para os programas de school

accountability, no entanto, seria importante obtermos uma medida única da qualidade das escolas. Nesse

caso, o procedimento padrão é adotar uma média desses indicadores. O problema é que a literatura de

VAMs não nos dá qualquer indicativo sobre o melhor sistema de pesos a ser utilizado. Na seção seguinte

17

apresentamos uma forma de utilizar as medidas de qualidade da escola aqui analisadas (associadas a

medidas de insumos e processos da escola) com o objetivo de produzir um indicador de qualidade que

procura lidar com esses problemas.

IV. O Modelo MIMIC

O modelo MIMIC (múltiplos indicadores e múltiplas causas) foi originalmente desenvolvido por

Jöreskog e Goldberg (1975), onde múltiplos indicadores e múltiplas causas de uma única variável latente

são observados. No nosso contexto a variável latente seria a qualidade unidimensional da escola, Q.

Vamos admitir que:

jiijjji QQ , (19)

0iji QE .

Em (19), i é um indexador de escolas e j é um indexador da dimensão da qualidade: qualidade do

ensino em matemática, leitura, ciências, história etc. Então, a qualidade do ensino em matemática diverge

da qualidade geral da escola por um fator de escala ( j ) e por um termo erro ( jij ). Como vimos

acima, jiQ não é diretamente observado e o que podemos obter é uma medida de qualidade que diverge de

jiQ por um fator de escala e por um termo erro. Assim, podemos considerar que nossa medida imperfeita

da qualidade do ensino de matemática diverge da qualidade geral, iQ , também por um fator de escala e por

um termo erro.

A especificação do modelo é como segue. A variável latente q é linearmente determinada, sujeita

ao distúrbio aleatório e, por um conjunto de causas exógenas observáveis x,

ikikii exxq ....11 . (20)

Por outro lado, a variável latente determina linearmente, sujeita ao distúrbio aleatório u, um

conjunto de indicadores endógenos observáveis,

jiijji uqy mj ....,,2,1 . (21)

18

Em (20) e (21), a letra minúscula das variáveis significa que elas estão expressas como desvio da

média, de forma que nenhuma constante se faz necessária. O índice j refere-se ao indicador e i refere-se à

escola.13

Substituindo (20) em (21) obtemos a forma reduzida do modelo:

jikikjijji vxxy ....11 mj ....,,2,1 , (22)

onde jiijji uev .

Seja x e α vetores de dimensão k X 1, enquanto y, β e u vetores de dimensão m X 1. Então,

podemos reescrever (22) como:

vxΠ'y , (22‟)

αβ'Π ,

uβv ie .

As hipóteses do modelo são dadas por (23).

0u ieE , (23)

22 ieE e

Θuu' E ,

onde mdiag ......,,1Θ , com θ‟s sendo as variâncias dos u‟s. Ou seja, os distúrbios são assumidos

para não se relacionarem entre si. Assim, a matriz de covariância da forma reduzida dos erros é dada por,

Θββ'vv'Ω 2E . (24)

Em geral, a estrutura do modelo MIMIC implicará em restrições nos parâmetros da forma reduzida

de Π e Ω. Primeiro, a matriz de coeficientes Π tem rank um, de modo que seus k X m elementos são

expressos em termos dos k + m elementos de α e β. Segundo, a matriz de covariância Ω é a soma de uma

matriz de rank um e uma matriz diagonal, de modo que seus m X (m + 1)/2 distintos elementos são

expressos em termos dos 1 + 2m elementos de σ2, β e θ. Por fim, é possível observar em (22) que os

13 Os indicadores seriam a medida de qualidade do ensino em matemática obtida por um modelo de efeito fixo, a medida de

qualidade do ensino em matemática obtida por um modelo de efeito between, a medida de qualidade do ensino em leitura obtida

por um modelo de efeito fixo etc.

19

parâmetros da forma reduzida permanecem inalterados quando β é multiplicado por um escalar e α e σ são

divididos por esse mesmo escalar. Tal indeterminação exige um procedimento de normalização. Dentre as

várias possibilidades, uma bastante utilizada, a qual será adotada no presente artigo, é fixar 11 . A

estimação do modelo MIMIC é, tipicamente, por máxima-verossimilhança, com a hipótese adicional de

que os termos erros (ei e u) possuem uma distribuição conjunta normal. Para tal estimação o pesquisador

pode lançar mão de softwares especialistas tal como o LISREL.

As hipóteses do modelo MIMIC trazem duas importantes implicações para a estrutura de

correlação entre as variáveis observáveis: i) condicional na variável latente q, as variáveis indicadoras são

independentes das variáveis causas e ii) condicional na variável latente q, as variáveis indicadoras são

mutuamente independentes. A primeira condição impõe que toda influência das variáveis causas sobre as

variáveis indicadoras se dá através da qualidade da escola. Em linguagem de variáveis instrumentais, as

variáveis kxxx ...,,, 21 são instrumentos de q. Como observado por Jöreskog e Goldberg (1975), as

variáveis myyy ...,,, 21 seriam medidas alternativas de mesma coisa: a quantidade não observada q. Esses

diferentes indicadores da qualidade da escola divergiriam apenas em virtude de um fator de escala e por

erros de medida. A segunda condição, por sua vez, impõe que esses erros de medida sejam não

correlacionados.

Neste artigo aceitamos a primeira das condições acima, mas mudamos a estrutura básica do MIMIC

de forma a considerar que a matriz Θ seja irrestrita. No nosso caso, a hipótese que os erros de medida das

variáveis indicadoras sejam não correlacionados é provável não se verificar. Note que se as variáveis

indicadoras são obtidas a partir de diferentes testes (matemática, leitura, ciência etc) realizados num curto

período de tempo (freqüentemente no mesmo dia), então, qualquer fator externo que, para um determinado

aluno ou para o conjunto de alunos de determinada escola, afete a medida de desempenho em um teste é

provável, também, afetar o resultado dos demais. Por outro lado, os erros de medida das variáveis

indicadoras obtidas pelo mesmo exame (ex. matemática), mas por modelos diferentes (efeito fixo ou

aleatório) são, necessariamente, correlacionados.

Seguindo Breusch (2005), podemos reescrever (22) na estrutura padrão de um modelo de equações

simultâneas. Para isso basta subtrair ij y1 de cada variável indicadora 1jy ji . Então, fixando 11 ,

o modelo pode ser reescrito como:

ikikii gxxy 1111 .... , (25)

jiijji gyy 1 mj ....,,3,2 ,

onde iii ueg 11 e ijjiji uug 1 1j .

20

Para estimarmos (25) podemos utilizar um procedimento de GLS interado, o seemingly unrelated

regression (SUR). Esse procedimento está disponível em muitos pacotes econométricos, tal como o

comando “sureg” no Stata. É importante ressaltar que ao estimarmos (25) por SUR, nenhuma restrição é

imposta à matriz de variância e covariância dos erros (g‟s). Assim, as hipóteses que 0u ieE e

mdiag ......,,1Θ não seriam necessárias.14

Tal procedimento produz uma estimativa para todos os

α’s e β’s, bem como para a matriz de variância e covariância dos erros. De posse dessas estimativas, o

próximo passo é obter uma estimativa para a variável latente iq . Uma possibilidade freqüentemente

utilizada é considerar o valor predito da primeira variável indicadora,

kikiiiii xxxyExqE ....111. (26)

Nesse caso, teríamos um indicador orientado por variáveis de insumos e processos. A questão aqui

é justificar porque tal indicador seria preferível a utilizar diretamente mjy ji ...,2,1 . No presente artigo

propomos utilizar um indicador de qualidade da escola que seja uma média dos mjy ji ...,2,1 e dos

kjx ji ...,,2,1 .

Definindo kikiim xxy ....111 , iim eu 1 e 11 m , podemos reescrever (20) como:

imimim uqy 111 . (20‟)

Para obtermos uma estimativa de iq , inserimos (20‟) em (21) e, seguindo Jöreskog (2000),

consideramos que os valores dos β’s e α’s são conhecidos. Na prática eles serão iguais aos s' e s'

obtidos da estimativa de (25). Assim, podemos obter, para cada uma das escolas, a estimativa de sua

qualidade, iq , conforme (27).

i

111yΣβ'βΣβ'

iq , (27)

20

0ΘΣ'uuE .

14 Entretanto, como veremos adiante, nós ainda admitiremos que 0u ieE .

21

A equação (27) supõe 0u ieE , mas não impõe qualquer restrição em Θ .15

Ela implica estimar,

para cada escola i, uma regressão em GLS de jiy em j 1,,.....,2,1 mmj , sendo iq o parâmetro a

ser obtido. O vetor *u adiciona imu 1 ao vetor u . Seja jk 1,....,,2,1, mmkj os elementos de Σ

e jk os elementos de 1Σ , então iq é dado por (28).

1

1

1

1ˆ

m

j

jj

m

j

jji

i

y

q

, (28)

jmmmjmjjj 112211 ... .

Dado que kikiim xxy ....111 , então podemos reescrever (28) como,

k

j

jijm

m

j

jiji xyq1

1

1

ˆ , (29)

1

1

m

j

jj

j

j

.

Note que a qualidade da escola foi arbitrariamente fixada para ter a mesma dimensão de 1y , de

modo que, sem qualquer prejuízo, podemos dividir iq por uma constante c. Assim, temos:

k

j

jijm

m

j

jiji

i xyc

qq

1

1

1

* ˆ , (30)

1

1

m

m

j

jc ,

11

1

m

j

j

A medida de qualidade da escola seria uma média ponderada das variáveis indicadoras e das

variáveis causas. Em outras palavras, nossa medida seria um mix de variáveis baseadas na performance dos

estudantes e de variáveis de insumos e processos. A equação (30) pode ser reescrita de forma que as

15 Veremos adiante que, para identificarmos Σ , necessitamos fazer alguma restrição em Θ . Entretanto, não será necessário

supor que mdiag ......,,1Θ .

22

variáveis não sejam expressas como desvios da média e, caso os s' pudessem ser considerados estáveis

ao longo do tempo, teríamos,

k

j

jitjtm

m

j

jitjit XYQ1

1

1

* . (31)

Deste modo, poderíamos obter as estimativas dos s' em um determinado ano (t = 0) e

verificarmos, além do ranking de qualidade nesse mesmo ano, a variação temporal da qualidade do

sistema. O procedimento de considerar a qualidade da escola como uma média ponderada, com pesos

fixos, entre variáveis de resultados, insumos e processos já é utilizado por alguns sistemas de ensino. A

diferença aqui é que a determinação dos pesos não é ad hoc. Para implementarmos tal procedimento

necessitamos, entretanto, de uma estimativa de Σ .

De (25) temos,

iii uVareVargVar 11 (32)

ijijijjiji uVaruuCovuVargVar 1

2

1,2 1j

ijjiijii uVaruuCovggCov 111 ,, 1j

ikjkijikiijjiikkiji uVaruuCovggCovggCovggCov 111 ,,,, 1, kj

Note que em (32) existe uma incógnita a mais do que o número de equações. Assim, é necessário

uma restrição para podermos identificar Σ . Para isso bastaria supor que uma covariância é igual a zero ou

que duas covariâncias sejam iguais. Evidentemente, diferentes restrições podem implicar em resultados

bastante diferentes nos pesos atribuídos em (31). O problema é que não existe uma regra geral para

impormos tal restrição e a melhor solução pode depender de caso a caso. Na seção seguinte nós

apresentamos uma estratégia de identificação de Σ , a qual será utilizada na aplicação realizada na seção

VII.

V. Uma Estratégia para Identificar Σ

Vamos definir )43,2,1( ejY ji como nosso indicador j para a qualidade da escola i. Esses

indicadores seriam: i) qualidade da escola i no ensino de matemática estimada como um efeito fixo (j = 1);

ii) qualidade da escola i no ensino de matemática estimada como um efeito between (j = 2); iii) qualidade

da escola i no ensino de leitura estimada como um efeito fixo (j = 3); e iv) qualidade da escola i no ensino

23

de leitura estimada como um efeito between (j = 4).16

Desconsiderando o procedimento de shrinkage,

definindo jiC e

jiD como as médias, dentro da escola i, dos termos kiC e kiD e com base em (9),

podemos escrever que17

:

jijijijji cqy , (33)

jijiji d ,

É possível verificar que ii 21 e ii 43 . Substituindo (19) em (33) obtemos:

jiijji uqy , (34)

jjj ,

jijijijji cu .

Em (34) temos que ii 21 , ii 43 , 21 e 43 . Admitindo que

0,,, hijihijihiji cCovCovcCov e normalizando 11 , as variâncias iuVar 1 , iuVar 2 e

ii uuCov 21 , são dadas pelas equações (35), (36) e (37).

iiii VarcVarVaruVar 1111 , (35)

iiii VarcVarVaruVar 121

2

22 (36)

iiiiii VarccCovVaruuCov 1211221 ,, (37)

Como visto anteriormente, tanto o modelo de efeito fixo quanto o modelo de efeito between tendem

a produzir estimativas enviesadas dos b‟s. No primeiro modelo a tendência é gerar bb ˆ , enquanto que

no segundo a tendência é gerar bb ˆ . Assim, seria de esperar que 0, 21 ii ccCov .

Com base nisso, parece bastante razoável admitir que iii ccCovcVar 211 , e

iii ccCovcVar 212 , . Então, estaria garantido que iii ccCovuVar 211 , , caso 12 , e que

iii ccCovuVar 212 , , caso 12 . Por raciocínio análogo, podemos concluir que iii ccCovuVar 433 , ,

caso 34 , e que iii ccCovuVar 434 , , caso 34 .

Na aplicação realizada na seção VII, temos que 12 . Assim, a estratégia de identificação de Σ

foi considerar o maior valor de ieVar como proporção da

igVar 1 , compatível com variâncias não

16 Dado que as estimativas do modelo de efeito aleatório fora similares às do modelo de efeito fixo, optou-se por não incluí-las.

17 Note que as variáveis representadas por letra minúscula referem-se à medida em termos de desvio da média. Além disso, jiC

e jiD são denotados com a barra em cima por representarem estimativas do verdadeiro parâmetro para as médias Ci e Di. Na

equação (33) yji é entendido como uma medida de iA e qji como o parâmetro Ai da equação (9).

24

negativas e que atenda a restrição de que iii ccCovuVar 211 , . De (32) temos que a condição

101

i

i

gVar

eVar deve ser satisfeita para evitarmos variâncias negativas. Então, escolheu-se o maior valor

de ieVar que, dentro desse intervalo, atenda a restrição de que iii ccCovuVar 211 , .

Vale notar que o valor de ieVar não altera os pesos relativos entre as variáveis indicadoras de

qualidade, jiy mj ....,,3,2 , mas apenas o peso do indicador de insumos e processos imy 1 no

indicador final. O modelo aqui considerado pode ser pensado em duas etapas. Na primeira, constrói-se um

índice de resultados, pela combinação linear das medidas de valor adicionado das escolas, e um índice de

insumos e processos, pela combinação linear das variáveis de insumos e processos consideradas. Na

segunda etapa, constrói-se o índice final de qualidade pela combinação linear do índice de resultados e do

índice de insumos e processos. O valor de ieVar só afeta essa segunda etapa. Quanto maior o valor de

ieVar , menor o peso dado para o índice de insumos e processos.

Portanto, a estratégia de identificação aqui adotada é conservadora em relação à inclusão de

variáveis de insumos e processos na medida de qualidade da escola. Dado a resistência de muitos analistas

em considerar medidas de insumos e processos na avaliação da qualidade das escolas, tal estratégia pode

ser mais aconselhada.

VI. Outros Problemas: Dados Missing, Evasão, Transferência e Repetência

Toda análise foi desenvolvida considerando que os alunos de todas as escolas são testados ao final

do curso e que todos eles concluem o curso na escola que ingressaram e no tempo “correto”. No entanto,

esse quadro é pouco razoável e os problemas advindos de dados missing, atrito e repetência podem ser

importantes.

Em primeiro lugar, nem todos os alunos concluintes realizam os testes, ou preenchem corretamente

os questionários. Se a ausência de informações for totalmente aleatória, isso não traria problema de viés às

estimativas do efeito escola, agravaria apenas o problema de flutuação amostral. No entanto, é provável

que alunos de menor proficiência possuam maior incidência de ausência no dia do teste, seja por iniciativa

própria ou devido à ação da escola (gaming). Nesse caso, os problemas de erro de estimativa do efeito

específico (seções II e III) seriam agravados. Para evitar a ausência de alunos no dia do teste, uma

alternativa seria incluir na medida de accountability uma punição que seja proporcional à proporção de

alunos da escola que não realizaram os testes. No entanto, não é claro qual seria a melhor forma de

operacionalizar tal punição (atribuir zero aos alunos ausentes?).

É verdade, também, que nem todos os alunos que iniciam o curso em determinada escola terminam

o curso nessa escola (evasão ou transferência). Novamente, se a probabilidade de deixar a escola antes da

25

conclusão for aleatória, isso não traria problema de viés às estimativas do efeito escola. É provável, no

entanto, que a probabilidade de deixar a escola seja maior para alunos que venham enfrentando problemas

de desempenho. Por outro lado, nem todos os alunos concluintes iniciaram o curso na presente escola, de

modo que uma parte do conhecimento e habilidades foi adquirida em outra escola. Em relação a esta

última, uma saída é excluir os alunos que vieram transferidos de outra escola. Já a questão de como lidar

com a parcela de alunos que deixaram a escola é de mais difícil tratamento.

Por fim, em países como o Brasil, onde as taxas de repetências são elevadas, o procedimento acima

pode causar sérias distorções. Suponha que duas escolas (A e B) possuam alunos com desempenho similar,

tanto no inicio como ao final do curso. Entretanto, na escola A os alunos terminam o curso no tempo

correto, enquanto os alunos da escola B levam, em média, uma vez e meia do tempo correto, devido às

altas taxas de repetência. Pelos procedimentos adotados nas seções II e III, essas escolas apresentariam a

mesma qualidade. No entanto, se a escola A faz o mesmo trabalho do que a escola B em dois terços do

tempo seria natural considerá-la de melhor qualidade. Por outro lado, desconsiderar, na medida de

qualidade, o tempo efetivo para a conclusão do curso poderia contribuir para agravar o quadro de

repetência e evasão escolar.

Uma alternativa nesse caso seria ajustar a medida de qualidade pelo tempo médio de duração do

curso. Vamos definir bXAP iiˆˆ , onde iP é a proficiência (e.g. em matemática) da escola i ajustada

para as características individuais médias dos alunos do sistema educacional X . Então, a medida de

qualidade poderia ser ki

i

TE

P, onde kiT é o tempo que o aluno k leva para concluir o curso na escola i, onde

o tempo correto é normalizado para 1kiT . Sob certas hipóteses, podemos considerar que ki

iTE

R1

1 ,

onde iR é a probabilidade de um aluno da escola i reprovar a série que está cursando em determinado ano.

Então, a medida de qualidade (um dos indicadores do MIMIC) seria ii PR1 .18

Todos os problemas acima afetam os indicadores de qualidade incluídos no MIMIC e, assim,

tendem a produzir um indicador final de qualidade mais sujeito a erros, além de elevar os pesos das

variáveis de insumos e processos.

18 No Brasil, o indicador de qualidade das escolas do Ministério da Educação é composto pela média das pontuações

(matemática e leitura) dos alunos da escola multiplicada pela taxa de aprovação.

26

VII. Uma Aplicação para o Brasil

Os dados utilizados para o exercício empírico são do SARESP (Sistema de Avaliação de

Rendimento Escolar do Estado de São Paulo) referente aos anos de 2008 e 2010. Essa avaliação é aplicada

anualmente em todas as escolas públicas estaduais do Estado de São Paulo que oferecem ensino regular.

Todos os estudantes dos 2º, 3º, 5º, 7º e 9º anos do ensino fundamental, assim como os estudantes do 3º ano

do ensino médio devem realizar a prova. Além da avaliação das disciplinas de matemática, língua

portuguesa e ciências humanas, todos os atores das escolas (alunos, pais, professores e gestores) devem

responder a um questionário socioeconômico, a partir do qual extraímos as informações de insumos e

processos das escolas, assim como as características dos alunos e suas famílias.

Para a nossa análise consideramos os resultados das avaliações de matemática e língua portuguesa

dos estudantes do 5º ano do ensino fundamental das escolas que foram avaliadas tanto em 2008 quanto em

2010, e que apresentaram respostas aos questionários socioeconômicos e de gestão, resultando em uma

amostra de 1.567 escolas.

7.1 Estimando o valor adicionado

Conforme apresentamos na seção II desse artigo o primeiro passo é obtermos estimativas do valor

adicionado das escolas (conforme a equação 6) utilizando as características dos estudantes e suas famílias

como variáveis explicativas para o desempenho observado de cada estudante. Esse conjunto de

características observadas é correlacionado com a proficiência do estudante k da escola i, embora seja

independente da qualidade oferecida pela escola. Cada uma das estimativas de valor adicionado obtida por

diferentes modelos (efeito fixo e between) para diferentes disciplinas será um indicador de resultado a ser

utilizado no modelo MIMIC, que por sua vez é base para a construção de um indicador sintético da

qualidade das escolas que agrega da melhor forma possível variáveis de insumos aos resultados das

escolas.

Dessa forma, para as estimativas dos indicadores Yji utilizamos as seguintes variáveis

socioeconômicas: i) sexo = variável binária igual a um se o aluno é do sexo feminino; ii) cor/raça =

variável binária igual a um se o aluno é branco; iii) escolaridade acumulada dos pais = três variáveis

binárias indicando se os pais dos alunos têm pelo menos oito anos de estudo; ou pelo menos ensino médio;

ou pelo menos ensino superior (categoria omitida é a de pais com ensino fundamental); iv) número de

pessoas na família = variável binária igual a 1 se o número de pessoas na família é maior do que quatro; v)

quando o aluno entrou na escola = variável binária indicando se o aluno entrou na escola no primeiro ano

(ou primeira série) do ensino fundamental (a variável omitida refere-se ao caso do aluno ter entrado na pré-

escola); e, vi) variáveis binárias que indicam a posse de bens no domicílio como máquina de lavar,

computador e acesso à internet, vii) indicação da presença dos pais na vida escolar do aluno = variável

27

binária igual a 1 se a mãe, o pai ou ambos responderam o questionário (a variável omitida refere-se ao caso

do questionário ter sido respondido por outro responsável que não um dos pais).

Para cada uma dessas variáveis socioeconômicas mencionadas incluímos uma categoria adicional

que identifica o aluno (ou pais) que não respondeu à pergunta de interesse (dados missing) ou optou pela

alternativa „não sei‟ quando disponível. Este é um cuidado para evitar problemas de seleção resultantes de

se excluir da análise os alunos que não respondem as questões. Em geral, podemos encontrar correlação

desse tipo de resposta nos questionários com os indicadores de desempenho, por isso optamos por não

desprezar essa informação.

Com essas informações por aluno estimamos o valor adicionado das escolas para os anos de 2008 e

2010, separadamente, a partir dos modelos de efeitos fixos e efeito between, considerando em cada caso as

proficiências dos alunos em matemática e língua portuguesa. Para o caso das estimativas por efeito fixo, o

desvio-padrão dos parâmetros estimados foi corrigido considerando cluster de escola. Estimamos também

o shrinkage estimator conforme equação (13) com o objetivo de verificar a importância da correção de

cada medida de valor adicionado para o caso do SARESP. Esperamos que quanto menor o número de

alunos testados na escola i, maior a variância do efeito específico da escola i em relação à variância do

efeito específico entre todas as escolas, e como consequência menor o peso dado à estimativa do seu fator

específico para o estimador corrigido.

Entre as escolas da nossa amostra, em média 112 alunos foram testados pelo SARESP em 2008 e

101 em 2010 no 5º ano do ensino fundamental, além disso, 7% e 8% das escolas tiveram menos de trinta

alunos testados em 2008 e 2010 respectivamente.

Os gráficos a seguir apresentam a medida de qualidade das escolas derivada do modelo de efeito

fixo19

, disciplina de matemática, para o ano de 2008. No primeiro conjunto de gráficos, as 1.567 escolas

foram consideradas; no segundo conjunto (gráfico 2), selecionamos apenas as escolas cujo número de

alunos testados era menor ou igual a trinta (106 escolas), de forma a evidenciar o efeito da correção.

Note que a correção da medida da qualidade é relativamente mais importante para as pequenas

escolas, ou seja, para àquelas que tiveram menos de trinta alunos avaliados. De acordo com o gráfico 2, o

achatamento da distribuição para as pequenas escolas é visual, principalmente para aquelas com valores

estimados acima de 2 e abaixo de -2. Outra evidência da correção pode ser verificada a partir da análise do

desvio-padrão das medidas sem e com correção. Considerando as 1.567 escolas em 2008, o desvio-padrão

da medida de qualidade diminui de 15,0 para 12,6; focando nas escolas com menos de 30 alunos, a

diminuição é de 21,2 para 12,9. Estes resultados mostram que a correção pode ser importante nesse caso20

.

19 A medida de qualidade da escola original e a medida corrigida foram padronizadas, ou seja, estão medidas em termos de

desvios-padrão.

20 Considerando a medida de efeito escola pelo modelo de efeito between o desvio-padrão da medida de qualidade em

matemática diminui de 12,7 para 9,8; focando nas escolas com menos de 30 alunos, a diminuição é de 21,6 para 11,2.

28

Gráfico 1: Impacto da correção do estimador de qualidade da escola (shrinkage estimator)

Efeito Fixo para Matemática – 2008 – Todas as escolas

Gráfico 2: Impacto da correção do estimador de qualidade da escola (shrinkage estimator)

Efeito Fixo para Matemática – 2008 – escolas com menos de 30 alunos testados

Embora a correlação entre as medidas de valor adicionado com e sem correção21

seja bastante

elevada, parece importante em termos de redução da variância entre escolas, utilizar o estimador do efeito

fixo e between com correção pelo shrinkage estimator, principalmente para as escolas com menos de trinta

alunos avaliados.

21 Para o caso do indicador do modelo de efeitos fixos a correlação de ordem (spearman) entre as medidas com e sem correção é

de 0,99 e para o caso do indicador de valor adicionado do modelo between a correlação é de 0,82.

-6-5

-4-3

-2-1

01

23

45

6

efe

ito

fix

o p

ad

roniz

ado

0 100 200 300 400 500tamanho da escola

SARESP - Matemática - 2008

Efeito fixo sem correção

-6-5

-4-3

-2-1

01

23

45

6

efe

ito

fix

o c

orr

igid

o p

ad

roniz

ado

0 100 200 300 400 500tamanho da escola


Efeito fixo com correção

-6-5

-4-3

-2-1

01

23

45

6

EA

pad

roniz

ado

10 15 20 25 30tamanho da escola


Efeito aleatório sem correção

-6-5

-4-3

-2-1

01

23

45

6

EA

pad

roniz

ado

10 15 20 25 30tamanho da escola


Efeito aleatório com correção

29

7.2 Estimando a medida de qualidade da escola

A medida de qualidade é dada pela equação (30), ou seja, combina as medidas de qualidade

estimadas por efeito fixo, com as estimadas por efeito between22

com os indicadores de insumo das

escolas. Para isso, é necessário estimar a equação (25) a partir de um modelo SUR considerando as quatro

medidas de resultado e os insumos, dados por X. Para a estimativa do SUR é necessário definir qual das

medidas será o iY1 . Para isso, estimamos separadamente regressões por mínimos quadrados ordinários de

cada uma das medidas de qualidade (com correção pelo shrinkage) em função dos insumos escolares.

Escolhemos como iY1 o indicador que gerou o maior R2 – para facilitar a convergência do SUR - no caso, o

„efeito fixo em matemática‟.

As variáveis de insumos escolares utilizadas são provenientes do Censo Escolar e também do

questionário do SARESP respondido pelos professores das disciplinas e pelos diretores. Diversas variáveis

foram testadas, mas grande parte delas não mostrou relação com os indicadores de qualidade da escola.

Por fim, as seguintes variáveis foram selecionadas: i) um indicador de infraestrutura das escolas

construído com a técnica de teoria de resposta ao item (TRI) que agrega informações de trinta itens sobre:

condições de abastecimento e funcionamento das escolas, dependências e equipamentos escolares

existentes, carga horária, percentual de funções docentes com ensino superior e tamanho de turma23

; ii)

variáveis que captam a percepção dos pais e alunos quanto a organização das escolas como: se na

percepção dos alunos os colegas fazem muito barulho durante as aulas; se o professor passa e corrige a

lição de casa; indicador sobre a oferta de atividades físicas nas escolas; iii) experiência dos professores do

5º ano do ensino fundamental em docência: incluímos três variáveis (cumulativas) que informam se os

professores têm pelo menos dois, cinco e quinze anos de experiência; iv) número de escolas em que o

professor trabalha: variável que informa se o professor trabalha em duas ou mais escolas; v) percepção dos

professores quanto à análise dos resultados dos indicadores de desempenho da escola; vi) percepção dos

professores sobre a motivação que o diretor provoca nos professores da escola; vii) professor realiza ou já

realizou um curso de pós-graduação; viii) experiência do diretor na escola em que atua: três variáveis que

informam se o diretor está na escola há pelo menos dois, cinco e dez anos respectivamente (cumulativas);

ix) percepção do diretor sobre o absenteísmo dos seus professores: incluímos duas variáveis, uma que

informa se os professores faltam pouco e outra que informa se o absenteísmo foi um problema grave na

escola no ano letivo; x) percepção do diretor sobre a ocorrência de eventos violentos na escola.

22 Realizamos testes considerando o efeito aleatório ao invés do efeito between, entretanto, como as estimativas de efeito

aleatório foram similares as do modelo de efeito fixo, optamos por não considerá-las. Conforme mencionado na seção II deste

artigo, se o tamanho médio das escolas for suficientemente grande não seria surpreendente encontrarmos estimativas similares

entre os modelos de efeito fixo e efeito aleatório.

23 O Apêndice A traz uma tabela com os itens considerados no indicador de infraestrutura das escolas. O indicador foi

construído conforme metodologia da TRI com o uso do software BilogWin.

30

Todas essas variáveis foram consideradas em termos de desvios da média entre todas as escolas

para estimar a equação (25) por SUR. A tabela do Apêndice B traz os resultados das estimativas para os

coeficientes de interesse dos insumos ( k ) e dos outros indicadores de resultados ( j ).

Ao estimar o SUR também é possível conhecer a matriz de variâncias e covariâncias dos erros (gj),

e a partir da estratégia de identificação de Σ detalhada na seção IV do artigo podemos conhecer a estrutura

de pesos e calcular o indicador de qualidade das escolas proposto aqui.

A estratégia de identificação de Σ pode ser entendida com uma proposição do modelo

desenvolvido com base no MIMIC que nos permite encontrar a maior valor de ieVar como proporção da

igVar 1 , dentro do intervalo em que as variâncias são não negativas e que atenda a restrição de que

iii ccCovuVar 211 , . Esse valor traz como resultado a definição do peso relativo dos insumos e dos

indicadores de resultado no indicador final de qualidade da escola.

Como dito anteriormente, o indicador final deverá apresentar menor erro de medida por combinar

linearmente essas diferentes medidas de resultado e insumos proporcionalmente à suas variâncias e

covariâncias. As equações (29) e (30) fornecem os pesos j necessários para obter a medida iq de

interesse. A tabela 1 abaixo mostra a estrutura de pesos para 2008 e 2010 após a re-ponderação de forma a

somar „1‟.

Tabela 1: Ponderadores da medida de qualidade da educação - iq

Efeito fixo

matemática

Efeito between

matemática

Efeito fixo

português

Efeito between

português

Insumos

2008 1,136 -0,439 -0,032 0,111 0,223

2010 1,342 -0,791 -0,540 0,592 0,397

Fonte: Elaboração própria com dados do SARESP 2008 e 2010.

Note que o peso relativo dos insumos foi maior para o ano de 2010. De acordo com a tabela do

Apêndice B vimos que o R2 da primeira regressão do SUR foi pouco maior para o ano de 2010, ademais a

nota média nas duas disciplinas nas mesmas escolas experimentou um aumento: em matemática de 187,7

em 2008 para 208,4 em 2010, e em língua portuguesa a nota média das escolas foi de 175,9 para 192,8.

Embora a parte não explicada da primeira regressão tenha se reduzido no SARESP 2010, a variação de

notas aumentou a variância do erro da primeira regressão, levando a um menor valor para a ieVar

relativa à igVar 1 , e, portanto a um maior peso relativo para os insumos nesse ano relativamente a 2008.

Lembramos que, nos dois anos considerados, nossa escolha fez com que atribuíssemos o menor peso

possível, dentro das possibilidades dadas pela estratégia de identificação e proposição do modelo, ao

indicador de insumos e processos.

31

Em relação ao peso relativo dos quatro indicadores de resultado, destacamos que a escolha de iY1

no SUR afeta os pesos que são gerados pela metodologia. O indicador escolhido como iY1 é o que terá

maior peso na medida iq , com os outros tendo pouco a agregar. Isto acontece porque as medidas de

qualidade são muito correlacionadas, principalmente por se tratarem de avaliações realizadas no mesmo

dia e na mesma turma.

A partir dessa estrutura de pesos, construímos o indicador de qualidade de acordo com a equação

(30) para cada uma das 1.567 escolas em 2008 e 2010. Uma das características esperadas para esse

indicador, que tende a reduzir os erros de medidas relativamente aos seus componentes individuais, é uma

maior estabilidade na ordenação de escolas de um ano para outro, além de menor correlação do indicador

com as características médias socioeconômicas dos estudantes e suas famílias.

A tabela a seguir apresenta as maiores diferenças - em módulo - de posições entre os anos de 2008

e 2010 considerando cada uma das medidas de qualidade da escola individualmente, para a disciplina de

matemática, assim como a medida do indicador proposto. Selecionamos para a apresentação na tabela

somente algumas das 100 primeiras maiores variações em cada indicador.

Tabela 2 – Maiores variações absolutas de posições entre os anos de 2008 e 2010 (SARESP)

segundo cada um dos indicadores de qualidade da escola

Nota

matemática

VA Efeito

fixo

matemática

VA Efeito

between

matemática

VA Efeito

fixo com

correção

matemática

VA Efeito

between

com

correção

matemática

insumos indicador

qualidade

qi

1a 1463 1465 1547 1475 1543 1379 1435

2a 1441 1448 1503 1473 1492 1364 1412

3a 1386 1447 1479 1458 1484 1360 1410

4a 1384 1441 1479 1421 1456 1355 1410

5a 1383 1423 1470 1420 1428 1348 1346

6a 1346 1388 1429 1373 1401 1348 1309

8a 1319 1359 1421 1324 1364 1274 1210

10a 1292 1319 1404 1311 1331 1262 1190

20a 1206 1239 1321 1187 1294 1204 1117

40a 1028 1115 1230 1097 1195 1055 1022

60a 958 1032 1142 1035 1130 1006 924

80a 881 969 1086 956 1085 911 877

100a 837 917 1050 897 1038 862 825

média entre as

100 maiores

variações

1032 1103 1207 1088 1187 1050 1003

média entre as

20 maiores

variações

1306 1342 1402 1320 1367 1277 1237

média (total) 315 360 441 360 442 332 318

Fonte: Elaboração própria com dados do SARESP 2008 e 2010.

32

Conforme o esperado, dentre as cem maiores variações absoluta de posições, a menor variação em

média é observada quando ordenamos as escolas pelo indicador proposto qi, seguido da nota bruta

(proficiência), indicadores de insumos, efeito fixo e between corrigidos. É interessante notar que a

correção pelo shrinkage estimator já nos dá algum ganho em termos de estabilidade do ranking,

relativamente às medidas sem correção. Considerando somente as vinte maiores variações absoluta de

posições, o mesmo comportamento é observado, o indicador proposto se comporta melhor do que as outras

medidas.

Considerando a média de variações (em módulo) de posições observada entre 2008 e 2010 para

todas as escolas, em média as escolas mudam 315 posições24

quando ordenadas pela nota bruta, 318

posições quando ordenadas pelo indicador Qi, 360 posições quando ordenadas pelo efeito fixo das escolas

(com correção) e 442 posições ao ordenarmos as escolas pelo efeito between (com correção). Dessa forma,

destacamos que o indicador parece ser bastante importante para os casos de grandes variações (caudas

inferiores e superiores da distribuição de variações absoluta de posições – ver gráfico 3) e em média se

comporta de forma parecida em termos de estabilidade de ordenações a partir da nota bruta das escolas,

mas relativamente melhor do que os indicadores de valor adicionado de efeito fixo e between.

Gráfico 3 – Densidade kernel das variações absoluta de posições entre 2008 e 2010 segundo:

nota bruta de matemática, efeito fixo com correção para matemática e indicador de qualidade qi

24 De acordo com a ordenação pela nota de matemática no SARESP em 2008, considerando a escola mediana na distribuição de

variações absoluta de posições, uma variação de 315 posições para cima ou para baixo representa uma diferença de 9 pontos nas

notas na escala SAEB. Fizemos um teste semelhante com a Prova Brasil 2005 e 2007 e verificamos números bastante

semelhantes ao encontrado no SARESP em relação a média de variação absoluta de posições e seu correspondente em pontos do

SAEB.

0

.00

05

.00

1.0

015

.00

2

0 150 300 450 600 750 900 1050 1200 1350 1500variações absoluta nas posições

nota matemática indicador qi

efeito fixo corrigido_matemática

33

Destacamos que a grande vantagem do indicador de qualidade proposto relativamente às notas

bruta das escolas é que ele tem melhor estabilidade quando comparamos a variação absoluta de posições

nos extremos, em média sua estabilidade é semelhante e tem menor correlação com as características

socioeconômicas dos alunos, como a escolaridade dos pais.

A tabela a seguir possibilita outro tipo de análise da estabilidade de ranking. Para cada uma das

medidas de qualidade e para cada um dos anos, obtivemos um ranking de escolas. Em seguida, dividimos

estas distribuições em cinco partes e três tipos de resultados relacionados à estabilidade foram produzidos.

A linha „nunca‟ mostra a probabilidade da escola de acordo com a medida de qualidade escolhida não estar

entre as 20% melhores em nenhum dos anos; a linha „uma vez‟ mostra a probabilidade de a escola aparecer

em um dos anos; e, por fim, a linha „duas vezes‟ mostra a probabilidade de a escola aparecer nos dois anos.

Para comparação, mostramos também os resultados esperados caso tivéssemos uma medida perfeitamente

estável de qualidade e os resultados obtidos caso o ranking fosse formado aleatoriamente.

Tabela 3 - Frequência das escolas entre as 20% melhores no ranking produzido por diferentes

medidas*

* considerando as mesmas escolas que realizaram o SARESP em 2008 e 2010.

** pelo menos ensino médio completo.

Nossa medida é bastante semelhante à ordenação dada pela nota bruta, e embora a diferença seja

pequena, ela supera as demais, exceto a escolaridade dos pais. Em seguida estão: os insumos, as geradas

como um efeito fixo corrigidas pelo estimador de shrinkage e as de efeito fixo sem correção. Embora, as

ordenações sugeridas pelo efeito between com e sem correção gerem indicadores relativamente menos

estáveis, tais ordenações também superam um ranking puramente aleatório. Estes números podem ser uma

evidência de que as estimativas de qualidade provavelmente não estão isentas da influência do perfil

socioeconômico dos alunos.

A tabela 4 apresenta as correlações de ordem de iq com os outros indicadores de qualidade da

escola. Como podemos observar, as maiores correlações da nossa medida são com o efeito fixo com

correção, seguido pelo score bruto de matemática, resultado condizente com os números da tabela anterior.

O fato de a nossa medida ser muito correlacionada com as medidas de qualidade de matemática geradas

como um efeito fixo era esperado tendo em vista os pesos apresentados na tabela 1.

medida

estávelloteria

nota de

matemáticaEF_mat EB_mat

EF_mat c/

correção

EB_mat c/

correçãoinsumos

escolaridade

dos pais**Qi

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

nunca 80% 64% 70.45% 68.73% 66.62% 68.92% 66.56% 69.81% 74.98% 70.26%

Uma vez 0% 32% 19.14% 22.59% 26.80% 22.21% 26.93% 20.42% 10.08% 19.53%

Duas vezes 20% 4% 10.40% 8.68% 6.57% 8.87% 6.51% 9.76% 14.93% 10.21%

número de

repetições

34

Tabela 4: Correlação de ordem (spearman) entre iq e os outros indicadores de resultado

2008 2010

nota_port 0.865 0.803

nota_mat 0.973 0.939

EF_mat 0.971 0.940

EB_mat 0.689 0.698

EF_port 0.846 0.819

EB_port 0.547 0.568

EF_mat_shrin 0.975 0.942

EB_mat_shrin 0.693 0.702

EF_port_shrin 0.852 0.823

EB_port_shrin 0.553 0.574

insumos 0.537 0.654

Embora haja grande correlação entre a nossa medida de qualidade e o score bruto das escolas,

observamos que a correlação de ordem dessas medidas com a escolaridade média dos pais mostra que o

indicador proposto promove ganhos importantes (tabela 5). A correlação da nossa medida com a

escolaridade dos pais é de 0,43 em 2008 e 0,23 em 2010, enquanto a nota de matemática apresenta

correlação de 0,56 e 0,38 respectivamente em 2008 e 2010.

Tabela 5: Correlação de ordem (spearman) entre as medidas de qualidade e escolaridade dos pais*

2008 2010

nota_port 0.594 0.494

nota_mat 0.558 0.379

EF_mat 0.342 0.204

EB_mat 0.019 0.034

EF_port 0.373 0.292

EB_port 0.035 0.075

EF_mat_shrin 0.351 0.204

EB_mat_shrin 0.022 0.031

EF_port_shrin 0.384 0.301

EB_port_shrin 0.040 0.072

Qi 0.427 0.227

*pelo menos Ensino Médio Completo

As medidas de qualidade estimadas como um efeito between são as que apresentam menor

correlação, ou melhor, não apresentam qualquer correlação com a escolaridade dos pais. Este resultado é

explicado pelo problema de viés de variável omitida que acompanha estas estimativas, isto é, a presença de

correlação entre as variáveis if (qualidade da escola) e kiX enviesará os coeficientes estimados. Por outro

lado, o problema de viés de seleção também está prejudicando as estimativas de efeito fixo. Quando os

alunos dentro da escola são muito homogêneos, a ordenação com base no score médio dos estudantes ou

35

com base no efeito escola estimado pode não se mostrar muito diferente (Mizala, Romaguera e Urquiola

(2007)).

VIII. Conclusão

Este artigo procurou contribuir com a identificação de uma medida de qualidade da escola menos

sujeita a erros de medida, e que traga mais informações relacionadas à influência da escola no desempenho

dos estudantes, relativamente às medidas usuais dos programas de school accountability.

A pontuação média dos estudantes da escola tem sido uma das medidas de desempenho mais

utilizadas nos programas de school accountability, entretanto, embora seja uma medida simples, ela pode

trazer informações imperfeitas, pois seus resultados incorporam características socioeconômicas do meio

em que os estudantes vivem, suas habilidades natas, assim como o esforço da escola. Ao se tentar reduzir a

influência das características socioeconômicas e construir medidas como de valor adicionado, encontramos

indicadores ainda mais influenciados por erros de medida, produzindo rankings instáveis. Além disso,

estudos mostram que os resultados de exames padronizados são medidas sujeitas a erros, principalmente

em escolas pequenas.

Considerando que os efeitos da escola no resultado obtido pelos seus alunos nos testes não é uma

variável observável e que toda medida utilizada está sujeita a erros, sejam eles sistemáticos ou aleatórios,

construímos uma medida de qualidade composta por uma combinação linear ponderada de diversas

medidas de resultados, insumos e processos. Os pesos utilizados não foram definidos arbitrariamente, e

sim baseados nas estimativas de um modelo MIMIC, o qual trata a qualidade da escola como uma variável

latente estimada a partir das correlações entre as variáveis causas e as indicadoras da qualidade. Nesse

modelo, a hipótese principal é que as vaiáveis causas afetam as variáveis indicadoras exclusivamente

através da qualidade da escola. Assim, a disponibilidade e a escolha dessas variáveis são muito relevantes

para a aplicabilidade do modelo.

As variáveis indicadoras de resultado utilizadas foram derivadas das medidas de desempenho em

exames padronizados aplicados em determinado ano. Calculamos os valores adicionados pelo modelo de

efeito fixo e between, aplicando um corretor pelo número de alunos testados na escola (shrinkage

estimator) para diminuir os problemas de erros de medidas. A estratégia de identificação do modelo, que

possibilita resolver o sistema de equações derivado das relações entre as variâncias e covariâncias do SUR

e encontrar os pesos que deverão ser atribuídos aos insumos e às variáveis de resultado no indicador final,

é resultante das proposições do próprio modelo e garante existência de uma solução.

Realizamos uma aplicação empírica para as escolas do Estado de São Paulo com dados do

SARESP de 2008 e 2010 do 5º ano do ensino fundamental. Utilizamos as notas em língua portuguesa e

matemática, para calcular o valor adicionado. Os insumos utilizados foram retirados do Censo Escolar e do

questionário socioeconômico da própria avaliação.

36

A estimativa de qualidade resultante do modelo MIMIC se mostrou relativamente melhor

comparativamente às medidas usuais de qualidade, por sinalizar maior estabilidade no ranking escolar

entre dois anos, apresentar menores variações absoluta nas posições entre os dois anos, principalmente

entre as cem maiores variações, e apesar de ter elevada correlação com a nota bruta das escolas, apresenta

menor correlação com a escolaridade média dos pais dos estudantes. Além disso, a medida proposta aqui

se comportou melhor relativamente ao indicador de qualidade obtido por efeito fixo (mesmo com correção

pelo shrinkage estimator), por mostrar maior estabilidade no ranking e menores variações absolutas nas

posições.

A aplicação empírica trouxe conclusões positivas em relação ao modelo teórico desenvolvido,

dadas as variáveis de insumos e processos, necessárias como instrumento na identificação da qualidade,

assim como os indicadores de resultados existentes no Brasil atualmente.

Referências Bibliográficas

Andrade, E. C. (2008) “‟School accountability‟ no Brasil: experiências e dificuldades” Revista de

Economia Política. 28, no 3, 443-453.

Andrejko, L. (2004) “Value-Added Assessment: A View from A Practitioner” Journal of Educational and

Behavioral Statistics 29, no. 1, 7-9.

Bajada, C. e Schneider, F. (2005) “The Shadow Economies of the Asia-Pacific” Pacific Economic Review

10, no 3, 367-401.

Ballou, D. (2008) “Test Scaling and Value-Added Measurement” Working Paper, no 2008-23, National

Center on Performance Incentives.

Ballou, D., Sanders, W. e Wright, P. (2004) “Controlling for Student Background in Value-Added

Assessment of Teachers” Journal of Educational and Behavioral Statistics 29, no. 1, 37-65.

Breusch, T. (2005) Estimating the Underground Economy using MIMIC Models. Working Paper, National

University of Australia, Canberra, Australia.

Brooke, Nigel (2006) “O futuro das políticas de responsabilização educacional no Brasil.” Cadernos de

Pesquisa 36, no 128, 377-401.

Callender, J. (2004) “Value-Added Student Assessment” Journal of Educational and Behavioral Statistics

29, no. 1, 5.

Cullen, J. B. e Reback, R. (2006) "Tinkering Toward Accolades: School Gaming Under a Performance

Accountability System.” In Gronberg, T. J. e Jansen, D. W. (Eds) Advances in Applied Microeconomics

14, Elsevier, 1-34.

Dell‟Anno, R e Schneider, F. (2003) “The Shadow Economy of Italy and other OECD Countries: What do

we Know?” Journal of Public Finance and Public Choice 21, no 2-3, 97-120.

Frey, B. S. e Weck-Hannemann, H. (1984) “The Hidden Economy as an Unobservable Variable”

European Economic Review 26, no 1, 33-53.

http://www.aera.net/WorkArea/linkit.aspx?LinkIdentifier=id&ItemID=608



37

Giles, D.E.A. (1999a) “Modelling the Hidden Economy and the Tax-gap in New Zealand” Empirical

Economics 24, no 4, 621-640.

Giles, D.E.A. (1999b) “Measuring the Hidden Economy: Implications for Econometric Modeling” The

Economic Journal 109, no 46, 370-380.

Hanushek, E. A. e Raymond M. E. (2003) “Improving Educational Quality: How Best to Evaluate Our

Schools?” In Kodrzycki, Y. (Ed) Education in the 21st Century: Meeting the Challenges of a Changing

World. Boston, MA: Federal Reserve Bank of Boston, 193-224.

Hanushek, E. A. e Raymond M. E. (2005) “Does School Accountability Lead to Improved Student

Performance?” Journal of Policy Analysis & Management 24, no 2, 297-327.

Helberger, C. e Knepel, H. (1988) “How Big is the Shadow Economy? A Re-Analysis of the Unobserved-

Variable Approach of B.S. Frey and H. Weck-Hannemann” European Economic Review 32, no 4, 965-

976.

Hill, R. (2002) “The Underground Economy in Canada: Boom or Bust?” Canadian Tax Journal 50, no 5,

1641-1654.

Jacob, B. A. (2005) “Accountability, Incentives and Behavior: The Impact of High-Stakes Testing in the

Chicago Public Schools.” Journal of Public Economics 89, no 5-6, 761-796.

Jacob, B. A. (2007) Test-Based Accountability and Student Achievement: An Investigation of Differential

Performance on NAEP and State Assessments. NBER Working Paper, no 12817.

Jacob, B. A. e Levitt, S. D. (2003) “Rotten Apples: An Investigation of the Prevalence and Predictors of

Teacher Cheating.” Quarterly Journal of Economics 118, no 3, 843-877.

Jöreskog, K. G. e Goldberger A. S. (1975) “Estimation of a Model with Multiple Indicators and Multiple

Causes of a Single Latent Variable.” Journal of the American Statistical Association 70, no 351, 631-639.

Jöreskog, K. G. (2000) Latent Variable Scores and Their Uses. Scientific Software International,

http://www.ssicentral.com/lisrel.

Kane, T. J. e Staiger D. O. (2001) Improving School Accountability Measures. NBER Working Paper, no

8156.

Kane, T. J. e Staiger D. O. (2002) “The Promise and Pitfalls of Using Imprecise School Accountability

Measures.” Journal of Economic Perspectives 16, no 4, 91–114.

McCaffrey, D. et. al. (2003) Evaluating Value-Added Models for Teacher Accountability. Santa Monica,

CA: RAND.

McCaffrey, D. et. al. (2004) “Models for Value-Added Modeling of Teacher Effects” Journal of

Educational and Behavioral Statistics 29, 67-101.

Mizala, A., Romaguera, P. e Urquiola, M. (2007) “Socioeconomic Status or Noise? Tradeoffs in the

Generation of School Quality Information.” Journal of Development Economics 84, no 1, 61-75.

Raudenbush, S. W. (2004) “What are Value-Added Models Estimating and What Does this Imply for

Statistical Practice?” Journal of Educational and Behavioral Statistics 29, 121-129.

http://www.ssicentral.com/lisrel




38

Raudenbush, S. W e Willms, J.D. (1995) “The Estimation of School

Effectshttp://www.aera.net/WorkArea/linkit.aspx?LinkIdentifier=id&ItemID=614” Journal of Educational and

Behavioral Statistics 20, no. 4, 121-129.

Reback, R. (2007) “Teaching to the Rating: School Accountability and the Distribution of Student

Achievement.” Journal of Public Economics (forthcoming).

Reckase, M. D. (2004) “The Real World is More Complicated than We Would Like” Journal of

Educational and Behavioral Statistics 29, 117-120.

Rubin, D. B., Stuart, E. A. e Zanutto, E. A. (2004) “A Potential Outcomes View of Value-Added

Assessment in Education” Journal of Educational and Behavioral Statistics 29, 103-116.

Smith, R. S. (2002) “The Underground Economy: Guidance for Policy Makers?” Canadian Tax Journal

50, no 5, 1655-1661.

Tekwe, C. D. et. al. (2004) “An Empirical Comparison of Statistical Models for Value-Added Assessment

of School Performance” Journal of Educational and Behavioral Statistics 29, 11-36.

Wooldridge, J. (2002) Econometric Analysis of Cross Section and Panel Data. Cambridge, Massachusetts,

MIT Press.

Wainer, H. (2004) “Introduction to the Value-Added Assessment Special Issue” Journal of Educational

and Behavioral Statistics 29, no. 1, 1-3.




39

Apêndice A

Tabela com itens do Censo Escolar utilizados na construção do indicador de infraestrutura das

escolas a partir da TRI

Item nome item

percentual de

acertos (todas

as escolas do

país) It

ens

de

abas

teci

men

to e

fun

cio

nam

ento

ITEM30

funcionamento da escola em prédio

escolar 90.3

ITEM01 água filtrada

87.1

ITEM02 água da rede pública

62.7

ITEM03 abastecimento de água adequado

90.0

ITEM04 energia elétrica da rede pública

87.5

ITEM05 esgoto_rede pública

39.9

ITEM06 tem esgoto sanitário

91.9

ITEM07 tem coleta periódica de lixo

63.4

ITEM08 recicla o lixo

5.8

Dep

endên

cias

exis

tente

na

esco

la

ITEM09 sala_diretoria

62.0

ITEM10 sala_professor

46.4

ITEM11 laboratório_informática

29.2

ITEM12 laboratório_ciências

9.0

ITEM13 quadra de esportes

27.0

ITEM14 Biblioteca

31.8

ITEM15 sala de leitura

11.0

ITEM16 sanitário dentro do prédio

82.0

ITEM17

sanitário adequado aos alunos com

deficiência 13.5

ITEM18

dependências e vias adequadas a

alunos com deficiência 11.5

Equip

amen

tos

esco

lare

s

ITEM19 TV

68.4

ITEM20 DVD

64.1

ITEM21 Copiadora

30.0

ITEM22 Impressora

53.7

ITEM23 Computadores

56.7

40

ITEM24 computador para uso dos alunos

33.9

ITEM25 Internet

40.9

ITEM26 internet banda larga

31.5

Ou

tro

s in

dic

ado

res

ITEM27

hora-aula-diária superior a 5h

5.6

ITEM28

Percentual de funções docentes com

curso superior entre 90% e 100% 19.9

ITEM29 média de até 30 alunos por turma

39.6

Fonte: Elaboração própria com dados do Censo Escolar 2009.

Apêndice B

Resultados da estimação do SUR

SARESP 2008 SARESP 2010

Coef.

Desvio-

padrão Coef.

Desvio-

padrão

Y1i = VA_efeito fixo matemática

barulho dos colegas -6.23*** 1.56 -16.82*** 2.49

prof. Passa e corrige lição 7.51*** 1.52 13.75*** 2.26

índice de atividade física 12.12*** 3.84 17.49*** 4.15

indicador de infraestrutura 0.09*** 0.01 0.10*** 0.02

experiência prof. - mín. 2 anos 8.02*** 2.54 14.29*** 5.57

experiência prof. - mín. 5 anos -6.96*** 2.11 -2.59 2.55

experiência prof. - mín. 15 anos 4.25*** 1.30 2.36 1.77

prof. trabalha em pelo menos 2 escolas -3.48*** 0.93 -6.02*** 1.34

gestão escolar analisa seu desempenho 3.37*** 0.82 4.92*** 1.21

diretor motiva os professores 2.00** 0.94 4.74*** 1.43

professores tem pós-graduação 3.02*** 1.14 3.69** 1.50

experiência diretor. - mín. 2 anos 1.74** 0.70 1.33 1.09

experiência diretor. - mín. 5 anos 1.76** 0.77 3.12*** 1.12

experiência diretor. - mín. 10 anos -0.73 1.17 -1.01 1.44

professores faltam pouco 1.62** 0.73 1.41 1.04

problema grave com falta prof. -2.57*** 0.75 -4.44*** 0.92

índice de violência na escola -1.89*** 0.41 -1.67*** 0.63

Y2i = VA_efeito between matemática

beta 2 0.63*** 0.01 0.74*** 0.01

Y3i = VA_efeito fixo português

beta 3 0.71*** 0.01 0.62*** 0.01

Y4i = VA_efeito between português

beta 4 0.39*** 0.01 0.42*** 0.01

R2 equação 1 0.18 0.21

R2 equação 2 0.72 0.80

R2 equação 3 0.61 0.73

R2 equação 4 0.34 0.54

N. obs. 1,570 1,570

***, ** coeficiente significante a 1% e 5% respectivamente.

Em Busca de uma Medida da Qualidade da...

Documents

Transcript of Em Busca de uma Medida da Qualidade da...