An alise do Desempenho no Ensino M edio na Area Metropolitana … · 2018. 5. 3. · 1.1Exame...
Transcript of An alise do Desempenho no Ensino M edio na Area Metropolitana … · 2018. 5. 3. · 1.1Exame...
-
Universidade de Braśılia
Instituto de Ciências Exatas
Departamento de Estat́ıstica
Análise do Desempenho no Ensino Médio naÁrea Metropolitana de Braśılia:
Uma Abordagem Multińıvel
Davi Souza Botelho
Braśılia
2017
-
ii
-
Davi Souza Botelho
Análise do Desempenho no Ensino Médio na
Área Metropolitana de Braśılia:
Uma Abordagem Multińıvel
Trabalho de Conclusão de Curso apresentado ao
Departamento de Estat́ıstica da Universidade de
Braśılia, como parte dos requisitos para a obtenção
do t́ıtulo de Bacharel em Estat́ıstica.
Orientadora: Profa. Dra.
Ana Maria Nogales Vasconcelos
Co-Orientadora: Profa. Ms.
Maria Teresa Leão Costa
Braśılia
2017
-
iv
-
Sumário
1 Introdução 1
1.1 Exame Nacional do Ensino Médio . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Área Metropolitana de Braśılia . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Objetivos e Justificativa 5
2.1 Objetivo Principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Objetivos Secundários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 Estrutura Teórica 6
3.1 Teoria de Resposta ao Item . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.1.1 Traço Latente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1.2 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1.3 Modelos unidimensionais para itens dicotômicos . . . . . . . . . . . 8
3.1.4 Curva Caracteŕıstica do Item . . . . . . . . . . . . . . . . . . . . . 10
3.1.5 Função de Informação do Item e Função de Informação do Teste . . 14
3.1.6 Modelos para Itens Policotômicos . . . . . . . . . . . . . . . . . . . 17
3.1.7 Suposições do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.8 Estimação do Parâmetros . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Modelos Lineares Multińıveis . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1 Modelo de Regressão Tradicional versus Modelo de Regressão Mul-
tińıvel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.2 Especificação do Modelo Multińıvel . . . . . . . . . . . . . . . . . . 24
3.2.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.4 Seleção de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.5 Qualidade dos Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 29
v
-
3.2.6 Coeficientes de Determinação . . . . . . . . . . . . . . . . . . . . . 30
3.2.7 Análise dos Reśıduos . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Metodologia 32
4.1 Indicador de Infraestrutura Escolar . . . . . . . . . . . . . . . . . . . . . . 32
4.2 Indicador de Nı́vel Socioeconômico . . . . . . . . . . . . . . . . . . . . . . 33
4.3 Dados para a Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.4 Variáveis Explicativas do Modelo . . . . . . . . . . . . . . . . . . . . . . . 35
5 Resultados 37
5.1 Indicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.1.1 Infraestrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.1.2 Nı́vel Socioeconômico . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2 Análise Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2.1 Perfil do Estudante . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2.2 Perfil da Escola . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2.3 Análise Bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3 Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6 Conclusão 57
7 Referências Bibliográficas 58
-
Lista de Figuras
1.1 Área Metropolitana de Braśılia . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1 Exemplo de Curva Caracteŕıstica do Item - ML1 . . . . . . . . . . . . . . . 11
3.2 Exemplo de Curva Caracteŕıstica do Item - ML2 . . . . . . . . . . . . . . . 12
3.3 Exemplo de Curva Caracteŕıstica do Item - ML3 . . . . . . . . . . . . . . . 13
3.4 Exemplo de Curva Informação do Item . . . . . . . . . . . . . . . . . . . . 15
3.5 Exemplo de Curva de Informação do Teste . . . . . . . . . . . . . . . . . . 16
3.6 Estrutura Hierárquica em Dados Educacionais . . . . . . . . . . . . . . . . . . . . 22
3.7 Gráfico de Probabilidade Normal . . . . . . . . . . . . . . . . . . . . . . . 31
3.8 Reśıduos padronizados versus valores preditos . . . . . . . . . . . . . . . . 31
5.1 Função de Informação do Teste . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Variação da Infraestrutura Escolar por Regiões da AMB - 2014 . . . . . . . 40
5.3 Função de Informação do Teste . . . . . . . . . . . . . . . . . . . . . . . . 41
5.4 Variação do Nı́vel Socioeconômico das Escolas por Regiões da AMB - 2014 42
5.5 Renda per Capita do Estudante . . . . . . . . . . . . . . . . . . . . . . . . 46
5.6 Indicadores Escolares para AMB - 2014 . . . . . . . . . . . . . . . . . . . . 48
5.7 Caracteŕısticas Escolares para AMB - 2014 . . . . . . . . . . . . . . . . . . 49
5.8 Gráfico de Probabilidade Normal . . . . . . . . . . . . . . . . . . . . . . . 56
5.9 Reśıduos Padronizados versus Valores Preditos . . . . . . . . . . . . . . . . 56
vii
-
Lista de Tabelas
5.1 Estimativas dos parâmetros de discriminação e dificuldade dos itens de
infraestrutura escolar na AMB - 2014 . . . . . . . . . . . . . . . . . . . . . 38
5.2 Estimativas dos parâmetros de discriminação e dificuldade dos itens de ńıvel
socioeconômico na AMB - 2014 . . . . . . . . . . . . . . . . . . . . . . . . 41
5.3 Distribuição dos estudantes segundo munićıpio de residência e da escola na
AMB - 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.4 Caracteŕısticas gerais do estudante na AMB - 2014 . . . . . . . . . . . . . 45
5.5 Escolaridade dos Pais dos Estudantes na AMB - 2014 . . . . . . . . . . . 46
5.6 Distribuição das escolas e estudantes na AMB - 2014 . . . . . . . . . . . . 47
5.7 Teste de Comparação de Médias - Variáveis do Aluno . . . . . . . . . . . . 50
5.8 Modelo sem variáveis explicativas - Modelo Nulo (M0) . . . . . . . . . . . 51
5.9 Modelo com as variáveis explicativas do ńıvel 1 - Modelo 1 (M1) . . . . . . 52
5.10 Modelo com as variáveis explicativas do ńıvel 1 e ńıvel 2 - Modelo 2 (M2) . 53
viii
-
Lista de Quadros
4.1 Descrição dos Itens de Infraestrutura Escolar . . . . . . . . . . . . . . . . . 33
4.2 Descrição dos Itens de Nı́vel Socioeconômico . . . . . . . . . . . . . . . . . 34
4.3 Descrição das Variáveis Explicativas do Modelo . . . . . . . . . . . . . . . 36
ix
-
Resumo
O presente trabalho utilizou as notas das provas e o questionário contextual do Exame
Nacional do Ensino Médio (ENEM) de 2014 e o Censo Escolar de 2014 para averiguar
os fatores associados ao desempenho dos alunos concluintes do ensino médio das escolas
da rede pública da Área Metropolitana de Braśılia (AMB). Com o grupo de itens do
questionário contextual do ENEM e as informações sobre as escolas do Censo foi posśıvel
construir medidas para o ńıvel socioeconômico (INSE) e para a infraestrutura (INFE)
das escolas. A metodologia de construção desses indicadores foi a Teoria de Resposta ao
Item (TRI) pelo modelo de resposta gradual (INSE) e resposta dicotômica (INFE). Foram
analisadas as relações desses indicadores e caracteŕısticas individuais dos alunos e das
escolas com as proficiências dos estudantes por meio dos Modelos Lineares Multińıveis
(MLM). Constatou-se que 18% da variação do desempenho dos estudantes é atribúıda
à escola, valor considerado pequeno, porém razoável, logo que o estudo abrange apenas
escolas públicas. No ńıvel do aluno, verificou-se que ter idade prevista para a conclusão
do ensino médio, ser do sexo masculino e pais possúırem escolaridade mais elevada
contribuem para um melhor desempenho. No que se refere à escola, destacam-se o fato
que, possuir INSE e taxa de participação no ENEM mais altos, em média, contribuem
positivamente no médio desempenho de seus estudantes. A qualificação dos professores foi
efeito relevante no desempenho, sugerindo que atuação na área da formação tem um efeito
positivo no desempenho médio dos alunos. Ainda que sejam preliminares, os resultados
aqui apresentados evidenciam o potencial dos dados produzidos pelo INEP/MEC para a
avaliação educacional no páıs.
Palavras-chave: Fatores Associados ao Desempenho; Exame Nacional do Ensino Médio;
Teoria de Resposta ao Item; Modelos Lineares Multińıveis; Indicadores Educacionais; Área
Metropolitana de Braśılia.
x
-
xi
-
Caṕıtulo 1
Introdução
Diversos estudos relacionados aos condicionantes do desempenho escolar vem
despertando um grande interesse por parte da sociedade e dos formuladores de poĺıticas,
tendo em vista que, tais condicionantes estão diretamente ligados a qualidade da educação,
ao desenvolvimento econômico e social dos indiv́ıduos e das nações. Esses estudos buscam
diferentes formas de entender os fatores que explicam desempenho, seja bom ou ruim
(Machado, 2014). Caracteŕısticas relacionadas ao ńıvel socioeconômico, fator preponderante
para explicar o desempenho, e a trajetória escolar do aluno são vistos na literatura como as
principais influências associadas ao desempenho. As informações contextuais do aluno são
os atributos que mais impactam o desempenho, porém não os únicos. Deve-se considerar
também, segundo Soares (2006) e Albernaz (2002) que a atuação cognitiva é determinada
por atributos associados ao próprio aluno e à estrutura escolar, ou seja, o “fator escola”
impacta na performance do aluno.
No que tange as escolas, quais são as caracteŕısticas que podem interferir no que se
refere ao desempenho dos seus alunos? A resposta para essa pergunta requer uma análise
mais aprofundada, pois segundo Andrade (2008) a escola ocupa um papel de destaque
na sociedade, exercendo múltiplas funções. Cabe a escola desenvolver competências e
habilidades cognitivas necessárias para que o aluno acesse ńıveis mais elevados de ensino,
preparar para o mercado de trabalho e além disso, é um ambiente de intenso conv́ıvio
social. Buscando responder a essa questão, o relatório Escola Eficaz elaborado pelo
GAME1 (2002) fez um levantamento e um agrupamento dos principais elementos que estão
associados ao “fator escola”, a saber: a infraestrutura e os fatores externos à organização,
1Grupo de Avaliação e Medidas Educacionais, da Faculdade de Educação (GAME/FAE) da UFMG.
1
-
à governança, aos professores da escola, à relação com as famı́lias, ao clima interno e às
caracteŕısticas do ensino. Cada um desses itens de análise, ao serem eles tratados a partir
da perspectiva do “fator escola”, buscam explicitar as várias formas com que a escola
interfere no desempenho escolar. Portanto, pode-se afirmar que, a análise do desempenho
do estudante não deve incluir apenas os fatores ligados ao próprio estudante, mas também
aos elementos associados ao “fator escola”.
Estatisticamente, se pensaria que um Modelo de Regressão Clássico seria adequado
para estudar os determinantes do desempenho do aluno. Porém, colocar as variáveis do
aluno e da escola na mesma linha traria problemas com as estimativas dos parâmetros,
principalmente nos erros padrões. A alternativa correta de avaliar esses determinantes,
é utilização de um modelo mais sofisticado que agregue a estrutura hierárquica natural
em dados educacionais, onde a análise do desempenho do estudante utilize informações
individuais do aluno conjuntamente com dados do ńıvel da escola, melhorando as estimativas
dos efeitos (Palermo, 2014). Os Modelos Lineares Multińıveis são ideais para um estudo
nesta linha.
1.1 Exame Nacional do Ensino Médio
Institúıdo pela Portaria MEC no 438 de 28 de maio de 1998, o Exame Nacional
do Ensino Médio (ENEM), surge como uma avaliação anual do domı́nio do aluno em
competências e habilidades desenvolvidas durante a educação básica, buscando contribuir
para a melhoria desse ńıvel de escolaridade. É um exame individual de caráter voluntário
que serve para que o indiv́ıduo faça uma autoavaliação do aprendizado e auxilie o governo
na elaboração de poĺıticas educacionais de melhoria da educação do páıs. O planejamento
e operacionalização do ENEM são de responsabilidade do Instituto Nacional de Estudos e
Pesquisas Educacionais (INEP).
Ao longo dos anos, o exame mudou bastante. Em 2004, o ENEM foi vinculado ao
Programa Universidade para Todos (ProUni), que concede bolsas em instituições privadas.
Com isso, houve um aumento expressivo no número de participantes. Porém, as grandes
mudanças ocorreram a partir de 2009 com a reformulação nas matrizes de referências e a
implementação do Sistema de Seleção Unificada (SISU), cujo objetivo era democratizar as
oportunidades de acesso a universidades públicas federais. Isso possibilitou a mobilidade
2
-
acadêmica no páıs e induziu a reestruturação dos curŕıculos de ensino médio. Um novo
modelo de prova foi adotado e a mensuração das notas das provas objetivas passou a
ser feita pela Teoria de Resposta ao Item, em espećıfico, o Modelo Loǵıstico de Três
Parâmetros.
1.2 Área Metropolitana de Braśılia
Em 2014, passados 54 anos da fundação de Braśılia, o Distrito Federal atingiu
a marca de 2,85 milhões de habitantes e sua marcha urbana extrapolou os limites do
quadrilátero se estendendo por inúmeros munićıpios goianos vizinhos e se constitui numa
área de interação social, cultural e econômica. O fato é que o Distrito Federal forma com
esses munićıpios uma região metropolitana como qualquer outra, embora não seja reconhe-
cida oficialmente, uma vez que abrange duas unidades federativas. A Área Metropolitana
de Braśılia (AMB) compreende, além do Distrito Federal, 12 munićıpios localizados no
estado de Goiás que têm laços cotidianos com o DF: Águas Lindas de Goiás, Alexânia,
Cidade Ocidental, Cocalzinho de Goiás, Cristalina, Formosa, Luziânia, Novo Gama, Padre
Bernardo, Planaltina, Santo Antônio do Descoberto e Valparáıso de Goiás (Codeplan,
2014).
Para uma análise da distribuição espacial dos estudantes e escolas na AMB,
consideram-se quatro grupos de localidades de residência segundo estratos de renda. O
Distrito Federal foi dividido em três regiões: 1) Região 1: localidades com renda domiciliar
média elevada (Plano Piloto, Sudoeste/Octogonal, Lago Norte, Lago Sul, Park Way,
Jardim Botânico e Águas Claras); 2) Região 2: localidades com renda domiciliar média
intermediária (Cruzeiro, Candangolândia, Núcleo Bandeirante, Guará, Gama, Sobradinho
I, Sobradinho II, Taguatinga, Vicente Pires, Riacho Fundo I e São Sebastião) e; 3) Região
3: localidades com renda domiciliar média baixa (Brazlândia, Ceilândia, Itapoã, Planaltina,
Santa Maria, Recanto das Emas, Riacho Fundo II, Samambaia, Vila Estrutural, Fercal,
Varjão e áreas rurais). O quarto grupo é formado pelos doze munićıpios goianos, cuja
renda domiciliar média é ainda inferior àquela da Região 3 do DF. A Figura 1.1 apresenta
o mapa da AMB (Vasconcelos, 2014).
3
-
Figura 1.1: Área Metropolitana de Braśılia
4
-
Caṕıtulo 2
Objetivos e Justificativa
2.1 Objetivo Principal
Este estudo tem por objetivo desenvolver um Modelo Linear Multińıvel como ferramenta
para avaliar os fatores associados ao desempenho no Ensino Médio para os estudantes
concluintes de escolas públicas na Área Metropolitana de Braśılia (AMB) em 2014.
2.2 Objetivos Secundários
(i) Construir indicadores de Infraestrutura Escolar e de Ńıvel Socioeconômico da Escola
via Teoria de Resposta ao Item (TRI);
(ii) Analisar caracteŕısticas individuais do alunos e das escolas a fim de verificar o quanto
elas interferem no desempenho do aluno na prova do ENEM 2014.
2.3 Justificativa
A identificação dos fatores associados ao desempenho e à determinação do grau de influência
destes fatores na proficiência dos estudantes, há décadas vem sendo estudado. Seja com
finalidades acadêmicas, quanto para diagnóstico de deficiências no sistema educacional,
elaboração de poĺıticas públicas e ações de gestão. Um das formas para a execução da
melhoria de qualidade do ensino e otimização dos recursos empregados em educação gira
em torno do conhecimento desses fatores.
5
-
Caṕıtulo 3
Estrutura Teórica
Este trabalho se fundamenta em duas técnicas estat́ısticas, frequentemente aplicadas em
estudos educacionais. A primeira é a Teoria de Resposta ao Item (TRI). Esta técnica
é muito difundida para obtenção de escores e para medição de traços latentes. A TRI
ganhou mais notoriedade após o INEP a utilizar para calcular as notas das provas objetivas
do próprio ENEM. A segunda técnica é composta pelos Modelos Lineares Multińıveis
(MLM) ou apenas Modelos Multińıveis. Estes modelos permitem analisar a relação de
uma variável resposta com um conjunto de variáveis explicativas agregando a estrutura
hierárquica dos dados nos modelos. Um t́ıpico exemplo de dados com uma estrutura
hierárquica é o próprio sistema educacional, onde alunos são agrupados em turmas, turmas
em escolas, escolas em munićıpios e assim por diante.
3.1 Teoria de Resposta ao Item
A história da Teoria de Resposta ao Item (TRI) iniciou-se formalmente nos anos
50, com a finalidade de resolver alguns problemas da Teoria Clássica dos Testes (TCT),
embora suas ráızes remontam-se há mais de uma década atrás. Um dos precursores da
TRI moderna foi Frederic Lord (1952, 1953) por ter elaborado um modelo teórico e propor
métodos de estimação dos itens da nova teoria, utilizando a ogiva normal. Estes modelos
se aplicavam a itens com respostas dicotômicas. A substituição da ogiva normal por curvas
loǵısticas, foi dado por Birnbaum (1957) o que tornou o tratamento matemático menos
complexo e um ajuste mais adequado. Um pouco mais tarde, Samejima (1969, 1972)
elaborou modelos para tratar respostas politômicas.
6
-
A revisão teórica da Teoria de Resposta ao Item presente neste trabalho está
densamente baseada em Andrade (2000), Laros (2010) e Quaresma (2014). Os principais
assuntos relacionados ao tema serão descritos resumidamente a seguir.
3.1.1 Traço Latente
Em muitas áreas da ciência, especialmente em Educação e em Psicologia, se
deseja fazer medições, por exemplo, medir a inteligência de um indiv́ıduo, a proficiência
em matemática de um aluno, a infraestrutura de uma escola e muitos outros. Tais
caracteŕısticas podem ser mensuradas e a elas ser posśıvel designar uma série de atributos,
porém, é imposśıvel medi-las diretamente, como se faz com a altura, uma vez que se trata
de variáveis conceituais e não de medidas f́ısicas. Tais variáveis são chamadas de traços
latentes ou construtos. Uma meta recorrente nas referidas áreas é a determinação do
quanto um indiv́ıduo possui de um determinado traço latente. O cumprimento dessa meta
se estabelece usando um conjunto de variáveis mensuráveis, chamados de itens, que são,
por sua vez, correlacionados ao construto estudado e um modelo estat́ıstico.
Pasquali (2003) se refere a teoria do traço latente sendo uma famı́lia de modelos
matemáticos que relaciona variáveis observáveis (itens) e traços não observáveis (latentes),
estes responsáveis pelo aparecimento das respostas do itens emitidos pelos sujeitos. Assim,
a resposta que o sujeito dá ao item é determinada pelo seu ńıvel de traço latente. Portanto,
o traço latente é a causa e a resposta do sujeito é o efeito.
O objetivo principal da TRI é propor modelos matemáticos que possibilitam a
mensuração de traços latentes. Na literatura são vistas muitas aplicações da TRI. Em
avaliação educacional, tem-se: a nota das provas objetivas do ENEM, a nota do SAEB,
uma série de indicadores oficiais divulgados pelo INEP, a escala de infraestrutura escolar
(Soares Neto, 2013) e outros.
3.1.2 Conceitos Básicos
A Teoria de Resposta ao Item (TRI) é um sistema de modelos que buscam
representar a probabilidade de um indiv́ıduo endossar ou acertar ao item como função
das caracteŕısticas do item e do traço latente do sujeito, como já mencionado, objetivo
principal é a mensuração do traço latente do indiv́ıduo. Segundo esses modelos, quanto
maior for o traço latente maior é a probabilidade de endosso ou de acerto ao item. O uso
7
-
dos termos endossar ou acertar depende do tipo de traço latente em questão. Comumente
utiliza-se acertar ao item quando a situação envolve avaliações ou aptidões. Por exemplo,
deseja-se aplicar a TRI para medir o desempenho em matemática de alunos em uma
escola, aqui o desempenho é a medida de interesse e os itens são as questões da prova,
ou seja, o indiv́ıduo acerta ou erra a questão. Em outras aplicações, item é respondido
de forma diferente. Por exemplo, deseja-se estudar o ńıvel de qualidade de vida de uma
população, onde as perguntas são respondidas com “sim”ou “não”, onde a qualidade de
vida é o traço latente e as perguntas são os itens que são respondidos afirmativamente
ou negativamente. Neste caso, avalia-se o grau de endosso dos participantes do estudo a
determinada pergunta.
A TRI vem sendo muita utilizada por psicometristas e pesquisadores em avaliação
educacional como uma ferramenta de modelagem estat́ıstica. Devido a sua vasta aplica-
bilidade, tem despertado interesse por pesquisadores de outras áreas, como sociólogos,
demógrafos, gestores dentre outros. Essa ferramenta possibilita uma melhor análise de
cada item, onde cada item, individualmente, contribui de forma diferente para construção
da medida de interesse.
Tão importante quanto o traço latente, o item é considerado uma parte do
instrumento de medida correlato com o construto estudado. Estatisticamente, ele é uma
variável aleatória que assume determinado valor dependendo da sua natureza: dicotômicos
ou dicotomizados (ver seção 3.1.2) e politômicos (ver seção 3.1.6). Três caracteŕısticas
intŕınsecas dos itens são fundamentais para a análise com a TRI: a discriminação, a
dificuldade e a probabilidade de acerto casual. A relação entre esses parâmetros e o traço
latente é vista através da Curva Caracteŕıstica do Item (ver mais detalhes na seção 3.1.4).
3.1.3 Modelos unidimensionais para itens dicotômicos
Os modelos da TRI dependem substancialmente do número de construtos (dimen-
sionalidade), do formato dos itens (dicotômicos ou politômicos) e do número de parâmetros
que utilizam para descrever os itens. Nesta seção, serão apresentados modelos dicotômicos
unidimensionais para um único grupo. Dentre os mais conhecidos, estão os modelos
loǵısticos de um, dois e três parâmetros, que consideram, respectivamente:
(i) somente a dificuldade;
8
-
(ii) a dificuldade e a discriminação;
(iii) a dificuldade e a discriminação e a probabilidade de resposta correta de um sujeito
com baixa habilidade.
3.1.3.1 Modelo Loǵıstico de Um Parâmetro - ML1
Amplamente conhecido como modelo de Rasch, o Modelo Loǵıstico de Um
Parâmetro (ML1) é a forma mais simples dos modelos propostos pela TRI. No ML1
a probabilidade de endosso ou acerto ao item é expressa como função do traço latente do
indiv́ıduo e da dificuldade da questão ou pergunta. Sua expressão é definida:
P (Ukj = 1|θj) =1
1 + e−D(θj−bk), k = 1, 2, ..., K e j = 1, 2, ..., n, (3.1)
em que, para n indiv́ıduos submetidos a K itens:
(i) Ukj é uma variável dicotômica que assume os valores 1, quando o indiv́ıduo j responde
corretamente ou afirmativamente o item k e 0, caso contrário;
(ii) θj representa o valor do traço latente do j-ésimo indiv́ıduo, teoricamente assume
valores entre (-∞,+∞), porém empiricamente, este intervalo varia de (-3,+3);
(iii) bk é o parâmetro de dificuldade ou de posição do k-ésimo item, medido na mesma
escala de θj . Pequenos valores indicam itens com baixa dificuldade e portanto, valores
grandes indicam itens com alta dificuldade;
(iv) D é um fator de escala, introduzido para tornar a função loǵıstica mais próxima
posśıvel da ogiva normal. Utiliza-se 1,7 para a aproximação;
(v) P (Ukj = 1|θj) é a probabilidade do respondente j endossar ou acertar o item k
condicionado ao seu grau de traço latente θj e é chamada de Função de Resposta ao
Item - FRI.
Uma aplicação do ML1 é o cálculo das proficiências no Programme for International
Student Assessment (PISA).
9
-
3.1.3.2 Modelo Loǵıstico de Dois Parâmetro - ML2
O Modelo Loǵıstico de Dois Parâmetro (ML2) avalia, além da dificuldade, a
discriminação ou inclinação do item. É declarado como uma extensão do ML1, pois se
adiciona um novo parâmetro a este modelo. Sua função é definida como:
P (Ukj = 1|θj) =1
1 + e−Dak(θj−bk), k = 1, 2, ..., K e j = 1, 2, ..., n, (3.2)
Na Equação 3.2, ak é o parâmetro de discriminação do item k. Este parâmetro
é interpretado como o poder de distinguir indiv́ıduos com magnitudes do traço latente
próximas. Ele equivale ao ângulo formado entre a inclinação da Curva Caracteŕıstica do
Item (discutida a seguir) e o ponto de inflexão, onde a probabilidade de endosso é de 0,5. O
ML2 é muito usado na construção de números-́ındices quando as respostas dos itens estão
na forma de endosso. Por exemplo, deseja-se construir um indicador de infraestrutura
escolar. Considera-se como variáveis indicadoras de infraestrutura, a posse de instalações
f́ısicas como, biblioteca, laboratórios, banheiros e outros. Uma aplicação do ML2 é vista
em Soares Neto (2013).
3.1.3.3 Modelo Loǵıstico de Três Parâmetro - ML3
Entre os modelos propostos pela TRI, o Modelo Loǵıstico de Três Parâmetros
(ML3) é atualmente o mais utilizado, em virtude a sua aplicabilidade para obtenção de
escalas de proficiência. Neste contexto, o traço latente é chamado por “habilidade”, termo
bastante usado em avaliação educacional. Sua função é dada por:
P (Ukj = 1|θj) = ck + (1− ck)1
1 + e−Dak(θj−bk), k = 1, 2, ..., K e j = 1, 2, ..., n, (3.3)
Na Equação 3.3 acrescentou-se o parâmetro ck que representa a probabilidade de
um indiv́ıduo com baixa habilidade acertar a questão. Portanto, o ML3 é o modelo mais
adequado quando os itens da prova ou exame são de múltipla escolha. O ML3 é utilizado
para obtenção das proficiências no ENEM, SAEB, TOEFL e outros exames.
3.1.4 Curva Caracteŕıstica do Item
O traço latente, representado por θj, determina as respostas fornecidas pelos
sujeitos aos itens. Conforme os modelos da TRI, apresentados nas seções anteriores, baixos
10
-
valores de θj implicam em baixas probabilidades de acerto ou endosso ao item, representada
por P (Ukj = 1|θj) e portanto, altos valores de θj implicam em altas probabilidades.
A representação dos modelos da TRI pode ser feita através da Curva Caracteŕıstica
do Item (CCI) que relaciona a P (Ukj = 1|θj) com os parâmetros dos itens. A CCI é um
importante mecanismo gráfico que demonstra uma relação monótona crescente e não linear
entre P (Ukj = 1|θj) e θj e apresenta um formato sigmóide, resultante do uso da função
loǵıstica. Para cada item avaliado, existe uma CCI espećıfica, em função do ńıvel de
dificuldade e poder discriminativo diferentes. Nas figuras 3.1, 3.2 e 3.3 são dados exemplos
de CCI para os modelos ML1, ML2 e ML3, respectivamente.
Figura 3.1: Exemplo de Curva Caracteŕıstica do Item - ML1
Na Figura 3.1 é apresentado um exemplo de CCI para três itens modelados pelo
ML1. Este modelo avalia apenas a dificuldade do item, rotulada pelo parâmetro b. O
impacto na variação de b é sentido pela localização das curvas. Dessa forma, a dificuldade
do item é um parâmetro de locação, pois o posicionamento da CCI no eixo dos ńıveis de θ é
o que distingue os três itens. Esse parâmetro é medido na mesma escala de θ e corresponde
11
-
ao valor de θ para que a probabilidade de acerto ou endosso é de 0,5. Quanto maior o valor
de b, mais dif́ıcil é o item e vice-versa. Analisando a figura, a curva pontilhada seria o
item mais dif́ıcil, pois, para que o indiv́ıduo acerte ou endosse esse item com probabilidade
de 0,5 seria necessário θ ser igual a 1 e, por sua vez, na curva tracejada tem-se o item mais
fácil, com b igual a -1.
Figura 3.2: Exemplo de Curva Caracteŕıstica do Item - ML2
A Figura 3.2 apresenta um exemplo de CCI para três itens modelados pelo ML2.
Este modelo considera a discriminação e a dificuldade dos itens. A interpretação do
parâmetro b é análoga a do ML1. Intencionalmente, b foi fixado em 0, para facilitar
visualização do impacto da discriminação em cada item, rotulada pelo parâmetro a, nas
curvas. O parâmetro a é proporcional ao valor da derivada primeira da curva no ponto
de inflexão, reflete na inclinação, ou seja, no poder discriminativo do item. Itens com
curvas mais inclinadas são mais úteis para distinguir indiv́ıduos que possuem diferentes
magnitudes de θ, principalmente para valores próximos do parâmetro de locação. Os valores
de a variam frequentemente entre 0 e 2. Um valor perto de 0 informa que indiv́ıduos com
12
-
intensidades de θ distantes possuem probabilidade de endosso semelhantes, o praticamente
não é interessante do ponto de vista da TRI. Não se espera itens com a negativo, pois
indicariam que a probabilidade diminui com o aumento de θ. Entre os itens descrito na
figura, o item 1 (curva tracejada) é o que tem a discriminação mais baixa, pois a sua CCI
é a mais achatada e é não capaz de diferenciar sujeitos com valores θ próximos, sobretudo
valores em torno do 0. O item 2 (curva cont́ınua) tem uma inclinação moderada e o item
3 (curva pontilhada) é aquele que melhor discrimina os indiv́ıduos.
Figura 3.3: Exemplo de Curva Caracteŕıstica do Item - ML3
A Figura 3.3 apresenta um exemplo de CCI para três itens modelados pelo
ML3. Esses são t́ıpicos em exames de avaliação educacional. Este modelo considera a
discriminação, a dificuldade e a probabilidade de acerto casual do item. O parâmetro
de discriminação é interpretado analogamente ao ML2. Entretanto, no caso do ML3,
a probabilidade utilizada para definir o parâmetro b, é calculada diferente dos modelos
anteriores, devido a inclusão do parâmetro c. Dessa forma, é feita a seguinte correção na
probabilidade de acerto para definição da dificuldade do item: p = (1 + c)/2. Por sua vez,
13
-
o parâmetro c é a asśıntota da curva. Este representa a probabilidade de um indiv́ıduo com
habilidade extremamente baixa de acertar o item, popularmente, refere-se à probabilidade
de chute. Seus posśıveis valores localizam-se no intervalo [0,1] de forma que menor o
valor de c, mais baixa é a probabilidade daquele item ser respondido corretamente por
indiv́ıduos com baixas habilidades. Quanto às CCI presentes na figura, pode-se dizer que,
o item da linha tracejada, é aquele que possui a inclinação e probabilidade de acerto casual
mais baixos, porém é o mais dif́ıcil. Já o item da linha cont́ınua é o mais fácil, discrimina
bem e sua probabilidade de chute é mediana. O item da linha pontilhada indica um alto
poder discriminativo, a maior probabilidade de chute e uma dificuldade intermediária.
3.1.5 Função de Informação do Item e Função de Informação do
Teste
A Função de Informação do Item (FII) também possibilita a construção de um
recurso gráfico derivado da TRI. A FII quantifica a informação do item para a medida do
traço latente. É definida pela função:
Ik(θ) =
[∂∂θPk(θ)
]2Pk(θ).Qk(θ)
(3.4)
sendo,
(i) Ik(θ) a informação fornecida pelo o item k no ńıvel de θ, ou seja, o quanto aquele
item contribui para a medida do traço latente;
(ii) Pk(θ) a função de resposta ao item, ou seja, a probabilidade do indiv́ıduo responder
corretamente ou afirmativamente ao item k;
(iii) Qk(θ) = 1 − Pk(θ), a probabilidade do indiv́ıduo não responder corretamente ou
afirmativamente ao item k.
Após alguns cálculos, a equação 3.4 pode ser resumida pela equação 3.5, no caso
do ML3 descrito na seção 3.1.3.3.
Ik(θ) = D2a2k
Qk(θ)
Pk(θ)
[Pk(θ)− ck
1− ck
]2(3.5)
14
-
Segundo a equação 3.5, a informação é maior quando bk se aproxima de θ, quanto
maior for o ak e quando ck se aproxima de 0.
A forma gráfica do FII é a Curva de Informação do Item (CII), que é utilizada
para verificação do quanto o item contribui para a medida expressa por θ. No entanto,
quanto maior for a informação mais preciso é o item para avaliar sujeitos num intervalo de
θ.
Figura 3.4: Exemplo de Curva Informação do Item
Na Figura 3.4 é apresentada a CII para 3 itens com parâmetros diferentes. A CII
é unimodal e atinge o ponto máximo quando θ é igual ao parâmetro bk. Dentre os itens
analisados, o item 1, em geral, é o mais informativo devido ao pico mais acentuado em
sua curva. Este é mais preciso para sujeitos com θ superior a 0, porém, apresenta pouco
informação para sujeitos fora desse intervalo. O item 2 é o menos informativo e apresenta
uma constância para os valores de θ. E o item 3 é mais informativo para sujeitos com θ
15
-
entre -2 e 1, e menos para os intervalos restantes.
A Função de Informação do Teste (FIT) é dada pela soma das informações de
cada item que compõe o teste e é expressa por:
I(θ) =K∑k=1
Ik(θ) (3.6)
Figura 3.5: Exemplo de Curva de Informação do Teste
Outra maneira de simbolizar a FIT é através do erro padrão da medida, chamado
na TRI de erro padrão de estimação, que é dado por:
EP (θ) =1√I(θ)
(3.7)
Na Figura 3.5 mostra um exemplo de Curva de Informação do Teste. Esta curva
mostra que para indiv́ıduos com θ no intervalo (-1,+2) são aqueles que o instrumento de
16
-
medida possui uma melhor precisão e consequentemente, o erro da medida neste intervalo,
é menor que no restante da curva.
3.1.6 Modelos para Itens Policotômicos
Dentre os modelos para itens politômicos mais conhecidos estão: Modelo de
Resposta Gradual (Samejima, 1969), Modelo de Resposta Nominal (Bock, 1972), Modelo
de Escala Gradual (Andrich, 1978), Modelo de Crédito Parcial (Masters, 1982) e Modelo
de Crédito Parcial Generalizado (Muraki, 1992). Esta seção faz menção apenas ao Modelo
de Resposta Gradual (MRG), dos citados previamente, é o mais aplicado na literatura.
Para detalhes sobre esse modelo e os demais, consultar as referências presentes na seção
3.1.
Suponha que os escores de uma categoria c estão dispostos em ordem crescente
denotados por c = 0, 1, ...,mk onde (mk + 1) é o número de categorias do k-ésimo item. A
probabilidade do j-ésimo indiv́ıduo escolher uma particular categoria ou outra mais alta
do item k é expressa por:
P+k,c(θj) =1
1 + e−Dak(θj−bk,c)(3.8)
com k = 1, 2, ..., K, j = 1, 2, ..., n, e c = 0, 1, ...,mk, onde:
bk,c é o parâmetro de dificuldade do item k relacionado à categoria c. Os demais parâmetros
do modelo são análogos aos definidos no ML2 (ver seção 3.1.3.2). Vale assegurar que,
por definição, deve-se ter necessariamente uma ordenação entre os ńıveis de dificuldade
das categorias de um dado item, de acordo com a classificação de seus escores, ou seja,
bk,1 ≤ bk,2 ≤ ... ≤ bk,mk .
A probabilidade do indiv́ıduo j receber um escore c no item k é dada por:
Pk,c(θj) = P+k,c(θj)− P
+k,c+1(θj) (3.9)
E Samejima também admite que P+k,0(θj) = 1 e P+k,mk+1
(θj) = 0. Então, após
alguns cálculos, tem-se que:
Pk,c(θj) =1
1 + e−Dak(θj−bk,c)− 1
1 + e−Dak(θj−bk,c+1)(3.10)
Observa-se que em um item com (mk + 1) categorias, mk valores de dificuldades
são estimados, além do parâmetro de inclinação do item.
17
-
3.1.7 Suposições do Modelo
Os modelos da TRI, relatados neste trabalho, pressupõem duas caracteŕısticas ou
condições de especial importância: a unidimensionalidade e a independência.
O primeiro pressuposto é a unidimensionalidade da prova ou questionário, ou
seja, a homogeneidade do conjunto de itens. Logo, deve-se haver somente um único traço
latente causador da realização de todos os itens da prova ou questionário. No entanto,
para obedecer este postulado é fundamental que haja um fator dominante responsável pelo
conjunto de itens. Uma das maneiras de verificar esse pressuposto é através da análise
fatorial a partir da matriz de correlações tetracóricas.
O segundo pressuposto do modelo é a invariância dos parâmetros também conhe-
cida como independência local ou independência condicional, a qual se refere que, para
um dado traço latente, as respostas dos diferentes itens são independentes, por exemplo,
a resposta do item Y não é derivada do item X. Este postulado é primordial para o
processo de estimação dos parâmetros do modelo. Pasquali (2003) acrescenta que cada
item é respondido exclusivamente em função do tamanho do traço latente do respondente.
É demostrado que a unidimensionalidade resulta em independência local, todavia, tem-se
apenas uma e não duas suposições a serem verificadas (Hambleton e Swaminathan, 1991).
3.1.8 Estimação do Parâmetros
O primeiro passo na aplicação dos modelos da TRI é a definição do traço latente
e dos itens que compõe o instrumento de medida. O segundo passo consiste em escolher o
modelo mais adequado, aquele que se enquadrada melhor segundo as caracteŕısticas dos
itens. O terceiro, e tão importante quando os anteriores, é a estimação dos parâmetros
dos itens e dos respondentes, que determinam a probabilidade e são, na maioria das vezes,
ambos desconhecidos e somente as respostas aos itens são conhecidas. O problema da
estimação está em determinar o traço latente de cada sujeito e as caracteŕısticas de cada
item.
Esta seção apresenta, resumidamente, os métodos mais conhecidos para estimar
os parâmetros dos itens e dos respondentes nos modelos da TRI já descritos. Dado o
pressuposto da independência entre as respostas dos indiv́ıduos e da independência entre
as respostas dos itens, são descritos três métodos para estimação: estimação por máxima
18
-
verossimilhança conjunta, estimação por máxima verossimilhança marginal e estimação
bayesiana.
3.1.8.1 Estimação por Máxima Verossimilhança Conjunta
A estimação por Máxima Verossimilhança Conjunta (MVC) consiste em maximizar
a função de verossimilhança para os parâmetros dos itens dos sujeitos. Esta função é
representada por:
L(θ, ζ) = P (U |θ, ζ) =N∏j=1
K∏k=1
Pukjkj (1− Pkj)
1−ukj (3.11)
ln(L) =N∑j=1
K∑k=1
ukjln(Pkj) + (1− ukj)ln(1− Pkj) (3.12)
Onde,
(i) U = (ukj) é a matriz das respostas (N ×K);
(ii) ζ é o vetor de parâmetros dos itens (q×K × 1), sendo q a quantidade de parâmetros.
Os valores que maximizam θ e ζ são encontrados através de um método numérico
iterativo, por exemplo, Newton-Raphson ou Scoring de Fisher. São necessárias as derivadas
parciais de primeira e segunda ordem de ln(L) com respeito a θ e ζ. O método MVC
possui algumas desvantagens, como alguns problemas de indeterminação, não apresenta
propriedades assintóticas e é bastante trabalhoso computacionalmente.
3.1.8.2 Estimação por Máxima Verossimilhança Marginal
O método de Máxima Verossimilhança Marginal (MVM) propõe fazer a estimação
em duas etapas: primeiro os parâmetros dos itens, ζ e depois dos respondentes, θ. Em
comparação ao método MVC, o método MVM é mais eficiente, pois possui propriedades
assintóticas e consistentes dos parâmetros dos itens e uma vez estimados esses parâmetros,
pode-se estimar θ pelos métodos iterativos. Entretanto, ambos os métodos apresentam
um problema: são indefinidos para um padrão de resposta de acerto ou erro total.
Para tanto, faz-se necessário marginalizar a verossimilhança integrando-a com
relação à distribuição de θ. Este processo faz com que θ seja desconsiderado viabilizando a
19
-
estimação de ζ. Contudo, deve-se assumir que os respondentes pertençam a uma população
em que a caracteŕıstica de interesse θ siga uma distribuição cont́ınua, duplamente diferencial
com primeiros momentos finitos e com densidade g parametrizada por η, isto é, g(η, θ).
Comumente adota-se para descrever g uma distribuição normal padronizada, de modo
que η = (µ, σ) = (0, 1). Tal estatégia resolve o problema de indeterminação causado pela
arbitrariedade de θ. O procedimento de estimação via MVM está descrito nas equações
3.13 e 3.14.
P (Uj|θ, ζ) =ukj∏k=1
Pukjkj (1− Pkj)
1−ukj (3.13)
A probabilidade marginal de Uj é dada por:
P (Uj|θ, η) =∫ +∞−∞
P (uj|θ, ζ)g(θ, η)dθ (3.14)
Utilizando o pressuposto de independência, pode-se escrever a probabilidade do
vetor de resposta U que representa a verossimilhança marginal, como:
L = P (U |ζ, η) =n∏j=1
P (Uj|ζ, η) (3.15)
Para um dado item k, ζk é ponto de máximo L se este item é solução das seguintes
equações:
∂L
∂ak= 0
∂L
∂bk= 0
∂L
∂ck= 0 (3.16)
Nas expressões da equação 3.16 é necessário avaliar a integral em função de θ,
descrita na equação 3.14. Essa integral não é resolvida analiticamente, sendo preciso
aproximá-la através de métodos numéricos. Uma abordagem amplamente utilizada para
obter tal aproximação é o Método de Quadratura de Hermite-Gauss.
3.1.8.3 Estimação Bayesiana
Há vários métodos para a Estimação Bayesiana (EB) da TRI. O mais utilizado
para estimar os parâmetros dos itens é Estimação Bayesiana Marginal a Posterior. A
metodologia Bayesiana permite contornar dois problemas do método de MVM. O primeiro
20
-
problema está relacionado à indefinição para qualquer padrão de resposta. O segundo
problema recorrente é a obtenção de estimativas fora do campo de variação do parâmetro,
por exemplo, a estimação de valores negativos quando o suporte é não negativo.
Sobretudo, a EB baseia-se em estabelecer distribuições a priori para os parâmetros
de interesse, construir uma nova função denominada distribuição a posteriori e estimar
os parâmetro segundo alguma função dessa distribuição. Geralmente, as distribuições a
priori utilizadas são:
(i) Normal(µ, σ2) para θ;
(ii) Lognormal(µa, σ2a) para ak;
(iii) Normal(µb, σ2b ) para bk;
(iv) Beta(α, β) para ck.
Para estimação do traço latente, θj , utiliza-se a Estimação pela Média a Posteriori
(EMP). Segue que a esperança condicional é dada por:
θ̂j =
∑qr=1XrP (uj|Xr, ζ)A(Xr)∑qr=1 P (uj|Xr, ζ)A(Xr)
(3.17)
em que, Xr é um ponto de quadratura e A(Xr) é um peso positivo correspondendo à
altura do histograma para o ponto Xr.
3.2 Modelos Lineares Multińıveis
Um fenômeno comum em pesquisas de diversas áreas, especialmente em Educação, Psico-
logia, Medicina e Estudos Sociais, é que os dados apresentam algum tipo de aglomeração
ou hierarquia, ou seja, as informações coletadas dos indiv́ıduos podem estar separadas em
diferentes ńıveis de agrupamento. Este fato poder ser importante para a compreensão
do problema analisado. Em Educação, onde, por natureza, é observada esta estrutura,
o pesquisador, por exemplo, pode investigar quais caracteŕısticas associadas ao aluno
influenciam seu desempenho em um determinado exame em uma localidade. Nesta situação,
tanto o aluno (ńıvel micro) quanto a escola (ńıvel macro) são unidades de análise, pois o
desempenho está relacionado às caracteŕısticas de ambas esferas, deste modo, compondo
dois ńıveis de análise.
21
-
Um padrão hierárquico é percebido facilmente no sistema educacional, onde os
alunos formam uma turma, turmas uma escola, escolas encontram-se em uma determinada
localidade e assim por diante. Os outros exemplos são vistos quando se analisa pacientes
em hospitais em uma região e funcionários em filiais em uma grande empresa e outros. A
Figura 3.6 exemplifica uma estrutura hierárquica para dados educacionais.
Figura 3.6: Estrutura Hierárquica em Dados Educacionais
Fonte: Elaboração dos autores.
A revisão teórica dos Modelos Lineares Multińıveis presente neste trabalho está
densamente baseada em Raudenbush e Bryk (2002), Hox (2010), Barbosa e Fernandes
(2002) e Laros e Marciano (2008). Os principais assuntos relacionados ao tema serão
descritos sucintamente a seguir.
3.2.1 Modelo de Regressão Tradicional versus Modelo de Re-
gressão Multińıvel
O Modelo Tradicional ou Regressão Clássica é uma das técnicas de análise de dados
muito utilizada em ciências sociais, em avaliação, em estudos econômicos, em negócios, em
saúde e em várias outras áreas.
Neter (2005) define o Modelo de Regressão Clássico como uma metodologia es-
tat́ıstica que utiliza a relação de uma variável resposta (Y) com uma ou mais variáveis
preditoras (Xk) para explicar o fenômeno medido por Y ou fazer predições. Para exempli-
22
-
ficar o modelo de regressão clássico, considere o seguinte cenário: um pesquisador busca
avaliar fatores que explicam o desempenho (Y) escolar em matemática de n alunos em
uma determinada localidade. As variáveis explicativas estudadas foram a dummy atraso,
indicando se o aluno está atrasado em relação a sua jornada estudantil (X1) e a renda
domiciliar per capita (X2), medida em unidades monetárias. Um posśıvel modelo seria:
Yi = β0 + β1X1i + β2X2i + εi (3.18)
sendo,
(i) Yi: variável resposta observada no estudante i, representa o rendimento escolar;
(ii) X1i: variável explicativa observada no aluno i, indica se o aluno está atrasado;
(iii) X2i: variável explicativa observada no aluno i, representa o valor da renda domiciliar
per capita;
(iv) β0: é o intercepto, é o valor esperado da variável resposta, quando X1i = 0 e X2i = 0;
(v) β1: é a mudança esperada na variável resposta quando o aluno está atrasado
(X1i = 1);
(vi) β2: é a mudança esperada na variável resposta quando X2i aumenta em uma unidade;
(vii) εi: erro aleatório associado ao i-ésimo aluno, referentes a outras variáveis ou fonte
de variação não observáveis.
As principais suposições são:
(i) A função matemática entre Y e X é linear;
(ii) E(εi) = 0;
(iii) V ar(εi) = σ2 (homoscedasticidade);
(iv) Cov(εi, εj) = 0, para i 6= j (independência);
(v) εi ∼ N(0, σ2) (normalidade).
23
-
Com esse modelo, podem-se estudar as caracteŕısticas relacionadas ao aluno e
seu rendimento considerando que esses estão no mesmo grupo. Entretanto, esses alunos
não pertencem ao mesmo grupo, eles estão aglomerados em escolas diferentes. Nesta
situação, o modelo de regressão tradicional deixa de ser apropriado, pois tem-se dados
de agrupamento, onde a estrutura hierárquica não é colocada neste modelo. E deve-se
ressaltar que as caracteŕısticas relacionadas às escolas podem ter um efeito razoável no
rendimento do aluno.
O exemplo utilizado anteriormente ilustra um dos problemas ao usar a regressão
clássica em Educação, pois o pressuposto da independência entre as observações é violado,
porque os alunos estão agrupados em ńıveis superiores, impossibilitando o uso correto das
técnicas tradicionais de estimação, especificamente via Mı́nimos Quadrados Ordinários
(MQO). Uma consequência da dependência entre as observações é a subestimação dos
erros padrões dos coeficientes de regressão. Uma opção metodologicamente recomendada
para estabelecer relações entre variáveis, segundo o exemplo, é o Modelo Multińıvel, que
contempla os ńıveis de agregação dos dados. Essa técnica é um tipo de análise de regressão
que considera a estrutura hierárquica dos dados simultaneamente, tornando correta a
inferência estat́ıstica dos parâmetros do modelo. Além disso, ao lidar com variáveis em
diferentes ńıveis, o modelo tradicional não considera a correlação entre os indiv́ıduos
associados ao mesmo ńıvel de agregação. É o caso da correlação entre alunos da mesma
escola. Quando maior for a correlação entre os indiv́ıduos maior a inadequação do modelo
de regressão tradicional (Laros, 2008).
3.2.2 Especificação do Modelo Multińıvel
Na literatura, os Modelos Lineares Multińıveis (MLM) ou Modelos de Regressão Multińıvel
também são conhecidos como Modelos Lineares Hierárquicos, Modelos de Efeitos Aleatórios
e Regressão Hierárquica. Os objetivos em utilizar os Modelos Lineares Multińıveis são:
a acomodação simultânea dos ńıveis, a parcimônia quanto ao número de parâmetros, a
produção de estimativas eficientes e além de ser a alternativa sistematicamente correta
para estabelecer as relações entre variáveis de diferentes ńıveis. Esta seção formaliza o
MLM para dois ńıveis de análise.
Ainda no exemplo da seção anterior, considere o mesmo conjunto de dados e a
mesma estrutura composta por dois ńıveis. O ńıvel 1 (micro) é indexado por i e o ńıvel
24
-
2 (macro) por j. O ı́ndice j varia de 1 a J e o ı́ndice i de 1 a nj, sendo J o número de
grupos associados ao ńıvel 2 e nj o número de indiv́ıduos pertencentes ao grupo j. Se
converter a hipótese para o exemplo, pode-se definir o ńıvel micro como ńıvel aluno e o
macro como ńıvel escola.
A variável resposta é sempre limitada ao ńıvel micro e as explicativas para ambos
os ńıveis. No ńıvel aluno, tem-se como variável resposta (Y ) o rendimento escolar em
matemática (desempenho) e duas variáveis explicativas no ńıvel aluno: o atraso escolar
(X1), e a renda domiciliar (X2), e assume-se o porte da escola (W ), medida pelo número
total de alunos, como variável explicativa do ńıvel escola. Note que a única mudança é a
inclusão de uma variável no ńıvel macro. A representação deste modelo está descrita na
equação 3.19. Para analisar os dados, podem-se configurar regressões para cada escola
separadamente, para explicar a variável resposta Y usando as variáveis preditoras X.
Yij = β0j + β1jX1ij + β2jX2ij + εij (3.19)
Substituindo os rótulos das variáveis na equação 3.19, o modelo é lido por:
desempenhoij = β0j + β1jatrasoij + β2jrendaij + εij (3.20)
Na equação 3.20, β0j é o intercepto, β1j é o coeficiente de regressão (inclinação) para
a variável dicotômica atraso, β2j é o coeficiente de regressão para a variável quantitativa
renda familiar e εij é o termo erro. A diferença entre a equação 3.18 e 3.19 é que intercepto
e as inclinações são diferentes para cada escola, ou seja, eles variam de escola para escola.
Supõem-se que o termo erro εij possui média zero e a variância chamada de σ2e , que pode
ser estimada. Destaca-se que, o intercepto e os coeficientes de inclinação são variáveis
aleatórias, frequentemente são chamados de coeficientes randômicos.
O próximo passo na regressão multińıvel é incluir a variável explicativa do segundo
ńıvel (W ). A inclusão se dá pela variação dos coeficientes de regressão βj introduzindo-a
do segundo ńıvel. As equação 3.21, 3.22 e 3.23 mostram o processo.
β0j = γ00 + γ01Wj + u0j (3.21)
β1j = γ10 + γ11Wj + u1j (3.22)
β2j = γ20 + γ21Wj + u2j (3.23)
Sendo,
25
-
(i) u0j ∼ N(0, σ2u0);
(ii) u1j ∼ N(0, σ2u1);
(iii) u2j ∼ N(0, σ2u2);
(iv) Cov(uqj, ulj) = σql, para q 6= l.
Os termos u0j, u1j e u2j nas equações 3.21, 3.22 e 3.23 são as componentes
aleatórias associadas ao intercepto, coeficientes de inclinação de X1 e coeficientes de
inclinação de X2, respectivamente e são designadas por erros do ńıvel 2. Os termos γ
representam os coeficientes de regressão. Supõe-se que os reśıduos uj tem média zero e
são independentes do reśıduo eij do ńıvel 1. As variâncias podem ser estimadas e são
chamados de σ2u0, σ2u1 e σ
2u2. Ressalta-se que os parâmetros β0j , β1j e β2j possuem ı́ndice j
indicando a existência de um parâmetro para escola j.
O modelo presente na equação 3.24 resulta da substituição das equações 3.21, 3.22
e 3.23 na equação 3.19. Pode-se chamar esse modelo de completo (saturado) de dois ńıveis
com duas variáveis explicativas no primeiro ńıvel e uma no segundo.
Yij = γ00 + γ10X1ij + γ20X2ij + γ01Wj + γ11X1ijWj + γ21X2ijWj
+u1jX1ij + u2jX2ij + u0j + eij (3.24)
Se substituir os rótulos das variáveis na equação 3.24 tem-se:
desempenhoij = γ00 + γ10atrij + γ20rendaij + γ01portej + γ11atrijportej
+γ21rendaijportej + u1jatrij + u2jrendaij + u0j + eij (3.25)
Na equação 3.24, os termos da primeira linha (γ00 + γ10X1ij + γ20X2ij + γ01Wj +
γ11X1ijWj +γ21X2ijWj) são os coeficientes fixos ou determińısticos do modelo. O segmento
presente na segunda linha (u1jX1ij +u2jX2ij +u0j +eij) contém os termos referentes ao erro
residual e são chamados de parte randômica do modelo. As expressões X1ijWj e X2ijWj
são os termos de interação. Eles aparecem devido a modelagem de várias inclinações βj da
variável Xij com a variável Wj. A interpretação desse termo merece mais cautela.
3.2.3 Estimação
Após definir as posśıveis variáveis explicativas para compor o modelo, é necessário
estimar os parâmetros, interpretá-los e testar a significância estat́ıstica. Três tipos de
26
-
parâmetros podem ser estimados em uma análise multińıvel: efeitos fixos (γ1q ou γ0p),
efeitos aleatórios do ńıvel 1 (βj) e os componentes de variância (σj).
O processo de estimação começa com escolha do método utilizado. Dentre os
métodos de estimação, os baseados na Máxima Verossimilhança são os mais difundidos.
Estes métodos são geralmente mais robustos e produzem estimativas que são assintotica-
mente eficientes e consistentes. Duas funções de verossimilhança são usadas em modelos de
regressão multińıvel. A primeira é a Máxima Verossimilhança Completa (MVC) que inclui
os coeficientes de regressão e as componentes de variância na função de verossimilhança
conjuntamente. Na segunda função, a Máxima Verossimilhança Restrita (MRV), somente
os componentes de variância são inclúıdos na função e os coeficientes de regressão são
estimados em um segundo passo. Ambos os métodos demandam um processo iterativo.
Outras ferramentas, como Mı́nimos Quadrados Generalizados, Equações Generalizadas,
Bootstrapping e Métodos Bayesianos, são outras formas de estimação menos utilizadas.
3.2.4 Seleção de Variáveis
Nesta seção é proposto um método que orienta a seleção das variáveis explicativas
em um modelo multińıvel. Este método é composto por cinco etapas, descritas a seguir.
Um modelo multińıvel geral para dois ńıveis é dado pela equação (3.26) e Yij representa a
variável resposta, podendo representar o desempenho i-ésimo estudante da j-ésima escola.
Yij = γ00 + γp0Xpij + γ0qWqj + γpqWqjXpij + upjXpij + u0j + eij (3.26)
Etapa 1
Analisa-se o modelo sem nenhuma variável explicativa. Esse modelo é chamado de modelo
nulo, sendo equivalente a um modelo one-way ANOVA com efeitos aleatórios e é dado
por:
Yij = γ00 + u0j + eij (3.27)
Na equação (3.27), γ00 é o intercepto da regressão, e u0j e eij são os reśıduos usuais do
ńıvel da escola (ńıvel 2) e ńıvel do estudante (ńıvel 1), respectivamente. Neste modelo, dito
como inicial, é posśıvel calcular o coeficiente intraclasse ρ que mede o quanto da variação
27
-
do desempenho dos estudantes é explicada pela variação entre as escolas. O cálculo desse
coeficiente é dado pela equação (3.28).
ρ =σ2u0
σ2u0 + σ2e
(3.28)
Etapa 2
Analisa-se um modelo controlado pelas variáveis explicativas do ńıvel 1. Isso significa que
as componentes de variância correspondentes aos coeficientes são fixados em zero. Este
modelo é descrito pela equação (3.29):
Yij = γ00 +P∑p=1
γp0Xpij + u0j + eij (3.29)
em que os Xpij são as p variáveis explicativas do ńıvel 1. Nesta etapa, estima-se a contri-
buição de cada variável explicativa deste ńıvel.
Etapa 3
Analisa-se um modelo incluindo as variáveis explicativas do ńıvel 2 ao modelo anterior.
Este modelo é descrito pela equação (3.30):
Yij = γ00 +P∑p=1
γp0Xpij +
Q∑q=1
γ0qWqj + u0j + eij (3.30)
em que Wqj são as q variáveis explicativas do ńıvel 2. Os modelos das etapas 2 e 3 são
denominados de modelos de componentes de variância, por desintegrarem a variância do
intercepto em componentes diferentes de variância para cada ńıvel hierárquico. Assume-se
que o intercepto varia entre as escolas, mas coeficientes de regressão são fixos (Laros, 2008).
Etapa 4
Avalia-se se algum dos coeficientes de regressão do ńıvel micro tem uma componente
significativa de variância (diferente de zero) entre as escolas. Este modelo, chamado
modelo de coeficientes randômicos, é dado pela equação (3.31):
Yij = γ00 +P∑p=1
γp0Xpij +
Q∑q=1
γ0qWqj +P∑p=1
upjXpij + u0j + eij (3.31)
28
-
em que upj são os reśıduos do ńıvel 2 dos coeficientes das variáveis explicativas Xpij do
ńıvel 1.
Etapa 5
Acrescentam-se as interações entre as variáveis explicativas do ńıvel 2 com aquelas que
tiveram variância significativa de variância na etapa anterior. Isto conduz no modelo
completo formulado na equação (3.32):
Yij = γ00 +P∑p=1
γp0Xpij +
Q∑q=1
γ0qWqj +P∑p=1
upjXpij +P∑p=1
Q∑q=1
γpqWqjXpij + u0j + eij (3.32)
em que WqjXpij é o termo de interação entre os ńıveis.
3.2.5 Qualidade dos Modelos
Para avaliar a qualidade do modelo utiliza-se uma medida derivada da verossimi-
lhança, o deviance (d), definido como:
d = −2 ∗ ln(L) (3.33)
O deviance é uma medida de desajuste do modelo em relação aos dados. Na
equação 3.33, L representa o valor da função de verossimilhança. Geralmente, menores
valores de d indicam um melhor ajuste para o modelo analisado. A interpretação dessa
medida isoladamente é complexa, porém é um critério para comparar modelos encaixados.
Se dois modelos são encaixados, significa que um modelo simples (ms) pode ser derivado
de um modelo geral (mg) pela remoção de parâmetros desse modelo. Dessa forma, é
posśıvel realizar um teste qui-quadrado de diferenças dos deviances. A estat́ıstica do teste
é dada por:
G2 = dmg − dms (3.34)
Na equação 3.34, dmg é o deviance calculado para o modelo geral e dms para o
modelo simples. G2 segue uma distribuição qui-quadrado com os graus de liberdade igual
a diferença entre o número de parâmetros dos modelos. Esse teste é semelhante ao teste
de razão de verossimilhança.
Se os modelos não são encaixados, o teste anterior não pode ser aplicado. Entre-
tanto, pode-se avaliar a qualidade de ajuste baseando-se no Akaike Information Criterion,
29
-
AIC (Akaike, 1987). O AIC, em regressão multińıvel, é calculado a partir do deviance e
do número de parâmetros estimados (t) conforme a equação 3.35.
AIC = d+ 2t (3.35)
Para comparar dois modelos usando o AIC é necessário que o ajuste desses sejam
do mesmo conjunto de dados e utilizando o mesmo método de estimação. Escolhe-se como
modelo de melhor ajuste o que possuir menor AIC.
3.2.6 Coeficientes de Determinação
Na regressão multińıvel o problema de explicar ou modelar a variação explicada é
complexo, diferente da regressão tradicional, que facilmente se encontra o coeficiente de
determinação R2. Para encontrar uma estat́ıstica análoga ao R2, deve-se avaliar a redução
da variância pertinente a introdução das variáveis explicativas. Esta análise é realizada
ńıvel por ńıvel. A proporção da variância explicada pela inclusão das variáveis explicativas
do ńıvel 1, é dada por:
R21 =σ2e|b − σ2e|m
σ2e|b(3.36)
Em que σ2e|b é a variância do reśıduo do primeiro ńıvel para o modelo base e σ2e|m
é a variância do reśıduo do primeiro ńıvel para o modelo comparação.
A proporção da variância explicado para a ńıvel 2 é expressa pela equação:
R22 =σ2u0|b − σ2e|m
σ2u0|b(3.37)
Em que σ2u0|b é a variância do reśıduo do segundo ńıvel para o modelo base e σ2u0|m
é a variância do reśıduo do segundo ńıvel para o modelo comparação.
3.2.7 Análise dos Reśıduos
Após todo o processo de construção e análise do modelo, visto nas seções anteriores,
é necessário avaliar se as suposições de normalidade, linearidade e homoscedasticidade são
válidas. Para tal avaliação, utilizam-se os reśıduos. Os reśıduos correspondem à diferença
entre os valores observados e os valores preditos da regressão.
Para avaliar a normalidade dos reśıduos são indicados dois procedimentos. O
primeiro demanda plotar um gráfico de dispersão dos reśıduos padronizados contra o seu
30
-
respectivo escore normal. Se os reśıduos tem distribuição normal, os pontos distribuem
em torno de uma linha diagonal. Na figura 3.7 é apresentado um gráfico que enfatiza
perfeitamente essa condição. Esse gráfico também é chamado gráfico de probabilidade
normal ou QQ-plot. O segundo procedimento é o teste de normalidade.
Figura 3.7: Gráfico de Probabilidade Normal
Fonte: Hox (2002).
Na figura 3.8 são plotados os reśıduos padronizados versus os valores preditos.
Neste, é posśıvel identificar falhas nas suposições de normalidade, linearidade e homos-
cedasticidade. Se os pontos estiverem distribúıdos em torno do zero e não apresentarem
nenhum padrão, ou seja, se comportam aleatoriamente, as suposições não são violadas.
Figura 3.8: Reśıduos padronizados versus valores preditos
Fonte: Hox (2002).
31
-
Caṕıtulo 4
Metodologia
Nesta seção será descrito o processo de criação dos indicadores propostos e seus respectivos
itens. Em seguida, serão detalhados os recortes usados nas bases de dados e as variáveis
do modelo multińıvel.
4.1 Indicador de Infraestrutura Escolar
Quando se estuda a relação entre desempenho acadêmico de estudantes e escolas, a
questão a infraestrutura escolar é colocada em evidência como um posśıvel fator associado ao
desempenho. Espera-se que uma escola com melhores estruturas f́ısicas e bons equipamentos
didáticos possua um melhor desempenho. Em muitas pesquisas, o efeito da infraestrutura
sobre o desempenho é estudado, uma delas foi o estudo realizado por Duarte, Gargiulo e
Moreno (2011), junto ao Banco Interamericano de Desenvolvimento (BID). Neste estudo, os
autores exploraram o estado da infraestrutura das escolas de educação básica em 16 páıses
da América Latina, inclusive o Brasil, e identificaram que, ao relacionar infraestrutura
com resultados acadêmicos, o fator que está mais associados a aprendizagem, quanto a
infraestrutura, é a presença de espaços de apoio a docência (bibliotecas, laboratório de
ciências e salas de informática).
Um dos objetivos do presente trabalho, é construir uma medida que quantifique a
infraestrutura das escolas localizadas na AMB. Foram escolhidas as escolas que ofertaram
a modalidade de ensino médio utilizando os dados do Censo Escolar 2014. Esta medida é
chamada de Indicador de Infraestrutura Escolar (INFE). Ela é baseada na escala proposta
por Soares Neto (2013) com algumas modificações na seleção das escolas e nos itens. O
32
-
Quadro 4.1 apresenta a relação dos itens usados para a construção do INFE.
Quadro 4.1: Descrição dos Itens de Infraestrutura Escolar
Item Descrição
1 Sala diretoria
2 Sala professor
3 Laboratório de informática
4 Laboratório de ciências
5 Sala de atendimento especial
6 Quadra
7 Cozinha
8 Biblioteca
9 Secretaria
10 Auditório
11 Internet
12 Sanitário PNE
13 Dependência PNE
14 Copiadora
15 Impressora
16 Multimı́diaFonte: Elaboração dos autores. Dados: INEP.
Os itens presentes no Quadro 4.1 são dicotômicos, assumindo resposta igual a
1 quando a escola possui a instalação ou equipamento e assumindo 0, caso contrário.
Tomando a infraestrutura como um traço latente, utilizou-se o Modelo Loǵıstico de 2
Parâmetros da TRI para calcular o INFE. Este indicador é uma escala cont́ınua com médio
50 e com desvio padrão igual a 20. Foram analisadas 237 escolas.
4.2 Indicador de Nı́vel Socioeconômico
O objetivo do Indicador de Ńıvel Socioeconômico (INSE) é situar o aluno em uma
classe ou estrato social e construir a mesma medida para as escolas utilizando o INSE de
seus respectivos alunos. Segundo a mesma metodologia proposta por Alves (2014), porém
33
-
com alguns ajustes, foi calculada, neste trabalho, uma medida de ńıvel socioeconômico
(NSE) para os estudantes concluintes do ensino médio e que participaram no ENEM 2014
na AMB, esta medida é o INSE. Para isso, tomou-se o NSE como uma caracteŕıstica
latente e não observável do estudante. Esta se manifesta através da escolaridade dos pais,
renda familiar, posse de bens e contratação de serviços. Os dados para implementação
dessa medida originam-se do questionário contextual preenchido pelos estudantes.
Utilizou-se o Modelo de Resposta Gradual da TRI (ver seção 3.1.6) para construção
do indicador. Este modelo é o adequado para análise do NSE, pois os itens do questionário
são politômicos e estão em escala ordinal. O INSE é expresso por uma escala cont́ınua
com média 50 e com desvio padrão igual a 20. E o INSE das escolas é calculado com
base na média do INSE de seus respectivos alunos. O Quadro 4.2 indica quais itens foram
usados para a análise e sua descrição.
Quadro 4.2: Descrição dos Itens de Nı́vel Socioeconômico
Item Descrição Identificação
1 Escolaridade do pai 1 = Não estudou / 2 = Fundamental / 3 = Médio / 4 = Superior
2 Escolaridade da mãe 1 = Não estudou / 2 = Fundamental / 3 = Médio / 4 = Superior
3 Tipo de residência 1 = Outra / 2 = Alugada/Cedida / 3 = Financiada / 4 = Própria
4Renda familiar
(em salários mı́nimos)
1 = Nenhuma / 2 = Até 1 / 3 = 1 a 1,5 / 4 = 1,5 a 2
5 = 2 a 3 / 6 = 3 a 6 / 7 = Superior a 6
5 TV 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais
6 DVD 1 = Não possui / 2 = Possui
7 Computador 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais
8 Automóvel 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais
9 Máquina de lavar 1 = Não possui / 2 = Possui
10 Geladeira 1 = Não possui / 2 = Possui
11 Freezer 1 = Não possui / 2 = Possui
12 Telefone fixo 1 = Não possui / 2 = Possui
13 Celular 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais
14 Internet 1 = Não possui / 2 = Possui
15 TV por assinatura 1 = Não possui / 2 = Possui
16 Aspirador de por 1 = Não possui / 2 = Possui
17 Empregada 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais
18 Banheiro 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais
Fonte: Elaboração dos autores. Dados: INEP.
34
-
4.3 Dados para a Modelagem
O objetivo principal deste trabalho é desenvolver um Modelo Multińıvel que
identifique quais caracteŕısticas influenciam no desempenho de estudantes do ensino
médio das escolas públicas da AMB em 2014. No primeiro ńıvel estão os alunos e no
segundo as escolas. Para atingir este objetivo, o conjunto de dados do ENEM 2014, que
coletou informações sobre o estudante, a escola, as notas das provas e o questionário
socioeconômico, foi utilizado como base principal. A base ENEM por Escola foi usada
de forma complementar, possibilitando a inclusão de outras caracteŕısticas referentes às
escolas não contidas na base de dados do ENEM. Ambas as bases são coordenadas pelo
INEP. Para alcançar a população de interesse foram realizadas recortes nas duas bases.
Do ENEM foram selecionados estudantes que:
• conclúıram o ensino médio regular público em 2014;
• residiam e estudavam na AMB;
• presentes nos dois dias de aplicação da prova.
A base final foi composta pela junção do ENEM com os filtros acima e o ENEM
por Escola. Embora o ENEM seja um exame voluntário há alguns problemas de represen-
tatividade. Para contornar esses problemas mais dois critérios de seleção foram usados.
O primeiro foi selecionar apenas escolas que tinham no mı́nimo 10 alunos inscritos no
exame e que obtiveram um percentual de participação superior a 50%. Então, o Modelo
Multińıvel foi composto por 14.659 alunos e 120 escolas.
4.4 Variáveis Explicativas do Modelo
Considerou-se como variável resposta do modelo a média aritmética das notas de
todas as provas do ENEM. Esta variável é chamada de desempenho do aluno. As variáveis
explicativas são as caracteŕısticas dos alunos e das escolas que se esperam relacionar com o
desempenho. No Quadro 4.3 são detalhadas as variáveis explicativas, em ambos os ńıveis,
que serão, posteriormente inclúıdas no Modelo Multińıvel.
35
-
Quadro 4.3: Descrição das Variáveis Explicativas do Modelo
Descrição Rótulo Tipo
Nı́vel Aluno
Idade idade Discreta
Cor/Raça: Branco cor Indicadora
Escolaridade da Mãe: Médio ou Superior esc mae Indicadora
Escolaridade da Pai: Médio ou Superior esc pai Indicadora
Renda per Capita renda Cont́ınua
Defasagem defasagem Indicadora
Nı́vel Escola
Indicador de Nı́vel Socioeconômico Médio inse médio Cont́ınua
Indicador de Infraestrutura infe Cont́ınua
Taxa de Participação no ENEM t part Cont́ınua
Indicador de Formação Docente f doc Cont́ınua
Taxa de Aprovação t apr Cont́ınua
Número de Matŕıculas no Ensino Médio porte Cont́ınua
Média do Número de Alunos por Turma a turma Cont́ınua
Taxa de Distorção Idade/Série t dis Cont́ınuaFonte: Elaboração dos autores. Dados: INEP.
36
-
Caṕıtulo 5
Resultados
5.1 Indicadores
Nessa seção serão apresentados os principais resultados referentes às análises da
TRI para o Indicador de Infraestrutura Escolar (INFE) e o Indicador de Nı́vel Socio-
econômico (INSE). Utilizou-se como ferramentas computacionais: o Programa R, em
especial, o pacote ltm e o SAS com a PROC IRT.
5.1.1 Infraestrutura
Realizou-se a primeira análise para estimação dos parâmetros dos itens, também
conhecida como calibração. O Modelo Loǵıstico de 2 Parâmetros foi utilizado para estimar
a infraestrutura das 237 escolas. Nesta primeira análise, observou-se problemas com os
seguintes itens: cozinha, copiadora, impressora e multimı́dia. Por esse motivo, foram
exclúıdos esses itens e realizou-se uma segunda análise para reestimação dos parâmetros
dos itens.
A Tabela 5.1 descreve os itens relacionados à infraestrutura com as respectivas
estimativas dos parâmetros de discriminação ai e dificuldade bi referente a segunda análise.
37
-
Tabela 5.1: Estimativas dos parâmetros de discriminação e dificuldade dos itens de
infraestrutura escolar na AMB - 2014
Item DescriçãoParâmetro
Discriminação Dificuldade
1 Sala diretoria 1,65 [0,56] -2,48 [0,51]
2 Sala professor 2,00 [0,74] -2,46 [0,48]
3 Laboratório de informática 2,25 [0,51] -1,30 [0,17]
4 Laboratório de ciências 2,08 [0,42] 0,36 [0,11]
5 Sala de atendimento especial 1,02 [0,21] 0,23 [0,16]
6 Quadra 1,51 [0,28] -0,62 [0,14]
8 Biblioteca 0,32 [0,16] -1,33 [0,76]
9 Secretaria 1,63 [0,34] -1,22 [0,19]
10 Auditório 2,42 [0,61] 0,98 [0,14]
11 Internet 2,13 [0,61] -1,95 [0,29]
12 Sanitário PNE 1,42 [0,27] -0,64 [0,15]
13 Dependência PNE 1,67 [0,31] -0,21 [0,12]Fonte: Elaboração dos autores. Dados: INEP. Nota: Erro padrão em colchetes.
A partir dessas estimativas, foram calculados os escores de infraestrutura escolar
para todas as escolas. Esses escores foram posteriormente transformados para uma escala
com média 50 e desvio padrão 20. Os escores nesta escala são chamados de Indicador de
Infraestrutura Escolar (INFE).
Com base nos parâmetros dos itens é posśıvel construir e analisar a Função de
Informação do Teste em relação ao escore de infraestrutura, como é mostrado na Figura
5.1. Para cada ponto da escala, o erro de mensuração é inverso do valor da informação, ou
seja, uma alta informação implica em erro de mensuração baixo. Observa-se que o teste
tem maior informação no intervalo entre -2,5 a 2,0. Isso que dizer que esse conjunto de
itens é mais adequado para medir a infraestrutura das escolas neste intervalo.
38
-
Figura 5.1: Função de Informação do Teste
Fonte: Elaboração dos autores. Dados: Censo Escolar/INEP.
A Figura 5.2 mostra a variação do INFE segundo regiões da AMB. A variabilidade
do indicador para a região 1 é muito inferior que as demais regiões. Observando apenas
as medianas, pode-se dizer que quanto maior a renda maior é o INFE da localidade. Na
região 4, os munićıpios goianos, a distribuição é bem diferente das outras regiões, onde a
mediana é muito inferior e o terceiro quartil é próximo do primeiro quartil das demais e
ainda 75% das escolas possuem INFE inferior a 50, enquanto na região 1, 75% possuem
INFE superior a 60. Tais fatos expressam o efeito da desigualdade entre as escolas do DF
e escolas dos munićıpios goianos.
39
-
Figura 5.2: Variação da Infraestrutura Escolar por Regiões da AMB - 2014
Fonte: Elaboração dos autores. Dados: Censo Escolar/INEP.
5.1.2 Nı́vel Socioeconômico
De acordo com que foi apresentado na seção 4.2, realizou-se a primeira análise
para estimação dos parâmetros dos itens. O Modelo de Resposta Gradual foi utilizado
para mensurar o ńıvel socioeconômico (NSE) dos 14.659 alunos e das 120 escolas. Assim
como na infraestrutura, para o NSE também se encontrou problemas em 2 itens, o item 3
(tipo de moradia) e o item 17 (contratação de empregada doméstica) (ver Quadro 4.2 para
mais detalhes sobre esses itens). Excluem-se esses itens e reestimou os parâmetros.
Os resultados da reestimação dos parâmetros estão presentes na Tabela 5.2. A
partir dessas estimativas, foram calculados os escores de NSE para todos os alunos. Esses
escores foram posteriormente transformados para uma escala com média 50 e desvio padrão
20. Os escores nesta escala são chamados de Indicador de Nı́vel Socioeconômico (INSE).
O INSE da escola é calculado tomando a média do INSE dos alunos em suas respectivas
escolas.
40
-
Tabela 5.2: Estimativas dos parâmetros de discriminação e dificuldade dos itens de ńıvel
socioeconômico na AMB - 2014
Item Descrição a bk,1 bk,2 bk,3 bk,4 bk,5 bk,6
1 Escolaridade do pai 1,12 [0,02] -2,86 [0,05] 0,51 [0,02] 2,43 [0,04] - - -
2 Escolaridade do mae 1,02 [0,02] -3,7 [0,07] 0,12 [0,02] 2,31 [0,04] - - -
4 Renda 1,87 [0,02] -3,33 [0,05] -0,92 [0,01] -0,05 [0,01] 0,46 [0,01] 1,09 [0,02] 1,96 [0,02]
5 TV 1,47 [0,02] -3,57 [0,06] 0,22 [0,01] 1,81 [0,02] - - -
6 DVD 0,62 [0,02] -2,16 [0,07] - - - - -
7 Computador 1,73 [0,02] -0,91 [0,01] 1,51 [0,02] 2,6 [0,03] - - -
8 Automóvel 1,72 [0,03] -0,26 [0,01] 1,85 [0,02] 3,28 [0,05] - - -
9 Máquina de lavar 1,67 [0,03] -1,17 [0,02] - - - - -
10 Geladeira 1,07 [0,06] -4,26 [0,2] - - - - -
11 Freezer 1,04 [0,02] 0,94 [0,02] - - - - -
12 Telefone 1,02 [0,02] -0,34 [0,02] - - - - -
13 Celular 0,99 [0,02] -4,68 [0,09] -1,12 [0,02] -0,12 [0,02] - - -
14 Internet 1,92 [0,04] -1,02 [0,02] - - - - -
15 TV por assinatura 1,35 [0,03] 0,55 [0,02] - - - - -
16 Aspirador de pó 1,65 [0,03] 1,33 [0,02] - - - - -
18 Banheiro 1,4 [0,02] -4,27 [0,08] 0,65 [0,01] 2,31 [0,03] - - -
Fonte: Elaboração dos autores. Dados: Censo Escolar/INEP.
Figura 5.3: Função de Informação do Teste
Fonte: Elaboração dos autores. Dados: ENEM/INEP.
Na Figura 5.3, é apresentada a Função de Informação do Teste. Através deste
gráfico observa-se que o instrumento de medida tem maior informação para os valores da
41
-
NSE compreendidos entre aproximadamente -2,0 a 3,0. Dessa forma, este resultado indica
que o questionário é mais proṕıcio para avaliar o NSE com valores contidos nesse intervalo.
Figura 5.4: Variação do Nı́vel Socioeconômico das Escolas por Regiões da AMB - 2014
Fonte: Elaboração dos autores. Dados: ENEM/INEP.
A Figura 5.4 possibilita a análise do comportamento do INSE das escolas segundo
regiões da AMB. Imediatamente, nota-se uma associação entre a renda média da localidade
e o INSE das escolas deste mesma localidade, o que já era esperado. Na região 1, a que
está melhor colocada, apresenta apenas uma escola com o indicador inferior a média geral.
Entretanto, 75% das escolas localizadas nos munićıpios goianos apresentam indicador
inferior a média. Fatos que reforçam a grande desigualdade, também identificada aqui,
entre escolas da AMB.
42
-
5.2 Análise Descritiva
A primeira etapa em qualquer análise estat́ıstica consiste de uma análise descritiva
das variáveis em estudo. Esta etapa possibilita a familiarização com os dados, organização
e sintetização de forma a obter informações necessárias para responder questões que serão
estudadas na modelagem. As duas subseções subsequentes exploram as caracteŕısticas dos
estudantes e das escolas.
5.2.1 Perfil do Estudante
A população de interesse é formada por estudantes concluintes no ensino médio
regular que residiam e estudavam na AMB em 2014 de escolas públicas e que obtiveram
número de inscrições superior a 10 e taxa de participação no ENEM superior a 50%. Para
esta análise contou-se com 14659 estudantes participantes do ENEM e que estiveram
presentes nos dois dias de aplicação do exame. Este grupo é chamado de ńıvel 1, pois
agrega informações da unidade micro. As variáveis referentes ao ńıvel 1 originam-se do
questionário socioeconômico deste exame.
A Tabela 5.3 traz informações sobre o local de residência e da escola do estudante.
Inicialmente, constata-se que existe uma diferença entre a distribuição dessas duas variáveis.
Nos munićıpios goianos essa diferença é para mais, ou seja, o número de residentes na
determinada localidade é superior ao número de matriculados nas escolas dessas localidades.
Em contrapartida, o Distrito Federal recebe cerca de 678 estudantes que residem nos
munićıpios goianos, assim equilibrando o total. Também é visto que em Cocalzinho dos 3
estudantes residentes nenhum deles estuda na cidade.
43
-
Tabela 5.3: Distribuição dos estudantes segundo munićıpio de residência e da escola na
AMB - 2014
MunićıpioResidência Escola
N (%) N (%)
Águas Lindas de Goiás 333 2,27 277 1,89
Alexânia 23 0,16 22 0,15
Cidade Ocidental 173 1,18 112 0,76
Cocalzinho 3 0,02 - -
Cristalina 71 0,48 65 0,44
Formosa 170 1,16 162 1,11
Luziânia 820 5,59 776 5,29
Novo Gama 211 1,44 85 0,58
Padre Bernardo 122 0,83 118 0,8
Planaltina-GO 297 2,03 270 1,84
Santo Antônio do Descoberto 178 1,21 119 0,81
Valparáıso de Goiás 466 3,18 304 2,07
Distrito Federal 11792 80,44 12349 84,24
Total 14659 100 14659 100
Fonte: Elaboração dos autores. Dados: ENEM/INEP.
A Tabela 5.4 apresenta a distribuição da idade, sexo, tipo do ensino e cor/raça do
estudante, tais informações ajudam a traçar o perfil dos alunos. Nota-se que apenas 23%
dos alunos apresentam defasagem e majoritariamente, os estudantes são do sexo feminino.
Quanto à cor/raça percebe-se que metade dos alunos são pardos e um quarto deles são
brancos.
44
-
Tabela 5.4: Caracteŕısticas gerais do estudante na AMB - 2014
Caracteŕısticas do Estudante Frequência Percentual
Idade
15 anos 12 0,08
16 anos 489