An alise do Desempenho no Ensino M edio na Area Metropolitana … · 2018. 5. 3. · 1.1Exame...

Universidade de Braśılia

Instituto de Ciências Exatas

Departamento de Estat́ıstica

Análise do Desempenho no Ensino Médio naÁrea Metropolitana de Braśılia:

Uma Abordagem Multińıvel

Davi Souza Botelho

Braśılia

2017

Davi Souza Botelho

Análise do Desempenho no Ensino Médio na

Área Metropolitana de Braśılia:

Uma Abordagem Multińıvel

Trabalho de Conclusão de Curso apresentado ao

Departamento de Estat́ıstica da Universidade de

Braśılia, como parte dos requisitos para a obtenção

do t́ıtulo de Bacharel em Estat́ıstica.

Orientadora: Profa. Dra.

Ana Maria Nogales Vasconcelos

Co-Orientadora: Profa. Ms.

Maria Teresa Leão Costa

Braśılia

2017

Sumário

1 Introdução 1

1.1 Exame Nacional do Ensino Médio . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Área Metropolitana de Braśılia . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Objetivos e Justificativa 5

2.1 Objetivo Principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Objetivos Secundários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3 Estrutura Teórica 6

3.1 Teoria de Resposta ao Item . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.1.1 Traço Latente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.1.2 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.1.3 Modelos unidimensionais para itens dicotômicos . . . . . . . . . . . 8

3.1.4 Curva Caracteŕıstica do Item . . . . . . . . . . . . . . . . . . . . . 10

3.1.5 Função de Informação do Item e Função de Informação do Teste . . 14

3.1.6 Modelos para Itens Policotômicos . . . . . . . . . . . . . . . . . . . 17

3.1.7 Suposições do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.1.8 Estimação do Parâmetros . . . . . . . . . . . . . . . . . . . . . . . 18

3.2 Modelos Lineares Multińıveis . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2.1 Modelo de Regressão Tradicional versus Modelo de Regressão Mul-

tińıvel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.2.2 Especificação do Modelo Multińıvel . . . . . . . . . . . . . . . . . . 24

3.2.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.2.4 Seleção de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2.5 Qualidade dos Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 29

v

3.2.6 Coeficientes de Determinação . . . . . . . . . . . . . . . . . . . . . 30

3.2.7 Análise dos Reśıduos . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4 Metodologia 32

4.1 Indicador de Infraestrutura Escolar . . . . . . . . . . . . . . . . . . . . . . 32

4.2 Indicador de Nı́vel Socioeconômico . . . . . . . . . . . . . . . . . . . . . . 33

4.3 Dados para a Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.4 Variáveis Explicativas do Modelo . . . . . . . . . . . . . . . . . . . . . . . 35

5 Resultados 37

5.1 Indicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.1.1 Infraestrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.1.2 Nı́vel Socioeconômico . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.2 Análise Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.2.1 Perfil do Estudante . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.2.2 Perfil da Escola . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.2.3 Análise Bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5.3 Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

6 Conclusão 57

7 Referências Bibliográficas 58

Lista de Figuras

1.1 Área Metropolitana de Braśılia . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3.1 Exemplo de Curva Caracteŕıstica do Item - ML1 . . . . . . . . . . . . . . . 11



3.4 Exemplo de Curva Informação do Item . . . . . . . . . . . . . . . . . . . . 15

3.5 Exemplo de Curva de Informação do Teste . . . . . . . . . . . . . . . . . . 16

3.6 Estrutura Hierárquica em Dados Educacionais . . . . . . . . . . . . . . . . . . . . 22

3.7 Gráfico de Probabilidade Normal . . . . . . . . . . . . . . . . . . . . . . . 31

3.8 Reśıduos padronizados versus valores preditos . . . . . . . . . . . . . . . . 31

5.1 Função de Informação do Teste . . . . . . . . . . . . . . . . . . . . . . . . 39

5.2 Variação da Infraestrutura Escolar por Regiões da AMB - 2014 . . . . . . . 40

5.3 Função de Informação do Teste . . . . . . . . . . . . . . . . . . . . . . . . 41

5.4 Variação do Nı́vel Socioeconômico das Escolas por Regiões da AMB - 2014 42

5.5 Renda per Capita do Estudante . . . . . . . . . . . . . . . . . . . . . . . . 46

5.6 Indicadores Escolares para AMB - 2014 . . . . . . . . . . . . . . . . . . . . 48

5.7 Caracteŕısticas Escolares para AMB - 2014 . . . . . . . . . . . . . . . . . . 49

5.8 Gráfico de Probabilidade Normal . . . . . . . . . . . . . . . . . . . . . . . 56

5.9 Reśıduos Padronizados versus Valores Preditos . . . . . . . . . . . . . . . . 56

vii

Lista de Tabelas

5.1 Estimativas dos parâmetros de discriminação e dificuldade dos itens de

infraestrutura escolar na AMB - 2014 . . . . . . . . . . . . . . . . . . . . . 38

5.2 Estimativas dos parâmetros de discriminação e dificuldade dos itens de ńıvel

socioeconômico na AMB - 2014 . . . . . . . . . . . . . . . . . . . . . . . . 41

5.3 Distribuição dos estudantes segundo munićıpio de residência e da escola na

AMB - 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

5.4 Caracteŕısticas gerais do estudante na AMB - 2014 . . . . . . . . . . . . . 45

5.5 Escolaridade dos Pais dos Estudantes na AMB - 2014 . . . . . . . . . . . 46

5.6 Distribuição das escolas e estudantes na AMB - 2014 . . . . . . . . . . . . 47

5.7 Teste de Comparação de Médias - Variáveis do Aluno . . . . . . . . . . . . 50

5.8 Modelo sem variáveis explicativas - Modelo Nulo (M0) . . . . . . . . . . . 51

5.9 Modelo com as variáveis explicativas do ńıvel 1 - Modelo 1 (M1) . . . . . . 52

5.10 Modelo com as variáveis explicativas do ńıvel 1 e ńıvel 2 - Modelo 2 (M2) . 53

viii

Lista de Quadros

4.1 Descrição dos Itens de Infraestrutura Escolar . . . . . . . . . . . . . . . . . 33

4.2 Descrição dos Itens de Nı́vel Socioeconômico . . . . . . . . . . . . . . . . . 34

4.3 Descrição das Variáveis Explicativas do Modelo . . . . . . . . . . . . . . . 36

ix

Resumo

O presente trabalho utilizou as notas das provas e o questionário contextual do Exame

Nacional do Ensino Médio (ENEM) de 2014 e o Censo Escolar de 2014 para averiguar

os fatores associados ao desempenho dos alunos concluintes do ensino médio das escolas

da rede pública da Área Metropolitana de Braśılia (AMB). Com o grupo de itens do

questionário contextual do ENEM e as informações sobre as escolas do Censo foi posśıvel

construir medidas para o ńıvel socioeconômico (INSE) e para a infraestrutura (INFE)

das escolas. A metodologia de construção desses indicadores foi a Teoria de Resposta ao

Item (TRI) pelo modelo de resposta gradual (INSE) e resposta dicotômica (INFE). Foram

analisadas as relações desses indicadores e caracteŕısticas individuais dos alunos e das

escolas com as proficiências dos estudantes por meio dos Modelos Lineares Multińıveis

(MLM). Constatou-se que 18% da variação do desempenho dos estudantes é atribúıda

à escola, valor considerado pequeno, porém razoável, logo que o estudo abrange apenas

escolas públicas. No ńıvel do aluno, verificou-se que ter idade prevista para a conclusão

do ensino médio, ser do sexo masculino e pais possúırem escolaridade mais elevada

contribuem para um melhor desempenho. No que se refere à escola, destacam-se o fato

que, possuir INSE e taxa de participação no ENEM mais altos, em média, contribuem

positivamente no médio desempenho de seus estudantes. A qualificação dos professores foi

efeito relevante no desempenho, sugerindo que atuação na área da formação tem um efeito

positivo no desempenho médio dos alunos. Ainda que sejam preliminares, os resultados

aqui apresentados evidenciam o potencial dos dados produzidos pelo INEP/MEC para a

avaliação educacional no páıs.

Palavras-chave: Fatores Associados ao Desempenho; Exame Nacional do Ensino Médio;

Teoria de Resposta ao Item; Modelos Lineares Multińıveis; Indicadores Educacionais; Área

Metropolitana de Braśılia.

x

Caṕıtulo 1

Introdução

Diversos estudos relacionados aos condicionantes do desempenho escolar vem

despertando um grande interesse por parte da sociedade e dos formuladores de poĺıticas,

tendo em vista que, tais condicionantes estão diretamente ligados a qualidade da educação,

ao desenvolvimento econômico e social dos indiv́ıduos e das nações. Esses estudos buscam

diferentes formas de entender os fatores que explicam desempenho, seja bom ou ruim

(Machado, 2014). Caracteŕısticas relacionadas ao ńıvel socioeconômico, fator preponderante

para explicar o desempenho, e a trajetória escolar do aluno são vistos na literatura como as

principais influências associadas ao desempenho. As informações contextuais do aluno são

os atributos que mais impactam o desempenho, porém não os únicos. Deve-se considerar

também, segundo Soares (2006) e Albernaz (2002) que a atuação cognitiva é determinada

por atributos associados ao próprio aluno e à estrutura escolar, ou seja, o “fator escola”

impacta na performance do aluno.

No que tange as escolas, quais são as caracteŕısticas que podem interferir no que se

refere ao desempenho dos seus alunos? A resposta para essa pergunta requer uma análise

mais aprofundada, pois segundo Andrade (2008) a escola ocupa um papel de destaque

na sociedade, exercendo múltiplas funções. Cabe a escola desenvolver competências e

habilidades cognitivas necessárias para que o aluno acesse ńıveis mais elevados de ensino,

preparar para o mercado de trabalho e além disso, é um ambiente de intenso conv́ıvio

social. Buscando responder a essa questão, o relatório Escola Eficaz elaborado pelo

GAME1 (2002) fez um levantamento e um agrupamento dos principais elementos que estão

associados ao “fator escola”, a saber: a infraestrutura e os fatores externos à organização,

1Grupo de Avaliação e Medidas Educacionais, da Faculdade de Educação (GAME/FAE) da UFMG.

1

à governança, aos professores da escola, à relação com as famı́lias, ao clima interno e às

caracteŕısticas do ensino. Cada um desses itens de análise, ao serem eles tratados a partir

da perspectiva do “fator escola”, buscam explicitar as várias formas com que a escola

interfere no desempenho escolar. Portanto, pode-se afirmar que, a análise do desempenho

do estudante não deve incluir apenas os fatores ligados ao próprio estudante, mas também

aos elementos associados ao “fator escola”.

Estatisticamente, se pensaria que um Modelo de Regressão Clássico seria adequado

para estudar os determinantes do desempenho do aluno. Porém, colocar as variáveis do

aluno e da escola na mesma linha traria problemas com as estimativas dos parâmetros,

principalmente nos erros padrões. A alternativa correta de avaliar esses determinantes,

é utilização de um modelo mais sofisticado que agregue a estrutura hierárquica natural

em dados educacionais, onde a análise do desempenho do estudante utilize informações

individuais do aluno conjuntamente com dados do ńıvel da escola, melhorando as estimativas

dos efeitos (Palermo, 2014). Os Modelos Lineares Multińıveis são ideais para um estudo

nesta linha.

1.1 Exame Nacional do Ensino Médio

Institúıdo pela Portaria MEC no 438 de 28 de maio de 1998, o Exame Nacional

do Ensino Médio (ENEM), surge como uma avaliação anual do domı́nio do aluno em

competências e habilidades desenvolvidas durante a educação básica, buscando contribuir

para a melhoria desse ńıvel de escolaridade. É um exame individual de caráter voluntário

que serve para que o indiv́ıduo faça uma autoavaliação do aprendizado e auxilie o governo

na elaboração de poĺıticas educacionais de melhoria da educação do páıs. O planejamento

e operacionalização do ENEM são de responsabilidade do Instituto Nacional de Estudos e

Pesquisas Educacionais (INEP).

Ao longo dos anos, o exame mudou bastante. Em 2004, o ENEM foi vinculado ao

Programa Universidade para Todos (ProUni), que concede bolsas em instituições privadas.

Com isso, houve um aumento expressivo no número de participantes. Porém, as grandes

mudanças ocorreram a partir de 2009 com a reformulação nas matrizes de referências e a

implementação do Sistema de Seleção Unificada (SISU), cujo objetivo era democratizar as

oportunidades de acesso a universidades públicas federais. Isso possibilitou a mobilidade

2

acadêmica no páıs e induziu a reestruturação dos curŕıculos de ensino médio. Um novo

modelo de prova foi adotado e a mensuração das notas das provas objetivas passou a

ser feita pela Teoria de Resposta ao Item, em espećıfico, o Modelo Loǵıstico de Três

Parâmetros.

1.2 Área Metropolitana de Braśılia

Em 2014, passados 54 anos da fundação de Braśılia, o Distrito Federal atingiu

a marca de 2,85 milhões de habitantes e sua marcha urbana extrapolou os limites do

quadrilátero se estendendo por inúmeros munićıpios goianos vizinhos e se constitui numa

área de interação social, cultural e econômica. O fato é que o Distrito Federal forma com

esses munićıpios uma região metropolitana como qualquer outra, embora não seja reconhe-

cida oficialmente, uma vez que abrange duas unidades federativas. A Área Metropolitana

de Braśılia (AMB) compreende, além do Distrito Federal, 12 munićıpios localizados no

estado de Goiás que têm laços cotidianos com o DF: Águas Lindas de Goiás, Alexânia,

Cidade Ocidental, Cocalzinho de Goiás, Cristalina, Formosa, Luziânia, Novo Gama, Padre

Bernardo, Planaltina, Santo Antônio do Descoberto e Valparáıso de Goiás (Codeplan,

2014).

Para uma análise da distribuição espacial dos estudantes e escolas na AMB,

consideram-se quatro grupos de localidades de residência segundo estratos de renda. O

Distrito Federal foi dividido em três regiões: 1) Região 1: localidades com renda domiciliar

média elevada (Plano Piloto, Sudoeste/Octogonal, Lago Norte, Lago Sul, Park Way,

Jardim Botânico e Águas Claras); 2) Região 2: localidades com renda domiciliar média

intermediária (Cruzeiro, Candangolândia, Núcleo Bandeirante, Guará, Gama, Sobradinho

I, Sobradinho II, Taguatinga, Vicente Pires, Riacho Fundo I e São Sebastião) e; 3) Região

3: localidades com renda domiciliar média baixa (Brazlândia, Ceilândia, Itapoã, Planaltina,

Santa Maria, Recanto das Emas, Riacho Fundo II, Samambaia, Vila Estrutural, Fercal,

Varjão e áreas rurais). O quarto grupo é formado pelos doze munićıpios goianos, cuja

renda domiciliar média é ainda inferior àquela da Região 3 do DF. A Figura 1.1 apresenta

o mapa da AMB (Vasconcelos, 2014).

3

Figura 1.1: Área Metropolitana de Braśılia

4

Caṕıtulo 2

Objetivos e Justificativa

2.1 Objetivo Principal

Este estudo tem por objetivo desenvolver um Modelo Linear Multińıvel como ferramenta

para avaliar os fatores associados ao desempenho no Ensino Médio para os estudantes

concluintes de escolas públicas na Área Metropolitana de Braśılia (AMB) em 2014.

2.2 Objetivos Secundários

(i) Construir indicadores de Infraestrutura Escolar e de Ńıvel Socioeconômico da Escola

via Teoria de Resposta ao Item (TRI);

(ii) Analisar caracteŕısticas individuais do alunos e das escolas a fim de verificar o quanto

elas interferem no desempenho do aluno na prova do ENEM 2014.

2.3 Justificativa

A identificação dos fatores associados ao desempenho e à determinação do grau de influência

destes fatores na proficiência dos estudantes, há décadas vem sendo estudado. Seja com

finalidades acadêmicas, quanto para diagnóstico de deficiências no sistema educacional,

elaboração de poĺıticas públicas e ações de gestão. Um das formas para a execução da

melhoria de qualidade do ensino e otimização dos recursos empregados em educação gira

em torno do conhecimento desses fatores.

5

Caṕıtulo 3

Estrutura Teórica

Este trabalho se fundamenta em duas técnicas estat́ısticas, frequentemente aplicadas em

estudos educacionais. A primeira é a Teoria de Resposta ao Item (TRI). Esta técnica

é muito difundida para obtenção de escores e para medição de traços latentes. A TRI

ganhou mais notoriedade após o INEP a utilizar para calcular as notas das provas objetivas

do próprio ENEM. A segunda técnica é composta pelos Modelos Lineares Multińıveis

(MLM) ou apenas Modelos Multińıveis. Estes modelos permitem analisar a relação de

uma variável resposta com um conjunto de variáveis explicativas agregando a estrutura

hierárquica dos dados nos modelos. Um t́ıpico exemplo de dados com uma estrutura

hierárquica é o próprio sistema educacional, onde alunos são agrupados em turmas, turmas

em escolas, escolas em munićıpios e assim por diante.

3.1 Teoria de Resposta ao Item

A história da Teoria de Resposta ao Item (TRI) iniciou-se formalmente nos anos

50, com a finalidade de resolver alguns problemas da Teoria Clássica dos Testes (TCT),

embora suas ráızes remontam-se há mais de uma década atrás. Um dos precursores da

TRI moderna foi Frederic Lord (1952, 1953) por ter elaborado um modelo teórico e propor

métodos de estimação dos itens da nova teoria, utilizando a ogiva normal. Estes modelos

se aplicavam a itens com respostas dicotômicas. A substituição da ogiva normal por curvas

loǵısticas, foi dado por Birnbaum (1957) o que tornou o tratamento matemático menos

complexo e um ajuste mais adequado. Um pouco mais tarde, Samejima (1969, 1972)

elaborou modelos para tratar respostas politômicas.

6

A revisão teórica da Teoria de Resposta ao Item presente neste trabalho está

densamente baseada em Andrade (2000), Laros (2010) e Quaresma (2014). Os principais

assuntos relacionados ao tema serão descritos resumidamente a seguir.

3.1.1 Traço Latente

Em muitas áreas da ciência, especialmente em Educação e em Psicologia, se

deseja fazer medições, por exemplo, medir a inteligência de um indiv́ıduo, a proficiência

em matemática de um aluno, a infraestrutura de uma escola e muitos outros. Tais

caracteŕısticas podem ser mensuradas e a elas ser posśıvel designar uma série de atributos,

porém, é imposśıvel medi-las diretamente, como se faz com a altura, uma vez que se trata

de variáveis conceituais e não de medidas f́ısicas. Tais variáveis são chamadas de traços

latentes ou construtos. Uma meta recorrente nas referidas áreas é a determinação do

quanto um indiv́ıduo possui de um determinado traço latente. O cumprimento dessa meta

se estabelece usando um conjunto de variáveis mensuráveis, chamados de itens, que são,

por sua vez, correlacionados ao construto estudado e um modelo estat́ıstico.

Pasquali (2003) se refere a teoria do traço latente sendo uma famı́lia de modelos

matemáticos que relaciona variáveis observáveis (itens) e traços não observáveis (latentes),

estes responsáveis pelo aparecimento das respostas do itens emitidos pelos sujeitos. Assim,

a resposta que o sujeito dá ao item é determinada pelo seu ńıvel de traço latente. Portanto,

o traço latente é a causa e a resposta do sujeito é o efeito.

O objetivo principal da TRI é propor modelos matemáticos que possibilitam a

mensuração de traços latentes. Na literatura são vistas muitas aplicações da TRI. Em

avaliação educacional, tem-se: a nota das provas objetivas do ENEM, a nota do SAEB,

uma série de indicadores oficiais divulgados pelo INEP, a escala de infraestrutura escolar

(Soares Neto, 2013) e outros.

3.1.2 Conceitos Básicos

A Teoria de Resposta ao Item (TRI) é um sistema de modelos que buscam

representar a probabilidade de um indiv́ıduo endossar ou acertar ao item como função

das caracteŕısticas do item e do traço latente do sujeito, como já mencionado, objetivo

principal é a mensuração do traço latente do indiv́ıduo. Segundo esses modelos, quanto

maior for o traço latente maior é a probabilidade de endosso ou de acerto ao item. O uso

7

dos termos endossar ou acertar depende do tipo de traço latente em questão. Comumente

utiliza-se acertar ao item quando a situação envolve avaliações ou aptidões. Por exemplo,

deseja-se aplicar a TRI para medir o desempenho em matemática de alunos em uma

escola, aqui o desempenho é a medida de interesse e os itens são as questões da prova,

ou seja, o indiv́ıduo acerta ou erra a questão. Em outras aplicações, item é respondido

de forma diferente. Por exemplo, deseja-se estudar o ńıvel de qualidade de vida de uma

população, onde as perguntas são respondidas com “sim”ou “não”, onde a qualidade de

vida é o traço latente e as perguntas são os itens que são respondidos afirmativamente

ou negativamente. Neste caso, avalia-se o grau de endosso dos participantes do estudo a

determinada pergunta.

A TRI vem sendo muita utilizada por psicometristas e pesquisadores em avaliação

educacional como uma ferramenta de modelagem estat́ıstica. Devido a sua vasta aplica-

bilidade, tem despertado interesse por pesquisadores de outras áreas, como sociólogos,

demógrafos, gestores dentre outros. Essa ferramenta possibilita uma melhor análise de

cada item, onde cada item, individualmente, contribui de forma diferente para construção

da medida de interesse.

Tão importante quanto o traço latente, o item é considerado uma parte do

instrumento de medida correlato com o construto estudado. Estatisticamente, ele é uma

variável aleatória que assume determinado valor dependendo da sua natureza: dicotômicos

ou dicotomizados (ver seção 3.1.2) e politômicos (ver seção 3.1.6). Três caracteŕısticas

intŕınsecas dos itens são fundamentais para a análise com a TRI: a discriminação, a

dificuldade e a probabilidade de acerto casual. A relação entre esses parâmetros e o traço

latente é vista através da Curva Caracteŕıstica do Item (ver mais detalhes na seção 3.1.4).

3.1.3 Modelos unidimensionais para itens dicotômicos

Os modelos da TRI dependem substancialmente do número de construtos (dimen-

sionalidade), do formato dos itens (dicotômicos ou politômicos) e do número de parâmetros

que utilizam para descrever os itens. Nesta seção, serão apresentados modelos dicotômicos

unidimensionais para um único grupo. Dentre os mais conhecidos, estão os modelos

loǵısticos de um, dois e três parâmetros, que consideram, respectivamente:

(i) somente a dificuldade;

8

(ii) a dificuldade e a discriminação;

(iii) a dificuldade e a discriminação e a probabilidade de resposta correta de um sujeito

com baixa habilidade.

3.1.3.1 Modelo Loǵıstico de Um Parâmetro - ML1

Amplamente conhecido como modelo de Rasch, o Modelo Loǵıstico de Um

Parâmetro (ML1) é a forma mais simples dos modelos propostos pela TRI. No ML1

a probabilidade de endosso ou acerto ao item é expressa como função do traço latente do

indiv́ıduo e da dificuldade da questão ou pergunta. Sua expressão é definida:

P (Ukj = 1|θj) =1

1 + e−D(θj−bk), k = 1, 2, ..., K e j = 1, 2, ..., n, (3.1)

em que, para n indiv́ıduos submetidos a K itens:

(i) Ukj é uma variável dicotômica que assume os valores 1, quando o indiv́ıduo j responde

corretamente ou afirmativamente o item k e 0, caso contrário;

(ii) θj representa o valor do traço latente do j-ésimo indiv́ıduo, teoricamente assume

valores entre (-∞,+∞), porém empiricamente, este intervalo varia de (-3,+3);

(iii) bk é o parâmetro de dificuldade ou de posição do k-ésimo item, medido na mesma

escala de θj . Pequenos valores indicam itens com baixa dificuldade e portanto, valores

grandes indicam itens com alta dificuldade;

(iv) D é um fator de escala, introduzido para tornar a função loǵıstica mais próxima

posśıvel da ogiva normal. Utiliza-se 1,7 para a aproximação;

(v) P (Ukj = 1|θj) é a probabilidade do respondente j endossar ou acertar o item k

condicionado ao seu grau de traço latente θj e é chamada de Função de Resposta ao

Item - FRI.

Uma aplicação do ML1 é o cálculo das proficiências no Programme for International

Student Assessment (PISA).

9

3.1.3.2 Modelo Loǵıstico de Dois Parâmetro - ML2

O Modelo Loǵıstico de Dois Parâmetro (ML2) avalia, além da dificuldade, a

discriminação ou inclinação do item. É declarado como uma extensão do ML1, pois se

adiciona um novo parâmetro a este modelo. Sua função é definida como:

P (Ukj = 1|θj) =1

1 + e−Dak(θj−bk), k = 1, 2, ..., K e j = 1, 2, ..., n, (3.2)

Na Equação 3.2, ak é o parâmetro de discriminação do item k. Este parâmetro

é interpretado como o poder de distinguir indiv́ıduos com magnitudes do traço latente

próximas. Ele equivale ao ângulo formado entre a inclinação da Curva Caracteŕıstica do

Item (discutida a seguir) e o ponto de inflexão, onde a probabilidade de endosso é de 0,5. O

ML2 é muito usado na construção de números-́ındices quando as respostas dos itens estão

na forma de endosso. Por exemplo, deseja-se construir um indicador de infraestrutura

escolar. Considera-se como variáveis indicadoras de infraestrutura, a posse de instalações

f́ısicas como, biblioteca, laboratórios, banheiros e outros. Uma aplicação do ML2 é vista

em Soares Neto (2013).

3.1.3.3 Modelo Loǵıstico de Três Parâmetro - ML3

Entre os modelos propostos pela TRI, o Modelo Loǵıstico de Três Parâmetros

(ML3) é atualmente o mais utilizado, em virtude a sua aplicabilidade para obtenção de

escalas de proficiência. Neste contexto, o traço latente é chamado por “habilidade”, termo

bastante usado em avaliação educacional. Sua função é dada por:

P (Ukj = 1|θj) = ck + (1− ck)1

1 + e−Dak(θj−bk), k = 1, 2, ..., K e j = 1, 2, ..., n, (3.3)

Na Equação 3.3 acrescentou-se o parâmetro ck que representa a probabilidade de

um indiv́ıduo com baixa habilidade acertar a questão. Portanto, o ML3 é o modelo mais

adequado quando os itens da prova ou exame são de múltipla escolha. O ML3 é utilizado

para obtenção das proficiências no ENEM, SAEB, TOEFL e outros exames.

3.1.4 Curva Caracteŕıstica do Item

O traço latente, representado por θj, determina as respostas fornecidas pelos

sujeitos aos itens. Conforme os modelos da TRI, apresentados nas seções anteriores, baixos

10

valores de θj implicam em baixas probabilidades de acerto ou endosso ao item, representada

por P (Ukj = 1|θj) e portanto, altos valores de θj implicam em altas probabilidades.

A representação dos modelos da TRI pode ser feita através da Curva Caracteŕıstica

do Item (CCI) que relaciona a P (Ukj = 1|θj) com os parâmetros dos itens. A CCI é um

importante mecanismo gráfico que demonstra uma relação monótona crescente e não linear

entre P (Ukj = 1|θj) e θj e apresenta um formato sigmóide, resultante do uso da função

loǵıstica. Para cada item avaliado, existe uma CCI espećıfica, em função do ńıvel de

dificuldade e poder discriminativo diferentes. Nas figuras 3.1, 3.2 e 3.3 são dados exemplos

de CCI para os modelos ML1, ML2 e ML3, respectivamente.

Figura 3.1: Exemplo de Curva Caracteŕıstica do Item - ML1

Na Figura 3.1 é apresentado um exemplo de CCI para três itens modelados pelo

ML1. Este modelo avalia apenas a dificuldade do item, rotulada pelo parâmetro b. O

impacto na variação de b é sentido pela localização das curvas. Dessa forma, a dificuldade

do item é um parâmetro de locação, pois o posicionamento da CCI no eixo dos ńıveis de θ é

o que distingue os três itens. Esse parâmetro é medido na mesma escala de θ e corresponde

11

ao valor de θ para que a probabilidade de acerto ou endosso é de 0,5. Quanto maior o valor

de b, mais dif́ıcil é o item e vice-versa. Analisando a figura, a curva pontilhada seria o

item mais dif́ıcil, pois, para que o indiv́ıduo acerte ou endosse esse item com probabilidade

de 0,5 seria necessário θ ser igual a 1 e, por sua vez, na curva tracejada tem-se o item mais

fácil, com b igual a -1.


A Figura 3.2 apresenta um exemplo de CCI para três itens modelados pelo ML2.

Este modelo considera a discriminação e a dificuldade dos itens. A interpretação do

parâmetro b é análoga a do ML1. Intencionalmente, b foi fixado em 0, para facilitar

visualização do impacto da discriminação em cada item, rotulada pelo parâmetro a, nas

curvas. O parâmetro a é proporcional ao valor da derivada primeira da curva no ponto

de inflexão, reflete na inclinação, ou seja, no poder discriminativo do item. Itens com

curvas mais inclinadas são mais úteis para distinguir indiv́ıduos que possuem diferentes

magnitudes de θ, principalmente para valores próximos do parâmetro de locação. Os valores

de a variam frequentemente entre 0 e 2. Um valor perto de 0 informa que indiv́ıduos com

12

intensidades de θ distantes possuem probabilidade de endosso semelhantes, o praticamente

não é interessante do ponto de vista da TRI. Não se espera itens com a negativo, pois

indicariam que a probabilidade diminui com o aumento de θ. Entre os itens descrito na

figura, o item 1 (curva tracejada) é o que tem a discriminação mais baixa, pois a sua CCI

é a mais achatada e é não capaz de diferenciar sujeitos com valores θ próximos, sobretudo

valores em torno do 0. O item 2 (curva cont́ınua) tem uma inclinação moderada e o item

3 (curva pontilhada) é aquele que melhor discrimina os indiv́ıduos.


A Figura 3.3 apresenta um exemplo de CCI para três itens modelados pelo

ML3. Esses são t́ıpicos em exames de avaliação educacional. Este modelo considera a

discriminação, a dificuldade e a probabilidade de acerto casual do item. O parâmetro

de discriminação é interpretado analogamente ao ML2. Entretanto, no caso do ML3,

a probabilidade utilizada para definir o parâmetro b, é calculada diferente dos modelos

anteriores, devido a inclusão do parâmetro c. Dessa forma, é feita a seguinte correção na

probabilidade de acerto para definição da dificuldade do item: p = (1 + c)/2. Por sua vez,

13

o parâmetro c é a asśıntota da curva. Este representa a probabilidade de um indiv́ıduo com

habilidade extremamente baixa de acertar o item, popularmente, refere-se à probabilidade

de chute. Seus posśıveis valores localizam-se no intervalo [0,1] de forma que menor o

valor de c, mais baixa é a probabilidade daquele item ser respondido corretamente por

indiv́ıduos com baixas habilidades. Quanto às CCI presentes na figura, pode-se dizer que,

o item da linha tracejada, é aquele que possui a inclinação e probabilidade de acerto casual

mais baixos, porém é o mais dif́ıcil. Já o item da linha cont́ınua é o mais fácil, discrimina

bem e sua probabilidade de chute é mediana. O item da linha pontilhada indica um alto

poder discriminativo, a maior probabilidade de chute e uma dificuldade intermediária.

3.1.5 Função de Informação do Item e Função de Informação do

Teste

A Função de Informação do Item (FII) também possibilita a construção de um

recurso gráfico derivado da TRI. A FII quantifica a informação do item para a medida do

traço latente. É definida pela função:

Ik(θ) =

[∂∂θPk(θ)

]2Pk(θ).Qk(θ)

(3.4)

sendo,

(i) Ik(θ) a informação fornecida pelo o item k no ńıvel de θ, ou seja, o quanto aquele

item contribui para a medida do traço latente;

(ii) Pk(θ) a função de resposta ao item, ou seja, a probabilidade do indiv́ıduo responder

corretamente ou afirmativamente ao item k;

(iii) Qk(θ) = 1 − Pk(θ), a probabilidade do indiv́ıduo não responder corretamente ou

afirmativamente ao item k.

Após alguns cálculos, a equação 3.4 pode ser resumida pela equação 3.5, no caso

do ML3 descrito na seção 3.1.3.3.

Ik(θ) = D2a2k

Qk(θ)

Pk(θ)

[Pk(θ)− ck

1− ck

]2(3.5)

14

Segundo a equação 3.5, a informação é maior quando bk se aproxima de θ, quanto

maior for o ak e quando ck se aproxima de 0.

A forma gráfica do FII é a Curva de Informação do Item (CII), que é utilizada

para verificação do quanto o item contribui para a medida expressa por θ. No entanto,

quanto maior for a informação mais preciso é o item para avaliar sujeitos num intervalo de

θ.

Figura 3.4: Exemplo de Curva Informação do Item

Na Figura 3.4 é apresentada a CII para 3 itens com parâmetros diferentes. A CII

é unimodal e atinge o ponto máximo quando θ é igual ao parâmetro bk. Dentre os itens

analisados, o item 1, em geral, é o mais informativo devido ao pico mais acentuado em

sua curva. Este é mais preciso para sujeitos com θ superior a 0, porém, apresenta pouco

informação para sujeitos fora desse intervalo. O item 2 é o menos informativo e apresenta

uma constância para os valores de θ. E o item 3 é mais informativo para sujeitos com θ

15

entre -2 e 1, e menos para os intervalos restantes.

A Função de Informação do Teste (FIT) é dada pela soma das informações de

cada item que compõe o teste e é expressa por:

I(θ) =K∑k=1

Ik(θ) (3.6)

Figura 3.5: Exemplo de Curva de Informação do Teste

Outra maneira de simbolizar a FIT é através do erro padrão da medida, chamado

na TRI de erro padrão de estimação, que é dado por:

EP (θ) =1√I(θ)

(3.7)

Na Figura 3.5 mostra um exemplo de Curva de Informação do Teste. Esta curva

mostra que para indiv́ıduos com θ no intervalo (-1,+2) são aqueles que o instrumento de

16

medida possui uma melhor precisão e consequentemente, o erro da medida neste intervalo,

é menor que no restante da curva.

3.1.6 Modelos para Itens Policotômicos

Dentre os modelos para itens politômicos mais conhecidos estão: Modelo de

Resposta Gradual (Samejima, 1969), Modelo de Resposta Nominal (Bock, 1972), Modelo

de Escala Gradual (Andrich, 1978), Modelo de Crédito Parcial (Masters, 1982) e Modelo

de Crédito Parcial Generalizado (Muraki, 1992). Esta seção faz menção apenas ao Modelo

de Resposta Gradual (MRG), dos citados previamente, é o mais aplicado na literatura.

Para detalhes sobre esse modelo e os demais, consultar as referências presentes na seção

3.1.

Suponha que os escores de uma categoria c estão dispostos em ordem crescente

denotados por c = 0, 1, ...,mk onde (mk + 1) é o número de categorias do k-ésimo item. A

probabilidade do j-ésimo indiv́ıduo escolher uma particular categoria ou outra mais alta

do item k é expressa por:

P+k,c(θj) =1

1 + e−Dak(θj−bk,c)(3.8)

com k = 1, 2, ..., K, j = 1, 2, ..., n, e c = 0, 1, ...,mk, onde:

bk,c é o parâmetro de dificuldade do item k relacionado à categoria c. Os demais parâmetros

do modelo são análogos aos definidos no ML2 (ver seção 3.1.3.2). Vale assegurar que,

por definição, deve-se ter necessariamente uma ordenação entre os ńıveis de dificuldade

das categorias de um dado item, de acordo com a classificação de seus escores, ou seja,

bk,1 ≤ bk,2 ≤ ... ≤ bk,mk .

A probabilidade do indiv́ıduo j receber um escore c no item k é dada por:

Pk,c(θj) = P+k,c(θj)− P

+k,c+1(θj) (3.9)

E Samejima também admite que P+k,0(θj) = 1 e P+k,mk+1

(θj) = 0. Então, após

alguns cálculos, tem-se que:

Pk,c(θj) =1

1 + e−Dak(θj−bk,c)− 1

1 + e−Dak(θj−bk,c+1)(3.10)

Observa-se que em um item com (mk + 1) categorias, mk valores de dificuldades

são estimados, além do parâmetro de inclinação do item.

17

3.1.7 Suposições do Modelo

Os modelos da TRI, relatados neste trabalho, pressupõem duas caracteŕısticas ou

condições de especial importância: a unidimensionalidade e a independência.

O primeiro pressuposto é a unidimensionalidade da prova ou questionário, ou

seja, a homogeneidade do conjunto de itens. Logo, deve-se haver somente um único traço

latente causador da realização de todos os itens da prova ou questionário. No entanto,

para obedecer este postulado é fundamental que haja um fator dominante responsável pelo

conjunto de itens. Uma das maneiras de verificar esse pressuposto é através da análise

fatorial a partir da matriz de correlações tetracóricas.

O segundo pressuposto do modelo é a invariância dos parâmetros também conhe-

cida como independência local ou independência condicional, a qual se refere que, para

um dado traço latente, as respostas dos diferentes itens são independentes, por exemplo,

a resposta do item Y não é derivada do item X. Este postulado é primordial para o

processo de estimação dos parâmetros do modelo. Pasquali (2003) acrescenta que cada

item é respondido exclusivamente em função do tamanho do traço latente do respondente.

É demostrado que a unidimensionalidade resulta em independência local, todavia, tem-se

apenas uma e não duas suposições a serem verificadas (Hambleton e Swaminathan, 1991).

3.1.8 Estimação do Parâmetros

O primeiro passo na aplicação dos modelos da TRI é a definição do traço latente

e dos itens que compõe o instrumento de medida. O segundo passo consiste em escolher o

modelo mais adequado, aquele que se enquadrada melhor segundo as caracteŕısticas dos

itens. O terceiro, e tão importante quando os anteriores, é a estimação dos parâmetros

dos itens e dos respondentes, que determinam a probabilidade e são, na maioria das vezes,

ambos desconhecidos e somente as respostas aos itens são conhecidas. O problema da

estimação está em determinar o traço latente de cada sujeito e as caracteŕısticas de cada

item.

Esta seção apresenta, resumidamente, os métodos mais conhecidos para estimar

os parâmetros dos itens e dos respondentes nos modelos da TRI já descritos. Dado o

pressuposto da independência entre as respostas dos indiv́ıduos e da independência entre

as respostas dos itens, são descritos três métodos para estimação: estimação por máxima

18

verossimilhança conjunta, estimação por máxima verossimilhança marginal e estimação

bayesiana.

3.1.8.1 Estimação por Máxima Verossimilhança Conjunta

A estimação por Máxima Verossimilhança Conjunta (MVC) consiste em maximizar

a função de verossimilhança para os parâmetros dos itens dos sujeitos. Esta função é

representada por:

L(θ, ζ) = P (U |θ, ζ) =N∏j=1

K∏k=1

Pukjkj (1− Pkj)

1−ukj (3.11)

ln(L) =N∑j=1

K∑k=1

ukjln(Pkj) + (1− ukj)ln(1− Pkj) (3.12)

Onde,

(i) U = (ukj) é a matriz das respostas (N ×K);

(ii) ζ é o vetor de parâmetros dos itens (q×K × 1), sendo q a quantidade de parâmetros.

Os valores que maximizam θ e ζ são encontrados através de um método numérico

iterativo, por exemplo, Newton-Raphson ou Scoring de Fisher. São necessárias as derivadas

parciais de primeira e segunda ordem de ln(L) com respeito a θ e ζ. O método MVC

possui algumas desvantagens, como alguns problemas de indeterminação, não apresenta

propriedades assintóticas e é bastante trabalhoso computacionalmente.

3.1.8.2 Estimação por Máxima Verossimilhança Marginal

O método de Máxima Verossimilhança Marginal (MVM) propõe fazer a estimação

em duas etapas: primeiro os parâmetros dos itens, ζ e depois dos respondentes, θ. Em

comparação ao método MVC, o método MVM é mais eficiente, pois possui propriedades

assintóticas e consistentes dos parâmetros dos itens e uma vez estimados esses parâmetros,

pode-se estimar θ pelos métodos iterativos. Entretanto, ambos os métodos apresentam

um problema: são indefinidos para um padrão de resposta de acerto ou erro total.

Para tanto, faz-se necessário marginalizar a verossimilhança integrando-a com

relação à distribuição de θ. Este processo faz com que θ seja desconsiderado viabilizando a

19

estimação de ζ. Contudo, deve-se assumir que os respondentes pertençam a uma população

em que a caracteŕıstica de interesse θ siga uma distribuição cont́ınua, duplamente diferencial

com primeiros momentos finitos e com densidade g parametrizada por η, isto é, g(η, θ).

Comumente adota-se para descrever g uma distribuição normal padronizada, de modo

que η = (µ, σ) = (0, 1). Tal estatégia resolve o problema de indeterminação causado pela

arbitrariedade de θ. O procedimento de estimação via MVM está descrito nas equações

3.13 e 3.14.

P (Uj|θ, ζ) =ukj∏k=1

Pukjkj (1− Pkj)

1−ukj (3.13)

A probabilidade marginal de Uj é dada por:

P (Uj|θ, η) =∫ +∞−∞

P (uj|θ, ζ)g(θ, η)dθ (3.14)

Utilizando o pressuposto de independência, pode-se escrever a probabilidade do

vetor de resposta U que representa a verossimilhança marginal, como:

L = P (U |ζ, η) =n∏j=1

P (Uj|ζ, η) (3.15)

Para um dado item k, ζk é ponto de máximo L se este item é solução das seguintes

equações:

∂L

∂ak= 0

∂L

∂bk= 0

∂L

∂ck= 0 (3.16)

Nas expressões da equação 3.16 é necessário avaliar a integral em função de θ,

descrita na equação 3.14. Essa integral não é resolvida analiticamente, sendo preciso

aproximá-la através de métodos numéricos. Uma abordagem amplamente utilizada para

obter tal aproximação é o Método de Quadratura de Hermite-Gauss.

3.1.8.3 Estimação Bayesiana

Há vários métodos para a Estimação Bayesiana (EB) da TRI. O mais utilizado

para estimar os parâmetros dos itens é Estimação Bayesiana Marginal a Posterior. A

metodologia Bayesiana permite contornar dois problemas do método de MVM. O primeiro

20

problema está relacionado à indefinição para qualquer padrão de resposta. O segundo

problema recorrente é a obtenção de estimativas fora do campo de variação do parâmetro,

por exemplo, a estimação de valores negativos quando o suporte é não negativo.

Sobretudo, a EB baseia-se em estabelecer distribuições a priori para os parâmetros

de interesse, construir uma nova função denominada distribuição a posteriori e estimar

os parâmetro segundo alguma função dessa distribuição. Geralmente, as distribuições a

priori utilizadas são:

(i) Normal(µ, σ2) para θ;

(ii) Lognormal(µa, σ2a) para ak;

(iii) Normal(µb, σ2b ) para bk;

(iv) Beta(α, β) para ck.

Para estimação do traço latente, θj , utiliza-se a Estimação pela Média a Posteriori

(EMP). Segue que a esperança condicional é dada por:

θ̂j =

∑qr=1XrP (uj|Xr, ζ)A(Xr)∑qr=1 P (uj|Xr, ζ)A(Xr)

(3.17)

em que, Xr é um ponto de quadratura e A(Xr) é um peso positivo correspondendo à

altura do histograma para o ponto Xr.

3.2 Modelos Lineares Multińıveis

Um fenômeno comum em pesquisas de diversas áreas, especialmente em Educação, Psico-

logia, Medicina e Estudos Sociais, é que os dados apresentam algum tipo de aglomeração

ou hierarquia, ou seja, as informações coletadas dos indiv́ıduos podem estar separadas em

diferentes ńıveis de agrupamento. Este fato poder ser importante para a compreensão

do problema analisado. Em Educação, onde, por natureza, é observada esta estrutura,

o pesquisador, por exemplo, pode investigar quais caracteŕısticas associadas ao aluno

influenciam seu desempenho em um determinado exame em uma localidade. Nesta situação,

tanto o aluno (ńıvel micro) quanto a escola (ńıvel macro) são unidades de análise, pois o

desempenho está relacionado às caracteŕısticas de ambas esferas, deste modo, compondo

dois ńıveis de análise.

21

Um padrão hierárquico é percebido facilmente no sistema educacional, onde os

alunos formam uma turma, turmas uma escola, escolas encontram-se em uma determinada

localidade e assim por diante. Os outros exemplos são vistos quando se analisa pacientes

em hospitais em uma região e funcionários em filiais em uma grande empresa e outros. A

Figura 3.6 exemplifica uma estrutura hierárquica para dados educacionais.

Figura 3.6: Estrutura Hierárquica em Dados Educacionais

Fonte: Elaboração dos autores.

A revisão teórica dos Modelos Lineares Multińıveis presente neste trabalho está

densamente baseada em Raudenbush e Bryk (2002), Hox (2010), Barbosa e Fernandes

(2002) e Laros e Marciano (2008). Os principais assuntos relacionados ao tema serão

descritos sucintamente a seguir.

3.2.1 Modelo de Regressão Tradicional versus Modelo de Re-

gressão Multińıvel

O Modelo Tradicional ou Regressão Clássica é uma das técnicas de análise de dados

muito utilizada em ciências sociais, em avaliação, em estudos econômicos, em negócios, em

saúde e em várias outras áreas.

Neter (2005) define o Modelo de Regressão Clássico como uma metodologia es-

tat́ıstica que utiliza a relação de uma variável resposta (Y) com uma ou mais variáveis

preditoras (Xk) para explicar o fenômeno medido por Y ou fazer predições. Para exempli-

22

ficar o modelo de regressão clássico, considere o seguinte cenário: um pesquisador busca

avaliar fatores que explicam o desempenho (Y) escolar em matemática de n alunos em

uma determinada localidade. As variáveis explicativas estudadas foram a dummy atraso,

indicando se o aluno está atrasado em relação a sua jornada estudantil (X1) e a renda

domiciliar per capita (X2), medida em unidades monetárias. Um posśıvel modelo seria:

Yi = β0 + β1X1i + β2X2i + εi (3.18)

sendo,

(i) Yi: variável resposta observada no estudante i, representa o rendimento escolar;

(ii) X1i: variável explicativa observada no aluno i, indica se o aluno está atrasado;

(iii) X2i: variável explicativa observada no aluno i, representa o valor da renda domiciliar

per capita;

(iv) β0: é o intercepto, é o valor esperado da variável resposta, quando X1i = 0 e X2i = 0;

(v) β1: é a mudança esperada na variável resposta quando o aluno está atrasado

(X1i = 1);

(vi) β2: é a mudança esperada na variável resposta quando X2i aumenta em uma unidade;

(vii) εi: erro aleatório associado ao i-ésimo aluno, referentes a outras variáveis ou fonte

de variação não observáveis.

As principais suposições são:

(i) A função matemática entre Y e X é linear;

(ii) E(εi) = 0;

(iii) V ar(εi) = σ2 (homoscedasticidade);

(iv) Cov(εi, εj) = 0, para i 6= j (independência);

(v) εi ∼ N(0, σ2) (normalidade).

23

Com esse modelo, podem-se estudar as caracteŕısticas relacionadas ao aluno e

seu rendimento considerando que esses estão no mesmo grupo. Entretanto, esses alunos

não pertencem ao mesmo grupo, eles estão aglomerados em escolas diferentes. Nesta

situação, o modelo de regressão tradicional deixa de ser apropriado, pois tem-se dados

de agrupamento, onde a estrutura hierárquica não é colocada neste modelo. E deve-se

ressaltar que as caracteŕısticas relacionadas às escolas podem ter um efeito razoável no

rendimento do aluno.

O exemplo utilizado anteriormente ilustra um dos problemas ao usar a regressão

clássica em Educação, pois o pressuposto da independência entre as observações é violado,

porque os alunos estão agrupados em ńıveis superiores, impossibilitando o uso correto das

técnicas tradicionais de estimação, especificamente via Mı́nimos Quadrados Ordinários

(MQO). Uma consequência da dependência entre as observações é a subestimação dos

erros padrões dos coeficientes de regressão. Uma opção metodologicamente recomendada

para estabelecer relações entre variáveis, segundo o exemplo, é o Modelo Multińıvel, que

contempla os ńıveis de agregação dos dados. Essa técnica é um tipo de análise de regressão

que considera a estrutura hierárquica dos dados simultaneamente, tornando correta a

inferência estat́ıstica dos parâmetros do modelo. Além disso, ao lidar com variáveis em

diferentes ńıveis, o modelo tradicional não considera a correlação entre os indiv́ıduos

associados ao mesmo ńıvel de agregação. É o caso da correlação entre alunos da mesma

escola. Quando maior for a correlação entre os indiv́ıduos maior a inadequação do modelo

de regressão tradicional (Laros, 2008).

3.2.2 Especificação do Modelo Multińıvel

Na literatura, os Modelos Lineares Multińıveis (MLM) ou Modelos de Regressão Multińıvel

também são conhecidos como Modelos Lineares Hierárquicos, Modelos de Efeitos Aleatórios

e Regressão Hierárquica. Os objetivos em utilizar os Modelos Lineares Multińıveis são:

a acomodação simultânea dos ńıveis, a parcimônia quanto ao número de parâmetros, a

produção de estimativas eficientes e além de ser a alternativa sistematicamente correta

para estabelecer as relações entre variáveis de diferentes ńıveis. Esta seção formaliza o

MLM para dois ńıveis de análise.

Ainda no exemplo da seção anterior, considere o mesmo conjunto de dados e a

mesma estrutura composta por dois ńıveis. O ńıvel 1 (micro) é indexado por i e o ńıvel

24

2 (macro) por j. O ı́ndice j varia de 1 a J e o ı́ndice i de 1 a nj, sendo J o número de

grupos associados ao ńıvel 2 e nj o número de indiv́ıduos pertencentes ao grupo j. Se

converter a hipótese para o exemplo, pode-se definir o ńıvel micro como ńıvel aluno e o

macro como ńıvel escola.

A variável resposta é sempre limitada ao ńıvel micro e as explicativas para ambos

os ńıveis. No ńıvel aluno, tem-se como variável resposta (Y ) o rendimento escolar em

matemática (desempenho) e duas variáveis explicativas no ńıvel aluno: o atraso escolar

(X1), e a renda domiciliar (X2), e assume-se o porte da escola (W ), medida pelo número

total de alunos, como variável explicativa do ńıvel escola. Note que a única mudança é a

inclusão de uma variável no ńıvel macro. A representação deste modelo está descrita na

equação 3.19. Para analisar os dados, podem-se configurar regressões para cada escola

separadamente, para explicar a variável resposta Y usando as variáveis preditoras X.

Yij = β0j + β1jX1ij + β2jX2ij + εij (3.19)

Substituindo os rótulos das variáveis na equação 3.19, o modelo é lido por:

desempenhoij = β0j + β1jatrasoij + β2jrendaij + εij (3.20)

Na equação 3.20, β0j é o intercepto, β1j é o coeficiente de regressão (inclinação) para

a variável dicotômica atraso, β2j é o coeficiente de regressão para a variável quantitativa

renda familiar e εij é o termo erro. A diferença entre a equação 3.18 e 3.19 é que intercepto

e as inclinações são diferentes para cada escola, ou seja, eles variam de escola para escola.

Supõem-se que o termo erro εij possui média zero e a variância chamada de σ2e , que pode

ser estimada. Destaca-se que, o intercepto e os coeficientes de inclinação são variáveis

aleatórias, frequentemente são chamados de coeficientes randômicos.

O próximo passo na regressão multińıvel é incluir a variável explicativa do segundo

ńıvel (W ). A inclusão se dá pela variação dos coeficientes de regressão βj introduzindo-a

do segundo ńıvel. As equação 3.21, 3.22 e 3.23 mostram o processo.

β0j = γ00 + γ01Wj + u0j (3.21)

β1j = γ10 + γ11Wj + u1j (3.22)

β2j = γ20 + γ21Wj + u2j (3.23)

Sendo,

25

(i) u0j ∼ N(0, σ2u0);

(ii) u1j ∼ N(0, σ2u1);

(iii) u2j ∼ N(0, σ2u2);

(iv) Cov(uqj, ulj) = σql, para q 6= l.

Os termos u0j, u1j e u2j nas equações 3.21, 3.22 e 3.23 são as componentes

aleatórias associadas ao intercepto, coeficientes de inclinação de X1 e coeficientes de

inclinação de X2, respectivamente e são designadas por erros do ńıvel 2. Os termos γ

representam os coeficientes de regressão. Supõe-se que os reśıduos uj tem média zero e

são independentes do reśıduo eij do ńıvel 1. As variâncias podem ser estimadas e são

chamados de σ2u0, σ2u1 e σ

2u2. Ressalta-se que os parâmetros β0j , β1j e β2j possuem ı́ndice j

indicando a existência de um parâmetro para escola j.

O modelo presente na equação 3.24 resulta da substituição das equações 3.21, 3.22

e 3.23 na equação 3.19. Pode-se chamar esse modelo de completo (saturado) de dois ńıveis

com duas variáveis explicativas no primeiro ńıvel e uma no segundo.

Yij = γ00 + γ10X1ij + γ20X2ij + γ01Wj + γ11X1ijWj + γ21X2ijWj

+u1jX1ij + u2jX2ij + u0j + eij (3.24)

Se substituir os rótulos das variáveis na equação 3.24 tem-se:

desempenhoij = γ00 + γ10atrij + γ20rendaij + γ01portej + γ11atrijportej

+γ21rendaijportej + u1jatrij + u2jrendaij + u0j + eij (3.25)

Na equação 3.24, os termos da primeira linha (γ00 + γ10X1ij + γ20X2ij + γ01Wj +

γ11X1ijWj +γ21X2ijWj) são os coeficientes fixos ou determińısticos do modelo. O segmento

presente na segunda linha (u1jX1ij +u2jX2ij +u0j +eij) contém os termos referentes ao erro

residual e são chamados de parte randômica do modelo. As expressões X1ijWj e X2ijWj

são os termos de interação. Eles aparecem devido a modelagem de várias inclinações βj da

variável Xij com a variável Wj. A interpretação desse termo merece mais cautela.

3.2.3 Estimação

Após definir as posśıveis variáveis explicativas para compor o modelo, é necessário

estimar os parâmetros, interpretá-los e testar a significância estat́ıstica. Três tipos de

26

parâmetros podem ser estimados em uma análise multińıvel: efeitos fixos (γ1q ou γ0p),

efeitos aleatórios do ńıvel 1 (βj) e os componentes de variância (σj).

O processo de estimação começa com escolha do método utilizado. Dentre os

métodos de estimação, os baseados na Máxima Verossimilhança são os mais difundidos.

Estes métodos são geralmente mais robustos e produzem estimativas que são assintotica-

mente eficientes e consistentes. Duas funções de verossimilhança são usadas em modelos de

regressão multińıvel. A primeira é a Máxima Verossimilhança Completa (MVC) que inclui

os coeficientes de regressão e as componentes de variância na função de verossimilhança

conjuntamente. Na segunda função, a Máxima Verossimilhança Restrita (MRV), somente

os componentes de variância são inclúıdos na função e os coeficientes de regressão são

estimados em um segundo passo. Ambos os métodos demandam um processo iterativo.

Outras ferramentas, como Mı́nimos Quadrados Generalizados, Equações Generalizadas,

Bootstrapping e Métodos Bayesianos, são outras formas de estimação menos utilizadas.

3.2.4 Seleção de Variáveis

Nesta seção é proposto um método que orienta a seleção das variáveis explicativas

em um modelo multińıvel. Este método é composto por cinco etapas, descritas a seguir.

Um modelo multińıvel geral para dois ńıveis é dado pela equação (3.26) e Yij representa a

variável resposta, podendo representar o desempenho i-ésimo estudante da j-ésima escola.

Yij = γ00 + γp0Xpij + γ0qWqj + γpqWqjXpij + upjXpij + u0j + eij (3.26)

Etapa 1

Analisa-se o modelo sem nenhuma variável explicativa. Esse modelo é chamado de modelo

nulo, sendo equivalente a um modelo one-way ANOVA com efeitos aleatórios e é dado

por:

Yij = γ00 + u0j + eij (3.27)

Na equação (3.27), γ00 é o intercepto da regressão, e u0j e eij são os reśıduos usuais do

ńıvel da escola (ńıvel 2) e ńıvel do estudante (ńıvel 1), respectivamente. Neste modelo, dito

como inicial, é posśıvel calcular o coeficiente intraclasse ρ que mede o quanto da variação

27

do desempenho dos estudantes é explicada pela variação entre as escolas. O cálculo desse

coeficiente é dado pela equação (3.28).

ρ =σ2u0

σ2u0 + σ2e

(3.28)

Etapa 2

Analisa-se um modelo controlado pelas variáveis explicativas do ńıvel 1. Isso significa que

as componentes de variância correspondentes aos coeficientes são fixados em zero. Este

modelo é descrito pela equação (3.29):

Yij = γ00 +P∑p=1

γp0Xpij + u0j + eij (3.29)

em que os Xpij são as p variáveis explicativas do ńıvel 1. Nesta etapa, estima-se a contri-

buição de cada variável explicativa deste ńıvel.

Etapa 3

Analisa-se um modelo incluindo as variáveis explicativas do ńıvel 2 ao modelo anterior.

Este modelo é descrito pela equação (3.30):

Yij = γ00 +P∑p=1

γp0Xpij +

Q∑q=1

γ0qWqj + u0j + eij (3.30)

em que Wqj são as q variáveis explicativas do ńıvel 2. Os modelos das etapas 2 e 3 são

denominados de modelos de componentes de variância, por desintegrarem a variância do

intercepto em componentes diferentes de variância para cada ńıvel hierárquico. Assume-se

que o intercepto varia entre as escolas, mas coeficientes de regressão são fixos (Laros, 2008).

Etapa 4

Avalia-se se algum dos coeficientes de regressão do ńıvel micro tem uma componente

significativa de variância (diferente de zero) entre as escolas. Este modelo, chamado

modelo de coeficientes randômicos, é dado pela equação (3.31):

Yij = γ00 +P∑p=1

γp0Xpij +

Q∑q=1

γ0qWqj +P∑p=1

upjXpij + u0j + eij (3.31)

28

em que upj são os reśıduos do ńıvel 2 dos coeficientes das variáveis explicativas Xpij do

ńıvel 1.

Etapa 5

Acrescentam-se as interações entre as variáveis explicativas do ńıvel 2 com aquelas que

tiveram variância significativa de variância na etapa anterior. Isto conduz no modelo

completo formulado na equação (3.32):

Yij = γ00 +P∑p=1

γp0Xpij +

Q∑q=1

γ0qWqj +P∑p=1

upjXpij +P∑p=1

Q∑q=1

γpqWqjXpij + u0j + eij (3.32)

em que WqjXpij é o termo de interação entre os ńıveis.

3.2.5 Qualidade dos Modelos

Para avaliar a qualidade do modelo utiliza-se uma medida derivada da verossimi-

lhança, o deviance (d), definido como:

d = −2 ∗ ln(L) (3.33)

O deviance é uma medida de desajuste do modelo em relação aos dados. Na

equação 3.33, L representa o valor da função de verossimilhança. Geralmente, menores

valores de d indicam um melhor ajuste para o modelo analisado. A interpretação dessa

medida isoladamente é complexa, porém é um critério para comparar modelos encaixados.

Se dois modelos são encaixados, significa que um modelo simples (ms) pode ser derivado

de um modelo geral (mg) pela remoção de parâmetros desse modelo. Dessa forma, é

posśıvel realizar um teste qui-quadrado de diferenças dos deviances. A estat́ıstica do teste

é dada por:

G2 = dmg − dms (3.34)

Na equação 3.34, dmg é o deviance calculado para o modelo geral e dms para o

modelo simples. G2 segue uma distribuição qui-quadrado com os graus de liberdade igual

a diferença entre o número de parâmetros dos modelos. Esse teste é semelhante ao teste

de razão de verossimilhança.

Se os modelos não são encaixados, o teste anterior não pode ser aplicado. Entre-

tanto, pode-se avaliar a qualidade de ajuste baseando-se no Akaike Information Criterion,

29

AIC (Akaike, 1987). O AIC, em regressão multińıvel, é calculado a partir do deviance e

do número de parâmetros estimados (t) conforme a equação 3.35.

AIC = d+ 2t (3.35)

Para comparar dois modelos usando o AIC é necessário que o ajuste desses sejam

do mesmo conjunto de dados e utilizando o mesmo método de estimação. Escolhe-se como

modelo de melhor ajuste o que possuir menor AIC.

3.2.6 Coeficientes de Determinação

Na regressão multińıvel o problema de explicar ou modelar a variação explicada é

complexo, diferente da regressão tradicional, que facilmente se encontra o coeficiente de

determinação R2. Para encontrar uma estat́ıstica análoga ao R2, deve-se avaliar a redução

da variância pertinente a introdução das variáveis explicativas. Esta análise é realizada

ńıvel por ńıvel. A proporção da variância explicada pela inclusão das variáveis explicativas

do ńıvel 1, é dada por:

R21 =σ2e|b − σ2e|m

σ2e|b(3.36)

Em que σ2e|b é a variância do reśıduo do primeiro ńıvel para o modelo base e σ2e|m

é a variância do reśıduo do primeiro ńıvel para o modelo comparação.

A proporção da variância explicado para a ńıvel 2 é expressa pela equação:

R22 =σ2u0|b − σ2e|m

σ2u0|b(3.37)

Em que σ2u0|b é a variância do reśıduo do segundo ńıvel para o modelo base e σ2u0|m

é a variância do reśıduo do segundo ńıvel para o modelo comparação.

3.2.7 Análise dos Reśıduos

Após todo o processo de construção e análise do modelo, visto nas seções anteriores,

é necessário avaliar se as suposições de normalidade, linearidade e homoscedasticidade são

válidas. Para tal avaliação, utilizam-se os reśıduos. Os reśıduos correspondem à diferença

entre os valores observados e os valores preditos da regressão.

Para avaliar a normalidade dos reśıduos são indicados dois procedimentos. O

primeiro demanda plotar um gráfico de dispersão dos reśıduos padronizados contra o seu

30

respectivo escore normal. Se os reśıduos tem distribuição normal, os pontos distribuem

em torno de uma linha diagonal. Na figura 3.7 é apresentado um gráfico que enfatiza

perfeitamente essa condição. Esse gráfico também é chamado gráfico de probabilidade

normal ou QQ-plot. O segundo procedimento é o teste de normalidade.

Figura 3.7: Gráfico de Probabilidade Normal

Fonte: Hox (2002).

Na figura 3.8 são plotados os reśıduos padronizados versus os valores preditos.

Neste, é posśıvel identificar falhas nas suposições de normalidade, linearidade e homos-

cedasticidade. Se os pontos estiverem distribúıdos em torno do zero e não apresentarem

nenhum padrão, ou seja, se comportam aleatoriamente, as suposições não são violadas.

Figura 3.8: Reśıduos padronizados versus valores preditos

Fonte: Hox (2002).

31

Caṕıtulo 4

Metodologia

Nesta seção será descrito o processo de criação dos indicadores propostos e seus respectivos

itens. Em seguida, serão detalhados os recortes usados nas bases de dados e as variáveis

do modelo multińıvel.

4.1 Indicador de Infraestrutura Escolar

Quando se estuda a relação entre desempenho acadêmico de estudantes e escolas, a

questão a infraestrutura escolar é colocada em evidência como um posśıvel fator associado ao

desempenho. Espera-se que uma escola com melhores estruturas f́ısicas e bons equipamentos

didáticos possua um melhor desempenho. Em muitas pesquisas, o efeito da infraestrutura

sobre o desempenho é estudado, uma delas foi o estudo realizado por Duarte, Gargiulo e

Moreno (2011), junto ao Banco Interamericano de Desenvolvimento (BID). Neste estudo, os

autores exploraram o estado da infraestrutura das escolas de educação básica em 16 páıses

da América Latina, inclusive o Brasil, e identificaram que, ao relacionar infraestrutura

com resultados acadêmicos, o fator que está mais associados a aprendizagem, quanto a

infraestrutura, é a presença de espaços de apoio a docência (bibliotecas, laboratório de

ciências e salas de informática).

Um dos objetivos do presente trabalho, é construir uma medida que quantifique a

infraestrutura das escolas localizadas na AMB. Foram escolhidas as escolas que ofertaram

a modalidade de ensino médio utilizando os dados do Censo Escolar 2014. Esta medida é

chamada de Indicador de Infraestrutura Escolar (INFE). Ela é baseada na escala proposta

por Soares Neto (2013) com algumas modificações na seleção das escolas e nos itens. O

32

Quadro 4.1 apresenta a relação dos itens usados para a construção do INFE.

Quadro 4.1: Descrição dos Itens de Infraestrutura Escolar

Item Descrição

1 Sala diretoria

2 Sala professor

3 Laboratório de informática

4 Laboratório de ciências

5 Sala de atendimento especial

6 Quadra

7 Cozinha

8 Biblioteca

9 Secretaria

10 Auditório

11 Internet

12 Sanitário PNE

13 Dependência PNE

14 Copiadora

15 Impressora

16 Multimı́diaFonte: Elaboração dos autores. Dados: INEP.

Os itens presentes no Quadro 4.1 são dicotômicos, assumindo resposta igual a

1 quando a escola possui a instalação ou equipamento e assumindo 0, caso contrário.

Tomando a infraestrutura como um traço latente, utilizou-se o Modelo Loǵıstico de 2

Parâmetros da TRI para calcular o INFE. Este indicador é uma escala cont́ınua com médio

50 e com desvio padrão igual a 20. Foram analisadas 237 escolas.

4.2 Indicador de Nı́vel Socioeconômico

O objetivo do Indicador de Ńıvel Socioeconômico (INSE) é situar o aluno em uma

classe ou estrato social e construir a mesma medida para as escolas utilizando o INSE de

seus respectivos alunos. Segundo a mesma metodologia proposta por Alves (2014), porém

33

com alguns ajustes, foi calculada, neste trabalho, uma medida de ńıvel socioeconômico

(NSE) para os estudantes concluintes do ensino médio e que participaram no ENEM 2014

na AMB, esta medida é o INSE. Para isso, tomou-se o NSE como uma caracteŕıstica

latente e não observável do estudante. Esta se manifesta através da escolaridade dos pais,

renda familiar, posse de bens e contratação de serviços. Os dados para implementação

dessa medida originam-se do questionário contextual preenchido pelos estudantes.

Utilizou-se o Modelo de Resposta Gradual da TRI (ver seção 3.1.6) para construção

do indicador. Este modelo é o adequado para análise do NSE, pois os itens do questionário

são politômicos e estão em escala ordinal. O INSE é expresso por uma escala cont́ınua

com média 50 e com desvio padrão igual a 20. E o INSE das escolas é calculado com

base na média do INSE de seus respectivos alunos. O Quadro 4.2 indica quais itens foram

usados para a análise e sua descrição.

Quadro 4.2: Descrição dos Itens de Nı́vel Socioeconômico

Item Descrição Identificação

1 Escolaridade do pai 1 = Não estudou / 2 = Fundamental / 3 = Médio / 4 = Superior

2 Escolaridade da mãe 1 = Não estudou / 2 = Fundamental / 3 = Médio / 4 = Superior

3 Tipo de residência 1 = Outra / 2 = Alugada/Cedida / 3 = Financiada / 4 = Própria

4Renda familiar

(em salários mı́nimos)

1 = Nenhuma / 2 = Até 1 / 3 = 1 a 1,5 / 4 = 1,5 a 2

5 = 2 a 3 / 6 = 3 a 6 / 7 = Superior a 6

5 TV 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais

6 DVD 1 = Não possui / 2 = Possui

7 Computador 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais

8 Automóvel 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais

9 Máquina de lavar 1 = Não possui / 2 = Possui

10 Geladeira 1 = Não possui / 2 = Possui

11 Freezer 1 = Não possui / 2 = Possui

12 Telefone fixo 1 = Não possui / 2 = Possui

13 Celular 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais

14 Internet 1 = Não possui / 2 = Possui

15 TV por assinatura 1 = Não possui / 2 = Possui

16 Aspirador de por 1 = Não possui / 2 = Possui

17 Empregada 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais

18 Banheiro 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais

Fonte: Elaboração dos autores. Dados: INEP.

34

4.3 Dados para a Modelagem

O objetivo principal deste trabalho é desenvolver um Modelo Multińıvel que

identifique quais caracteŕısticas influenciam no desempenho de estudantes do ensino

médio das escolas públicas da AMB em 2014. No primeiro ńıvel estão os alunos e no

segundo as escolas. Para atingir este objetivo, o conjunto de dados do ENEM 2014, que

coletou informações sobre o estudante, a escola, as notas das provas e o questionário

socioeconômico, foi utilizado como base principal. A base ENEM por Escola foi usada

de forma complementar, possibilitando a inclusão de outras caracteŕısticas referentes às

escolas não contidas na base de dados do ENEM. Ambas as bases são coordenadas pelo

INEP. Para alcançar a população de interesse foram realizadas recortes nas duas bases.

Do ENEM foram selecionados estudantes que:

• conclúıram o ensino médio regular público em 2014;

• residiam e estudavam na AMB;

• presentes nos dois dias de aplicação da prova.

A base final foi composta pela junção do ENEM com os filtros acima e o ENEM

por Escola. Embora o ENEM seja um exame voluntário há alguns problemas de represen-

tatividade. Para contornar esses problemas mais dois critérios de seleção foram usados.

O primeiro foi selecionar apenas escolas que tinham no mı́nimo 10 alunos inscritos no

exame e que obtiveram um percentual de participação superior a 50%. Então, o Modelo

Multińıvel foi composto por 14.659 alunos e 120 escolas.

4.4 Variáveis Explicativas do Modelo

Considerou-se como variável resposta do modelo a média aritmética das notas de

todas as provas do ENEM. Esta variável é chamada de desempenho do aluno. As variáveis

explicativas são as caracteŕısticas dos alunos e das escolas que se esperam relacionar com o

desempenho. No Quadro 4.3 são detalhadas as variáveis explicativas, em ambos os ńıveis,

que serão, posteriormente inclúıdas no Modelo Multińıvel.

35

Quadro 4.3: Descrição das Variáveis Explicativas do Modelo

Descrição Rótulo Tipo

Nı́vel Aluno

Idade idade Discreta

Cor/Raça: Branco cor Indicadora

Escolaridade da Mãe: Médio ou Superior esc mae Indicadora

Escolaridade da Pai: Médio ou Superior esc pai Indicadora

Renda per Capita renda Cont́ınua

Defasagem defasagem Indicadora

Nı́vel Escola

Indicador de Nı́vel Socioeconômico Médio inse médio Cont́ınua

Indicador de Infraestrutura infe Cont́ınua

Taxa de Participação no ENEM t part Cont́ınua

Indicador de Formação Docente f doc Cont́ınua

Taxa de Aprovação t apr Cont́ınua

Número de Matŕıculas no Ensino Médio porte Cont́ınua

Média do Número de Alunos por Turma a turma Cont́ınua

Taxa de Distorção Idade/Série t dis Cont́ınuaFonte: Elaboração dos autores. Dados: INEP.

36

Caṕıtulo 5

Resultados

5.1 Indicadores

Nessa seção serão apresentados os principais resultados referentes às análises da

TRI para o Indicador de Infraestrutura Escolar (INFE) e o Indicador de Nı́vel Socio-

econômico (INSE). Utilizou-se como ferramentas computacionais: o Programa R, em

especial, o pacote ltm e o SAS com a PROC IRT.

5.1.1 Infraestrutura

Realizou-se a primeira análise para estimação dos parâmetros dos itens, também

conhecida como calibração. O Modelo Loǵıstico de 2 Parâmetros foi utilizado para estimar

a infraestrutura das 237 escolas. Nesta primeira análise, observou-se problemas com os

seguintes itens: cozinha, copiadora, impressora e multimı́dia. Por esse motivo, foram

exclúıdos esses itens e realizou-se uma segunda análise para reestimação dos parâmetros

dos itens.

A Tabela 5.1 descreve os itens relacionados à infraestrutura com as respectivas

estimativas dos parâmetros de discriminação ai e dificuldade bi referente a segunda análise.

37

Tabela 5.1: Estimativas dos parâmetros de discriminação e dificuldade dos itens de

infraestrutura escolar na AMB - 2014

Item DescriçãoParâmetro

Discriminação Dificuldade

1 Sala diretoria 1,65 [0,56] -2,48 [0,51]

2 Sala professor 2,00 [0,74] -2,46 [0,48]

3 Laboratório de informática 2,25 [0,51] -1,30 [0,17]

4 Laboratório de ciências 2,08 [0,42] 0,36 [0,11]

5 Sala de atendimento especial 1,02 [0,21] 0,23 [0,16]

6 Quadra 1,51 [0,28] -0,62 [0,14]

8 Biblioteca 0,32 [0,16] -1,33 [0,76]

9 Secretaria 1,63 [0,34] -1,22 [0,19]

10 Auditório 2,42 [0,61] 0,98 [0,14]

11 Internet 2,13 [0,61] -1,95 [0,29]

12 Sanitário PNE 1,42 [0,27] -0,64 [0,15]

13 Dependência PNE 1,67 [0,31] -0,21 [0,12]Fonte: Elaboração dos autores. Dados: INEP. Nota: Erro padrão em colchetes.

A partir dessas estimativas, foram calculados os escores de infraestrutura escolar

para todas as escolas. Esses escores foram posteriormente transformados para uma escala

com média 50 e desvio padrão 20. Os escores nesta escala são chamados de Indicador de

Infraestrutura Escolar (INFE).

Com base nos parâmetros dos itens é posśıvel construir e analisar a Função de

Informação do Teste em relação ao escore de infraestrutura, como é mostrado na Figura

5.1. Para cada ponto da escala, o erro de mensuração é inverso do valor da informação, ou

seja, uma alta informação implica em erro de mensuração baixo. Observa-se que o teste

tem maior informação no intervalo entre -2,5 a 2,0. Isso que dizer que esse conjunto de

itens é mais adequado para medir a infraestrutura das escolas neste intervalo.

38

Figura 5.1: Função de Informação do Teste

Fonte: Elaboração dos autores. Dados: Censo Escolar/INEP.

A Figura 5.2 mostra a variação do INFE segundo regiões da AMB. A variabilidade

do indicador para a região 1 é muito inferior que as demais regiões. Observando apenas

as medianas, pode-se dizer que quanto maior a renda maior é o INFE da localidade. Na

região 4, os munićıpios goianos, a distribuição é bem diferente das outras regiões, onde a

mediana é muito inferior e o terceiro quartil é próximo do primeiro quartil das demais e

ainda 75% das escolas possuem INFE inferior a 50, enquanto na região 1, 75% possuem

INFE superior a 60. Tais fatos expressam o efeito da desigualdade entre as escolas do DF

e escolas dos munićıpios goianos.

39

Figura 5.2: Variação da Infraestrutura Escolar por Regiões da AMB - 2014


5.1.2 Nı́vel Socioeconômico

De acordo com que foi apresentado na seção 4.2, realizou-se a primeira análise

para estimação dos parâmetros dos itens. O Modelo de Resposta Gradual foi utilizado

para mensurar o ńıvel socioeconômico (NSE) dos 14.659 alunos e das 120 escolas. Assim

como na infraestrutura, para o NSE também se encontrou problemas em 2 itens, o item 3

(tipo de moradia) e o item 17 (contratação de empregada doméstica) (ver Quadro 4.2 para

mais detalhes sobre esses itens). Excluem-se esses itens e reestimou os parâmetros.

Os resultados da reestimação dos parâmetros estão presentes na Tabela 5.2. A

partir dessas estimativas, foram calculados os escores de NSE para todos os alunos. Esses

escores foram posteriormente transformados para uma escala com média 50 e desvio padrão

20. Os escores nesta escala são chamados de Indicador de Nı́vel Socioeconômico (INSE).

O INSE da escola é calculado tomando a média do INSE dos alunos em suas respectivas

escolas.

40

Tabela 5.2: Estimativas dos parâmetros de discriminação e dificuldade dos itens de ńıvel

socioeconômico na AMB - 2014

Item Descrição a bk,1 bk,2 bk,3 bk,4 bk,5 bk,6

1 Escolaridade do pai 1,12 [0,02] -2,86 [0,05] 0,51 [0,02] 2,43 [0,04] - - -

2 Escolaridade do mae 1,02 [0,02] -3,7 [0,07] 0,12 [0,02] 2,31 [0,04] - - -

4 Renda 1,87 [0,02] -3,33 [0,05] -0,92 [0,01] -0,05 [0,01] 0,46 [0,01] 1,09 [0,02] 1,96 [0,02]

5 TV 1,47 [0,02] -3,57 [0,06] 0,22 [0,01] 1,81 [0,02] - - -

6 DVD 0,62 [0,02] -2,16 [0,07] - - - - -

7 Computador 1,73 [0,02] -0,91 [0,01] 1,51 [0,02] 2,6 [0,03] - - -

8 Automóvel 1,72 [0,03] -0,26 [0,01] 1,85 [0,02] 3,28 [0,05] - - -

9 Máquina de lavar 1,67 [0,03] -1,17 [0,02] - - - - -

10 Geladeira 1,07 [0,06] -4,26 [0,2] - - - - -

11 Freezer 1,04 [0,02] 0,94 [0,02] - - - - -

12 Telefone 1,02 [0,02] -0,34 [0,02] - - - - -

13 Celular 0,99 [0,02] -4,68 [0,09] -1,12 [0,02] -0,12 [0,02] - - -

14 Internet 1,92 [0,04] -1,02 [0,02] - - - - -

15 TV por assinatura 1,35 [0,03] 0,55 [0,02] - - - - -

16 Aspirador de pó 1,65 [0,03] 1,33 [0,02] - - - - -

18 Banheiro 1,4 [0,02] -4,27 [0,08] 0,65 [0,01] 2,31 [0,03] - - -


Figura 5.3: Função de Informação do Teste

Fonte: Elaboração dos autores. Dados: ENEM/INEP.

Na Figura 5.3, é apresentada a Função de Informação do Teste. Através deste

gráfico observa-se que o instrumento de medida tem maior informação para os valores da

41

NSE compreendidos entre aproximadamente -2,0 a 3,0. Dessa forma, este resultado indica

que o questionário é mais proṕıcio para avaliar o NSE com valores contidos nesse intervalo.

Figura 5.4: Variação do Nı́vel Socioeconômico das Escolas por Regiões da AMB - 2014


A Figura 5.4 possibilita a análise do comportamento do INSE das escolas segundo

regiões da AMB. Imediatamente, nota-se uma associação entre a renda média da localidade

e o INSE das escolas deste mesma localidade, o que já era esperado. Na região 1, a que

está melhor colocada, apresenta apenas uma escola com o indicador inferior a média geral.

Entretanto, 75% das escolas localizadas nos munićıpios goianos apresentam indicador

inferior a média. Fatos que reforçam a grande desigualdade, também identificada aqui,

entre escolas da AMB.

42

5.2 Análise Descritiva

A primeira etapa em qualquer análise estat́ıstica consiste de uma análise descritiva

das variáveis em estudo. Esta etapa possibilita a familiarização com os dados, organização

e sintetização de forma a obter informações necessárias para responder questões que serão

estudadas na modelagem. As duas subseções subsequentes exploram as caracteŕısticas dos

estudantes e das escolas.

5.2.1 Perfil do Estudante

A população de interesse é formada por estudantes concluintes no ensino médio

regular que residiam e estudavam na AMB em 2014 de escolas públicas e que obtiveram

número de inscrições superior a 10 e taxa de participação no ENEM superior a 50%. Para

esta análise contou-se com 14659 estudantes participantes do ENEM e que estiveram

presentes nos dois dias de aplicação do exame. Este grupo é chamado de ńıvel 1, pois

agrega informações da unidade micro. As variáveis referentes ao ńıvel 1 originam-se do

questionário socioeconômico deste exame.

A Tabela 5.3 traz informações sobre o local de residência e da escola do estudante.

Inicialmente, constata-se que existe uma diferença entre a distribuição dessas duas variáveis.

Nos munićıpios goianos essa diferença é para mais, ou seja, o número de residentes na

determinada localidade é superior ao número de matriculados nas escolas dessas localidades.

Em contrapartida, o Distrito Federal recebe cerca de 678 estudantes que residem nos

munićıpios goianos, assim equilibrando o total. Também é visto que em Cocalzinho dos 3

estudantes residentes nenhum deles estuda na cidade.

43

Tabela 5.3: Distribuição dos estudantes segundo munićıpio de residência e da escola na

AMB - 2014

MunićıpioResidência Escola

N (%) N (%)

Águas Lindas de Goiás 333 2,27 277 1,89

Alexânia 23 0,16 22 0,15

Cidade Ocidental 173 1,18 112 0,76

Cocalzinho 3 0,02 - -

Cristalina 71 0,48 65 0,44

Formosa 170 1,16 162 1,11

Luziânia 820 5,59 776 5,29

Novo Gama 211 1,44 85 0,58

Padre Bernardo 122 0,83 118 0,8

Planaltina-GO 297 2,03 270 1,84

Santo Antônio do Descoberto 178 1,21 119 0,81

Valparáıso de Goiás 466 3,18 304 2,07

Distrito Federal 11792 80,44 12349 84,24

Total 14659 100 14659 100


A Tabela 5.4 apresenta a distribuição da idade, sexo, tipo do ensino e cor/raça do

estudante, tais informações ajudam a traçar o perfil dos alunos. Nota-se que apenas 23%

dos alunos apresentam defasagem e majoritariamente, os estudantes são do sexo feminino.

Quanto à cor/raça percebe-se que metade dos alunos são pardos e um quarto deles são

brancos.

44

Tabela 5.4: Caracteŕısticas gerais do estudante na AMB - 2014

Caracteŕısticas do Estudante Frequência Percentual

Idade

15 anos 12 0,08

16 anos 489

An alise do Desempenho no Ensino M edio na Area Metropolitana … · 2018. 5. 3. · 1.1Exame...

Documents

Transcript of An alise do Desempenho no Ensino M edio na Area Metropolitana … · 2018. 5. 3. · 1.1Exame...