Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira...

44
Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra Departamento de Estatística Curso de Estatística Marylaine Pereira do Nascimento Visualização dos resultados das edições de 2010 a 2015 do ENEM através de um Shiny App Natal - RN 14 de dezembro de 2017

Transcript of Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira...

Page 1: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Universidade Federal do Rio Grande do NorteCentro de Ciências Exatas e da Terra

Departamento de EstatísticaCurso de Estatística

Marylaine Pereira do Nascimento

Visualização dos resultados das edições de 2010a 2015 do ENEM através de um Shiny App

Natal - RN

14 de dezembro de 2017

Page 2: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Universidade Federal do Rio Grande do NorteCentro de Ciências Exatas e da Terra

Departamento de EstatísticaCurso de Estatística

Marylaine Pereira do Nascimento

Visualização dos resultados das edições de 2010 a 2015do ENEM através de um Shiny App

Monografia de Graduação apresentada ao De-partamento de Estatística do Centro de Ci-ências Exatas e da Terra da UniversidadeFederal do Rio Grande do Norte como re-quisito parcial para a obtenção do grau deBacharel em Estatística.

Universidade Federal do Rio Grande do Norte

Centro de Ciências Exatas e da Terra

Departamento de Estatística

Orientador: Prof. Dr. Marcus Alexandre Nunes

Natal - RN14 de dezembro de 2017

Page 3: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 doENEM através de um shiny app / Marylaine Pereira do Nascimento.- 2017. 43 f.: il.

Monografia (Bacharelado em Estatística) - UniversidadeFederal do Rio Grande do Norte. Centro de Ciências Exatas e daTerra. Departamento de Estatística. Natal, RN, 2017. Orientador: Marcus Alexandre Nunes.

1. Estatística - Monografia. 2. Microdados do ENEM -Monografia. 3. Shiny - Monografia. 4. Visualização de dados -Monografia. 5. ggplot2 - Monografia. 6. Big Data - Monografia.I. Nunes, Marcus Alexandre. II. Título.

RN/UF/CCET CDU 519.2

Universidade Federal do Rio Grande do Norte - UFRNSistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET

Page 4: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de
Page 5: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Dedico este trabalho a meus pais Marília e Elmo e a meus irmãos Lucas e Nadja

Page 6: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Agradecimentos

A Universidade Federal do Rio Grande do Norte, por sua infraestrutura, organizaçãoe seu corpo docente sempre dedicado. Ao técnico Cícero França e toda a equipe deredes da SINFO, por terem disponibilizados uma máquina virtual no data center daUFRN, para que eu pudesse hospedar gratuitamente o aplicativo desenvolvido. Agradeçotambém a Universidade Federal Fluminense, onde ingressei no Ensino Superior, agradeçoà Infraestrutura, ao bandejão de 70 centavos e pelo corpo docente que me ensinou a basedo curso de estatística nos quatro semestres cursados.

Agradeço as professoras Carla Vivacqua e Ivone Salsa por aceitarem o convite paracompor a banca. A Marcus, o melhor orientador que eu poderia ter, pela ideia incríveldeste trabalho, por toda ajuda prestada, pela compreensão, disposição, pela amizade epor me emprestar suas esferas magnéticas.

Com muito carinho agradeço aos meus pais, Elmo e Marília, pelo amor e todoesforço investido em prol da minha educação, por acreditarem em mim e nas minhasdecisões, por todo incentivo e apoio necessário. Aos meus irmãos, Lucas e Nadja, pelaamizade e compreensão.

Meus agradecimentos a Bia, Bruno e Waldemar, pela amizade tão necessária, todaforça, apoio e compreensão; e, a todos os demais amigos e colegas que ganhei nestajornada, tanto em solo fluminense quanto em solo potiguar, muito obrigada por fazeremdas universidades por onde andei, lugares agradáveis e acolhedores, além de compartilharcomigo seus conhecimentos e dores.

Por fim, agradeço a todos que, de alguma forma, contribuíram para minha formação,assim como aos que mostraram interesse neste trabalho e deixaram sua contribuição.

Page 7: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

“A falha é uma opção aqui. Se as coisas não estão falhando, você não está inovando osuficiente.”Elon Musk

Page 8: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

ResumoCriado em 1998 com objetivo de avaliar o desempenho dos concluintes do Ensino Médio, oExame Nacional do Ensino Médio - ENEM, é hoje o principal exame de acesso ao EnsinoSuperior no Brasil, sendo responsável por 100% das vagas em universidades federais. Devidoà relevância do ENEM, é importante estudar alguns resultados observados nas realizaçõesdesse exame e entender o desempenho de variados grupos de pessoas, questionando-nosquais fatores parecem contribuir para um bom desempenho do candidato. Essa é a intençãodeste trabalho, incentivar o pensamento crítico sobre alguns resultados do ENEM atravésde uma ferramenta prática e ágil que dê visibilidade gráfica e resumida desses resultados.Esses resultados, apesar de disponíveis online, não são simples de serem observados.Um volume muito grande de dados exigiu uma limpeza e pré-processamento para quepudéssemos trabalhar com os mesmos. O resultado do nosso trabalho, nesta monografia,gerou um aplicativo interativo online, acessível inclusive a leigos em Estatística, para queos interessados possam explorar os dados como desejarem tirando suas próprias conclusões.Nosso aplicativo contém censo das notas das edições do ENEM de 2010 a 2015 em seisgrupos e dois tipos de gráfico. Os resultados apresentados são as notas em cada área deconhecimento, juntamente com a redação e a média aritmética das cinco notas. O referidoaplicativo foi criado utilizando o pacote shiny da linguagem R. A apresentação dos gráficosfoi feita utilizando-se o pacote ggplot2, que constrói gráficos esteticamente mais agradáveis.O aplicativo pode ser encontrado em <http://shiny.estatistica.ccet.ufrn.br/enem>.

Palavras-chave: Microdados do ENEM. shiny. Visualização de dados. ggplot2. BigData.

Page 9: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

AbstractCreated in 1998 aiming to evaluate the performance of High School graduates, the ExameNacional do Ensino Médio - ENEM, is the main access exam to Higher Education in Braziltoday, being responsible for 100% of the admisions in federal universities. Due to therelevance of ENEM, it is important to study some observed results in the exam realizationsand understand the performance of differente groups of people, to question ourselvesabout which factors seem contributing to a good performance of the candidate. This isthe intention of this work, to motivate the critical thinking about the results of ENEMthrough a pratical and agile application that gives graphic and summarized visualizationof the results. This results, although avaliable online, are not simple to be observed. A verylarge volume of data required a cleaning and pre-processing so we can work with the data.The result from our study, in this monography, created an interactive online application,accessible including to lay people in Statistics, so interested people can explore the data asthey wish drawing their own conclusions. Our application contains the grades of ENEMfrom years 2010 to 2015 in six groups and two plot types. The present results are the gradesin each knowledge area together with the essay and an arithmetic mean of the five notes.The application was created using the shiny package of the R language. The presentationof the graphics was made using the package ggplot2, which builds aesthetically pleasinggraphics. The application can be found at <http://shiny.estatistica.ccet.ufrn.br/enem>.

Keywords: Raw data ENEM. shiny. Data Visualization. ggplot2. Big Data.

Page 10: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Lista de ilustrações

Figura 1.1 – Linha do Tempo do ENEM. . . . . . . . . . . . . . . . . . . . . . . . . 13Figura 1.2 – Número de Inscritos no ENEM por Ano (Milhões). . . . . . . . . . . . 13Figura 3.1 – Estrutura do Boxplot. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22Figura 3.2 – Estrutura do Histograma. . . . . . . . . . . . . . . . . . . . . . . . . . 24Figura 3.3 – Criação de Gráfico no ggplot2. . . . . . . . . . . . . . . . . . . . . . . 27Figura 4.1 – Página inicial do aplicativo. . . . . . . . . . . . . . . . . . . . . . . . . 33Figura 4.2 – Aba: Tabelas Resumo. . . . . . . . . . . . . . . . . . . . . . . . . . . . 34Figura 4.3 – Aba: Como interpretar. . . . . . . . . . . . . . . . . . . . . . . . . . . 34Figura 4.4 – Aba: Como Interpretar - Histograma. . . . . . . . . . . . . . . . . . . . 34Figura 4.5 – Aba: Como Interpretar - Boxplot. . . . . . . . . . . . . . . . . . . . . . 35Figura 4.6 – Aba: Sobre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35Figura 4.7 – Gráficos para média no ENEM 2011 - Brasil. . . . . . . . . . . . . . . . 36Figura 4.8 – Gráficos para média no ENEM 2011 por sexo. . . . . . . . . . . . . . . 37Figura 4.9 – Gráficos para média no ENEM 2011 por região. . . . . . . . . . . . . . 37Figura 4.10–Gráficos para média no ENEM 2011 por sexo e região. . . . . . . . . . 38Figura 4.11–Gráficos para média no ENEM 2011 por renda. . . . . . . . . . . . . . 38Figura 4.12–Gráficos para a média do ENEM por sexo, região e ano. . . . . . . . . 39

Page 11: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Lista de tabelas

Tabela 3.1 – Número de Inscritos nas Edições do ENEM de 1998 a 2017. . . . . . . 26Tabela 3.2 – Nomes dos objetos no R. . . . . . . . . . . . . . . . . . . . . . . . . . . 26Tabela 3.3 – Primeiras linhas no arquivo g15. . . . . . . . . . . . . . . . . . . . . . 28Tabela 3.4 – Redução de linhas no arquivo para gerar o boxplot das médias do ENEM

2015 no Brasil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29Tabela 3.5 – Redução no tamanho dos arquivos. . . . . . . . . . . . . . . . . . . . . 32

Page 12: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Sumário

Lista de ilustrações . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Lista de tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 REVISÃO BIBLIOGRÁFICA . . . . . . . . . . . . . . . . . . . . . . 16

3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.1 Leitura e Pré-processamento dos microdados . . . . . . . . . . . . . 193.2 Shiny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.3 Visualização dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 213.4 ggplot2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.4.1 Dificuldades encontradas no uso do ggplot2 . . . . . . . . . . . . . . . . 273.5 Scripts utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 415.1 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Page 13: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

12

1 Introdução

No dia 22 de outubro de 2011 acordei ansiosa, levantei cedo, fiz um desjejumreforçado e logo já estava revisando fórmulas. Havia chegado o fim de semana para qual euhavia me preparado todo o ano escolar, o fim de semana do ENEM - Exame Nacional doEnsino Médio. Era o meu ano de conclusão no Ensino Médio, e como muitos concluintestinha aquele sonho de ingressar em uma universidade pública, e foi justo em 2011 queas universidades federais aderiram totalmente (ou em 50% das vagas) ao Sisu - Sistemade Seleção Unificada, que gerencia as vagas em instituições públicas de Ensino superior.Junto comigo, 5,4 milhões de pessoas também se encaminhavam para seus respectivoslocais de prova. Anualmente temos milhões de pessoas realizando o ENEM, o segundomaior vestibular do mundo, perdendo apenas para o gaokao, exame realizado na China(BRASIL, 2015b).

O ENEM foi criado em 1998 com o objetivo de avaliar o desempenho de concluintesdo Ensino Médio; sua nota podia substituir ou complementar exames para ingressar emEnsino Pós-Médio, profissionalizante ou Superior. A adesão ao exame não era muitogrande e, em seu primeiro ano, 157,2 mil pessoas se inscreveram no ENEM (INEP, 2007).Podemos acompanhar um breve histórico do ENEM através da Figura 1.1 (INEP, 2007;MEC, 2008; MEC, 2009; BRASIL, 2010; MEC, 2011; BRASIL, 2012; BRASIL, 2013;BRASIL, 2014; BRASIL, 2015a; BRASIL, 2016; BRASIL, 2017). Em 2004, a nota doENEM podia conceder bolsas no ProUni - Programa Universidade para Todos. Apesar daqueda de inscritos em relação a 2003, após 2004 o número de inscritos quase que dobrou,conforme vemos na Figura 1.2. No ano de 2006 , a adesão das universidades ao ENEM jáera maior, com cerca de 500 universidades fazendo uso do exame. Entretanto, a grandetransformação foi em 2009, quando o ENEM foi reformulado. Anteriormente o exameera realizado em um dia e contava com 63 questões interdisciplinares e uma redação e sópodia ser realizado uma vez pelo participante. Com a reformulação o exame passou a serrealizado em um final de semana, com 4 grupos de provas. Assim, passou a ser dividido em4 áreas de conhecimento: ciências da NATUREZA e suas tecnologias, ciências HUMANASe suas tecnologias, LINGUAGENS e códigos e suas tecnologias e MATEMÁTICA e suastecnologias. Cada uma das área de conhecimento é composta por 45 questões objetivas,com cinco opções de resposta, em que apenas uma está correta, mais a redação que seenquadra na área de linguagens e códigos e suas tecnologias. A partir de então, a adesãode universidades federais foi aumentando, chegando a totalidade em 2012. A esta altura, oENEM também fornecia certificados do Ensino Médio para quem obtivesse a nota mínimade 400 pontos na média geral. Entretanto, a obtenção do certificado de conclusão do EnsinoMédio através do ENEM não é mais possível desde 2016, quando um exame específico

Page 14: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 1. Introdução 13

Figura 1.1 – Linha do Tempo do ENEM.

Fonte: Autora

Figura 1.2 – Número de Inscritos no ENEM por Ano (Milhões).

Fonte: Autora

para emissão do certificado foi criado (BRASIL, 2011).

O Inep - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira,instituição responsável pelo ENEM, tem informações dos inscritos no ENEM desde seusurgimento em 1998, e qualquer um pode ter acesso a esses dados através do site <http://portal.inep.gov.br/microdados>. Entretanto, não é qualquer um que conseguirá ler taisdados, pois é um banco de dados muito grande, com milhões de inscritos e dezenas deperguntas. Os métodos usualmente utilizados não suportam ler essa quantidade de dados.No fim das contas, muitos estudos optam por utilizar resultados dos relatórios publicadospelo Inep ou fazer uso de amostra. Objetivando apresentar como os principais resultadosdo ENEM se comportam em alguns grupos de candidatos, faremos uso de uma peça chavedaquele curso que escolhi lá em 2012 no Sisu, o curso de Estatística.

A programação computacional é aliada fundamental de um estatístico. Em muitoscasos, funções prontas em programas estatísticos podem nos dar os resultados desejadosquase que instantaneamente, desde que, em algum momento, alguém tenha programadotal função. Em outros casos, é necessário que programemos nossa própria função paraalcançarmos nosso resultado, mas a programação nos é necessária principalmente no

Page 15: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 1. Introdução 14

pré-processamento dos dados.

No pré-processamento de dados fizemos uma filtragem onde só ficaram os dados que,de fato, seriam analisados. O passo seguinte consistiu na análise dos dados em si, seguidada apresentação de resultados e conclusões. Percebemos que a maior parte e também amais trabalhosa é aquela posterior ao pré-processamento daquela grande massa de dados.Notamos também que foi pensando na análise e nos resultados que queríamos obter quedefinimos o que deve passar e o que deve ficar no filtro.

Toda essa estrutura de pensamento proveniente de um banco de dados cheio deinformações sem tratamento prévio, não nos permitem tirar conclusões, pois o grandenúmero de variáveis nos deixa desfocados diante de tanta variedade. A habilidade desair de um banco de dados carregado de informações e chegar em uma análise limpa quenos dá resultados e conclusões que nos sejam úteis é o que conceitua Big Data. SegundoDavenport e Dyché (2013), o grande potencial de Big Data não se trata do volume dedados, mas sua variedade, a habilidade de analisar diversas fontes de dados e de diferentestipos, e ainda, de acordo com Thomas H. Davenport, o principal valor de Big Data é oprocessamento dos dados brutos, a análise destes e as conclusões que irão ditar tomadasde decisões por novos produtos e serviços.

Os dados de maior interesse em relação ao ENEM são as notas em cada uma dasárea de conhecimento, na redação isolada e a média geral. Isso porque cada Instituição deEnsino Superior pública vinculada ao Sisu determina pesos para cada área de conhecimentode acordo com o curso e podem ainda definir uma nota miníma para concorrer às vagasque a instituição oferece, assim como faz a UFRN - Universidade Federal do Rio Grandedo Norte, onde somente indivíduos com notas a partir de 450 podem se inscrever paratentarem os acessos aos cursos de graduação oferecidos pela UFRN. Infelizmente, o Inepsó passou a disponibilizar as notas de cada inscrito, em seus microdados, a partir do anode 2010.

A apresentação de parâmetros das notas do ENEM de forma interativa, acessível,inclusive, para um público leigo em Estatística, possibilita que pessoas fora do ambienteacadêmico observem esses resultados, interpretando-os por conta própria, formando suaopinião em um cenário favorável ao entendimento do comportamento desses dados.

1.1 ObjetivosObjetivo principal:

• Criar um aplicativo interativo que apresente as médias gerais e as notas por área deconhecimento dos inscritos no ENEM de 2010 a 2015. Esse aplicativo permitirá aapresentação das notas associadas a esse período, através de boxplots e histogramas,

Page 16: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 1. Introdução 15

acompanhados de tabela com alguns parâmetros. Além disso, as notas poderão servisualizadas separadas por ano, sexo, região, sexo e região e renda, onde as categoriasde renda são as mesmas utilizadas pelo INEP;

Objetivos específicos:

• Obter formas de reduzir os dados para gerar os gráficos de forma eficiente e rápidasem perder as informações da população;

• Fazer gráficos esteticamente mais agradáveis utilizando o pacote ggplot2;

Page 17: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

16

2 Revisão Bibliográfica

Estudos sobre edições do ENEM anteriores a 2010 limitam-se a discussões sobre ametodologia proposta, como o artigo de Cavalcante et al. (2006) e a descrição do perfil doscandidatos. Corti (2013) analisou o perfil dos participantes do ENEM nas edições de 1999a 2007. A pesquisadora observou uma diversificação no público depois de dois eventos: aisenção de taxa em 2001 e a criação do ProUni 2005. O percentual de participantes oriundosde escolas públicas aumentou, assim como o número de participantes com idade superior a20 anos. Enquanto a distribuição percentual de sexo se manteve próxima, cerca de 60% dopúblico que realiza a prova é feminino, o que condiz com o número de matrículas no ensinomédio. A distribuição de raça também mudou. Em 1999, o percentual de brancos era de76%, enquanto em 2007 passou a ser de 44%. O número de participantes que trabalham eparticipantes com renda familiar de até 5 salários mínimos também aumentou no decorrerdos anos. Por fim, em 2007, 56% dos participantes iriam ter ou já tinham maior grau deescolaridade que os pais.

A partir da edição de 2010, com a disponibilização das notas dos candidatos peloInep, os estudos finalmente têm uma variável resposta para analisar e fazer comparativos degrupos. Uma análise do desempenho no ENEM 2010 por região foi realizada por Viggianoe Mattos (2013). Os resultados apresentados descrevem os candidatos que responderam àprova azul, pois alegam que representam uma amostra significativa. Dentre suas conclusões,temos melhores desempenhos na região Sudeste, Sul, Centro-Oeste, Nordeste e Norte,respectivamente.

Em edições anteriores, o Inep disponibilizava relatórios e rankings de escolas deacordo com as notas dos alunos. Foi através do relatório da edição de 2013 que Silveira,Barbosa e Silva (2015) fizeram seu estudo, comparando os escores das escolas em nívelestadual e socioeconômico. Em seus resultados podemos ver o estados de São Paulo, Riode Janeiro e o Distrito Federal com os três melhores escores escolares, respectivamente,além de maior escore em escolas com maior nível socioeconômico.

Note que, apesar de ter todos os dados disponíveis, os estudos fazem uso derelatórios ou amostra. A mídia não vai muito além, em geral, os números se referem aonúmero de inscritos, rankings de escolas e número de ausentes. Os principais resultadosdo ENEM não são de fato trabalhados. Entendemos que a utilização de amostragemdeve ser feita quando não podemos obter as informações da população toda Portanto,se temos acesso aos dados da população, o uso de amostra é desnecessário. Em um casoassim, não precisamos fazer inferências. Queremos enxergar a realidade tal e qual acontecee não por meio de estimativas. Além disso, o uso de relatórios prontos nos limita de

Page 18: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 2. Revisão Bibliográfica 17

explorar os dados, inviabiliza uma visão pessoal que possa nos trazer questionamentos.Portanto, a preocupação desse trabalho é de dar visibilidade gráfica e resumida dessesdados disponíveis que poucos conseguem ver, quebrar a barreira que uma pessoa interessadaencontra assim que realiza o download dos microdados do ENEM, inclusive para aquelassem conhecimento prévio de estatística e assim, estimular questionamentos, solucionarsuposições ou simplesmente atender nossa curiosidade.

A seguir, serão apresentados alguns estudos que visam facilitar a análise de pesqui-sadores em suas respectivas áreas e fazem isso com a criação de uma ferramenta interativaonde o usuário tem o incentivo da praticidade e de ter suas próprias conclusões.

A dissertação de mestrado de Frias (2015) utiliza os microdados do ENEM 2012.Seu objetivo é tornar acessível a diretores, coordenadores e professores os dados dos alunosde suas respectivas escolas através de uma ferramenta que apresente e analise esses dados.O uso da ferramenta visa orientar tomadas de decisões no ambiente escolar. O autorfiltra apenas o estado do Rio de Janeiro dos microdados, e com um banco de dadosmenor consegue fazer todas as manipulações necessárias no Excel. É também no Excelque a ferramenta é desenvolvida. A ferramenta encontra-se disponível no link <https://drive.google.com/file/d/0ByhpXU8vBCVTOS1MeG4zczVObHM/view?usp=sharing>. Ofuncionamento da ferramenta necessita que o usuário possua o Excel em seu computador efaça download dos dados no site do Inep, exceto para os usuários fluminenses, que dispõemde um link com os dados previamente filtrados. Tendo Excel e os dados, o usuário insereos dados na ferramenta e ela produzirá todos os gráficos apresentados na dissertação.

Outro exemplo é o estudo de Lynch (2015), onde são investigadas amostras detumores utilizando toda a sequência do genoma. A investigação pode variar de um modelopara outro, e as ferramentas que realizam essa análise podem ter conflitos em seus resultados.Com a intenção de entender a metodologia de cada ferramenta, visualizar suas respostas edecidir por qual utilizar, Lynch criou uma ferramenta que recebe os dados do usuário eretorna os resultados dos métodos das outras ferramentas, de forma que o usuário podeinferir sobre qual modelo usar dentre as soluções apresentadas. Um problema encontradoaqui foi o tempo para que os gráficos sejam gerados, que pode ser de aproximadamente 20minutos ou uma hora. A interface é bem simples e não conta com um guia, como se podever nesse link <https://dralynch.shinyapps.io/crambled_app>.

Dunning et al. (2017) haviam publicado em 2015 um estudo de coorte de homenscom câncer de próstata que precisaram de prostatectomia em quatro regiões, posterior-mente pensaram em compartilhar o banco de dados que obtiveram, mas foram além docompartilhamento. Criaram uma plataforma na web que realiza análises e exporta osgráficos resultantes em formatos PNG e PDF, prontos para apresentação. Para isso, aplataforma utiliza também conjuntos de dados de câncer de próstata humano abertos aopúblico para aumentar o número de amostras e obter melhores validações das observações

Page 19: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 2. Revisão Bibliográfica 18

provenientes das análises do banco de dados que o usuário inserir. É um trabalho diferenci-ado, incentivador, pois um pesquisador do câncer de próstata não precisará buscar bancosde dados, baixa-los, pré-processá-los para então utilizar, ele já terá tudo isso na plataforma<http://bioinformatics.cruk.cam.ac.uk/apps/camcAPP/> e poderá fazer suas análisesde acordo com seus próprios critérios gerando gráficos com design e tamanho de suapreferência. A facilidade é incentivadora e seu diferencial em relação a outras ferramentasda área é que seu foco é específico em câncer de próstata. A interface da ferramenta écarregada, cheia de opções e breves explicações, além de um guia para download.

Outro trabalho interessante é na área de ecologia, onde é comum a análise depopulações. As ferramentas existentes para esse fim possuem algumas limitações comoentrada de dados, saída de resultados, gráficos de baixa qualidade e outras especificaçõesda área. A ideia de Francis (2017) foi criar uma ferramenta que facilitasse a análise dousuário corrigindo muitas das limitações encontradas em outras ferramentas e pode seracessada por meio do link <http://pophelper.com/>. Nessa ferramenta, uma limitação éo tamanho do arquivo, mas a interface é limpa e bem organizada, possuindo explicações eguia.

Perceba que as ferramentas citadas são destinadas a um público específico. Aprimeira, em particular, necessita do Excel, um programa pago, e dentro de seu objetivofica limitado a visualização dos resultados apenas em ambientes escolares. As demaisexigem conhecimento prévio do usuário, pois são assuntos técnicos e não possuem leigosna área como público alvo. Como citado anteriormente, neste trabalho houve a intençãode se realizar um censo de cada edição do ENEM, com os dados referentes ao períodode 2010 a 2015, de modo que, esses dados pudessem estar disponíveis por meio de umavisualização sendo de fácil e rápido acesso, e de maneira tal que pessoas fora da área deestatística pudessem usufruir dessas visualizações e conhecer melhor a realidade do ENEMnesse período.

Page 20: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

19

3 Metodologia

Neste Capítulo apresentamos os procedimentos realizados no pré-processamentodos dados, a forma com que os mesmos serão visualizados no aplicativo e os pacotesnecessários para alcançarmos nossos objetivos.

3.1 Leitura e Pré-processamento dos microdadosA leitura dos microdados do ENEM 2015 através do R (R Core Team, 2016) não é

viável para qualquer computador. Algumas configurações de hardware podem levar horasde processamento e, por vezes, não obter sucesso. Contudo, podemos saber do conteúdoatravés do dicionário dos microdados. Ele dispõe de informações pessoais, socioeconômicase informações do exame de cada candidato.

As variáveis sexo, UF de residência e as cinco notas do exame foram conveniente-mente selecionadas para compor a exposição dos dados. Posteriormente, a variável UF deresidência foi transformada em região, conforme divisão geográfica do Instituto Brasileirode Geografia e Estatística (IBGE) e a variável média foi criada, correspondendo à médiaaritmética das cinco notas do exame.

A limpeza foi feita no sistema operacional Linux, com a linguagem awk. Na primeiratentativa às cegas, algumas colunas selecionadas não correspondiam às colunas desejadas.Assim, foram criadas versões menores dos microdados com as primeiras dez mil linhaspara uma visualização do cabeçalho dos dados. As edições de 2010 e 2011 têm um formatodiferente dos anos posteriores e tiveram um tratamento diferente. Utilizando os input dosoftware SAS disponíveis no microdados, fizemos a leitura e exportamos como arquivo.csv. Não foi necessária a limpeza como nas outras edições, pois no próprio SAS somenteas variáveis de interesse foram lidas. Os microdados do ENEM 2012 tinham os dadosentre aspas. Desta forma, quando o R lia o arquivo entendia os números como variáveiscategóricas. Por isso, fizemos uma preparação nos dados, retirando as aspas em editor detexto, localizando-as e substituindo-as de forma automática. Os arquivos em formato .csvgerados pelo SAS também apresentavam os dados entre aspas e o mesmo procedimento foirealizado.

Nas edições de 2010, 2011 e 2012, o questionário socioeconômico é encontrado emum arquivo separado nos microdados, e por algum motivo que não conhecemos, o número depessoas que responderam ao questionário socioeconômico é maior que o número de pessoasnos questionário principal. A solução foi filtrar as linhas do questionário socioeconômico apartir do número de inscrição que também constavam no questionário principal.

Page 21: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 3. Metodologia 20

Como foi comentado anteriormente, o ENEM passou por uma reformulação em2009. Tínhamos a intenção de montar o aplicativo a partir da edição de 2009, entretanto oInep não disponibilizou as notas dos participantes para esse ano.

A fim de deixar uma visualização mais limpa no aplicativo, optamos por compararas notas por grande região geográfica ao invés do estado do candidato. Como os microdadosnão dispõem de uma coluna com essa informação, escrevemos uma função para criar umacoluna de região a partir dos estados de cada candidato.

3.2 Shiny

Shiny é um pacote do R que cria ferramentas interativas, permitindo que possamoscompartilhar os resultados das análises em aplicativos publicáveis na internet, tudo de formagratuita. O pacote possui diversas funções, permitindo a construção de uma variedadede projetos, seja com mapas, gráficos, tabelas, números, dados, fórmulas, imagens outextos, por exemplo. É possível ainda utilizar outras linguagens além de R, como HTML eJavaScript, para configurar a interface do aplicativo.

As interações podem ser feitas através de botões clicáveis e deslizantes, digitação,upload de arquivos, download de resultados, seleção de itens, posicionamento do mousena tela, entre outros. As funcionalidades disponíveis para o desenvolvedor permitem acriação de aplicativos úteis, fáceis de usar, esteticamente agradáveis, além de amigávelpara o usuário.

Outra funcionalidade do shiny é o desenvolvimento de dashboards, importantíssimosem empresas do segmento de indústria e aplicável em diversas áreas. Dashboards sãoliteralmente painéis de controle. Pense no painel de um carro, onde é possível ver ostatus do carro em tempo real. Essa é a proposta de um dashboard, mostrar indicadores eresultados do momento atual. Com esse painel de controle o usuário tem uma visão geralde como andam as coisas e pode tomar decisões mais rápidas. Para que isso funcione bem,é necessário que os dados que abastecem o dashboard estejam em constante atualização,ou seja, que estejam online.

Diante das possibilidades proporcionadas, o shiny torna-se uma ferramenta muitoútil para uso profissional. Pesquisadores têm desenvolvido aplicativos para uso em suasrespectivas áreas, possibilitando que demais estudiosos possam ganhar tempo, assim comoser incentivado a novos estudos. Bons exemplos do uso do shiny na área de pesquisasão os trabalhos de Lynch (2015), Dunning et al. (2017) e Francis (2017), citados noCapítulo 2. Aplicativos na área da educação têm sido desenvolvidos por professores parademonstrar conteúdos interativamente, facilitando a didática do docente e a assimilaçãodos estudantes. Empreendedores também podem desenvolver soluções no shiny para suasempresas, aproveitando a capacidade do uso de dados online da ferramenta.

Page 22: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 3. Metodologia 21

Apesar de possibilitar o uso de outras linguagens utilizadas na criação de páginas nainternet, como HTML, CSS e JavaScript não é necessário saber usá-las. Elas permitem umuso mais avançado da ferramenta, mas mesmo sem esses conhecimentos é possível aprendera usar a ferramenta. O próprio shiny dispõe de uma página com tutorial, disponível nolink <https://shiny.rstudio.com/tutorial/>. Portanto, o uso do shiny não se restringeao ambiente profissional, pois pessoas comuns podem utilizar o shiny para praticar seushobbies, curiosidades e compartilhar tudo gratuitamente.

3.3 Visualização dos DadosQuando desejamos uma visão geral de uma variável que pretendemos estudar, é

importante que tenhamos uma ideia da variabilidade associada a essa variável. Os númerosobservados variam entre quais valores? Eles variam igualmente entre estes valores, outendem a estar mais próximos de um deles? Onde a maioria dos números observados seconcentra? Existem números muito distantes dos demais?

Podemos responder a essas perguntas através de visualização gráfica e através docálculo ou estimação de parâmetros. Neste trabalho, optamos pelo uso de dois gráficos:boxplot e histograma. Ambos os tipos de gráficos são excelente ferramentas de visualizaçãode variáveis contínuas e, sabendo interpretá-los, fica fácil entender a variabilidade dos dados.O boxplot, em particular, possibilita comparações práticas entre grupos. O histograma émais intuitivo para entender onde os dados se concentram, devido à sua semelhança comum gráfico de colunas. Em complemento aos gráficos, produzimos tabelas com diversasmedidas, a saber: média, desvio padrão, mínimo, máximo, amplitude, mediana, primeiro eterceiro quartil.

O boxplot, ou gráfico de caixa, de acordo com Bussab e Morettin (2013) recebeesse nome pelo seu formato. Sua aparência retangular e com hastes não é intuitiva deinterpretar. É necessário entender sua estrutura. Para isto, vamos utilizar o boxplot dasnotas em ciências da natureza no ENEM 2015 segundo o sexo, como exibido na Figura3.1. A seguir, vamos explicar algumas definições e detalhar cada uma das componentes deum boxplot.

• Quartil: Um quartil é um dos três valores que dividem algo inteiro em quatro partesiguais. No caso de uma amostra ou população, o quartil divide os dados ordenadosem quatro intervalos com o mesmo número de observações.

• Amplitude interquartil (AIQ): É a diferença entre o terceiro e o primeiro quartil.Esse valor nos informa sobre a dispersão dos valores observados. Diferente da variância,ele considera a ordem crescente dos dados e não é afetado por valores muito pequenosou muito grandes.

Page 23: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 3. Metodologia 22

Figura 3.1 – Estrutura do Boxplot.

Fonte: Autora

• Intervalo interquartil: é o intervalo que contém os valores entre o primeiro e oterceiro quartil. Note que 50% dos valores centrais observados se encontram nesseintervalo e que esse intervalo é o tamanho da caixa.

• 1º quartil (Q1): Os valores abaixo deste valor correspondem a 25% dos dados.

• 2º quartil ou Mediana (Q2): O quartil que divide os dados pela metade éconhecido como mediana.

• 3º quartil (Q3): Os valores abaixo deste valor correspondem a 75% dos dados.

• Limite inferior (LI): O limites inferior é determinado pela fórmula: LI = Q1 −k ∗ AIQ, onde k é um número real. Optamos por k = 1,5, pois este valor capta maisde 99% dos dados. Portanto, o cálculo do limite inferior ficou:

LI = Q1 − 1,5 ∗ AIQ

• Limite superior (LS): De forma similar ao limite inferior, obtemos o limite superioratravés da seguinte fórmula:

LS = Q3 + 1,5 ∗ AIQ

• Outliers: São valores atípicos, ou seja, muito distantes dos demais valores observados.A detecção de outliers é muito importante, pois esses valores raros nos dados causamtendências em parâmetros e estimadores. Os outliers podem ser muito menores ou

Page 24: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 3. Metodologia 23

muito maiores que os demais valores observados e a identificação é feita baseada noslimites inferior e superior. Portanto, se um um valor é menor que o limite inferior oué maior que o limite superior, então ele é um outlier.

Na Figura 3.1 temos dois boxplots, um representando as notas em ciências danatureza no ENEM 2015 do sexo masculino e outro representando o sexo feminino. Optamospor esse gráfico para exemplificar a interpretação do boxplot e a comparação de grupos.

Inicialmente identificamos que o eixo horizontal representa as notas observadas e oeixo vertical a identificação do grupo. Observe que o boxplot do sexo masculino está mais àdireita do boxplot do sexo feminino e que a caixa e as hastes são mais compridas em relaçãoao grupo feminino. O grupo feminino possui 75% das observações um pouco acima de 500pontos e os valores raros (exceto zero) variam entre 625 e 875 pontos, aproximadamente.O grupo masculino tem metade das observações próximas de 500 pontos, o primeiroquartil do grupo está próximo da mediana do grupo feminino, o limite superior ultrapassa680 pontos e seus valores raros variam deste ponto até cerca de 875 pontos. Portanto, ogrupo masculino teve melhor desempenho na prova de ciências da natureza no ENEM2015.Ambos os grupos possuem outliers, veja que a nota zero ocorre nos dois grupos, masé raro entre as notas observadas. Existem sequências de outliers imediatamente após oslimites superiores. O grande número de outliers sequenciais e sobrepostos (a cor maisescura indica que há sobreposição de pontos) deu essa aparência de uma haste mais espessa.Perceba que os outliers são valores próximos um dos outros e que possuem mais de umaobservação, no entanto são classificados como valores raros. Isso ocorre devido ao grandenúmero de observações que temos, o que significa que os valores encontrados entre oslimites inferior e superior possuem muito mais casos. Desta forma, os valores mais extremostornam-se casos raros.

O histograma se assemelha a um gráfico de colunas, mas sua estrutura informamais do que a frequência dos dados. A estrutura de um histograma é exibida na Figura 3.2,em que temos os mesmos dados das notas em ciências da natureza no ENEM 2015 por sexoutilizados para produzir os boxplots da Figura 3.1. Observe que há dois grupos de colunas,um rosa e um azul, representando o sexo feminino e o sexo masculino, respectivamente.Cada grupo de colunas é um histograma. Eles estão sobrepostos e a cor mais escura é ainterseção entre eles.

As classes são representadas pela base das colunas do histograma. Cada classerepresenta um intervalo dos dados. Não há espaçamento entre as classes, pois o eixohorizontal representa o intervalo onde os valores da variável são observados. Portanto, ofim de uma classe é o início da classe seguinte. É comum que o eixo vertical do histogramarepresente a frequência ou a densidade dos dados. Neste trabalho optamos pelo uso daproporção no eixo vertical, pois desta forma é possível fazer comparação entre grupos de

Page 25: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 3. Metodologia 24

Figura 3.2 – Estrutura do Histograma.

Fonte: Autora

tamanhos diferentes. As amplitudes das classes de um histograma podem variar e a áreado retângulo formado é proporcional à unidade de medida do eixo vertical. Optamos pelouso de amplitudes iguais nas classes, pois com a base igual podemos olhar somente paraaltura do retângulo como a unidade de medida escolhida no eixo vertical.

Assim como feito para o boxplot, vamos interpretar a Figura 3.2. Tendo os eixose grupos identificados, vemos que o histograma do sexo masculino se encontra mais àdireita que o histograma do sexo feminino, alcançando notas mais altas e com frequênciasmaiores. Entre 0 e 25 pontos e entre 475 e 500 pontos a proporção entre os sexos é próxima.Entretanto, o histograma do sexo feminino tem maiores proporções nas classes queantecedem 475 pontos. Consequentemente, o sexo masculino apresenta maiores proporçõesnas classes posteriores, desta forma, constatamos que o sexo masculino teve melhordesemprenho nas notas de Ciências da Natureza no ENEM 2015. Uma observação é ovazio entre a primeira e a segunda coluna a aparecerem, entre 0 e 25 pontos, e 325 e 350pontos. Note que o histograma não ignora a ausência de observações entre 25 e 325 pontos,ele mantém o eixo horizontal em sua sequência. Perceba que no histograma podemos verque valores acima de 750 e entre zero e 25 têm uma proporção muito baixa. Isso pode serum indicativo de outliers e podemos confirmar vendo o boxplot correspondente.

As tabelas resumo auxiliam e complementam a leitura dos gráficos, fornecendonúmeros exatos e medidas que não constituem os gráficos. As tabelas apresentam resultadosda nota e ano selecionado; a divisão por grupo é feita na própria tabela gerada. A opção dedownload da tabela é disponibilizada em formato .csv para que o usuário possa manipulá-lada forma que preferir.

Page 26: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 3. Metodologia 25

3.4 ggplot2

O pacote ggplot2 cria gráficos visualmente mais elegantes que as funções usuais doR. A escolha do uso do pacote vai além da estética, pois possui uma configuração diferentena construção dos gráficos. Desta forma, habilita diversas opções de personalização, temuma linguagem mais prática na elaboração no código e dispõe de opções que nem sempreexistem nas funções usuais.

A construção de gráficos no ggplot2 é baseada na “Gramática de Gráficos”. Estateoria parte do pressuposto de que o gráfico é formado por sete camadas: dados, estética,geometria, facets, estatística, coordenadas e tema.

Os dados consistem na camada base. É a partir dos dados que pensaremos quaisvariáveis serão trabalhadas, se queremos fazer comparações entre grupos e o que desejamosvisualizar dessa variável, como dispersão, distribuição, quantidades, comportamento nodecorrer do tempo, interação com outras variáveis, entre outros. Definiremos as escalasdas variáveis selecionadas na camada de estética. Geometria é a camada onde definimos asformas dos elementos gráficos, tais como pontos, linhas e e intervalos. A camada facets é útilquando desejamos dividir informações do gráfico para uma melhor visualização, podendoser utilizada para comparações de grupos. A estatística é a camada que representa a análisedos dados. As coordenadas nos dirão onde o gráfico será construído, se em coordenadascartesianas ou polares, por exemplo. Por fim, o tema é a última camada, a visualizaçãogeral do gráfico.

O ggplot2 irá formar os gráficos com base nessas camadas, como parcelas somadasumas às outras. Tomemos como exemplo a construção da Figura 1.2 (apresentada napágina 11). Os dados podem ser vistos na Tabela 3.1.

Considere a leitura dos dados no R conforme a Tabela 3.2.

Portanto, temos:1 inscritos = read.table("inscritos enem 98-17.txt", header = F)

2 colnames(inscritos) = c("ano", "num")

Vamos baixar e carregar o pacote ggplot2.1 install.packages("ggplot2")

2 library(ggplot2)

Nosso objetivo é criar um gráfico de linhas. Para darmos início a construção dográfico usamos a função ggplot. Entretanto, o comando ggplot(inscritos) gera umatela cinza, vazia, conforme vemos no primeiro gráfico da Figura 3.3, pois a função ggplot

pede por uma estética, ou seja, as escalas das variáveis. Vamos colocar os anos no eixo x eo número de inscritos no eixo y, pensando no sistema de coordenadas cartesiano.

1 ggplot(inscritos , aes(y=num , x=ano))

Page 27: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 3. Metodologia 26

Tabela 3.1 – Número de Inscritos nas Edições do ENEM de 1998 a 2017.

Ano Milhões de inscritos1998 0,21999 0,32000 0,42001 1,62002 1,82003 1,92004 1,62005 3,02006 3,72007 3,62008 4,02009 4,12010 4,62011 5,42012 5,82013 7,22014 8,72015 7,72016 8,62017 7,6

Fonte: Autora

Tabela 3.2 – Nomes dos objetos no R.

Objeto Nome no RArquivo com a tabela inscritosColuna dos anos anosColuna dos números de inscritos numVetor com os rótulos dos dados labFonte: Autora

A imagem gerada pelo comando acima consiste no segundo gráfico (da esquerdapara direita) na Figura 3.3, a função ainda não sabe que geometria aplicar, então vamosdizer que queremos linhas. Observe que essa camada é adicionada ao gráfico com o operador“+”.

1 ggplot(inscritos , aes(y=num , x=ano)) + geom_line()

O resultado é o terceiro gráfico da Figura 3.3, onde já temos um gráfico de linhasinformativo. Outros comandos foram adicionados para chegar no resultado final, a Figura1.2, como tema, pontos, texto, intervalos dos eixos, cores e tamanhos. O código para oresultado final necessitou da criação de um vetor com os rótulos dos dados, para que elesaparecessem no gráfico, chamamos o vetor de lab. Veja a seguir.

1 lab = c("0,2","0,3","0,4","1,6","1,8","1,9","1,6","3,0","3,7","3,6","4,0","4,1","4,6","5,4","

5,8","7,2","8,7","7,7","8,6","7,6")

Page 28: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 3. Metodologia 27

2 ggplot(inscritos , aes(y=num , x=ano)) +

3 geom_line(colour="#40 b8d0",size =1.2) +

4 labs(x="Ano", y="Milhões de Inscritos") + theme_bw() +

5 scale_x_continuous(breaks=seq (1998 ,2017 ,1)) +

6 geom_text(aes(label=lab), nudge_x = -0.2, nudge_y = 0.3, size=3,

7 fontface = "bold") + geom_point(size=2, colour = "#40 b8d0")

Figura 3.3 – Criação de Gráfico no ggplot2.

Fonte: Autora

3.4.1 Dificuldades encontradas no uso do ggplot2

Para criar as estruturas dos gráficos utilizamos um arquivo com as primeiras dezmil linhas da edição de 2015, para que a visualização fosse mais rápida.

A função geom_boxplot nos permite gerar boxplots por grupos. Entretanto, setentarmos gerar um boxplot de uma única variável vamos encontrar um erro. A soluçãopara isso foi parametrizar da seguinte forma x = "x". Para colocar os gráficos separadospelo grupo região, foi utilizado o comando facet_grid ou facet_wrap() (lembram dacamada facets? Olha ela aqui em uso). Nos gráficos com o grupo renda, o comandoscale_fill_discrete() foi utilizado para que definíssemos a legenda.

Foi observado que, à medida que os gráficos eram solicitados no aplicativo shiny,mantinham-se na memória. Devido ao tamanho dos dados, os arquivos dos gráficospreenchiam rapidamente a memória, travando o aplicativo. Limpar a memória a cadagráfico não é viável, pois seria necessário carregar o arquivo novamente a cada gráficosolicitado. Para tanto, decidimos criar um arquivo para cada gráfico e aplicar o comandorm(list=ls()) antes do código de cada gráfico solicitado pelo usuário. Com isso, oproblema do travamento foi solucionado. Entretanto, o aplicativo estava muito lento. Otempo para gerar alguns boxplots passou de 10 minutos, devido aos milhares de outliersque deveriam ser plotados. Foi quando pensamos em fazer os gráficos utilizando os resumosdos dados, sem perder informação.

Page 29: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 3. Metodologia 28

Sabemos que o boxplot é um gráfico desenhado a partir de cinco estatísticas e dosoutliers, quando estes existem. Foi partindo desse raciocínio que pensamos em resumir osdados nos cinco parâmetros que formam o boxplot e seus respectivos outliers. O problemanesse resumo é que, com os dados em forma de parâmetros, não conseguimos gerar o boxplotcom o comando que estava em uso. Entretanto, o geom_boxplot permite a construçãode boxplots com as cinco estatísticas. Porém, a função não considera a existência deoutliers. A solução para este empecilho foi encontrada na resposta a uma pergunta no site<https://stackoverflow.com/>. Um dos membros sugeriu a criação de uma tabela comuma coluna para cada estatística e uma sexta coluna para os outliers. Utilizando o pacotedplyr, a adaptação para nosso conjunto de dados ficou da seguinte forma:

1 g15 = read.csv("g15.csv", header = T)

2 bm15 <- g15 %>% do({

3 stats <- as.numeric(quantile (.$media , c(0, 0.25, 0.5, 0.75, 1), na.rm = T))

4 iqr <- diff(stats[c(2, 4)])

5 coef <- 1.5

6 outliers <- .$media < (stats [2] - coef * iqr) | .$media > (stats [4] + coef * iqr)

7 if (any(outliers)) {

8 stats[c(1, 5)] <- range(c(stats [2:4], .$media[!outliers ]), na.rm=TRUE)

9 }

10 outlier_values = .$media[outliers]

11 if (length(outlier_values) == 0) outlier_values <- NA_real_

12 res <- as.list(t(stats))

13 names(res) = c("lower.whisker","lower.hinge","median","upper.hinge","upper.whisker")

14 res$out <- outlier_values

15 as.data.frame(res)

16 })

em que g15 é o arquivo da edição de 2015. Suas primeiras linhas podem ser visualizadasna Tabela 3.3.

Tabela 3.3 – Primeiras linhas no arquivo g15.

reg sexo CN CH LC MT red media rendaS M 657.40 705.30 591.10 732.30 760 689.22 DSE M 0 BNE M 528.50 531.10 511.30 566.50 640 555.48 BSE F 0 FSE M 679.90 730.60 621.20 732.40 800 712.82 GS M 598.70 658.00 579.00 576.40 480 578.42 FFonte: Autora

Esse código foi utilizado para gerar o gráfico das médias no ENEM 2015, em todo oBrasil, sem divisões por grupo. As células em branco significam que o inscrito não realizoua prova na respectiva área de conhecimento, mas observe que o Inep atribui nota zerona redação mesmo para quem faltou nos dois dias do exame. Após gerar os arquivos,observamos que apesar de ser um arquivo com menor quantidade de linhas, ele podiadiminuir ainda mais, pois havia muitas linhas idênticas e outras que diferiam somentenas casas decimais dos outliers. Como nosso intervalo de notas é bem grande, com grande

Page 30: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 3. Metodologia 29

amplitude, as casas decimais dos outliers não mudam o resultado gráfico da variável.Portanto, retiramos as casa decimais dos outliers e excluímos as linhas que se repetiam.Como exemplo, tomemos a redução de linhas observada no arquivo para o boxplot dasmédias do ENEM 2015, para todo o Brasil na Tabela 3.4.

Tabela 3.4 – Redução de linhas no arquivo para gerar o boxplot das médias do ENEM2015 no Brasil.Conteúdo do arquivo Número de linhasTodos os dados 7.746.427Parâmetros e ouliers 2.265.885Parâmetros e outliers sem linhas repetidas 374Fonte: Autora

Após a limpeza, outro procedimento adotado para melhorar a performance dageração de gráficos foi salvar os arquivos com a estrutura binária .rds, pois desta forma oarquivo é menor e é carregado mais rapidamente. O comando para geração do boxplotficou sendo

1 ebm15 = readRDS("ebm15.rds")

2 bm15 = ggplot(ebm15 , aes(x = "x", y = out , middle = median ,

3 ymin = lower.whisker , ymax = upper.whisker ,

4 lower = lower.hinge , upper = upper.hinge ,

5 alpha = 0.5)) +

6 geom_boxplot(stat="identity", fill = "aquamarine4") +

7 geom_point() + theme_bw() + coord_flip() +

8 labs(x="Brasil",y="Média no ENEM 2015 (Brasil)",

9 title="Boxplot das Médias no ENEM 2015") +

10 theme(legend.position="none", axis.text.x=element_text(colour="white"))

De forma análoga produzimos os outros boxplots que consideram todo o Brasil. Para osgrupos sexo e renda, utilizamos x = sexo e x = renda, respectivamente, na função aes().Nos gráficos sem casos de outliers o parâmetro y foi retirado da função aes(), assim comoa função geom_point.

Utilizando os arquivos com os parâmetros do boxplot montamos arquivos paragerar os boxplots que incluem todos os anos. Desta forma, é possível ver a variação dasnotas no decorrer da edições do exame. O código dos gráficos não difere muito dos códigosapresentados acima. Criamos uma coluna identificadora do ano e utilizamos facets paradividir os dados. No grupo sexo e região, a divisão mais restrita, o comando utilizado foifacet_wrap(e˜reg, ncol = 5, strip.position = "right"), em que e é a coluna queidentificadora dos anos e reg é a coluna que identifica a região.

Quando vamos fazer um histograma com as próprias mãos, sem uso de um programacomputacional, nós o fazemos a partir de uma tabela de frequências com intervalos dosdados. Neste trabalho optamos pela proporção das notas como parâmetro, devido àfacilidade de interpretação e comparações, visto que os grupos não têm o mesmo númerode inscritos. Portanto, usaremos tabelas de frequência para resumir os dados para os

Page 31: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 3. Metodologia 30

histogramas, porém com as frequências transformadas em proporções. A partir daí faremosum gráfico de barras com as configurações necessárias para que o resultado se iguale aodo comando geom_histogram. Antes de iniciarmos a geração das tabelas, tivemos quedeterminar qual método usaríamos para definir o número de classes, e assim o tamanhodos intervalos. Optamos pela Regra de Sturges, pois ela considera a extensão dos dadospara determinar o número de classes, além de funcionar bem para um grande número deobservações. Sua fórmula é

k = 1 + 3,3 log10(N),

em que k é o número de classes e N é o tamanho da população. Em nosso código utilizamosa parte inteira de k somada a 1 como o número de classes, a fim de arrendondar semprepara o próximo número inteiro.

A dificuldade na geração dos gráficos foi a transformação dos gráficos de colunasem histogramas, principalmente quando havia comparação de grupos. Para os grupossexo e renda, havíamos determinado que a visualização seria com os histogramas de cadanível sobrepostos, configuração que o geom_histogram faz normalmente, porém não háequivalência no geom_bar. Encontrada em uma resposta no site <https://stackoverflow.com/>, a solução consiste em adicionar um geom_bar para cada nível, pois desta formao ggplot sobrepõe as camadas. Para que funcione bem, a camada de estética deve ser amesma para todos os níveis, para que sigam a mesma escala. Veja a seguir como ficou ocódigo do histograma da média no ENEM 2015 por sexo.

1 thms15 = readRDS("thms15.rds")

2 k = thms15$intervalo [2] - thms15$intervalo [1]

3 hms15 = ggplot(thms15) + theme_bw() +

4 geom_bar(aes(x=intervalo , y=F, fill="F"), width=k, stat="identity", alpha = 0.5) +

5 geom_bar(aes(x=intervalo , y=M, fill="M"), width=k, stat="identity", alpha = 0.5) +

6 scale_fill_discrete(name="Legenda") +

7 labs(x="Média no ENEM 2015", y="Proporção",

8 title="Histograma das Proporções das Médias no ENEM 2015 Segundo o Sexo")

em que o arquivo thms15.rds contém uma coluna com as médias dos intervalos definidosna geração das tabelas, pois desta forma, o eixo x fica indicado como em um histograma;o arquivo contém ainda duas colunas com as proporções de casos dentro do intervalo paracada sexo. Note que a coluna do intervalo é a escala do gráfico, e ela é a mesma paraos dois níveis da variável. De forma análoga fizemos os histogramas da variável renda,onde uma coluna de proporções foi criada para cada nível de renda. Outra observação é anecessidade do geom_bar saber o valor de k para que as colunas fiquem unidas como emum histograma, por isso calculamos k novamente fazendo uma diferença com valores dacoluna intervalo.

Para o grupo região, decidimos usar a comparação em divisões, com facet_wrap.Neste caso, como o código para gerar o gráfico é diferente, as tabelas também serãomontadas de modo diferente. Ao contrário das variáveis sexo e renda que possuem uma

Page 32: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 3. Metodologia 31

coluna para cada nível, aqui haverá somente uma coluna identificadora da região mais acoluna das médias dos intervalos e a coluna de proporções. O código para o histogramada média do ENEM 2015 por região pode ser visto abaixo, onde thmr15.csv é o arquivodescrito.

1 thmr15 = readRDS("thmr15.rds")

2 k = thmr15$intervalo [2] - thmr15$intervalo [1]

3 hmr15 = ggplot(thmr15 ,aes(x=intervalo , y=prop), alpha =0.5) +

4 geom_bar(width=k, stat="identity",colour="aquamarine4", fill="aquamarine4") +

5 labs(x="Média no ENEM 2015", y="Proporção",

6 title="Histograma das Proporções das Médias no ENEM 2015 Segundo a Região")+

7 theme_bw() + facet_wrap(~reg , nrow = 1) +

8 theme(axis.text.x=element_text(size = 8))

A construção dos histogramas para o grupo sexo e região foi feita mesclando oscódigos utilizados para sexo e para região. Portanto, a tabela ficou com uma colunaidentificando a região, uma coluna para as proporções do sexo masculino e outra paraas proporções do sexo feminino e a coluna das médias dos intervalos. Para exemplificar,veja a seguir o código do histograma das médias do ENEM 2015 por sexo e região, onde oarquivo com a tabela foi chamado de thmsr15.csv.

1 thmsr15 = readRDS("thmsr15.csv")

2 k = thmtsr15$intervalo [2] - thmtsr15$intervalo [1]

3 hmsr15 = ggplot(thmsr15) +

4 geom_bar(aes(x=intervalo , y=F, fill="F"),width=k, stat="identity",alpha = 0.5)+

5 geom_bar(aes(x=intervalo , y=M, fill="M"),width=k, stat="identity",alpha = 0.5)+

6 labs(x="Média no ENEM 2015", y="Proporção",

7 title="Histograma das Proporções das Médias no ENEM 2015 Segundo o Sexo e Região")+

8 scale_fill_discrete(name="Legenda") + theme_bw() + facet_wrap(~reg ,= 2)

Não foi possível aproveitar os arquivos dos histogramas de anos individuais paraos histogramas com todos os anos, assim como fizemos com os boxplots. Isso se deve aosintervalos de classe diferentes para cada gráfico. Portanto, tivemos que produzir novastabelas com um k fixado, optamos fixar k = 30, pois é o default utilizado pelo comandogeom_histogram. Os arquivos contém uma coluna identificadora do ano e os comandosseguem a mesma lógica, utilizando facets para dividir os dados por ano.

3.5 Scripts utilizadosNeste trabalho fizemos uso de três tipos de arquivos, os dados, os scripts para os

pré-processamentos dos dados e os scripts que produzem o aplicativo, estes últimos são osarquivos ui.R e server.R. O arquivo ui.R é uma sigla para user-interface e é responsávelpela interface do aplicativo, nele configuramos as interações a serem feitas com o usuário,a aparência do aplicativo e o que será exposto na tela. O server.R é o arquivo que recebeas solicitações do ui.R e processa, ele contém as instruções do que será devolvido para oarquivo ui.R expor.

Page 33: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 3. Metodologia 32

Na Tabela 3.5 vemos em números a redução no tamanho dos arquivos após a seleçãodas variáveis.

Tabela 3.5 – Redução no tamanho dos arquivos.

Ano Tamanho do arquivo em MB (megabytes)Microdados

(Inep)Após a seleção

de variáveis2010 4.884 3362011 6.858 2702012 5.217 4242013 5.069 3062014 6.105 3702015 5.279 357Total 33.415 2.066

Os arquivos ui.R e server.R contém 70 e 9.690 linhas, respectivamente. A quan-tidade de arquivos e o seu tamanho inviabiliza o compartilhamento por meio destedocumento. Portanto, os scripts utilizados para realizar esse trabalho estão disponí-veis em um repositório no GitHub, no seguinte link <https://github.com/Marylaine/Visualiza-o-dos-Resultados-do-ENEM-2010-a-2015-.git>.

Page 34: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

33

4 Resultados

Nosso aplicativo encontra-se disponível no link: <http://shiny.estatistica.ccet.ufrn.br/enem>.

O aplicativo possui quatro abas, intituladas, Gráficos, Tabelas Resumo, ComoInterpretar e Sobre, respectivamente. Veja na Figura 4.1 que a página inicial é a aba“Gráficos”. Ela contém um painel lateral onde o usuário interage escolhendo as opçõesdesejadas e o gráfico resultante à direita. As opções iniciais são as médias do ENEM 2015para todo o Brasil exibidas em um histograma. Após alterar as opções é necessário clicarno botão “Atualizar Opções”.

Figura 4.1 – Página inicial do aplicativo.

Fonte: Autora

Na aba “Tabelas Resumo”, exemplificada na Figura 4.2, é exibida a tabela cor-respondente ao ano e nota solicitados pelo usuário. As três primeiras colunas fazem asdivisões por grupo, as colunas seguintes apresentam os parâmetros da variável. No inícioda página é possível fazer download da tabela em formato .csv, basta clicar no botão“download”.

Para que nosso aplicativo possa ser utilizado por leigos em estatística, criamos a aba“Como Interpretar”. Esta aba divide-se em histograma e boxplot, conforme a Figura 4.3. Em

Page 35: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 4. Resultados 34

Figura 4.2 – Aba: Tabelas Resumo.

Fonte: Autora

cada aba é apresentada a estrutura do respectivo gráfico e um exemplo de interpretação.Veja na Figura 4.4 a aba sobre o gráfico histograma e na Figura 4.5 a aba sobre o boxplot.

Figura 4.3 – Aba: Como interpretar.

Fonte: Autora

Figura 4.4 – Aba: Como Interpretar - Histograma.

Fonte: Autora

Page 36: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 4. Resultados 35

Figura 4.5 – Aba: Como Interpretar - Boxplot.

Fonte: Autora

A aba “Sobre” fala um pouco do objetivo do aplicativo, sobre os autores e contémalgumas observações para conhecimento do usuário. Veja na Figura 4.6.

Figura 4.6 – Aba: Sobre.

Fonte: Autora

Page 37: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 4. Resultados 36

A seguir vamos apresentar um exemplo de cada gráfico para cada grupo. Para isso,vamos fixar a média geral no ENEM e o ano de 2011.

Na Figura 4.7 temos o histograma e o boxplot referente à média do ENEM 2011em todo território brasileiro.

Figura 4.7 – Gráficos para média no ENEM 2011 - Brasil.

Fonte: Autora

A Figura 4.8 mostra os gráficos gerados quando a média do ENEM 2011 é solicitadacom a divisão por sexo. Os sexos são apresentados na mesma área gráfica.

Quando a nota é solicitada com divisão por região, a visualização será equivalente àFigura 4.9, em que o histograma apresenta as regiões em áreas gráficas separadas, enquantoo boxplot apresenta as regiões na mesma área gráfica.

Os histogramas gerados quando a divisão é por sexo e região mesclam os gráficosdo grupo sexo e do grupo região, ou seja, os sexos estão representados na mesma áreagráfica, enquanto a região é dividida em gráficos com a mesma escala. Os boxplots tambémapresentam os sexos na mesma área gráfica e as regiões em gráficos separados de mesmaescala, conforme vemos na Figura 4.10.

Da mesma forma que a separação por sexo, a divisão por renda é apresentada namesma área gráfica, como podemos ver na Figura 4.11

Os gráficos com todos os anos são diferentes, pois apresentam um grupo a mais.Para exemplificar essa diferença, temos na Figura 4.12 o boxplot e o histograma divididopor sexo e região, pois essa é a divisão mais restrita deste trabalho. Observe que as

Page 38: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 4. Resultados 37

Figura 4.8 – Gráficos para média no ENEM 2011 por sexo.

Fonte: Autora

Figura 4.9 – Gráficos para média no ENEM 2011 por região.

Fonte: Autora

identificações das categorias estão na lateral do gráfico,pois desta forma a visualizaçãoficou melhor.

Page 39: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 4. Resultados 38

Figura 4.10 – Gráficos para média no ENEM 2011 por sexo e região.

Fonte: Autora

Figura 4.11 – Gráficos para média no ENEM 2011 por renda.

Fonte: Autora

Page 40: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 4. Resultados 39

Figura 4.12 – Gráficos para a média do ENEM por sexo, região e ano.

Fonte: Autora

Page 41: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Capítulo 4. Resultados 40

Algumas observações sobre os gráficos e tabelas gerados.

• O Inep atribui nota zero na redação mesmo para os ausentes, exceto na edição de2012. Isso pode explicar a alta proporção na primeira classe dos histogramas damédia da redação.

• Na edição de 2010, o estado de residência do inscrito não era uma pergunta obrigatória.Logo, os inscritos sem identificação na região foram ignorados na geração dos gráficoscom o grupo região e o grupo sexo e região, enquanto na tabela estes casos constamcomo NA na coluna região.

• Os histogramas por sexo e região mostram pouca diferença na proporção de notasentre os sexos dentro de cada região. Parecia ser um erro no ggplot, mas foi verificadoe o resultado é este de fato.

• Apesar do nosso esforço em acelerar a geração dos gráficos, na opção “Todos os anos”poderá apresentar alguma demora no carregamento, isso devido à maior quantidadede dados, visto que inclui os seis anos disponíveis.

• Os histogramas da renda para todos os anos não seguem a mesma legenda, pois oInep altera essa classificação todos os anos.

Page 42: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

41

5 Considerações Finais

O objetivo de criar um aplicativo interativo que apresente os resultados das ediçõesdo ENEM de 2010 a 2015 foi alcançado. O aplicativo encontra-se em funcionamento no link<http://shiny.estatistica.ccet.ufrn.br/enem>. Essa ferramenta possibilita a visualizaçãodos resultados do ENEM nas edições de 2010 a 2015 em 420 combinações de variáveis.Seu uso foi testado por alguns familiares e amigos, por leigos e não leigos em estatística.A interface parece agradar o usuário e, nas condições testadas, o tempo de resposta doaplicativo foi excelente. A reação de leigos aos gráficos apresentados foi diferente entre osgráficos. O histograma mostrou-se como um gráfico intuitivo de se interpretar, enquanto oboxplot pareceu muito técnico aos leigos. Entretanto, é possível interpretá-lo com o auxílioda aba “Como Interpretar - Boxplot”.

5.1 Trabalhos futurosTínhamos a intenção de disponibilizar mais grupos de variáveis no aplicativo e de

encontrar um modelo preditivo que estimasse a média esperada de uma pessoa no ENEM,dadas suas características sócio-econômicas. Gostaríamos que a visualização das tabelasdisponibilizasse opções interativas, tais como filtros e classificações nas colunas. Devido aocurto tempo que tivemos para finalizar este trabalho e a dificuldades imprevistas, não foipossível incluir estas aplicabilidades em nossa ferramenta. Portanto, estas funcionalidadesficam como sugestões para trabalhos futuros. Outra sugestão é excluir os ausentes nosresultados referentes à média da redação, pois o Inep atribui nota zero mesmo aos ausentes.

Page 43: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

42

Referências

BRASIL, P. ENEM 2010 tem 4,6 milhões de candidatos inscritos.2010. Disponível em: <http://www.brasil.gov.br/educacao/2010/08/enem-2010-tem-4-6-milhoes-de-candidatos-inscritos>.

BRASIL, P. Comitê de Estatísticas Sociais: Bases de dados, Metadados do INEP,ENEM. 2011. Disponível em: <http://ces.ibge.gov.br/base-de-dados/metadados/inep/exame-nacional-do-ensino-medio-enem.html>.

BRASIL, P. Mais de 4 milhões participaram do ENEM 2012. 2012. Disponível em: <http://www.brasil.gov.br/educacao/2012/11/mais-de-4-milhoes-participaram-do-enem-2012>.

BRASIL, P. ENEM completa 15 anos com recorde de inscritos.2013. Disponível em: <http://www.brasil.gov.br/educacao/2013/10/enem-completa-15-anos-com-recorde-de-inscritos>.

BRASIL, P. ENEM 2014 tem mais de 8,7 milhões de participantes confir-mados. 2014. Disponível em: <http://www.brasil.gov.br/educacao/2014/06/enem-2014-tem-mais-de-8-7-milhoes-de-participantse-confirmados>.

BRASIL, P. Enem 2015 registra o menor número de faltas em seteanos. 2015. Disponível em: <http://www.brasil.gov.br/educacao/2015/10/enem-tem-25-5-de-abstencao-menor-taxa-desde-2009>.

BRASIL, P. Enem: a segunda maior prova de acesso ao Ensino Superior domundo. 2015. Disponível em: <http://www.brasil.gov.br/educacao/2015/10/enem-a-segunda-maior-prova-de-acesso-ao-ensino-superior-do-mundo>.

BRASIL, P. MEC anuncia mais de 8,6 milhões de estudantes inscritos noEnem 2016. 2016. Disponível em: <http://www.brasil.gov.br/educacao/2016/05/mec-anuncia-mais-de-8-6-milhoes-de-estudantes-inscritos-no-enem-2016>.

BRASIL, P. Enem 2017 recebe mais de 7,6 milhões de inscritos.2017. Disponível em: <http://www.brasil.gov.br/educacao/2017/05/enem-2017-recebe-mais-de-7-6-milhoes-de-inscritos>.

BUSSAB, W. de O.; MORETTIN, P. A. Estatística Básica. São Paulo: Editora Saraiva,2013.

CAVALCANTE, L. P. F. et al. ENEM 2005 – Pressupostos Teóricos, Desenho Metodológicoe Análise dos Resultados. Revista de Ciências Humanas, v. 6, n. 2, p. 309–319, jul/dez2006. Disponível em: <http://www.cch.ufv.br/revista/pdfs/vol6/artigo10vol6-2.pdf>.

CORTI, A. P. As Diversas Faces do ENEM: Análise do Perfil dos Participantes(1999-2007). Estudos em Avaliação Educacional, v. 24, n. 55, p. 198–221, abr/ago 2013.Disponível em: <http://dx.doi.org/10.18222/eae245520132724>.

DAVENPORT, T. H.; DYCHÉ, J. Big Data in Big Companies. International Institute forAnalytics, p. 1–31, may 2013. Disponível em: <http://www.sas.com/content/dam/SAS/en_us/doc/whitepaper2/bigdata-bigcompanies-106461.pdf>.

Page 44: Visualização dos resultados das edições de 2010 a 2015 do ......Nascimento, Marylaine Pereira do. Visualização dos resultados das edições de 2010 a 2015 do ENEM através de

Referências 43

DUNNING, M. J. et al. Mining Human Prostate Cancer Datasets: The “camcAPP”Shiny App. EBioMedicine, v. 17, p. 5–6, mar 2017. Disponível em: <https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5360593/>.

FRANCIS, R. M. SPECIAL ISSUE: POPULATION GENOMICS WITH RPOPHELPER:an R package and web app to analyse andvisualize population structure. MolecularEcology Resourses, v. 17, p. 27–32, jan 2017.

FRIAS, J. L. D. de. Uma ferramenta para a obtenção e análise de dados do ENEM.Dissertação (Mestrado) — PUC-Rio, Rio de Janeiro, 2015.

INEP. Série Histórica de Inscritos e participantes no Enem – 1998-2007. 2007. Disponívelem: <https://www.google.com.br/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0ahUKEwiaz4GDhLfWAhVMf5AKHdXKBeEQFggrMAA&url=http\%3A\%2F\%2Fdownload.inep.gov.br\%2Fdownload\%2Fimprensa\%2F2007\%2Fpresenca_enem2007.doc&usg=AFQjCNFAsbEHVWsesenfvAcurftvYoRn_w>.

LYNCH, A. Crambled: A Shiny application to enable intuitive resolution of conflictingcellularity estimates. F1000Research, v. 4, dec 2015.

MEC, P. Inscritos ao ENEM 2008. 2008. Disponível em: <http://portal.mec.gov.br/arquivos/pdf/enem_2008.pdf>.

MEC, P. Inscritos ENEM 2009. 2009. Disponível em: <http://portal.mec.gov.br/dmdocuments/inscritos_enem_2009.pdf>.

MEC, P. Inscritos ENEM 2011. 2011. Disponível em: <http://portal.mec.gov.br/index.php?option=com_docman&view=download&alias=8728-30-08-11-link-enem-tabelas&category_slug=agosto-2011-pdf&Itemid=30192>.

R Core Team. R: A Language and Environment for Statistical Computing. Vienna,Austria, 2016. Disponível em: <https://www.R-project.org/>.

SILVEIRA, F. L. d.; BARBOSA, M. C. B.; SILVA, R. d. Exame Nacional do Ensino Médio(ENEM): Uma análise crítica. Revista Brasileira de Ensino de Física - Online Ahead ofPrint, v. 37, mar 2015. Disponível em: <http://dx.doi.org/10.1590/S1806-11173710001>.

VIGGIANO, E.; MATTOS, C. O desempenho de estudantes no Enem 2010 emdiferentes regiões brasileiras. Revista brasileira de Estudos Pedagógicos (online), v. 94,n. 237, p. 417–428, mai/ago 2013. Disponível em: <http://link.springer.com/10.1007/s00180-009-0178-4>.