Dissertação - NOME - unip.br · Linha de pesquisa: Redes de empresas e planejamento da produção...

Post on 21-Jan-2019

214 views 0 download

Transcript of Dissertação - NOME - unip.br · Linha de pesquisa: Redes de empresas e planejamento da produção...

UNIVERSIDADE PAULISTA

PROGRAMA DE DOUTORADO EM ENGENHARIA DE PRODUÇÃO

MINERAÇÃO DE DADOS EDUCACIONAIS PARA A

GESTÃO DE CURSOS MASSIVOS

Tese apresentada ao Programa de Pós-

Graduação em Engenharia de Produção da

Universidade Paulista - UNIP, para obtenção

do título de Doutor em Engenharia de

Produção.

LUIS NAITO MENDES BEZERRA

SÃO PAULO

2017

UNIVERSIDADE PAULISTA

PROGRAMA DE DOUTORADO EM ENGENHARIA DE PRODUÇÃO

MINERAÇÃO DE DADOS EDUCACIONAIS PARA A

GESTÃO DE CURSOS MASSIVOS

Tese apresentada ao Programa de Pós-

Graduação em Engenharia de Produção da

Universidade Paulista - UNIP, para obtenção

do título de Doutor em Engenharia de

Produção.

Área de concentração: Gestão de Sistemas de

Operação

Linha de pesquisa: Redes de empresas e

planejamento da produção

Projeto de pesquisa: Gestão de operações de

serviços - formas organizacionais, métodos e

ferramentas para a gestão.

LUIS NAITO MENDES BEZERRA

SÃO PAULO

2017

FICHA CATALOGRÁFICA

Bezerra, Luis Naito Mendes.

Mineração de Dados Educacionais para a gestão de cursos massivos. /

Luis Naito Mendes Bezerra. - 2017.

141 f. : il. color. + CD-ROM.

Tese de Doutorado Apresentada ao Programa de Pós Graduação em

Engenharia de Produção da Universidade Paulista, São Paulo, 2017.

Área de Concentração: Gestão de Sistemas de Operação: Redes de

Empresas e Planejamento da Produção.

Orientadora: Prof.ª Dra. Márcia Terra da Silva.

1. EDM. 2. MOOCs. 3. Cursos massivos. 4. Análise de dados

educacionais. 5. Gestão. I. Silva, Márcia Terra da (orientadora).

II. Título.

LUIS NAITO MENDES BEZERRA

MINERAÇÃO DE DADOS EDUCACIONAIS PARA A

GESTÃO DE CURSOS MASSIVOS

Tese apresentada ao Programa de Pós-

Graduação em Engenharia de Produção da

Universidade Paulista - UNIP, para obtenção

do título de Doutor em Engenharia de

Produção.

Aprovado em:

BANCA EXAMINADORA

_____________________________________ / ____ / ____

Prof. Dra. Márcia Terra da Silva - Orientadora

Universidade Paulista – UNIP

_____________________________________ / ____ / ____

Prof. Dr. Carlos Fernando de Araujo Jr.

Universidade Cruzeiro do Sul

_____________________________________ / ____ / ____

Prof. Dr. Ismar Frango Silveira

Universidade Presbiteriana Mackenzie

_____________________________________ / ____ / ____

Prof. Dr. Oduvaldo Vendrametto

Universidade Paulista – UNIP

_____________________________________ / ____ / ____

Prof. Dr. José Benedito Sacomano

Universidade Paulista - UNIP

DEDICATÓRIA

A minha esposa, meu amor e companheira de todos os

momentos, Vilma Silva Lima, por ter me inspirado e apoiado

desde o início do doutorado, além de ter sempre acreditado

nos meus sonhos e tolerado a minha ausência em muitos

momentos.

AGRADECIMENTOS

Agradeço a minha orientadora, professora doutora Márcia Terra da Silva, pela orientação

sempre presente e dedicada, além da generosidade em compartilhar sua experiência e

conhecimentos comigo.

Aos meus pais Milton (in memoriam) e Melise, por todos os ensinamentos, por todos os

sacrifícios e por sempre acreditarem em mim.

Aos meus avós maternos Shungoro (in memoriam) e Sonja (in memoriam), pela educação e

pelos exemplos de vida.

A minha filha do coração Ana Paula, por ser tão especial e importante em todos os meus

momentos de alegria.

Ao meu irmão Milton, meu grande amigo e companheiro de todas as jornadas. A minha

cunhada Déborah, uma pessoa especial e incentivadora dos meus projetos, além dos meus

queridos sobrinhos Rafael, Carolina e Julia, que são uma alegria imensa na minha vida.

Aos demais professores doutores do programa Rodrigo Franco Gonçalves, Pedro Luiz de

Oliveira Costa Neto, Irenilza de Alencar Nääs, Oduvaldo Vendrametto, José Benedito

Sacomano e João Gilberto Mendes dos Reis, pelas aulas e pela troca intensa de experiências.

Aos colegas do programa, em especial a Marcelo Bernardino de Araújo, pelo apoio e

companheirismo, além das ótimas dicas de revistas e formatação de artigos.

Ao amigo e colega de trabalho, Doutor Alberto Messias, pelas dicas e apoio nas análises dos

algoritmos de mineração de dados.

À amiga e colega de trabalho, Doutora Regina Tavares, pela dedicação e profissionalismo na

produção e edição dos vídeos do curso Carreira S/A.

À minha amiga Wyara Medeiros pela amizade e apoio.

À UNIP, pela bolsa parcial para o curso de Doutorado.

Aos funcionários da UNIP, em especial à funcionária Márcia Nunes, que tanto me ajudaram

durante o curso.

RESUMO

BEZERRA, Luis Naito Mendes. Mineração de Dados Educacionais para a gestão de

cursos massivos. Páginas: 141. Tese (Engenharia de Produção), Universidade Paulista, São

Paulo, 2017.

Em relação aos cursos tradicionais ministrados a distância, assim como nos MOOCs

(Massive Open Online Course), os Ambientes Virtuais de Aprendizagem (AVAs) ou

Learning Management System (LMS) registram uma quantidade significativa de dados de

navegação, participação e progresso dos alunos, possibilitando que sejam feitas diversas

análises relacionadas ao padrão ou conjunto de padrões de comportamento dos mesmos. A

análise desse grande volume de dados é inviável sem o auxílio de recursos computacionais

adequados, sendo fundamental a disponibilização de ferramentas que auxiliem os gestores

desses cursos na tarefa de analisar, interpretar e relacionar esses dados, para que se possam

elaborar e definir estratégias de ação em cada domínio de aplicação.

Esta tese tem como objetivo central descrever e analisar as contribuições e limitações da

aplicação de métodos de mineração de dados educacionais para identificar conhecimentos

novos e relevantes a respeito do padrão ou conjunto de padrões de comportamentos dos

alunos em cursos massivos. Os gestores deixariam de tomar decisões de forma empírica e

subjetiva, pois a partir dos padrões descobertos, seria possível gerar conhecimento útil para a

tomada de decisão, visando à diminuição das taxas de evasão e a melhorar o processo de

ensino e aprendizagem.

Em termos metodológicos, é uma pesquisa aplicada, em que o principal procedimento

utilizado é o da pesquisa-ação.

A aplicação dos algoritmos de MDE, especificamente, árvore de decisão (decision tree) e o

agrupamento (clustering), possibilitou que fossem descobertos padrões de comportamento

relevantes para a gestão de cursos massivos, como o tipo de atributo que contribuiu de

maneira mais significativa para a aprovação dos alunos e o padrão de comportamento de

grupos de alunos reprovados, elementos que podem ser muito úteis para que a tutoria trate

com maior atenção justamente aqueles alunos que mais necessitam de apoio durante o curso.

Palavras-chave: MOOCs; curso massivo; Mineração de Dados Educacionais; gestão.

ABSTRACT

BEZERRA, Luis Naito Mendes. Educational Data Mining for the management of massive

courses. 141 pages. Thesis (Production Engineering), Paulista University, São Paulo, Brazil,

2017.

In relation to traditional distance learning courses, as also MOOCs (Massive Open Online

Courses), the Learning Management System (LMS) show a significant volume of data

regarding navigation, participation and progress of students, enabling the carrying out of

several different analyses related to the standard, or set of standards, of behaviour among this

group. The analysis of this significant volume of data is not feasible without the aid of

appropriate computer resources, and here it is essential that tools be made available to help

the managers of such courses in their tasks of analysing and interpreting this data, and also in

establishing relationships between the items of data, so that it may be possible to draw up and

define strategies for action in each domain of application.

The core purpose of this thesis is that of describing and analysing the contributions and also

the limitations of the application of educational data mining (EDM) methods to identify new

and relevant knowledge about the standard, or set of standards, of behaviour among students

in massive courses. The managers no longer take decisions in a subjective and empirical way

because, based on the standards that have been discovered, it would be possible to generate

useful knowledge to help with decision making, seeking to reduce the dropout rate and also to

improve the teaching-learning process.

In methodological terms, this is an applied research study in which the main procedure used

is that of research-action.

The application of EDM algorithms, specifically decision trees and clustering, make it

possible to discover relevant standards of behaviour for the management of massive courses,

such as the kind of attribute that has made the most significant contribution towards the

students’ passes, and also the patterns of behaviour for groups of students that have failed,

elements that can be very useful indeed, so that the tutorship team may address, with greater

attention, those very students that most need help throughout the course.

Key words: MOOCs; massive course; Educational Data Mining (EDM); management.

LISTA DE FIGURAS

Figura 1: Crescimento dos MOOCs. Adaptado de (SHAH, 2016) .......................................... 20

Figura 2: Estrutura da tese. Fonte: O autor .............................................................................. 22

Figura 3: Timeline dos REAs aos MOOCs. Adaptado de YUAN e POWELL (2013) e YUAN

e POWELL (2015) ................................................................................................................... 29

Figura 4: O ciclo de Learnng Analytics. Adaptado de CLOW (2012) .................................... 42

Figura 5: O processo de KDD. Adaptado de GOLDSCHMIDT e BEZERRA (2015) ........... 43

Figura 6: Principais áreas da mineração de dados. Adaptado de (de CASTRO & FERRARI,

2016) ........................................................................................................................................ 45

Figura 7: Hierarquia entre dado, informação e conhecimento. Adaptado de GOLDSCHMIDT,

PASSOS e BEZERRA (2015) ................................................................................................ 46

Figura 8: Exemplo de árvore de decisão e suas regras. Fonte: GOLDSCHMIDT, PASSOS e

BEZERRA (2015) .................................................................................................................... 48

Figura 9: Exemplo de árvore de decisão. KAMPFF (2009) .................................................... 49

Figura 10: Exemplo de agrupamento. Fonte: HAN, PEI e KAMBER (2011) ........................ 52

Figura 11: O ciclo de MDE. Adaptado de LIÑÁN e PÉREZ (2015) ...................................... 55

Figura 12: RapidMiner Studio versão 7.0 ................................................................................ 57

Figura 13: Etapas da pesquisa. Fonte: o autor ......................................................................... 62

Figura 14: Sequencia de artigos da tese ................................................................................... 64

LISTA DE TABELAS

Tabela 1: Número de cursos e instituições de ensino (setembro de 2016) .............................. 19

Tabela 2: Comparação entre os principais provedores. Adaptado de YUAN e POWELL

(2013) ....................................................................................................................................... 32

Tabela 3: Comparação entre cMOOCs e xMOOCs. Adaptado de KAPLAN e HAENLEIN (

2016) ........................................................................................................................................ 35

Tabela 4: Situação dos artigos da tese em maio de 2017. Fonte: o autor ................................ 64

SUMÁRIO

1 CONSIDERAÇÕES INICIAIS ........................................................................................ 14

1.1 Introdução.................................................................................................................. 14

1.2 Situação problema ..................................................................................................... 16

1.3 Objetivos ................................................................................................................... 18

1.3.1 Objetivo Geral .................................................................................................... 18

1.3.2 Objetivos Específicos......................................................................................... 18

1.4 Justificativa................................................................................................................ 18

1.5 Contribuições esperadas ............................................................................................ 21

1.6 Organização deste trabalho ....................................................................................... 22

2 FUNDAMENTAÇÃO TEÓRICA ................................................................................... 24

2.1 A educação a distância e os MOOCs ........................................................................ 24

2.2 O contexto do surgimento dos MOOCs .................................................................... 25

2.3 O caminho inicial dos MOOCs ................................................................................. 30

2.4 Definição de MOOCs ................................................................................................ 32

2.5 Tipos de MOOCs ...................................................................................................... 34

2.5.1 Utilização dos MOOCs pelas instituições de ensino superior ........................... 35

2.5.2 Outros tipos de MOOCs..................................................................................... 36

2.6 A elevada taxa de evasão nos MOOCs ..................................................................... 38

2.7 Análise de dados........................................................................................................ 39

2.7.1 Análise de Dados Educacionais ......................................................................... 40

2.8 O processo de KDD e mineração de dados ............................................................... 43

2.8.1 Pré-processamento ............................................................................................. 44

2.8.2 Mineração de Dados (data mining) .................................................................... 44

2.8.3 Principais técnicas e algoritmos de mineração de dados ................................... 47

2.8.4 Pós-processamento ............................................................................................. 53

2.9 Educational Data Mining (EDM) ou Mineração de Dados Educacionais (MDE) ... 54

2.10 Ferramentas para mineração de dados ...................................................................... 56

2.11 Trabalhos correlatos .................................................................................................. 57

3 METODOLOGIA ............................................................................................................. 61

3.1 Procedimentos metodológicos................................................................................... 61

3.2 Estrutura da tese ........................................................................................................ 62

3.2.1 Pesquisa bibliográfica (etapa 1) ......................................................................... 63

3.2.2 Sequência de artigos da tese (etapa 2) ............................................................... 63

4 RESULTADOS EM ARTIGOS ....................................................................................... 65

4.1 Artigo 1 - “Principais Problemas no Projeto e Gestão dos MOOCs” ou “The Main

Problems in the Design and Management of MOOCs” ....................................................... 65

4.2 Artigo 2 - “Uma revisão da literatura sobre os fatores responsáveis pela alta taxa de

evasão nos MOOCs” ou “A review of literature on the reasons that cause the high dropout

rates in the MOOCs” ............................................................................................................ 72

4.3 Artigo 3 - “A aplicação de mineração de dados educacionais na descoberta de

padrões de comportamento dos alunos de uma disciplina online: um caso brasileiro” ou

“Application of educational data mining to understand the online students behavioral

pattern: a brazilian case” ..................................................................................................... 87

4.4 Artigo 4 - “O processo de mineração de dados educacionais aplicado em um curso

massivo” ............................................................................................................................. 105

5 DISCUSSÃO E CONSIDERAÇÕES FINAIS............................................................... 131

6 REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................... 134

LISTA DE ABREVIAÇÕES

ABED Associação Brasileira de Educação a Distância

AVA Ambientes Virtuais de Aprendizagem

BOOC Big Open Online Course

CBS Columbia Broadcasting Service

CCK08 Connectivism and Connective Knowledge

CRISP-DM Cross Industry Standard Process for Data Mining

DESAFIE Workshop de Desafios da Computação Aplicada à Educação

DHP Direct Hashing and Prunning

DIC Dynamic Itemset Couting

DOCC Distributed Online Collaborative Course

EaD Educação a Distância

EDM Educational Data Mining

GPL General Public Licence

KDD Knowledge Discovery in Databases

LA Learning Analytics

LMS Learning Management System

LOOC Little Open Online Course

MDE Mineração de Dados Educacionais

MIT Massachusetts Institute of Technology – MIT

MOOC Massive Open Online Course

MOOR Massive Open Online Research

ODM Oracle Data Mining

OER Open Educational Resource

ONG Organização não governamental

OCW OpenCourseWare

PBS Public Broadcasting Service

PCMT Planejamento de Carreiras e Mercado de Trabalho

REA Recurso Educacional Aberto

PBS Public Broadcasting Service

PES Precise Effectiveness Strategy

RBIE Revista Brasileira de Informática na Educação

RENOTE Revista de Novas Tecnologias na Educação

SBIE Simpósio Brasileiro de Informática na Educação

SEE Stanford Engineering Everywhere

SMOC Synchronous Massive Online Course

SNA Social Network Analysis

SPOC Small Private Online Course

TIC Tecnologia da Informação e Comunicação

UFRGS Universidade Federal do Rio Grande do Sul

VOIP Voice Over Internet Protocol

WMDE Workshop de Mineração de Dados Educacionais

WEKA Waikato Environment for Knowledge Analysis

14

1 CONSIDERAÇÕES INICIAIS

1.1 Introdução

Nos últimos anos, um novo e controverso segmento da modalidade de educação a distância

(EaD), conhecido como MOOC (Massive Open Online Course, ou Curso Online Aberto e

Massivo), tem despertado o interesse da comunidade acadêmica a partir do lançamento em

2011, por Sebastian Thrun e Peter Norvig, do curso de Inteligência Artificial (Artifical

Intelligence) na Universidade de Stanford, que atraiu mais de 160.000 alunos de 190 países

(ONG e GRIGORYAN, 2014). Diferentemente dos cursos EaD tradicionais que cobram

taxas dos alunos, concedem créditos universitários e apresentam limitações no número de

matriculados, nos MOOCs, em geral não há cobrança inicial de taxas, não concedem créditos

universitários e apresentam milhares de alunos matriculados. Em geral, a motivação inicial

dos alunos matriculados nesse tipo de curso reside em aprender sobre algum assunto novo ou

aumentar o seu grau de conhecimento a respeito de algum tema visto anteriormente (FINI,

2009; PAPPANO, 2012; HEW e CHEUNG, 2014; XING et al., 2016)

O crescimento dos MOOCs tem sido vertiginoso, com o surgimento nos Estados Unidos, de

três grandes provedores ou plataformas para a oferta de MOOCS, a saber: Coursera, Udacity

e edX (LITTLE, 2013, SANDEEN, 2013; NAWROT e DOUCET, 2014). Tais plataformas

têm conseguido distribuir os MOOCs em escala global. Por exemplo, em setembro de 2016, a

plataforma Coursera apresentava 2.216 cursos, mantendo parcerias com 146 instituições de

ensino superior de 28 países. (COURSERA, 2016).

Além do empreendimento inicial do curso de Inteligência Artificial, outras ofertas da

Universidade de Stanford merecem destaque em função do grande número de participantes,

o que atesta seu caráter massivo, como, por exemplo, os cursos de Aprendizagem de Máquina

(Machine Learning) com aproximadamente104.000 alunos matriculados e de Banco de

Dados (Databases) com aproximadamente 92.000 alunos matriculados. (RODRIGUEZ,

2012; COOPER e SAHAMI, 2013). Há outras ofertas de MOOCs com número ainda maior

de alunos matriculados, como os cursos: Social Psychology com aproximadamente 200.000

alunos e Think Again: How to Reason and Argue, com 226.652 alunos, ambos ofertados pela

15

provedora Coursera. No entanto, não é comum cursos com mais de 100.000 alunos, e um

MOOC típico apresenta em média 25.000 alunos matriculados. (JORDAN, 2015)

Qual seria a motivação das instituições de ensino superior em lançar cursos massivos, como

os MOOCs? Os MOOCs representam um modelo de negócio inovador, baseado na web para

o financiamento, concepção e prestação de serviços educacionais. (WULF et al., 2014).

Embora os cursos sejam isentos de taxas para a inscrição e acesso ao conteúdo, alguns

autores mencionam que as instituições podem cobrar taxas para a emissão dos certificados.

Com base na enorme escala em termos do número de alunos, mesmo com a cobrança de

certificados com valores entre 30 e 50 dólares, é possível que o modelo de negócios seja

sustentável. (HYMAN, 2012; ALRAIMI, ZO E CIGANEK, 2015). Para SANDEEN (2013),

o modelo de negócios dos MOOCs também tem relação com o adotado por empresas de

tecnologia, como, por exemplo, Google e RedHat Linux, que fornecem um serviço básico aos

clientes para em seguida oferecer complementos pagos. Outro elemento motivador está

vinculado com a redução de custo, devido ao acesso mais simples e de baixo custo para os

alunos, além da redução na sobrecarga relativa ao desenvolvimento e oferecimento desse tipo

de curso. (VARDI, 2012; COOPER e SAHAMI, 2013; NANFITO, 2014)

A questão dos certificados de conclusão também precisa ser analisada, uma vez que muitos

alunos não tinham muita motivação para concluir o curso, pois no princípio, os MOOCs

ofereciam apenas uma declaração de conclusão e uma nota. A partir de 2013, surgiram as

primeiras iniciativas para oferecer créditos universitários. A provedora Coursera firmou

parcerias com dez das maiores universidades públicas dos EUA para oferecer cursos com

direito a créditos, tornando a educação online disponível para mais de 1,25 milhão de

estudantes em instituições públicas (RIFKIN, 2016). Ao tomarem a decisão de oferecerem

um MOOC, as instituições de ensino acreditam também que o alcance global e a visibilidade

de tais cursos podem atrair ótimos alunos para seus escritórios de admissão. O princípio

básico dessas instituições, ao oferecer um MOOC de qualidade, estarão ajudando milhões de

estudantes que não conseguiriam custear um curso nas principais universidades do mundo, e

ao mesmo tempo, selecionar os melhores alunos para manter suas próprias operações físicas.

(SANDEEN, 2013; RIFKIN, 2016)

16

1.2 Situação problema

Apesar da escala global ter sido atingida, do grande número de alunos atendidos e do

crescimento considerável em relação à diversidade de cursos, alguns desafios vêm-se

apresentando ao universo dos MOOCs.

Diversos pesquisadores apontam que o principal desafio para os gestores desse tipo de curso,

reside nas questões relativas à evasão, bastante elevada, em torno de 90% (DANIEL, 2012;

SANDEEN, 2013; HEW e CHEUNG, 2014; WILKOWSKI, DEUTSCH, e RUSSELL, 2014;

ALRAIMI, ZO e CIGANEK, 2015; HOOD, LITLEJOHN e MILLIGAN, 2015; XING et al.,

2016). No entanto, no âmbito dos MOOCs, a taxa de conclusão está relacionada ao número

de alunos que recebem o certificado ou são aprovados no curso. (JORDAN, 2014)

Ainda no contexto dos desafios para a gestão dos MOOCs, MUÑOZ-MERINO et al. (2015)

argumentam que, devido ao grande número de alunos, os gestores e professores necessitam

de estratégias precisas, possibilitando o acompanhamento tanto do desenvolvimento

individual de cada aluno quanto da turma como um todo. Ao mesmo tempo, o grande número

de alunos participantes possibilita o acesso dos gestores e professores envolvidos a um

grande conjunto de dados das interações entre eles, possibilitando a compreensão das

experiências, processos e resultados de aprendizagem (SIEMENS e LONG, 2011; BATES,

2016).

É preciso considerar também que, nos Ambientes Virtuais de Aprendizagem (AVAs) ou

Learning Management System (LMS) tradicionais, como o Blackboard e o Moodle e nos

ambientes virtuais, específicos para MOOCs, como os utilizados pela Coursera e edX, uma

grande quantidade de dados de navegação e das atividades desempenhadas pelos alunos

podem ser coletadas, podendo ser extremamente úteis, em cursos de caráter massivo.

Contudo, a quantidade extraordinariamente grande de dados tem sido considerada um

problema, pois a capacidade de coletar e armazenar esses dados tem superado a habilidade

humana de analisar e extrair seu conhecimento. (de CASTRO e FERRARI, 2016; YOU,

2016)

No ensino presencial, o professor tem a possibilidade de interagir diretamente com os alunos,

tendo condições, de acompanhá-los, diagnosticar problemas e saber a respeito do seu

entendimento sobre o conteúdo e também sobre seu desempenho. Considerando também que

o número de alunos que o professor atende no ensino presencial, é consideravelmente menor

17

que no EaD e nos cursos massivos, a partir do feedback dos alunos, seja plausível ao

professor realizar determinados ajustes na condução da disciplina. Tal modelo não pode ser

replicado totalmente para os cursos a distância tradicionais, pois não existe a interação direta

e presencial entre professor e aluno, embora a dicotomia entre os dois modelos seja cada vez

menos relevante, em função da utilização e desenvolvimento de novas tecnologias digitais e

de comunicação.

E razão da excessiva quantidade de dados somada à dificuldade de análise, fica evidente a

necessidade do apoio de ferramentas computacionais adequadas para coletar e analisar e

interpretar todos os dados originados pelos cursos massivos, para que se possa elaborar e

definir estratégicas de ação em cada domínio de aplicação, por exemplo, para identificar

alunos em situação de evasão ou melhorar o processo de ensino e aprendizagem. (SIEMENS

e LONG, 2011; GOLDSCHMIDT, PASSOS e BEZERRA, 2015; XING et al., 2016)

Com modelos e ferramentas computacionais adequadas, diversas descobertas relacionadas ao

padrão ou conjunto de padrões de comportamento do aluno no ambiente podem ser extraídas,

permitindo entender e descrever o perfil do aluno no ambiente. A área de Mineração de

Dados Educacionais (Educational Data Mining - EDM) atua com o desenvolvimento,

pesquisa e aplicação de métodos computacionais para detectar padrões em grandes coleções

de dados educacionais, e de outra forma, seria difícil ou até mesmo impossível de analisar

devido ao enorme volume de dados. Dessa maneira, os gestores deixariam de tomar decisões

de forma empírica e subjetiva, pois a partir dos padrões descobertos, seria possível gerar

conhecimento útil para a tomada de decisão. (ROMERO e VENTURA, 2013; de CASTRO e

FERRARI, 2016; SILVA, PERES, e BOSCARIOLI, 2016)

É importante investigar e propor mecanismos que viabilizem e automatizem o

acompanhamento do desempenho acadêmico dos alunos. Em contextos educacionais, o uso

de EDM pode ser muito útil como ferramenta para que os gestores de cursos massivos atuem

de forma proativa e antecipada, para entender e melhorar o processo de ensino e

aprendizagem e aumentar o nível de permanência dos alunos nos cursos.

Busca-se, com este estudo, a solução do seguinte problema:

Como a aplicação de técnicas e algoritmos de EDM pode apoiar o processo de gestão e de

tomada de decisão em cursos massivos, possibilitando que os gestores atuem de forma efetiva

18

visando à diminuição das taxas de evasão e a melhoria continua do processo de ensino e

aprendizagem?

1.3 Objetivos

1.3.1 Objetivo Geral

O objetivo principal desta tese é analisar as contribuições e limitações da aplicação de

métodos de mineração de dados educacionais para identificar conhecimentos novos e

relevantes, a respeito do padrão ou conjunto de padrões de comportamentos dos alunos em

cursos massivos.

1.3.2 Objetivos Específicos

Para atingir o objetivo geral desta pesquisa foram estabelecidos os seguintes objetivos

específicos:

Identificar os principais problemas na gestão de cursos massivos e destacar os mais

significativos;

Estudar e avaliar as principais técnicas e ferramentas de mineração de dados, a partir

da aplicação dos mais relevantes algoritmos utilizados em MDE, no âmbito de uma

disciplina online;

Realizar experimentos em um curso criado com grande número de alunos, com base

nos principais algoritmos utilizados em MDE.

1.4 Justificativa

Os MOOCs surgiram há pouco tempo no cenário da educação superior, despertando muito

interesse e controvérsia entre alunos, professores, gestores e pesquisadores. No âmbito das

principais provedoras de oferta de MOOCs, há um interesse significativo de instituições de

ensino superior na oferta desse tipo de curso. Além dos Estados Unidos, com os provedores

pioneiros como Coursera (fundada por professores da Universidade de Stanford) e Edx

(iniciativa conjunta do MIT - Massachusetts Institute of Technology e Universidade de

Harvard), o interesse pelos MOOCS tem crescido também na Europa, com o surgimento da

provedora Miríada X, plataforma em espanhol e português, além da provedora FutureLearn,

19

iniciativa da britânica “The Open University”, tradicional instituição de ensino a distância,

com mais de 40 anos de história. (ONG & GRIGORYAN, 2014; RIFKIN, 2016)

A tabela 1 apresenta as principais plataformas com o número de cursos oferecidos e também

o número de instituições de ensino e/ou empresas parceiras.

Tabela 1: Número de cursos e instituições de ensino (setembro de 2016)

Plataforma URL Cursos Instituições de Ensino /

Empresas / Organizações

Coursera www.coursera.org 2216 146

edX https://www.edx.org/ 950 106

Udacity www.udacity.com 155 23

Miríada X https://www.miriadax.net/ 144 69

FutureLearn https://www.futurelearn.com/ 234 99

O Brasil ainda apresenta poucos MOOCs desenvolvidos em língua portuguesa. De acordo

com SCORTEGAGNA e SILVEIRA (2014), a primeira iniciativa foi feita pela Universidade

Estadual Paulista (UNESP) em 2012 e, nesse mesmo ano, foi desenvolvido o MOOC EAD

pela Pontifícia Universidade Católica de São Paulo (PUC-SP) e Associação Brasileira de

Educação a Distância (ABED). Em seguida, foram lançados outros MOOCs com certificação

pela Universidade de São Paulo (USP) em parceria com o portal brasileiro Veduca.

O Veduca passa por um processo de reformulação, oferecendo cursos em diversas áreas do

conhecimento e em parceria com instituições como a Fundação Lemann & Instituto

Peninsula, além de profissionais e professores oriundos principalmente da USP. Os cursos

são gratuitos, mas o aluno pode escolher a opção de curso com certificado por uma taxa de

R$ 49,00. (VEDUCA, 2017)

Na Europa, segundo o site Open Education Europa, que agrega dados sobre os MOOCs

naquele continente, em setembro de 2014 foram oferecidos 770 cursos, e em setembro de

2015 já eram 1771 cursos, números apontando para um crescimento de 130% (OPEN

EDUCATION EUROPA, 2015).

De acordo com SHAH (2016), os MOOCs têm mais de 35 milhões de alunos que se

matricularam em pelo menos um curso, considerando-se as principais provedoras. Segundo a

figura 1, 1.800 novos cursos foram anunciados em 2015, com um total de 4180 cursos

espalhados pelo mundo.

20

Figura 1: Crescimento dos MOOCs. Adaptado de (SHAH, 2016)

No âmbito acadêmico, os MOOCs também têm despertado interesse crescente. A pesquisa

bibliográfica de YOUSEF et al., (2014) foi conduzida em diversas bases de dados

acadêmicas e journals da área de tecnologia na educação e ensino a distância, tais como,

Education Resources Information Center (ERIC), JSTOR, ALT Open Access Repository,

Google Scholar, PsychInfo, ACM publication, IEEEXplorer, and Wiley Online Library,

American Journal of Distance Education, British Journal of Educational Technology e

Jornal of Computer Assisted Learning. Na pesquisa os autores utilizaram os termos de busca

“MOOC”, “Massive Open Online Course” e “Massively Open Online Course”. O resultado

inicial apontou 128 artigos científicos. Na sequência, após a aplicação de alguns critérios de

seleção definidos pelos autores, como, a exclusão de trabalhos com visão política ou opinião

pessoal. O resultado final aponta que o número de artigos científicos cresceu de 01 trabalho

em 2008 (ano de lançamento do primeiro MOOC) para 60 trabalhos em 2013, um total de 84

trabalhos publicados no período de 2008 a 2013.

21

1.5 Contribuições esperadas

A principal motivação para o desenvolvimento deste trabalho reside na necessidade de mais

estudos para avaliar se as diversas análises relacionadas com a utilização de Mineração de

Dados Educacionais, a partir da identificação de padrões de comportamento dos alunos de

cursos massivos, podem trazer contribuição para os gestores de instituições de ensino que

oferecem tais cursos.

Outro aspecto relevante consiste no projeto e implantação de um curso massivo, justamente

para superar uma dificuldade de pesquisa, pois os dados originados nos ambientes virtuais de

aprendizagem utilizados pelos MOOCs das principais provedoras como Coursera e Udacity,

não estão disponíveis para consulta pública, liberados somente para as próprias provedoras ou

para as instituições parceiras na oferta dos cursos.

Muitos trabalhos a respeito da utilização de mineração de dados educacionais estão

direcionados para a análise de pequenos conjuntos de dados. (KAMPFF, 2009; NATEK &

ZWILLING, 2014; MANHÃES, 2015; CAMPAGNI et al., 2015) No caso desta pesquisa, a

contribuição principal reside na aplicação de MDE em outra dimensão em relação ao número

de alunos matriculados, no caso, o curso Carreira S/A, com 181.677 alunos matriculados. Tal

curso representa um considerável desafio em termos de gestão, pois esse conjunto enorme de

alunos gerou grande quantidade de dados, além de toda a parte operacional, como analisar os

fóruns de discussão e responder às mensagens dos alunos sobre diversos assuntos. O número

de alunos matriculados no curso Carreira S/A o posiciona em lugar de destaque se comparado

com grandes MOOCs da história recente. De acordo com os dados de Jordan (2015), é o

terceiro colocado, e os dois primeiros são o Think Again: How to Reason and Argue da

provedora Coursera (Duke University), com 226.552 alunos matriculados e o Social

Psychology também da Coursera (Wesleyan University) com 200.000 alunos matriculados,

22

1.6 Organização deste trabalho

Essa tese está dividida em seis capítulos, conforme é possível observar na figura 2.

Figura 2: Estrutura da tese. Fonte: O autor

O capítulo 1 abordou as considerações iniciais, a situação problema, os objetivos e também a

justificativa, além da motivação e contribuição da tese.

O capítulo 2 apresentará a fundamentação teórica da pesquisa, com os conceitos sobre

educação a distância, MOOCs e suas derivações, além propiciar o embasamento sobre análise

de dados e o processo de Knowledge Discovery in Databases (KDD), com foco especial no

processo de mineração de dados educacionais.

O capítulo 3 terá a finalidade de discorrer sobre os procedimentos metodológicos que

norteiam a pesquisa, em especial a estrutura da tese e a descrição de suas etapas.

O capítulo 4 apresentará na integra os quatro artigos que compõem a tese e os resultados e

contribuições de cada um deles para a pesquisa.

23

O capítulos 5 apresentará a discussão e as considerações finais, com base principalmente nos

resultados e contribuições dos artigos 3 e 4, que tratam de analisar a aplicação de métodos de

mineração de dados educacionais, inicialmente em uma disciplina online e, posteriormente,

em um curso de caráter massivo, além apresentar sugestões de continuidade desta pesquisa.

24

2 FUNDAMENTAÇÃO TEÓRICA

O presente capítulo tem como objetivo contextualizar o tema apresentado e delimitar o

referencial teórico do trabalho. Os seguintes tópicos serão considerados: a educação a

distância e os MOOCs, o contexto do surgimento dos MOOCs, o caminho inicial dos

MOOCs, definição de MOOCs, tipos de MOOCs, a elevada taxa de evasão nos MOOCs,

análise de dados, o processo de KDD (knowledge discovery in databases) e mineração de

dados, mineração de dados educacionais, ferramentas para mineração de dados e trabalhos

correlatos.

2.1 A educação a distância e os MOOCs

Desde o seu surgimento, os MOOCs representam uma inegável mudança de escala em

relação ao modelo tradicional de educação a distância. Nos Estados Unidos, a educação a

distância tem sido uma realidade desde o final do século 20, com o envio de material de

ensino e exercícios pelo correio, e em seguida, a versão em áudio das aulas também se tornou

disponível. Em 1948, a Universidade de Louisville no Kentucky firmou convênio com a rede

pública de radiofusão americana, conhecida como PBS (Public Broadcasting Service),

tornando possível a utilização do rádio como meio de apoiar a educação a distância. Entre

1950 e 1980, a rede CBS (Columbia Broadcasting System) também atuou na transmissão de

séries como “Sunrise Semester” para os estudantes. (POMEROL, EPELBOIN e THORY,

2015)

Durante a década de 1990, a aprendizagem online esteve limitada a tecnologias ou métodos

de entrega assíncronos, com o aluno acessando os materiais no momento que considerasse

mais apropriado. A interação entre tutor e aluno(s) não ocorria em tempo real (online). Os

conteúdos podiam ser entregues por email, vídeos pré-gravados e arquivos de áudio. Nessa

época, ocorre o surgimento dos LMS (Learning Management System), como, por exemplo, o

BlackBoard em 1997. (FINKLE e MASTERS, 2014)

Naa década de 2000, ocorreu o advento de tecnologias síncronas, como VoIP (Voice Over

Internet Protocol ou Voz sobre IP) e videoconferência, permitindo aos professores, tutores e

alunos interagirem em tempo real, que possibilitou a criação de um ambiente que se

25

assemelhava mais de perto com a sala de aula tradicional , mas sem as limitações geográficas.

(FINKLE e MASTERS, 2014)

De forma adicional, o surgimento da Web 2.0, é um importante elemento para o aumento do

grau de interação entre os participantes. Blogs, wikis e redes sociais mudaram a forma como

as pessoas usam a Internet, e representam novas oportunidades para aprender. (FILVÀ,

GUERRERO e FORMENT, 2014)

Um considerável número de novas empresas e iniciativas contribuíram para o

desenvolvimento da aprendizagem online. Com o contínuo crescimento e desenvolvimento

de novas tecnologias da Internet, diversos materiais na forma de vídeos educacionais livres

foram disponibilizados por diversos serviços, como YouTube e iTunes. Uma série de

instituições de ensino ofereceram cursos (e-learning) e materiais online, como por exemplo, o

MIT com o programa OpenCourseWare, lançado em 2001. Houve outras iniciativas para a

oferta de cursos online, incluindo o Stanford Engineering Everywhere (SEE), lançado por

Andrew Ng em 2007, um curso completo com direito a créditos universitários. Desde 2006,

a iniciativa do Khan Academy apresenta um modelo com características, por exemplo, não ter

limite teórico em relação ao número de participantes, ser aberto e online, contando ainda com

a utilização intensa de vídeos como material didático. (SANTANA, ROSSINI e PRETTO,

2012; FINKLE e MASTERS, 2014; POMEROL, EPELBOIN e THORY, 2015)

O tópico seguinte abordará o contexto do surgimento dos MOOCs.

2.2 O contexto do surgimento dos MOOCs

A aplicação das novas tecnologias aplicadas ao processo de ensino e aprendizagem tem

ocorrido de maneira muito acelerada. A evolução da educação a distância e o

desenvolvimento da Internet têm trazido elementos evolucionários e revolucionários a esse

cenário. Os avanços das tecnologias digitais ou tecnologias da informação e comunicação

(TICs) têm reduzido as barreiras ao aluno, aumentado o nível de conectividade e facilitando o

acesso a uma ampla gama de recursos de aprendizagem na Web. (BENLAMRI e KLETT,

2015)

Para que a educação seja disponível a todos, é fundamental a filosofia de acesso aberto de

todos a tais recursos. A Educação Aberta (Open Education) é um movimento de pessoas e

26

instituições que promovem ações que têm como objetivo tornar a educação mais livre e

acessível para todos. O surgimento dos MOOCs ocorreu nesse contexto. (SANTANA,

ROSSINI e PRETTO, 2012)

Diferentes projetos surgiram a partir da filosofia de acesso aberto e tem contribuido para

facilitar a aprendizagem online. A UNESCO afirma que o acesso universal à educação de alta

qualidade é a chave para a construção da paz social e sustentável desenvolvimento

econômico, e do diálogo intercultural. Para tanto, ela mantém programas, como o “Education

for All”, com abrangência mundial, envolvendo mais de 150 países e um grande número de

organizações nao-governamentais (ONGs), que assumiram compromissos globais para

fornecer educação básica e de qualidade para todas as crianças, jovens e adultos. (PIEDRA et

al., 2015)

Um acontecimento que deve ser melhor analisado ocorreu em 2001, quando o Massachussets

Institute of Technology (MIT) criou o OpenCourseWare (OCW), uma iniciativa com o

objetivo de disponibilizar grande parte dos materiais relacionados a seus cursos de graduação

e pós-graduação para acesso ao público em geral, com finalidade de ensino, aprendizagem e

pesquisa. Em 2002, a UNESCO definiu o termo REAs (Recursos Educacionais Abertos) ou,

do inglês, OERs (Open Educational Resources), que podem ser compreendidos como

materiais de ensino, aprendizagem e pesquisa em qualquer suporte ou mídia, e estão sob

domínio público, ou estão licenciados de maneira aberta, permitindo que sejam utilizados ou

adaptados por terceiros. (ARIMOTO e BARBOSA, 2014; BENLAMRI e KLETT, 2015).

No âmbito educacional, as licenças mais utilizadas são as Creative Commons, que

estabelecem um conjunto de seis licenças que, embora se diferenciem em alguns aspectos,

possuem um conjunto de direitos básicos (baseline rights) que avalizando ao autor do recurso

o direito autoral e, a obtenção de créditos pela obra. Do ponto de vista do usuário, é garantido

o direito de uso e distribuição, sendo possível também a mudança de formato do recurso

desde que mantido seu conteúdo na íntegra. (ARIMOTO e BARBOSA, 2014)

Os REAs podem incluir desde livros didáticos e artigos acadêmicos até aulas e cursos

completos, além de software, vídeos, ferramentas, materiais ou técnicas que possam apoiar a

aprendizagem e o acesso ao conhecimento. (ATKINS, BROWN e HAMMOND, 2007)

27

A disponibilização gratuita, com pouca ou nenhuma restrição, seja técnica, legal ou de preço,

implica a utilização de uma licença aberta. O termo “aberto” concede ao usuário, por meio de

uma licença, a permissão para executar cinco ações (5Rs): (WILEY, 2016; BATES, 2016)

1. Reutilizar: o direito de utilizar o conteúdo em sua forma original ou modificada (por

exemplo, fazer uma cópia do conteúdo);

2. Revisar: o direito de adaptar, ajustar, modificar ou alterar o próprio conteúdo (por

exemplo, traduzir o conteúdo para outro idioma);

3. Remixar: o direito de combinar o conteúdo original ou revisado com outro conteúdo

para criar algo novo;

4. Redistribuir: o direito de compartilhar cópias do conteúdo original, as revisões ou as

“misturas” com outros (por exemplo, dar uma cópia do conteúdo a um colega);

5. Reter: sem restrições de gerenciamento de direitos digitais; o conteúdo é seu para

manter, quer você seja o autor, um professor utilizando o material ou um estudante.

Quando o MIT lançou seu OpenCourseWare (OCW), o seu objetivo era publicar materiais de

todos os seus cursos de forma aberta e permanente na Web, com licenças que permitissem a

sua utilização, modificação e redistribuição. Desde então, muitas outras universidades

aderiram ao movimento, como a Universidade Aberta do Reino Unido através do projeto

OpenLearn e da Open Learning Initiative, pela Universidde Carnegie Mellon. O material

didático foi disponibilizado para duas finalidades: os alunos podiam acessá-lo diretamente,

com a expectativa de aprender com ele; professores podiam utilizar o material como parte de

seu próprio material didático. (LIYANAGUNAWARDENA et al., 2014)

A iniciativa do MIT foi crucial para o desenvolvimento do conceito de abertura (open) e a

utilização dos recursos educacionais. Alguns usuários eram educadores que viram no material

“objetos de aprendizagem” que poderiam ser utilizados nos seus próprios projetos

educacionais. Mas muitos usuários encontraram nos recursos educacionais abertos a

oportunidade de viver experiências que se aproximavam da matrícula em um curso real do

MIT. (WEILAND, 2015)

No início eram apenas 50 cursos. Os últimos dados disponíveis de 2014 indicam que o

OpenCourseWare do MIT contava com 2250 cursos publicados, sendo 100 cursos totalmente

em vídeo. (MIT, 2016)

28

Neste cenário, os MOOCs surgiram, como um tipo de curso baseado na teoria conectivista,

ou conectivismo, que prevê a criação e a geração de conhecimento através da interação entre

os participantes, que são incentivados a usar uma variedade de tecnologias e redes sociais,

com o intuito de refletir sobre sua aprendizagem. Além de não terem limite teórico de

participantes, não apresentarem pré-requisitos, contavam também com a utilização de

recursos educacionais abertos (REAs). Os MOOCs carregam a palavra Open (Aberto) em seu

acrônimo e estavam apoiados na formação de redes de conhecimento, em que seus

participantes são tanto leitores quanto escritores, característica que atualmente não prevalece

no modelo adotado pelas principais provedoras. (SANTANA, ROSSINI e PRETTO, 2012)

Como os REAs, a perspectiva dos MOOCs é proporcionar educação para todos - no formato

de cursos, e não (apenas) recursos. Os REAs são imprescindíveis, no sentido de permitir que

a informação seja livremente acessada, reusada, remixada, redistribuída e retidas. Quanto

mais um curso emprega licenças restritivas em seus conteúdos, mais barreiras surgem, e

assim restringem o fluxo e acesso das informações e, se se distanciam da essência de um

MOOC. (SANTANA, ROSSINI e PRETTO, 2012; DALSGAARD & THESTRUP , 2015)

No âmbito dos MOOCs, há uma divisão entre os já citados MOOCs conectivistas (ou

cMOOCs) e outro tipo que se concentra na transmissão ou na replicação do conhecimento,

conhecido como MOOCs behavioristas, instrutivistas, ou simplesmente xMOOCs. É o caso

dos cursos ofertados pelos principais players do momento, tais como os dos grupos de

Stanford, do MIT, e das startups, como Coursera, edX e Udacity. Uma crítica comum aos

xMOOCs diz respeito aos direitos sobre os conteúdos, situação em que o conteúdo produzido

para xMOOCs (vídeos, material escrito, etc.) não é livremente licenciado. Pelo contrário, as

principais provedoras são bastante restritas, impedindo qualquer tipo de utilização dos

conteúdos dos cursos. A licença permite, em geral, apenas o consumo final do conteúdo para

quem participa do curso, mas raramente permite sua replicação, reutilização ou evolução em

outros cursos. (GERREIRO, 2013; ATENAS, 2015)

De forma complementar, de acordo com BATES (2016), os MOOCs nem sempre são abertos

no sentido dos recursos educacionais abertos. Um curso oferecido como MOOC pode ser um

REA se esse curso e todo seu material estiverem licenciados com uma licença de uso livre, do

tipo Creative Commons, ou com uma permissão expressa do autor que permita o seu uso

livre, a sua redistribuição, muitas vezes a sua adaptação, entre outras liberdades. Caso

contrário, será um curso aberto e gratuito oferecido na Internet, mas não necessariamente um

29

REA. Além disso, muitos MOOCs existem apenas por um curto período de tempo e depois

deixam de ser oferecidos, limitando sua reutilização em outros cursos.

Como é possível observar, a figura 3 apresenta um resumo, desde o surgimento do

OpenCourseWare, representando um desenvolvimento contínuo do movimento de educação

aberta. Com o desenvolvimento dos MOOCs, várias plataformas de aprendizagem aberta

foram criadas por instituições de elite, como MIT EdX e Futurelearn. (YUAN e POWELL,

2013)

Figura 3: Timeline dos REAs aos MOOCs. Adaptado de YUAN e POWELL (2013) e YUAN e POWELL

(2015)

No próximo tópico será abordado o histórico dos MOOCs.

30

2.3 O caminho inicial dos MOOCs

O primeiro MOOC, com o título “Connectivism and Connective Knowledge” (CCK08), foi

lançado em 2008 pela Universidade de Manitoba (Canadá), organizado por Stephen Downes

e George Siemens. (SANDEEN, 2013; YOUSEF et al., 2014). O termo MOOC foi citado

pela primeira vez durante o curso CCK08, por Dave Cormier, da University of Prince

Edward Island e Bryan Alexander, do Instituto Nacional de Tecnologia (Canadá).

(YEAGER, HURLEY-DASGUPTA e BLISS, 2013; SA'DON, ALIAS e OHSHIMA, 2014)

O curso pioneiro CCK08 teve 25 matriculados com direito a créditos e 2.200 sem direito a

crédito e não pagaram nenhuma taxa. (LIYANAGUNAWARDENA et al., 2014). O curso

CCK08 marca a primeira geração de MOOCs, conhecida como cMOOCs, baseado na teoria

de aprendizagem conectivista. (YEAGER, HURLEY-DASGUPTA e BLISS, 2013)

FINI (2009) menciona que o curso CCK08 também foi caracterizado pelo uso de uma

variedade de ferramentas tecnológicas disponíveis para os alunos. Algumas foram

selecionadas e propostas pelos organizadores do curso, e outras foram sugeridas pelos

participantes. Mesmo sabendo que, por parte dos alunos, era necessário apenas o uso de um

blog pessoal e de uma ferramenta para construir mapas conceituais, durante o curso foram

utilizadas mais de 12 diferentes ferramentas e ambientes tecnológicos, do ambiente virtual de

aprendizagem, no caso o Moodle, até ambientes 3D, como o Second Life.

O passo definitivo na história dos MOOCs foi o lançamento em 2011, por Sebastian Thrun e

Peter Norvig do curso de Inteligência Artificial (CS221) na Universidade de Stanford, que

atraiu mais de 160.000 alunos de 190 países. A iniciativa do curso CS221 ocorreu de forma

simultânea à disciplina presencial ministrada por Sebastian Thrun. Na versão online, 20.000

alunos concluíram o curso. (ONG & GRIGORYAN, 2014; JACOBY, 2014)

O grande número de matrículas no curso CS221 e nos dois MOOCs de Stanford subsequentes

(Aprendizagem de máquina e Introdução a banco de dados), atraiu a atenção de acadêmicos,

educadores e gerentes de negócios de instituições de ensino. (RODRIGUEZ , 2012)

Nessa mesma época, também surgiram outros provedores de conteúdo online, como a Khan

Academy e iTunesU. Tais cursos eram de alta qualidade e baseados em vídeos educacionais,

que atraíram grande número de interessados. Contudo, os conteúdos não eram organizados

como cursos completos e não ofereciam créditos acadêmicos. O conteúdo oferecido por essas

31

organizações poderia ser considerado complementar a um curso formal, tal como os tutoriais

oferecidos pela Khan Academy, por exemplo, nos segmentos de álgebra e trigonometria.

(SANDEEN, 2013)

Após atrair centenas de milhares de estudantes, a partir de 2012 nos Estados Unidos, ocorreu

o surgimento de dois empreendimentos privados: Coursera e Udacity, empresas baseadas no

modelo de startups do Vale do Silício e com fins lucrativos, sendo liderados por professores

oriundos da Universidade de Stanford. Sebastian Thrun e Peter Norvig fundaram a Udacity

em 2012, e Daphne Koller e Andrew Ng criaram sua própria plataforma, a Coursera, em

conjunto com dezenas de instituições de ensino superior ao redor do mundo. Ao mesmo

tempo, edX evoluiu como um consórcio sem fins lucrativos para a educação online,

composto inicialmente pelo MIT e a Universidade de Harvard, com a posterior adesão da

Universidade de Berkeley e da Universidade do Texas. (COOPER e SAHAMI, 2013;

SANDEEN, 2013)

As três maiores provedoras de MOOCs, Coursera, edX, e Udacity, utilizam os principios do

modelo xMOOC e atendem grande volume de alunos, com foco principal na escalabilidade,

além de basearem seus cursos de forma geral, em aulas no formato de vídeo curtos,

integradas com testes que são corrigidos automaticamente, gerando retorno imediato para os

alunos. (KAY et al., 2013; TANEJA e GOEL, 2014)

O modelo Coursera, semelhante aos demais, é baseado, principalmente, em três tipos de

estratégias ou formatos: (RIFKIN, 2016)

I. O curso é composto por segmentos de vídeo, em geral, com duração de 5 a 10

minutos, apresentados pelo professor e acompanhados de efeitos visuais e gráficos;

II. Após assistir às aulas em vídeo, os alunos devem responder algumas questões de

múltipla escolha, que são avaliadas imediatamente, proporcionando retorno rápido

sobre seu desempenho. Acredita-se que esse modelo seja importante para manter os

alunos envolvidos. Nesse modelo, existe a possibilidade da utilização da metodologia

de avaliação pelos pares (peer assessment), método em que os alunos comentam e

julgam os trabalhos de seus colegas, sendo uma forma de aprender julgando o

desempenho do colega;

III. O último refere-se à formação de grupos de estudos virtuais (fóruns de discussão),

estabelecidos ao longo de fronteiras políticas e regiões geográficas, transformando o

32

processo de aprendizagem em uma sala de aula com alunos de diversos países, em

que os alunos ensinam e aprendem uns com os outros.

Apenas durante 2013, apareceram os primeiros provedores de MOOCs fora dos Estados

Unidos: MiríadaX na Espanha; Open2Study na Austrália; FutureLearn no Reino Unido, entre

outros. (GONÇALVES e GONÇALVES, 2015)

A tabela 2 apresenta uma comparação entre os principais provedores, em relação aos aspectos

de motivação financeira, acesso, cobrança pelo certificado e créditos universitários.

Tabela 2: Comparação entre os principais provedores. Adaptado de YUAN e POWELL (2013)

Provedor Motivação

financeira

Acesso Cobrança pelo

certificado

Créditos

universitários

edX Sem fins

lucrativos

Livre Sim Não

Coursera Com fins

lucrativos

Livre Sim Parcial

Udacity Com fins

lucrativos

Livre Sim Parcial

Udemy Com fins

lucrativos

Parcial Não Não

O tópico a seguir trará uma definição detalhada de MOOC.

2.4 Definição de MOOCs

Na literatura é possível encontrar diversas definições sobre MOOCs, e as principais

características apontam para o fato de serem cursos abertos, com formato totalmente online,

sem pré-requisitos, sem cobrança inicial de taxas e com potencial para distribuir a educação

em escala global. (HYMAN, 2012; COOPER e SAHAMI, 2013; ONG e GRIGORYAN,

2014). A seguir são apresentados mais detalhes sobre os quatro principais aspectos da

definição de um MOOC:

a) Massive (massivo) – o caráter massivo é reflexo do número de participantes, podendo

variar bastante, em geral com um elevado número de alunos matriculados. (KESIM e

ALTINPULLUK, 2015) A pesquisa de JORDAN (2014) analisou 91 MOOCs, com

número de estudantes variando entre 4.500 a 226.652. De acordo com XING et al.,

(2016), não há limite teórico para o número de matrículas. Contudo, é importante

33

observar a capacidade de expansão da estrutura do curso para atender um grande

número de alunos (ANDERSON e MCGREAL, 2012);

b) Open (aberto) – o aspecto aberto significa oferecer livremente uma experiência de

aprendizagem para um vasto número de participantes ao redor do mundo,

independentemente da sua localização, idade, renda, ideologia e nível de escolaridade,

sem qualquer requisito de entrada ou pagamento do curso. Pode também fazer

referência ao uso dos REAs na construção do curso. A provedora Coursera, por

exemplo, não utiliza o conceito de REA, pois detém os direitos sobre os materiais,

que não podem ser reaproveitados ou reutilizados sem permissão. (YOUSEF et al.,

2014; BATURAY, 2015, BATES, 2016)

c) Online – o termo online refere-se ao modo de oferta desse tipo de curso, podendo ser

acessado de qualquer parte do mundo a partir de uma conexão com a internet,

possibilitando a interação síncrona e assíncrona entre os participantes do curso. O

acesso à internet rápida é importante para os MOOCs, que utilizam transmissão de

vídeo. (YOUSEF et al., 2014; BATES, 2016)

d) Courses (curso) – Segundo YOUSSEF et al., (2014), o termo curso refere-se a um

curriculum acadêmico que será oferecido aos alunos. As pesquisas de HYMAN

(2012) e CABERO ALMENARA, LLORENTE CEJUDO e VÁZQUEZ MARTÍNEZ

(2014) argumentam que a maioria dos MOOCs são adaptações de disciplinas

oferecidas nas graduações de instituições de ensino superior ao redor do mundo e

oferecidas para diversas áreas do conhecimento, por plataformas como edX, Coursera

e Udacity. O trabalho de SANDEEN (2013) observa que o movimento inicial dos

MOOCs ocorreu nas áreas de Engenharia Elétrica e Ciência da Computação, com a

utilização de disciplinas de Circuitos e eletrônica do MIT e Aprendizagem de máquina

da universidade de Stanford, que atraíram estudantes do mundo inteiro interessados

em aumentar o seu nível de desenvolvimento profissional. Os MOOCs são cursos que

apresentam em geral curta duração, entre 5 a 12 semanas (BATURAY, 2015).

34

2.5 Tipos de MOOCs

A classificação mais aceita e tem sido adotada por diversos autores como SANDEEN (2013),

WELSH e DRAGUSIN, (2013), ZUTSHI, O’HARE e RODAFINOS, (2013), CABERO

ALMENARA, LLORENTE CEJUDO e VÁZQUEZ MARTÍNEZ (2014), SAADATMAND

e KUMPULAINEN, (2014), divide os MOOCs em dois tipos ou categorias principais:

cMOOCs –a primeira geração com início em 2008. Baseado na teoria de

aprendizagem conectivista, utilizada no primeiro MOOC. (SIEMENS, 2012) Tem o

foco na criação e na geração de conhecimento através da interação entre os

participantes para a construção do conhecimento. Os materiais do curso são

compartilhados entre todos os participantes, que são incentivados a usar uma

variedade de tecnologias e redes sociais, com o intuito de refletir sobre sua

aprendizagem.

xMOOCs – a segunda geração com início em 2012, com formato mais tradicional,

conteúdos e avaliações baseados em materiais didáticos previamente disponibilizados,

seguindo uma abordagem behaviorista e construtivista, com apresentações de vídeo,

questionários curtos e testes. (KESIM e ALTINPULLUK, 2015). Nessa categoria, o

monitoramento e as ações de tutoria são menos sistematizadas, com fórum de

discussão e interação limitada entre os participantes, além de avaliação automatizada.

É o modelo adotado atualmente pelas provedoras Coursera, Udacity e edX. (YOUSEF

et al., 2014)

A tabela 3 resume as principais diferenças entre cMOOCs e xMOOCs, em relação aos 5Ps,

ou seja, aspectos relativos ao Professor, Participantes, Pedagogia, Padrão e Plataforma.

(KAPLAN e HAENLEIN, 2016)

35

Tabela 3: Comparação entre cMOOCs e xMOOCs. Adaptado de KAPLAN e HAENLEIN ( 2016)

xMOOC cMOOC

Professor Elabora um conteúdo padrão

para todos os alunos

Atua como um facilitador,

incentivando processo individual de

aprendizagem.

Participantes Aluno passivo Aluno que contribui com o processo.

Pedagogia Conteúdo predeterminado, com

base em um currículo formal,

com aulas no estilo de palestra e

avaliações em pares.

Modelo colaborativo no

desenvolvimento do conteúdo, sem

um currículo formal, com estilo de

aulas na forma de seminários e sem

avaliação.

Padrão Estrutura de aulas regulares e

com um período determinado.

Modelo não estruturado e baseado

em aprendizagem continuada.

Plataforma Centralizada e com o conteúdo

em um único lugar.

Descentralizada e com o conteúdo

distribuído pela rede local ou

internet.

Como os princípios da categoria de xMOOCs são empregados pelas principais provedoras,

tais como Coursera, Udacity e edX, o termo MOOC tem sido adotado para se referir a

xMOOCs. (KESIM e ALTINPULLUK, 2015). Nesta tese será adotado o mesmo critério.

2.5.1 Utilização dos MOOCs pelas instituições de ensino superior

Existe a possibilidade de utilização dos MOOCs em contextos alternativos aos que eles foram

originalmente criados, em uma versão customizada para uma determinada IES (instituição de

ensino superior) e contando com a perspectiva da reutilização de material concebido para o

curso original. (SANCHEZ-GORDON e LUJÁN-MORA, 2014; TUTEJA, 2014)

O trabalho de DILLENBOURG et al. (2014), discute em particular como utilizar MOOCs

internamente, com estudantes matriculados em programas de graduação. Por exemplo, é

admissível sua utilização na aplicação de projetos de salas de aula invertida (flipped or

inverted classrooms), modelo em que os alunos estudam previamente o conteúdo e o

36

discutem posteriormente com colegas e o professor em sala de aula. Cita-se o exemplo da

disciplina de “Data Structures and Algorithms” da Universidade de Pequim, ministrada em

2014, com alunos das áreas de engenharia e ciências. Foram cinco aulas com o apoio do

material de ensino (397 alunos) e os demais foram distribuídos também em cinco aulas, sem

apoio do material e do modelo de sala de aula invertida. Na turma que utilizou o material de

ensino como apoio para a sala de aula invertida, os alunos puderam estudar previamente os

conteúdos e tiveram oportunidade de discutir de forma mais aprofundada com os professores

e colegas. O desempenho dos alunos foi avaliado em provas conceituais e práticas. Ao final

da disciplina o desempenho da turma que utilizou o modelo com apoio ficou com média de

33,99 pontos, melhor do que a dos estudantes da sala de aula tradicional, que obtiveram

média de 31,35 pontos. (ZHANG et al., 2015)

Esse modelo híbrido, também conhecido como blended learning, pode ser bastante valioso

para as instituições de ensino, pois permite que o material oriundo de um MOOC seja

utilizado em substituição ou de forma suplementar ao material utilizado no curso presencial,

possibilitando a atualização constante do material e a incorporação de novos conhecimentos

adquiridos no curso desenvolvido por terceiros. (FOX, 2013; BURGE, 2015). Por exemplo,

na San Jose State University, os alunos de cursos presenciais usam os materiais dos cursos da

Udacity, incluindo aulas, leituras e testes, enquanto os professores usam o tempo em sala de

aula em atividades em grupo, projetos e testes para verificar o progresso do aprendizado.

(BATES, 2016).

O tópico a seguir aborda outras variações a partir, em geral, da categoria de xMOOCs.

2.5.2 Outros tipos de MOOCs

Além dos mais conhecidos cMOOCs e xMOOCs, algumas outras variações têm sido lançadas

por instituições de ensino, em geral a partir dos xMOOCs.. As principais variações

encontradas na bibliografia são as seguintes:

a) BOOC (Big Open Online Course) – contando com financiamento de US$ 50,000 da

empresa Google, na Universidade de Indiana, o professor Daniel Hickey lançou um

BOOC em Setembro 2013. O BOOC segue um formato híbrido, tipicamente

corresponde a um xMOOC, mas com mais interação face à limitação de participantes

(no máximo 500). (CHAUHAN 2014; TUTEJA, 2014; GONÇALVES &

GONÇALVES, 2015)

37

b) DOCC (Distributed Online Collaborative Course) - cursos baseados na ideia de que o

conhecimento pode ser mais facilmente alcançado desde que seja distribuído por

todos os participantes de diferentes contextos. Um DOCC organiza-se em torno de um

tema central, sem um plano de estudos, com a participação coletiva de todos os

envolvidos, com turmas de 30 alunos e que estudam sem o pagamento de taxas;

(APARICIO, BACAO e OLIVEIRA 2014; CHAUHAN, 2014 e GONÇALVES e

GONÇALVES, 2015)

c) LOOC (Little Open Online Course) – a Universidade do Maine nos Estados Unidos

foi a primeira instituição a oferecer esse tipo de curso, tendo como base um ambiente

virtual de aprendizagem, em que os alunos fazem acesso com os seus próprios

registros individuais. LOOC é tipicamente aberto a um número de 5 a 7 alunos que

estudam sem o pagamento de taxas, juntamente com 15 a 20 alunos regulares que

pagam taxas e recebem crédito. Todos os alunos recebem feedback direto e

personalizado do instrutor; (APARICIO, BACAO e OLIVEIRA 2014; CHAUHAN,

2014)

d) MOOR (Massive Open Online Research): uma outra variação de um MOOC,

essencialmente uma iniciativa com uma grande ênfase na pesquisa, possibilitando aos

alunos trabalharem conjuntamente (por exemplo com pesquisadores ou cientistas) de

uma forma muito prática e com vista a melhorar os resultados. Utiliza o modelo dos

xMOOCs, com o uso intensivo de aulas em vídeo. Exemplo: “Bioinformatics

Algorithms”, lançado em 2013, com pré-requisitos em programação e

desenvolvimento de um projeto de pesquisa; (CHAUHAN, 2014; GONÇALVES e

GONÇALVES, 2015)

e) SMOC (Synchronous Massive Online Course): lançado em 2013 pela Universidade

do Texas, com limitação de 10.000 alunos. O curso “Introduction to Psychology”,

tinha o seu conteúdo aberto tanto aos alunos da instituição quanto aos interessados ao

redor do mundo. Houve cobrança de taxa de U$ 500,00 e os estudantes precisavam

estar disponíveis para aulas ao vivo. O curso segue o modelo dos xMOOCs, com a

utilização de vídeos, recursos disponíveis na Web e com os alunos interagindo com

professores e colegas através de salas de chat. (CHAUHAN, 2014; GONÇALVES e

GONÇALVES, 2015)

f) SPOC (Small Private Online Course): O conceito de SPOC (Small Private Online

Course) foi definido por FOX (2013), considerado uma versão local de um MOOC e

utilizado apenas no campus da instituição (ZHANG et al., 2015). Os SPOCs aplicam

38

as mesmas soluções técnicas e o mesmo conteúdo de um MOOC, sendo utilizados em

muitas universidades europeias, segundo POMEROL, EPELBOIN e THORY (2015).

O SPOC como um MOOC local e privado, permite que os alunos desempenhem o

papel de testar o curso, possibilitando que seus comentários e sugestões contribuam

para melhorar sua qualidade antes de ser lançado como um MOOC. É possível citar a

reformulação da disciplina de LFSAB1402 Informatics 2, ministrada para todos os

alunos que cursam Engenharia na Université catholique de Louvain (UCL), com

aproximadamente 300 alunos por ano. O modelo adotado compreende duas etapas:

primeiro, a criação de um SPOC e a manutenção do curso tradicional, que foram

ministrados de maneira concorrente. Na etapa seguinte, um semestre depois, o SPOC

foi transformado em um MOOC, com lançamento na plataforma edX, com possíveis

mudanças surgidas a partir das informações e comentários provenientes dos alunos.

(COMBÉFIS, BIBAL e VAN ROY, 2014)

De maneira complementar a fundamentação teórica, uma revisão bibliográfica trará mais

detalhes a respeito dos MOOCs, no artigo com o título de “Os principais problemas no

projeto e gestão dos MOOCs”, parte integrante do capítulo 4, item 4.1.

2.6 A elevada taxa de evasão nos MOOCs

No âmbito dos MOOCs, diversos autores apresentam evidências apontando que tais cursos

têm taxas de evasão muito elevadas, geralmente em torno de 90%. (DANIEL, 2012;

SANDEEN, 2013; HEW e CHEUNG, 2014; WILKOWSKI, DEUTSCH e RUSSELL, 2014;

ALRAIMI, ZO e CIGANEK, 2015)

Em relação ao tipo ou categoria dos MOOCs, ou seja, cMOOCs e xMOOCs, ambos os

modelos apresentam altas taxas de evasão. Embora capaz de atingir milhares de alunos, os

xMOOCs apresentam taxas mais elevadas de evasão se comparado aos cMOOCs, na ordem

de 85% em comparação com 40% relativos aos cMOOCs. Uma possível explicação para o

fenômeno reside no fato de que o desenvolvimento de xMOOC, pelo seu formato e menor

nível de design colaborativo, tornam difícil a interação entre os usuários e não fornece

motivação adicional, diminuindo o interesse dos alunos, o que resulta em altas taxas de

evasão. O cMOOCs, com características mais cooperativas, obtém melhores resultados,

39

sendo possível sugerir uma conexão entre a base pedagógica de um ambiente de

aprendizagem online e as características que influenciam a experiência de um aluno.

(RODRIGUEZ, 2012; GENÉ, NUNES e BLANCO, 2014; KENNEDY, 2014).

Uma revisão bibliográfica com mais detalhes a respeito da evasão nos MOOCs será tema do

artigo com o título de “Uma revisão da literatura sobre os motivos responsáveis da alta

evasão nos MOOCs”, parte integrante do capítulo 4, item 4.2.

2.7 Análise de dados

Os avanços na área da Tecnologia da Informação e Comunicação (TIC) têm proporcionado o

armazenamento de grandes e múltiplas bases de dados. Tecnologias como a internet, redes

sociais, ambientes virtuais de aprendizagem, dispositivos móveis, sensores para coleta de

diferentes tipos de dados, memórias secundárias de maior capacidade de armazenamento e de

menor custo, sistemas de telecomunicações e sistemas de informação em geral são alguns

exemplos de recursos que têm tornado viável a criação e o crescimento de inúmeras bases de

dados em diversos segmentos da sociedade. (GOLDSCHMIDT, PASSOS e BEZERRA,

2015)

No caso dos cursos com grande número de alunos participantes como os MOOCs, é

importante que os gestores e professores envolvidos tenham acesso a um grande conjunto de

dados das interações entre os alunos, possibilitando a compreensão das experiências,

processos e resultados de aprendizagem (SIEMENS e LONG, 2011). Contudo, para que esses

dados sejam acessados, transformados e convertidos em conhecimento útil para a tomada de

decisão, há necessidade de recursos computacionais adequados que serão tratados mais

adiante.

Tal fato tem produzido uma superabundância de dados, considerada um problema, pois a

capacidade de coletar e armazenar esses dados tem superado a habilidade de analisar e extrair

seu conhecimento. De forma destacada, a área de mineração de dados (data mining) tem sido

utilizada para transformar de maneira inteligente e automática, os dados disponíveis em

informações úteis, que representem conhecimento para a tomada de decisão em diversas

áreas como marketing, finanças, manufatura e saúde e educação. (de CASTRO e FERRARI,

2016)

40

A descoberta de novos conhecimentos pode ser muito útil para realizar atividades de tomada

de decisão, sendo possível utilizar mineração de dados para analisar detalhadamente padrões

em dados sobre consumidores e, a partir disso, montar campanhas de marketing. Por

exemplo, um estudo de modelos de compra em supermercados pode revelar que, na compra

de salgadinhos de milho, compra-se também refrigerante tipo cola em 65% das vezes. Porém,

quando há uma promoção, o refrigerante é comprado em 85% das vezes. Com tal informação,

os gerentes podem tomar decisões mais acertadas, pois aprenderam a respeito da

rentabilidade de uma promoção. (LAUDON e LAUDON, 2010; BAKER, ISOTANI e DE

CARVALHO, 2011)

2.7.1 Análise de Dados Educacionais

O segmento de educação, especialmente no ensino superior, reúne um surpreendente

conjunto de dados disponíveis em sistemas de informação acadêmicos e ambientes virtuais de

aprendizagem. Contudo, tal segmento tem atuado com atraso na análise desses dados e nas

intervenções necessárias para o atendimento de eventuais problemas. Por exemplo, uma

análise tardia sobre os motivos relacionados com a evasão pode tornar as interveções pouco

eficientes. (SIEMENS e LONG, 2011)

Um ambiente virtual de aprendizagem é um aspecto importante na implantação e na evolução

de qualquer projeto de EaD tradicional ou MOOCs, agregando recursos de integração e

convergência entre professores e alunos, possibilitando de maneira geral, que os alunos

tenham acesso ao material didático, realizem tarefas e tenham a possibilidade de interagir

com os tutores e com os demais alunos. Ultimamente é possível encontrar uma variedade de

opções, que incluem aqueles de código aberto (como Moodle, por exemplo), em

contraposição aos que praticam licenças proprietárias (como Blackboard, por exemplo), e

aqueles advindos de iniciativas isoladas de empresas, instituições de ensino ou grupos de

pesquisa (como edX e Coursera, recentes ambientes que fornecem suporte para a oferta de

MOOCs).

Em tais ambientes, uma grande quantidade de dados de navegação e interação dos alunos

pode ser registrada e coletada, possibilitando que sejam feitas diversas análises relacionadas

ao comportamento do aluno e do conjunto dos alunos no ambiente. Tais ferramentas incluem

módulos que registram automaticamente cada evento ocorrido no ambiente (SIEMENS e

LONG, 2011; PARDO e KLOOS, 2011; LIÑÁN e PÉREZ, 2015). A coleta de dados em um

41

ambiente LMS, por exemplo, é efetuada por meio dos arquivos de log gerados pelo sistema,

considerado o meio mais prático para obtenção de dados, e também relativamente fáceis de

gerenciar e contêm grandes quantidades de informação em relação à frequência, padrões e as

últimas atividades de aprendizagem realizadas pelos alunos. (YOU, 2016)

Com a enorme quantidade de dados disponíveis no segmento da educação superior, uma área

denominada de analítica de aprendizagem dos alunos tem crescido com o objetivo de

melhorar o processo de ensino-aprendizagem. (YOU, 2016) Vários termos e conceitos

relacionados à analítica (analytics) no campo da educação convivem na literatura científica,

principalmente, “mineração de dados educacionais” (educational data mining) e “analítica da

aprendizagem” (learning analytics) e “analítica acadêmica” (academic analytics).

(SIEMENS e LONG, 2011; CHATTI et al., 2012)

O uso de analytics possibilita a tomada de decisão baseada em dados e ocorre em diversos

níveis da instituição. O termo academic analytics é voltado para o nível institucional,

permitindo que os gestores acadêmicos tenham indicadores históricos e, em tempo real, a

respeito do negócio e de suas unidades ou departamentos. Seu uso está relacionado mais com

a eficiência organizacional, sendo um conceito paralelo à utilização de Business Intelligence

(BI) no suporte ao processo de tomada de decisão em outros segmentos, como marketing e

finanças. Learning Analytics e Educational Data Mining estão mais voltados para o processo

de ensino e aprendizagem (SIEMENS e LONG, 2011; CHATTI et al., 2012; FERREIRA e

ANDRADE, 2013;)

Learning Analytics (LA) e Educational Data Mining (EDM) são duas áreas em

desenvolvimento, que trabalham com grandes volumes de dados em educação. O processo de

mineração de dados educacionais converte os dados brutos de ambientes educacionais em

informações úteis que podem impactar na prática e na pesquisa educacional (ROMERO e

VENTURA, 2010). Por sua vez, o processo de LA, de acordo com ROMERO e VENTURA

(2013), é definido como a medida, coleta, análise e relato dos dados de alunos e seus

contextos com o propósito de entender e melhorar a aprendizagem e o ambiente em que este

ocorre. O trabalho de CLOW (2012) apresenta LA como um ciclo composto de quatro etapas:

(1) Alunos; (2) Dados; (3) Análises; e (4) Intervenções, conforme ilustra a figura 4. Nesse

ciclo, os alunos geram dados a partir dos quais são realizadas diferentes análises fornecendo

conhecimento sobre o processo de ensino aprendizagem.

42

Figura 4: O ciclo de Learnng Analytics. Adaptado de CLOW (2012)

Utilizando o conhecimento obtido é possível realizar intervenções, como, por exemplo,

adaptações no modo como o conteúdo é exibido, alterações pedagógicas, feedback,

orientações, envio de notificações e recomendações de recursos e/ou colegas de trabalho. A

utilização de técnicas e ferramentas de Learning Analytics pode contribuir de forma

importante para prever e melhorar o sucesso e retenção dos alunos (OLMOS e CORRIN,

2012; SMITH, LANGE e HUSTON, 2012).

Os processos de LA e EDM compartilham diversos aspectos, mas apresentam também

algumas diferenças. O processo de LA considera a participação de pessoas (por exemplo,

gestores, professores, alunos) e as intervenções são consideradas no processo. EDM tem o

foco na aplicação das técnicas clássicas de data mining, como agrupamento e classificação.

LA, além dos recursos da área de mineração de dados, inclui outros métodos, como estatística

e ferramentas de visualização, além de técnicas para análise de redes sociais (SNA – social

network analysis). (CHATTI et al., 2012)

As áreas de LA e EDM diferenciam-se também em relação ao seu foco. Enquanto a LA trata

mais das aplicações voltadas ao aluno e em usar os dados educacionais para explorar como a

interação do aluno com a tecnologia pode afetar sua aprendizagem, a EDM foca mais em

técnicas, metodologias e na utilização dos dados para compreender os processos de

aprendizagem. (LIÑÁN e PÉREZ, 2015; BAKER et al., 2012),

Neste trabalho, será adotado o conceito de Educational Data Mining (Mineração de Dados

Educacionais), por permitir a exploração e análise de conjuntos enormes de dados, visando

encontrar relações entre eles, que não eram previamente conhecidas, e podendo ser úteis nos

contextos educacionais. Além disso, neste trabalho não serão utilizados outros métodos

presentes na área de LA, como, por exemplo, a análise de redes sociais.

43

Nos próximos tópicos serão analisados de forma mais detalhada, o processo de descoberta do

conhecimento, mineração de dados e mineração de dados educacionais.

2.8 O processo de KDD e mineração de dados

A análise de grande volume de dados pelas pessoas é inviável sem o auxílio de recursos

computacionais adequados, sendo fundamental a disponibilização de ferramentas que

auxiliem na tarefa de analisar, interpretar e relacionar esses dados, para que se possam

elaborar e definir estratégias de ação em cada domínio de aplicação. (GOLDSCHMIDT,

PASSOS e BEZERRA, 2015)

Existe uma área denominada Descoberta de Conhecimento em Banco de Dados ou

Knowledge Discovery in Databases (KDD). Uma das definições mais aceitas para KDD foi

proposta por FAYYAD, PIATETSKY-SHAPIRO e SMYTH (1996), que a trata como um

processo não trivial, interativo e iterativo, para identificação de padrões compreensíveis,

válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados. O processo de

KDD admite a existência de um conjunto de dados, envolvendo n atributos. O termo

iterativo, por outro lado, sugere a possibilidade de repetições integrais ou parciais do

processo de KDD na busca de resultados satisfatórios por meio de refinamentos sucessivos. A

expressão não trivial, aponta para a complexidade normalmente presente na execução de

processos de KDD. (GOLDSCHMIDT, PASSOS e BEZERRA, 2015)

A mineração de dados (data mining) é uma das etapas do processo de extração do

conhecimento, conforme ilustra a figura 5.

Figura 5: O processo de KDD. Adaptado de GOLDSCHMIDT e BEZERRA (2015)

44

As principais etapas do processo de KDD são descritas a seguir (de CASTRO e FERRARI,

2016):

2.8.1 Pré-processamento

Seleção de dados – compreende a identificação do subconjunto das bases de dados

existentes que deve efetivamente ser considerado durante o processo de KDD. A

seleção de dados pode ter duas abordagens distintas: a seleção de atributos ou a

seleção de registros que devem ser submetidos ao processo de KDD;

Limpeza dos dados – essa atividade considera qualquer tratamento realizado sobre os

dados selecionados de forma a assegurar sua qualidade (integridade). Informações

ausentes, errôneas ou inconsistentes nas bases de dados devem ser corrigidas de forma

a não comprometer o processo final. É possível que seja necessário realizar também a

normalização dos dados, para que os valores dos atributos estejam em uma mesma

escala.

2.8.2 Mineração de Dados (data mining)

A etapa de mineração de dados compreende a busca efetiva por conhecimentos úteis no

contexto da aplicação de KDD, constituindo-se em sua principal etapa, tanto que alguns

autores se referem à mineração de dados e KDD como sinônimos. (GOLDSCHMIDT,

PASSOS e BEZERRA, 2015)

Mineração de dados é definida em termos de esforços para descoberta de padrões em bases

de dados. A partir dos padrões descobertos, têm-se condições de gerar conhecimento útil para

um processo de tomada de decisão. Trata-se da aplicação de técnicas, implementadas por

meio de algoritmos computacionais, capazes de receber, como entrada, um conjunto de fatos

ocorridos no mundo real e devolver, como saída, um padrão de comportamento ou a

modelagem de um perfil. (SILVA, PERES e BOSCARIOLI, 2016)

2.8.2.1 Áreas relacionadas com mineração de dados

A mineração de dados tem o caráter interdisciplinar e multidisciplinar envolvendo

conhecimentos de áreas como banco de dados, estatística, aprendizagem de máquina,

45

computação de alto desempenho, reconhecimento de padrões, visualização, inteligência

artificial, entre outras. A figura 6 apresenta as principais áreas envolvidas na mineração de

dados, de acordo com de CASTRO e FERRARI ( 2016)

Figura 6: Principais áreas da mineração de dados. Adaptado de (de CASTRO & FERRARI, 2016)

2.8.2.2 Identificação de padrões

É importante destacar as diferenças e a hierarquia entre dado, informação e conhecimento. O

dado é um fato, um valor documentado ou um resultado de medição. Quando um sentido ou

significado é atribuído aos dados, gera-se informação. Quando esses significados se tornam

familiares, ou seja, quando um agente os aprende, torna-se consciente e capaz de tomar

decisões a partir deles, e surge o conhecimento. (SILVA, PERES e BOSCARIOLI, 2016)

No topo da pirâmide está o conceito de conhecimento, que pode ser entendido também como

um padrão ou conjunto de padrões, cuja formulação pode envolver e relacionar dados e

informações. (GOLDSCHMIDT, PASSOS e BEZERRA, 2015; STAIR e REYNOLDS,

2015). A figura 7 apresenta a hierarquia entre dado, informação e conhecimento.

46

Figura 7: Hierarquia entre dado, informação e conhecimento. Adaptado de GOLDSCHMIDT, PASSOS e

BEZERRA (2015)

No exemplo, da figura 7, o conhecimento encontra-se representado na forma de uma regra

condicional (SE <condições> ENTÃO <conclusões>). Como exemplos de conhecimento, é

possível citar as tendências de vendas de uma determinada região, relacionamento entre a alta

e baixa de ações na Bolsa de Valores e certos parâmetros monetários, similaridade entre os

comportamentos de compra de clientes de uma empresa, etc. (GOLDSCHMIDT, PASSOS e

BEZERRA, 2015)

O propósito principal de realizar o processo de KDD é identificar padrões. Um padrão

compreensível é aquele apresentando em alguma forma de representação do conhecimento

que possa ser interpretado por seres humanos. Um exemplo de linguagem ou formalismo

utilizado para a representação de padrões é uma linguagem de equações, pois nesse tipo de

linguagem, os operadores de adição e multiplicação podem ser utilizados para relacionar

variáveis. Por exemplo, Y = aX + b é um padrão possível para relacionar dois atributos (ou

variáveis) X e Y de um conjunto de dados. (GOLDSCHMIDT, PASSOS e BEZERRA, 2015)

Os padrões extraídos no processo de KDD podem ser classificados em dois tipos básicos:

preditivos e descritivos, conforme segue: (GOLDSCHMIDT, PASSOS e BEZERRA, 2015;

de CASTRO e FERRARI, 2016)

a) Padrões preditivos (ou supervisionados) - tem o objetivo de resolver um problema

específico de prever os valores de um ou mais atributos, em função de valores de

outros atributos. Esse objetivo é alcançado por meio de técnicas chamadas

supervisionadas, ou seja, capazes de encontrar o modelo de mapeamento a partir de

procedimentos que associam um dado a um rótulo e corrigem tal associação quando

47

ela não corresponde ao rótulo esperado (aquele associado ao dado no conjunto de

dados). Pode ser dividida em duas subtarefas: análise preditiva categórica, também

chamada de tarefa de classificação; e análise preditiva numérica, também chamada de

tarefa de regressão.

b) Padrões descritivos (ou não supervisionados) – trabalham com um conjunto de dados

que não possuem uma classe determinada, buscando identificar padrões de

comportamento comuns nesses dados. Tem o objetivo de encontrar padrões que

descrevem os dados de maneira que o ser humano possa interpretar. O ponto central

reside em apresentar informações interessantes que um especialista de domínio de

aplicação possa ainda não conhecer. Agrupamento e descoberta de regras de

associação são tarefas de KDD que se baseiam em aprendizado não supervisionado.

2.8.3 Principais técnicas e algoritmos de mineração de dados

As principais técnicas ou algoritmos empregados pela área de mineração de dados serão

descritas e exemplificadas a seguir:

2.8.3.1 Classificação

Os atributos do conjunto de dados são divididos em dois tipos, ou seja, atributo-tipo e

atributo-alvo. Para cada valor distinto do atributo-alvo tem-se uma classe que corresponde a

um rótulo categórico pertencente a um conjunto predefinido. A tarefa de classificação

consiste em descobrir uma função que mapeie um conjunto de registros em um conjunto de

classes. Uma vez descoberta, tal função pode ser aplicada a novos registros de forma a prever

a classe em que tais registros se enquadram. Como exemplo, pode ser citada uma financeira

que possui o histórico de seus clientes e o seu comportamento em relação ao pagamento de

empréstimos contratados no passado. Com base nos clientes inadimplentes, a tarefa de

Classificação consiste em descobrir uma função que mapeie corretamente os clientes a partir

de seus dados e seja usada para prever o comportamento de novos clientes que desejem

contrair empréstimos. Existem diversos algoritmos desenvolvidos especificamente para

aplicação na tarefa de descoberta de associações, dentre eles: Apriori, DHP (Direct Hashing

and Prunning) e DIC (Dynamic Itemset Couting). (GOLDSCHMIDT, PASSOS e

BEZERRA, 2015)

48

Um método de classificação importante é a árvore de decisão (decision tree), que é um

modelo de representação de conhecimento em que cada nó interno representa uma decisão

sobre um atributo que determina como os dados são particionados pelos seus nós filhos. O nó

mais elevado da árvore é conhecido como nó raiz e cada caminho da raiz até a folha

corresponde a uma regra de classificação. (GOLDSCHMIDT, PASSOS e BEZERRA, 2015;

de CASTRO e FERRARI, 2016)

Um campo de dado do conjunto é identificado como central (classe) e todos os demais são

analisados em função de como influenciam na sua classificação. A partir da classe que será

apresentada nas folhas da árvore, o algoritmo localiza outro campo, mais fortemente

relacionado à classe, e o coloca na raiz da árvore (topo). A partir da raiz vão sendo colocados

novos nós, conectando a raiz às folhas (formando ramos). Cada nó interno representa um

teste sobre um determinado campo, com duas ou mais subárvores representando cada

resultado possível do teste. (KAMPFF, 2009)

A figura 8 ilustra um caminho da árvore que parte do nó raiz e termina em um nó folha, com

uma regra no formato SE <condições> ENTÃO <conclusão>. Os algoritmos de árvore de

decisão podem ter a forma de representação gráfica ou textual.

Figura 8: Exemplo de árvore de decisão e suas regras. Fonte: GOLDSCHMIDT, PASSOS e BEZERRA (2015)

Como exemplo ainda, é possível citar o trabalho de KAMPFF (2009) que apresenta a

aplicação de um algoritmo de jfffffffffffffffff árvore de decisão em uma base de dados de

49

alunos, composta pelos atributos: nome, sexo, atividades entregues (1, 2 ou 3), desempenho

médio (baixo, médio e alto) e resultado (aprovado e reprovado). O algoritmo de árvore de

decisão disponível na ferramenta RapidMiner, analisa os diversos campos de forma

interativa, buscando identificar o de maior influência nos valores das classes (aprovado e

reprovado) do atributo resultado. O campo de maior influência para o valor do resultado é

colocado na raiz da árvore. A partir daí, o algoritmo continua buscando novos atributos

significativos para inserir nos nós abaixo, até que seja possível determinar as classes.

A árvore gerada pode ser observada na figura 9. O fator mais importante para definir o

sucesso do aluno foi o número de atividades entregues. Em seguida, o desempenho médio nas

mesmas. O atributo sexo não foi determinante, sendo desconsiderado pelo algoritmo na

geração da árvore de decisão. (KAMPFF, 2009)

Figura 9: Exemplo de árvore de decisão. KAMPFF (2009)

2.8.3.2 Regressão

Compreende a busca por uma função que mapeie os registros de um banco de dados em um

intervalo de valores reais. Essa tarefa é similar à tarefa de Classificação, com a diferença de

que o atributo-alvo assume valores numéricos. (GOLDSCHMIDT, PASSOS e BEZERRA,

2015)

50

De acordo com SILVA, PERES e BOSCARIOLI (2016), os modelos de regressão podem ser

dividos em dois tipos: um linear simples ou multivariado e outro conhecido como não linear

simples ou multivalorado. A diferença básica entre os dois tipos está na função f a ser

utilzada: por exemplo, uma função que representa a equação da reta ou do plano se aplica

para regressão linear, e uma função que representa uma equação exponencial se aplica para a

regressão não linear. Em relação a sua aplicação, a regressão é usada para estimar valores a

partir de um conjunto de dados históricos. Como exemplo, o uso de regressão em problemas

de indicadores econômicos ou de mercado futuro, em que se tenta prever o próximo valor

analisando os dados de algumas variáveis (atributos descritivos) historicamente armazenadas

em um conjunto de dados. Outro exemplos, a definição do limite do cartão de crédito para

cada cliente ou o número de clientes que provavelmente comparecerão a um restaurante em

um dia especial. (SILVA, PERES e BOSCARIOLI, 2016)

Ainda segundo SILVA, PERES e BOSCARIOLI (2016), a decisão entre usar uma regressão

linear e não linear, reside em uma análise inicial dos dados, de forma a verificar o tipo de

distribuição que os atributos assumem. Usar recursos de visualização de dados, como, o

gráfico de dispersão, pode ser muito útil. No caso da regressão não linear, ainda é preciso

verificar qual seria a melhor função de ajuste a ser usada, como polinomial, potência,

logarítimica, etc.

2.8.3.3 Descoberta de Regras de Associação

A descoberta de regras de associação tem como objetivo central derivar regras de

conhecimento, referindo-se a relacionamentos entre objetos de um conjunto de dados,

visando exibir características e tendências. São procuradas associações entre itens do tipo

“uma transação que contém os itens X também possui o conjunto de itens Y” (X → Y), sendo

X ∩Y = Ø. Assim, a regra tem a forma “Se X, então Y”, onde X é denominado de corpo da

regra e Y de cabeça da regra. A cada regra derivada pelo algoritmo, verifica-se a sua validade

e importância, com a utilização de duas medidas básicas: o suporte e a confiança,

comparando-as com os seus respectivos limiares estabelecidos (suporte mínimo e confiança

mínima). (COSTA et al., 2013)

A medida de suporte está relacionada com a ocorrência relativa da regra de associação

detectada dentro do conjunto de dados de transações, e calculada pelo quociente entre o

51

número de transações que sustentam a regra e o número total de transações. No caso da

medida de confiança de uma regra de associação, esse conceito é relativo ao grau com o qual

a regra é verdadeira entre os registros individuais, e calculada pelo quociente entre o número

de transações sustentando a regra e o número de transações sustentando apenas o corpo da

regra. (COSTA et al., 2013)

Cada registro do conjunto de dados é chamado de transação. Cada transação é composta por

um conjunto de itens que ocorrem de forma simultânea em transações do conjunto de dados

com o objetivo de encontrar associações ou correlações. A existência de associações ou

correlações entre os atributos implica que eles frequentemente aparecem juntos em uma

transação. É importante a análise de observações de itens que frequentemente ocorrem na

base de dados transacionais. Por exemplo, uma analise do subconjunto de itens que formam

as associações ou correlações, pode indicar que clientes que compram “pão e leite” também

compram “manteiga e queijo”, assim como clientes que compram “pão italiano e vinho”

também compram “azeite de oliva e vinagre balsâmico”. Um exemplo de uso dessa técnica

no âmbito da MDE é a mineração de regras em um banco de dados de notas de alunos em

disciplinas. Seria possível derivar regras como “90% dos alunos que têm bom desempenho

nas disciplinas de Lógica e Matemática são bem sucedidos também em Programação”.

Algoritmos tais como Apriori, GSP e DHP são exemplos da implementação da tarefa de

Descoberta de Associações. (ELMASRI e NAVATHE, 2011; COSTA et al., 2013)

2.8.3.4 Agrupamento (clustering)

O objetivo principal do agrupamento é achar dados que se agrupam naturalmente,

classificando-os em diferentes grupos e/ou categorias (clusters). Esses grupos e categorias

não são conhecidos incialmente. Através de técnicas de agrupamento, os grupos/categorias

são automaticamente identificados através da manipulação das características dos dados.

Uma vez que os grupos são formados, é possível fazer uma análise dos elementos que

compõem cada um deles, identificando as características comuns aos seus elementos. (

BAKER, ISOTANI, e DE CARVALHO, 2011; GOLDSCHMIDT, PASSOS e BEZERRA,

2015)

A análise de grupos pode ser aplicada em diferentes áreas do conhecimento, como, por

exemplo: (de CASTRO e FERRARI, 2016)

52

Na medicina para identificação de categorias de diagnóstico;

Na biologia para propor uma taxonomia de animais e plantas;

Em marketing para identificar grupos de clientes;

Em finanças para identificar o perfil de clientes fraudadores.

Uma faceta importante do agrupamento é a função de similaridade usada. Quando os dados

são numéricos, uma função de similaridade baseada na distância é utilizada. Por exemplo, a

distância euclidiana pode ser usada para medir a similaridade, e quanto menor a distância

entre dois pontos, maior a similaridade. O agrupamento pode ser interpretado como um

problema de otimização, em que o objetivo é maximizar a similaridade intracluster e

minimizar a similaridade intercluster. Entre os principais algoritmos de agrupamento

baseados em distância podem ser citados: K-Means, Fuzzy K-Means, K-Modes e K-Medoid.

(ELMASRI e NAVATHE, 2011; GOLDSCHMIDT, PASSOS e BEZERRA, 2015)

A figura 10 apresenta um exemplo de agrupamento.

Figura 10: Exemplo de agrupamento. Fonte: HAN, PEI e KAMBER (2011)

Dentre os algoritmos citados anteriormente, o mais utilizado é o k-médias (do inglês k-

means), que tem por objetivo encontrar partições representando os grupos no conjunto de

dados, de forma que k grupos disjuntos de exemplares sejam descobertos, e k é um parâmetro

de entrada para o algoritmo. O algoritmo particiona o conjunto de n objetos em k grupos, de

maneira que a similaridade intragrupo seja alta e a similaridade intergrupo seja baixa. A

similaridade intragrupo é avaliada considerando o valor médio dos objetos em um grupo, que

53

pode ser visto como o seu centro de gravidade ou o centroide. No particionamento realizado

pelo k-medias, cada objeto pertence ao grupo do centroide mais próximo a ele. (de CASTRO

e FERRARI, 2016; SILVA, PERES e BOSCARIOLI, 2016)

A busca pela descoberta do conjunto de k grupos é iterativa e inicida pela escolha aleatória de

k vetores distintos que têm o papel de representar centroides para grupos. O o k-médias

seleciona k pontos do conjunto de dados. Esses pontos são denominados sementes. Essas

sementes são os representantes iniciais ou centroides, dos k grupos a serem formados. Na

sequência, para cada ponto (ou registro do conjunto de dados), calcula-se a distância desse

ponto a cada um dos centroides. Atribui-se esse ponto ao grupo representado pelo centroide,

cuja distância é a menor entre todas as calculadas. O resultado desse passo inicial é que cada

ponto do conjunto de dados fica associado a um e apenas um dos k grupos . (COSTA et al.,

2013; SILVA, PERES e BOSCARIOLI, 2016)

A escolha do valor de k (número de grupos) é uma tarefa complicada, pois alguns desses

valores não implicam grupos naturais. Pode-se executar o algoritmo de agrupamento diversas

vezes, variando-se o valor de k, para depois escolher a solução, cujas características parecem

melhores, ou, ainda, aquelas soluções que forneçam a interpretação mais significativa dos

dados. Tal estratégia requer conhecimento sobre o domínio em questão. (de CASTRO e

FERRARI, 2016)

2.8.4 Pós-processamento

Esta etapa envolve a visualização, análise e a interpretação do modelo de conhecimento

gerado pela mineração de dados. Em geral, o especialista em KDD e o especialista do

domínio da aplicação avaliam os resultados obtidos e definem novas alternativas de

investigação dos dados. Nesse processo é possível que para melhor entendimento entre os

envolvidos, seja utilizado pelo especialista em KDD, uma simplificação do modelo de

conhecimento, que consiste em remover detalhes desse modelo de conhecimento de forma a

torná-lo menos complexo, sem perda de informação relevante. (GOLDSCHMIDT, PASSOS

e BEZERRA, 2015)

O especialista do domínio da aplicação representa a pessoa ou grupo de pessoas que conhece

o assunto e o ambiente em que deverá ser realizada a aplicação de KDD. Tais profissionais

têm o conhecimento prévio sobre o problema. As informações prestadas pelas pessoas desse

grupo são de fundamental importância no processo de KDD, pois influenciam desde a

54

definição do problema até a avaliação dos resultados. (GOLDSCHMIDT, PASSOS e

BEZERRA, 2015)

Alguns algoritmos são desenvolvidos para simplificar o modelo de conhecimento, eliminando

atributos e os conjuntos de regras, baseados no conceito de entropia. O grau de entropia de

um conjunto de atributos expressa o grau de complexidade da informação contida no referido

conjunto. Assim, quanto menor a entropia, menor a quantidade de informação codificada em

um ou mais atributos. (GOLDSCHMIDT, PASSOS e BEZERRA, 2015)

Por exemplo, com a aplicação da técnica de agrupamento, pode ser útil a realização de um

estudo em que se buscam explicações para ajudar os usuários do modelo (especialista do

domínio) a entender os motivos da similaridade dos grupos. (SILVA, PERES e

BOSCARIOLI, 2016)

2.9 Educational Data Mining (EDM) ou Mineração de Dados Educacionais (MDE)

A mineração de dados educacionais (MDE) é uma modalidade de mineração em que os dados

pertencem aos contextos educacionais. A MDE é definida como a área de pesquisa que tem

como principal foco o desenvolvimento de métodos para explorar conjuntos de dados

coletados em ambientes educacionais (BAKER, ISOTANI e DE CARVALHO, 2011). Para

ROMERO e VENTURA (2013), a área de MDE pode ser definida como a aplicação de

técnicas de mineração de dado para um tipo específico de conjunto de dados provenientes de

ambientes educacionais, para responder a importantes questões dessa área.

Por meio da mineração de dados educacionais, é possível compreender de forma mais clara e

adequada os alunos durante o processo de aprendizagem, seu contexto, além de outros fatores

que influenciam a aprendizagem. Por exemplo, é possível identificar em que situação um tipo

de abordagem instrucional (e.g. aprendizagem individual ou colaborativa) proporciona

melhores benefícios educacionais ao aluno. Também é possível verificar se o aluno está

desmotivado ou confuso e, assim, personalizar o ambiente e os métodos de ensino para

oferecer melhores condições de aprendizagem. (BAKER, ISOTANI e DE CARVALHO,

2011)

A área de mineração de dados educacional está preocupada com desenvolvimento, pesquisa e

aplicação informatizada de métodos para detectar padrões em grandes conjuntos de dados

55

educacionais, que de outra forma seria difícil ou impossível analisar devido ao enorme

volume dos dados. (ROMERO e VENTURA, 2010)

As técnicas utilizadas pela mineração de dados aplicadas com mais ênfase em contextos

educacionais são as de classificação (árvore de decisão) e agrupamento, além da descoberta

de associações. (ROMERO e VENTURA, 2010)

No contexto da MDE, por exemplo, as técnicas de classificação podem ser utilizadas para a

previsão e desempenho dos alunos e para detectar comportamentos de estudante. A técnica de

agrupamento pode ser utilizada para agrupamento dos alunos com base em sua aprendizagem

e padrões de comportamento. (ROMERO e VENTURA, 2013)

A utilização de MDE nos ambientes educacionais pressupõe uma série de etapas, com

inspiração no processo original de KDD. Os padrões são obtidos a partir da aplicação de

métodos EDM, que necessitam de interpretação por parte do especialista de domínio. As

conclusões podem sugerir mudanças no processo de ensino e aprendizagem ou podem não ser

conclusivas, por falta de dados ou pela necessidade da utilização de novos algoritmos mais

adequados para a aplicação em questão. Nesse caso, o processo pode ser realizado

novamente, após uma avaliação do projeto anterior. (LIÑÁN e PÉREZ, 2015) A figura 11

ilustra o processo de MDE.

Figura 11: O ciclo de MDE. Adaptado de LIÑÁN e PÉREZ (2015)

56

2.10 Ferramentas para mineração de dados

No mercado há uma série de ferramentas que fornecem suporte no processo de KDD, em

especial na etapa de mineração de dados. Tais ferramentas podem ser tanto comerciais, como,

por exemplo, Oracle Data Mining (ODM), IBM SPSS Modeler e SAS Enterprise Miner ou de

código aberto, como origem em pesquisas acadêmicas, como RapidMiner e Weka, que são

apresentadas a seguir:

a) Weka

A ferramenta Waikato Environment for Knowledge Analysis (Weka) apresenta um conjunto

de algoritmos de aprendizagem de máquina e ferramentas de pré-processamento. O projeto

foi desenvolvido na Universidade de Waikato na Nova Zelândia, sendo uma ferramenta que

segue a filosofia de código aberto. Oferece suporte a todo processo de mineração, que inclui

suporte à preparação dos dados de entrada, avaliação estatística da aprendizagem,

visualização dos dados de entrada e os resultados. Todas as funcionalidades disponíveis

podem ser acessadas através de uma interface gráfica, possibilitando que os algoritmos de

aprendizagem e as diversas ferramentas para transformação possam ser aplicados às bases de

dados sem a necessidade de programação. A ferramenta apresenta os principais métodos para

mineração de dados, como: regressão, classificação, agrupamento, regras de associação e

seleção de atributos. (HALL et al., 2009)

b) RapidMiner

O RapidMiner é uma ferramenta com diversas funcionalidades para atender ao ciclo de

mineração de dados, desenvolvida como uma solução de código aberto (open source), sob a

licença pública geral (General Public Licence – GPL), e é também oferecida uma versão

paga. A ferramenta oferece uma interface gráfica que facilita bastante a realização de

processos de mineração de dados, mineração de textos, aprendizado de máquina etc. Essa

ferramenta disponibiliza um amplo conjunto de funcionalidades, chamadas de operadores,

que adotam algoritmos referentes às diversas etapas do processo de KDD (entrada de dados e

saída de dados, árvore de decisão, classificação, clusterização, entre outros), sendo possível

também combiná-los para a realização de experimentos, com o objetivo de verificar quais

algoritmos e parâmetros são mais apropriados para o problema que está sendo tratado. Conta

57

ainda com um conjunto de extensões que fornece novas possibilidades de utilização, como,

por exemplo, mineração de textos. (RAPIDMINER STUDIO, 2016)

Nesta tese será utilizada a ferramenta para mineração de dados RapidMiner, pelo fato de ser

um projeto de código aberto (em sua versão básica) e, por isso, disponível gratuitamente,

além de funcionar na maioria das principais plataformas e sistemas operacionais, como,

Windows, Mac OS e Linux. Apresenta suas funcionalidades por meio de uma interface gráfica

intuitiva, incorporando também a biblioteca de algoritmos de aprendizagem do Weka,

totalmente integrada e com acesso a diferentes fontes de dados, como: Excel, Oracle,

Microsoft SQL Server, MySQL, e outros. A figura 12 apresenta a tela inicial da ferramenta

RapidMiner Studio na sua versão 7.0.

Figura 12: RapidMiner Studio versão 7.0

2.11 Trabalhos correlatos

No Brasil, há poucos trabalhos na área de mineração de dados educacionais. Em pesquisa

realizada por meio do Google Scholar e da Biblioteca Digital Brasileira de Teses e

Dissertações, foi possível encontrar três teses de doutorado relacionadas com a área em

questão. Em primeiro lugar, é possível citar a tese de KAMPFF (2009), desenvolvida na

Universidade Federal do Rio Grande do Sul (UFRGS), que aplica técnicas de MDE aos dados

58

de estudantes gerados pela interação em um Ambiente Virtual de Aprendizagem (AVA), com

objetivo de gerar alertas a partir de um sistema baseado em mineração de dados. Para a

realização da pesquisa, foram utilizados dados de 1564 alunos de edições anteriores de uma

mesma disciplina a distância, para a extração de regras de classificação, e tais regras foram

aplicadas para gerar alertas durante o acompanhamento de 230 alunos em turmas em

andamento, visando identificar comportamentos e características de estudantes com risco de

abandono ou reprovação.

Outro trabalho é a tese de MANHÃES (2015), desenvolvida na Universidade Federal do Rio

de Janeiro (UFRJ), apresentando uma proposta de arquitetura baseada em MDE para predição

do desempenho acadêmico de graduandos, com o objetivo de fornecer aos gestores

educacionais das universidades públicas brasileiras, não especialistas em EDM, uma

abordagem que oferece informações úteis sobre o desempenho acadêmico dos graduandos e

predizer os que estão em risco de abandonar o sistema de ensino. O trabalho aplica diversos

algoritmos de MDE em vários estudos de caso, com menos de mil alunos participantes em

cada experimento.

O trabalho mais recente é a tese de SANTOS (2016), desenvolvida na Universidade Federal

do Rio Grande do Sul (UFRGS), que aborda a identificação das variáveis comportamentais

indicadoras do estado de ânimo desanimado dos alunos em interação em um AVEA

(ambiente virtual de ensino e aprendizagem), aplicando técnicas computacionais,

principalmente MDE e técnicas estatísticas (histogramas, correlações, geração de quartis),

com intuito em identificar quais alunos estão propensos ao desânimo, no sentido de apoiar e

instrumentalizar o professor na medida em que identifica esses alunos. O trabalho considera

que a afetividade pode influenciar na aprendizagem do aluno, principalmente com relação aos

aspectos negativos, frustrações, sensações de solidão e desânimo, fazendo com que o aluno

possa, inclusive, desistir de um curso, tornando-se um problema para a instituição de ensino.

No total a tese realizou experimentos com 126 alunos.

Todas aplicaram MDE em cursos concluídos e em diferentes ambientes educacionais. Os

autores trabalharam com cursos as distâncias tradicionais, com número de alunos

matriculados que não ultrapassaram 1.600 alunos. O presente trabalho em relação às outras

teses desenvolvidas por KAMPFF (2009), MANHÃES (2015) e SANTOS (2016), apesar de

também utilizar técnicas e algoritmos de MDE, tem como objetivo identificar conhecimentos

novos e relevantes, a respeito do padrão ou conjunto de padrões de comportamentos dos

59

alunos em cursos massivos. É relevante mencionar que o trabalho de SANTOS (2016) sugere

como trabalho futuro, a aplicação de MDE no contexto dos MOOCs. Outro elemento de

diferenciação reside no fato de que este trabalho criará um curso novo que preservará as

características principais de um MOOC.

Há eventos locais que incentivam e divulgam pesquisas na área de análise de dados

educacionais, envolvendo EDM e LA. Segundo RODRIGUES et al (2014), o Simpósio

Brasileiro de Informática na Educação (SBIE) e o Workshop de Desafios da Computação

Aplicada à Educação (DESAFIE) são eventos anuais e contínuos que recebem pesquisadores

e estudantes brasileiros para relatar suas pesquisas sobre EDM. As publicações em periódicos

ocorrem na Revista Brasileira de Informática na Educação (RBIE), na Revista de Novas

Tecnologias na Educação (RENOTE), na INFORMÁTICA NA EDUCAÇÃO: teoria &

prática e na Colabor@. Essas revistas têm apresentado artigos relevantes com pesquisas nessa

temática.

Desde 2014, o SBIE apresenta um evento específico sobre MDE denominado WMDE

(Workshop de Mineração de Dados Educacionais), que tem por objetivo ser um fórum para

atualização, discussão e aplicação de técnicas de mineração de dados em ambientes

educacionais. Na última edição de 2016, foram publicados 14 artigos, com trabalhos que

trataram de MDE e também de aspectos relacionados com LA.

Em relação a publicações em revistas e eventos internacionais, outras pesquisas no formato

de artigos científicos, merecem citação, como é o caso do trabalho de XING et al., (2016)

mencionado em seu trabalho, que a natureza automática de métodos baseados na análise de

aprendizagem e mineração de dados educacionais têm o potencial para enfrentar o desafio de

analisar a grande massa de alunos dos MOOCs, sendo possível também satisfazer o requisito

de ser capaz de programar intervenções oportunas e rápidas quanto à predição dos alunos que

estão em situação de abandonar o curso.

O trabalho de FERGUSON e CLOW (2015) explora a questão da dificuldade na escolha do

método ou algoritmo de agrupamento (clustering) no processo de mineração de dados

educacionais e da necessidade de novos estudos para resolver essa questão. COFFRIN et al.

(2014) tratam da necessidade de estudos que aprofundem a questão da identificação dos

alunos ou grupos de alunos pelo padrão de comportamento no ambiente virtual de

aprendizagem, permitindo a seleção de sub-grupos de alunos para um atendimento

personalizado por parte dos professores.

60

Na literatura é possível citar ainda outros trabalhos relacionados com a aplicação das

principais técnicas de mineração de dados em ambientes educacionais. O trabalho de SINGH

e KUMAR (2012), por exemplo, utiliza a técnica de árvore de decisão para gerar

conhecimento aos gestores da instituição para avaliar o desempenho de seus alunos. Por fim,

o trabalho de DEJAEGER et al. (2012) utilizou a técnica de agrupamento para identificar os

principais fatores de satisfação dos alunos em duas instituições de ensino e para a construção

de modelos para apoiar os gestores no processo de tomada de decisão estratégica.

Na presente tese, dois artigos aplicarão os conceitos e algoritmos de MDE em dois conjuntos

de dados distintos:

A primeira aplicação de MDE será no contexto de uma disciplina online com 1.113 alunos e

será analisada no artigo com o título de “A aplicação de MDE na descoberta de padrões de

comportamento dos alunos de uma disciplina online”, disponível no capítulo 4, item 4.3.

A segunda aplicação de MDE será no contexto de um curso massivo com mais de 180.000

alunos matriculados e será analisada no artigo com o título de “O processo de Mineração de

Dados Educacionais aplicado em um curso massivo”, disponível no capítulo 4, item 4.4.

61

3 METODOLOGIA

O presente capítulo tem por objetivo descrever a metodologia de pesquisa utilizada no

desenvolvimento da tese.

O estudo está organizado em formato de artigos, e cada resultado da pesquisa realizada é

demonstrado por meio de trabalho submetido ou aprovado em um periódico.

3.1 Procedimentos metodológicos

O objetivo principal é analisar as contribuições e limitações da aplicação de métodos de

mineração de dados educacionais para identificar conhecimentos novos e relevantes, a

respeito do padrão ou conjunto de padrões de comportamentos dos alunos em cursos

massivos.

Para chegar a esse objetivo, será criado um curso de caráter massivo, com número grande de

alunos, em um grupo educacional. Tal curso não será livre, como um MOOC, pois será um

curso que propiciará créditos na forma de horas de atividades complementares aos alunos. A

opção pela criação do curso interno foi necessária, pois os dados originados nos ambientes

virtuais de aprendizagem utilizados pelos MOOCs das principais provedoras como Coursera

e Udacity, são de difícil acesso para consulta pública, sendo liberados, apenas para as

próprias provedoras e para as instituições de ensino que oferecem os cursos. A iniciativa

própria facilita a confirmação dos resultados, pois o ambiente é mais controlado.

A partir do momento em que os alunos iniciarem suas atividades no AVA Blackboard,

diversos dados sobre o desempenho e o padrão de comportamento dos alunos serão gerados

pelo ambiente, tais como a quantidade de acessos ao ambiente por dia e semana, quantidade

de mensagens enviadas pelo aluno, quantidade de acessos aos conteúdos e arquivos em cada

semana, datas de entrega das atividades, e quais atividades foram entregues e a respectiva

pontuação.

O processo para obtenção do padrão de comportamento e desempenho dos alunos será

inspirado no modelo de KDD.

62

O autor atuará na criação do curso e na análise dos resultados. Haverá ainda um especialista

de domínio que participará da interpretação dos resultados.

3.2 Estrutura da tese

As atividades de pesquisa relacionadas a esta tese de doutorado podem ser divididas em dois

momentos: em uma primeira etapa, foi realizada uma pesquisa bibliográfica para a

construção da fundamentação teórica, com o objetivo de prospectar trabalhos anteriores e

compreender o estado da arte sobre o tema. É importante destacar que apesar da figura 15

apresentar os artigos em sequência, os artigos 1 e 2 são parte integrante da fundamentação

teórica, por serem artigos de revisão da literatura e contribuírem para a elaboração da etapa

seguinte. Na segunda etapa, foram elaborados mais dois artigos para dialogar com os

objetivos da pesquisa já mencionados no capítulo inicial.

Esta pesquisa, do ponto de vista da sua natureza, é uma pesquisa aplicada, em que o principal

procedimento utilizado é o da pesquisa-ação. (MARTINS, 2012; PRODANOV e FREITAS,

2013) Para TURRIONI e MELLO (2012), por meio da observação participante, o

pesquisador interfere no objeto de estudo de forma cooperativa com os participantes da ação

para resolver um problema e contribuir para a base do conhecimento.

Como o pesquisador fará parte da equipe que conduzirá a pesquisa, com vistas à mudança

organizacional, a opção escolhida será a pesquisa-ação.

O encadeamento das etapas pode ser visualizado na figura 13.

Figura 13: Etapas da pesquisa. Fonte: o autor

63

As etapas do trabalho serão explicadas de forma mais detalhada nos tópicos a seguir.

3.2.1 Pesquisa bibliográfica (etapa 1)

Este trabalho teve início com uma pesquisa bibliográfica, sobre MOOCs e mineração de

dados educacionais, que serviu para construir uma base para identificar, avaliar e interpretar

os estudos relevantes na literatura sobre o tema em questão. A pesquisa bibliográfica foi

realizada a partir de consultas às principais bases de dados disponíveis no programa de Pós-

graduação em Engenharia de Produção da UNIP e na IES em que o autor atua como

professor, reunindo os artigos mais relevantes em termos de conhecimento científico e

alinhamento com o tema. As bases de busca foram escolhidas pela relação com a área de

conhecimento em estudo e pelo número de retornos obtidos após buscas iniciais. Assim, as

bases de busca utilizadas foram: Springer, Eric Database, Science Direct, IEEE Explore

Digital Library e ACM Digital Library.

Foram conduzidas pesquisas complementares em livros, periódicos, sites especializados e

anais de congressos relacionados com o tema e não estavam ligadas às bases de dados citadas

anteriormente.

Um dos critérios utilizados para a condução da pesquisa bibliográfica foi determinar o

período de tempo entre 2008-2017, que compreendeu o período entre a oferta do primeiro

MOOC, em 2008, até o ano em que a pesquisa está sendo conduzida (2017).

Os principais termos utilizados foram os seguintes: MOOC, educação a distância (distance

education), OER (REA), ambiente virtual de aprendizagem (learning management system),

mineração de dados (data mining), mineração de dados educacionais (educational data

mining), learning analytics, academic analytics e ferramentas para mineração de dados (data

mining tools).

3.2.2 Sequência de artigos da tese (etapa 2)

O capítulo IV apresenta os artigos da tese em sequência, cada um deles com seus próprios

objetivos e questões a serem respondidas. A sequência de artigos é apresentada na figura 14.

64

Figura 14: Sequencia de artigos da tese

A tabela 4 apresenta a situação de cada artigo em termos de publicação em periódicos.

Tabela 4: Situação dos artigos da tese em maio de 2017. Fonte: o autor

Autores Título Situação

Bezerra, L.N.M; Silva,

M.T.

Principais Problemas no

Projeto e Gestão dos MOOCs

Publicado

IFIP - International

Conference on Advances

in Production Management

Systems (pp. 500-506).

Springer International

Publishing.

Bezerra, L.N.M; Silva,

M.T.

Uma revisão da literatura sobre

os fatores responsáveis pela

alta taxa de evasão nos

MOOCs

Publicado

Revista Espacios

Volume 38, número 5,

2017.

Bezerra, L.N.M; Silva,

M.T.

A aplicação de mineração de

dados educacionais na

descoberta de padrões de

comportamento dos alunos de

uma disciplina online: um caso

brasileiro

Submetido:

British Journal of

Educational Technology

Bezerra, L.N.M; Silva,

M.T.

O processo de mineração de

dados educacionais aplicado

em um curso massivo

Em processo de submissão

65

4 RESULTADOS EM ARTIGOS

4.1 - Artigo 1 - “Principais Problemas no Projeto e Gestão dos MOOCs” ou “The Main

Problems in the Design and Management of MOOCs”

O primeiro artigo procurou a partir de um estudo bibliográfico, identificar e analisar os

principais problemas no projeto e gestão dos MOOCs, além de apontar o problema mais

significativo e verificar como os problemas apontados relacionam-se entre si. Após a

pesquisa, foi possível identificar seis problemas relevantes, como a taxa de conclusão muito

reduzida, a certificação desses cursos, o modelo pedagógico, o processo envolvendo a

garantia e melhoria da qualidade dos MOOCs, a aceitação dos certificados, além da

preocupação com a validação e plágio nesse tipo de curso.

A partir da análise desses problemas, constatou-se que o principal desafio para os gestores

dos MOOCs é aumentar a taxa de retenção de seus cursos. Do ponto de vista da gestão, a

diminuição da taxa de evasão, hoje em torno de 90%, possibilitaria que o modelo de negócios

se tornasse mais viável, pois permitiria que mais alunos conseguissem concluir os cursos e,

consequentemente, considerassem o pagamento das taxas para emissão dos certificados.

Os resultados deste estudo bibliográfico contribuíram para a pesquisa aprofundando o

conhecimento sobre os MOOCs. A partir deste estudo, que é parte integrante da

fundamentação teórica, o problema de pesquisa foi melhor delimitado.

A seguir o artigo é reproduzido na sua forma original.

66

Os Principais Problemas no Projeto e Gestão dos MOOCs

Luis Naito Mendes Bezerra1, Márcia Terra da Silva

1

1Paulista University-UNIP, Graduate Program in Production Engineering, Dr. Bacelar St. 1212, São Paulo, Brazil

{LuisNaito Mendes Bezerra, luisnaito@yahoo.com.br} {Márcia Terra da Silva, marcia.terra@uol.com.br}

Abstract. Apesar da escala global, da grande oferta de cursos e do elevado número de matrículas, alguns desafios vêm se apresentando ao universo dos MOOCs (Massive Open Online Course), principalmente

àqueles relacionados aos aspetos de projeto e gestão.

Este artigo tem por objetivo identificar os principiais problemas enfrentados pelos gestores dos MOOCs. Para esse fim, foi realizado um estudo exploratório, por meio da análise de publicações existentes em bases

de dados acadêmicas.

Os resultados apontam que após a pesquisa foi possível identificar e analisar seis problemas, sendo que o

principal deles foi a taxa de conclusão muito reduzida desse tipo de curso.

. Keywords: MOOCs, problemas dos MOOCs, desafios dos MOOCs.

1 Introdução

Recentemente surgiu uma nova modalidade de educação a distância (EaD) conhecida como MOOC (Massive

Open Online Course,). Os MOOCs são cursos abertos, com formato totalmente online, sem pré-requisitos, sem

cobrança inicial de taxas e com potencial para distribuir a educação em escala global, inclusive, permitindo a

alunos oriundos de países em desenvolvimento terem acesso a instituições e cursos de qualidade com baixo

custo [8;1;9].

Em 2011, cerca de 3 anos, após o oferecimento do primeiro MOOC1, Sebastian Thrun criou o curso de

Inteligência Artificial na Universidade de Stanford que atraiu mais de 160.000 alunos de 190 países. A partir de

2011 o crescimento desta modalidade de EAD tem sido vertiginoso, com o surgimento, inicialmente, de três

grandes plataformas - Coursera, Udacity e EdX - para a oferta dos MOOCS [17;19;3].

As pesquisas demonstram que os principais motivos para o interesse dos alunos nos MOOCs podem ser

resumidos em quatro relevantes aspectos: interesse em aprender sobre determinados assuntos; aumentar

conhecimento; atualizar-se sobre algum assunto visto anteriormente ou aprender algo específico que contribuirá

para o seu desenvolvimento profissional [21;20].

Contudo, apesar da escala global ter sido atingida, do grande número de alunos atendidos e do crescimento

considerável do número de cursos, alguns desafios vêm se apresentando ao universo dos MOOCs. Diversos

autores têm pesquisado aspectos problemáticos no projeto e na gestão desses cursos, como, por exemplo, o

modelo pedagógico [7; 11]e a qualidade dos MOOCs [12].

Portanto, objetiva-se, com esse trabalho, a partir de um estudo bibliográfico, identificar e analisar os

principais problemas no projeto e gestão dos MOOCs, além de apontar o problema mais significativo e verificar

como os problemas relacionam-se entre si.

Além desta introdução, este trabalho é dividido em mais seis partes. Na seção inicial é apresentada a

metodologia utilizada para atingir o objetivo desta pesquisa, para em seguida ser apresentado um estudo sobre

os principais problemas no projeto e na gestão dos MOOCs. Na sequência, apresentam-se os resultados e

análise, as conclusões e, por último, as referências bibliográficas.

1O primeiro MOOC foi criado em setembro de 2008, no Canadá.

67

2 Metodologia

A partir de um estudo exploratório, não sistemático, realizado por meio da análise de publicações existentes

em bases de dados acadêmicas, tais como, Springer, Science Direct, ERIC database, ACM Digital Library e

Google Acadêmico, foram identificados os principais problemas no projeto e gestão dos MOOCs.

O levantamento bibliográfico compreende o período entre a oferta do primeiro MOOC em 2008 [3] até o ano

em que a pesquisa está sendo conduzida (2015). Após a leitura e análise dos títulos e abstracts, foram

selecionados 20 artigos que compõem esta análise.

3 Principais problemas no projeto e gestão dos MOOCs

Os MOOCs, como já dito, têm potencial enorme para levar educação gratuita em escala global, com

possibilidade, inclusive, de democratizar o acesso ao ensino superior de boa qualidade [1].Sem dúvida seu

crescimento tem sido bastante expressivo. Somente na Europa, segundo o site da [2], que reúne dados sobre os

MOOCs nos países europeus, em abril de 2014 foram oferecidos 510 cursos. No mesmo ano, em setembro, já

eram 770 cursos, portanto, um crescimento de 50,98% [2].

Apesar da visível expansão, o modelo dos MOOCs é alvo de uma série de críticas e preocupações, pois, além

de se tratar de uma modalidade de ensino ainda recente, muitas vezes é comparado, erroneamente, aos cursos de

EaD tradicionais e também como concorrente do ensino presencial. Tais preocupações, no entanto, podem ser

consideradas infundadas, pois tratam-se de modalidades com objetivos e funções diferenciadas. Os MOOCs em

função de seu caráter aberto e por apresentarem curta duração, não preveem a emissão de certificados de

graduação ou pós-graduação e, além disso, exercem papel complementar ao EaD e ao ensino presencial,

possibilitando aos seus alunos a oportunidade de ampliação de conhecimento e/ou atualização profissional.

Outro dado importante que os diferenciam da EaD e do ensino presencial privado é o fato de que os serviços

oferecidos pelos MOOCs são livres de taxas, pois o seu modelo de negócios é diferente das instituições de

ensino tradicionais [9], como será abordado em seguida.

A seguir, procura-se relacionar os principais problemas encontrados na literatura em relação ao projeto e

gestão desses cursos.

Modelo de negócios - alguns autores citam os MOOCs como um novo modelo de negócios para instituições

de ensino superior, pois embora os cursos sejam isentos de taxas para a inscrição e acesso ao conteúdo, as

instituições podem cobrar taxas para a emissão dos certificados. De acordo com [6], o modelo de negócios dos

MOOCs tem relação com o adotado por empresas de tecnologia, como, por exemplo, Google e RedHat Linux,

que fornecem um serviço básico aos clientes para, em seguida, oferecer complementos pagos. No caso dos

MOOCs, a cobrança pelo certificado seria o serviço complementar. Considerando-se o elevado número de

alunos, tal iniciativa poderia gerar um modelo de negócios sustentável [8;6]. Contudo, neste momento, tal

modelo é acessível apenas a uma pequena parcela de instituições de ensino, tais como Harvard, Stanford e MIT,

que se utilizando de sua longa tradição e excelente reputação acadêmica, receberam investimentos suficientes

para bancar os custos de criação de plataformas para produção e distribuição de conteúdo em larga escala, tendo

como resultado a criação de empresas com fins lucrativos e inspiradas no modelo de startups do Vale do Silício,

como a Coursera (Universidade de Stanford) e edX (MIT e Harvard) [3].Os MOOCs podem servir, também,

como um elemento de marketing para as grandes instituições de ensino superior, principalmente para as

instituições de grande reputação e prestígio, como as já citadas anteriormente. Ainda segundo [3], cerca de 65%

de todos os alunos matriculados na plataforma Cousera residem fora dos Estados Unidos, fato que poderia

contribuir para atrair ainda mais alunos estrangeiros que pagariam taxas substanciais de matrícula para

cursarem presencialmente cursos de graduação e pós-graduação.

Taxa de conclusão dos cursos muito reduzida - uma preocupação frequentemente levantada nas pesquisas

realizadas sobre os MOOCs relaciona-se ao fato de milhares de alunos se inscreverem, mas, apenas uma

68

pequena parcela concluírem os cursos. A evasão nesta modalidade de ensino é bastante elevada, geralmente,

atualmente em torno de 90% [14;15;3;13;18;4]. De acordo com [5], a taxa de conclusão está relacionada ao

número de pessoas que recebem o certificado ou são aprovadas no curso. Segundo [16], a taxa de conclusão dos

MOOCs não pode ser comparada com a dos cursos presenciais ou mesmo cursos a distância tradicionais, pois,

como os alunos dos MOOCs não pagam mensalidades e também não recebem créditos universitários, a

motivação para a sua conclusão é em grande parte inerente ao próprio modelo do curso.

Certificação – a maioria dos MOOCs são adaptações de disciplinas oferecidas nas graduações de

instituições de ensino superior ao redor do mundo. Sendo assim, não se configuram como um curso de

graduação completo e sua certificação pode gerar alguns questionamentos, como, por exemplo, se ao ser

gratuito, teria o mesmo valor que um curso pago e ministrado presencialmente. Além disso, seria importante

analisar como os potenciais empregadores avaliam tais certificados [8;1].

Modelo pedagógico - A classificação mais aceita para a abordagem ou modelo pedagógico é a que divide os

MOOCs em duas categorias: cMOOCs e xMOOCs, de acordo com autores como [3;22;10;23;7]. Neste

contexto, os cMOOCs constituem-se como a primeira geração - início em 2008 - com foco na criação e na

geração de conhecimento através da interação entre os participantes. Neste modelo os participantes são

incentivados a usar uma variedade de tecnologias e a refletir sobre sua aprendizagem. Segue os princípios do

conectivismo, que considera a intensa interação entre os participantes como fundamental para a construção do

conhecimento. Já os xMOOCs são a segunda geração - início em 2012 - com abordagem pedagógica baseada

no behaviorismo, e formato mais tradicional. Apostam em conteúdos e avaliações baseados em materiais

didáticos previamente disponibilizados. Neste modelo, o monitoramento e as ações de tutoria são menos

sistemáticas, com fórum de discussão e avaliação automatizadas. Esse é o modelo que prevalece atualmente,

sendo adotado pelas principais plataformas Coursera e edX [25;24;26].

Qualidade – Para [27], a preocupação com a qualidade no MOOCs está relacionada ao problema das altas

taxas de abandono deste tipo de curso. Ainda segundo os mesmos autores, como os gestores dos MOOCs podem

declarar uma aprendizagem de qualidade em seus cursos, se os estudantes estão falhando em completar os

mesmos? Ainda segundo [27], os MOOCs devem seguir os mesmos princípios de qualidade aplicados aos

cursos tradicionais, pois, em grade parte, derivam de disciplinas da graduação, sendo produzidos pelo mesmo

corpo docente, com o mesmo material, porém, adaptado para o novo ambiente. Sendo assim, é importante a

preocupação com as questões envolvendo a garantia (quality assurance) e melhoria (quality enhancement) da

qualidade dos MOOCs. O processo de garantia de qualidade é mencionado nos trabalhos de [12] que trata de um

programa de qualidade denominado UNED MOOC e também por [27] que trata do modelo denominado

OpenupEd Quality Label.

Validação e plágio – de acordo com [1], um aspecto fundamental e um grande desafio para os MOOCs é

garantir que os trabalhos sejam originais e válidos. Para tanto, é necessário um sistema para prevenir e detectar o

plágio das atividades geradas pelos alunos. Ainda segundo os mesmos autores, a plataforma Coursera estuda

implantar um software para detecção de plágio, assim, como a Udacity e a Edx, que firmaram parceria com a

Pearson VUE, uma provedora de centros de testes, para validar os exames de forma supervisionada. Contudo, é

importante destacar que tal prática implica em gerar custo para os alunos.

A tabela 1 resume os seis problemas e os autor(es) que foram utilizados como referência.

Tabela 1: resumo dos problemas e autores

# Problema Autor(es)

1 Modelo de negócios 8;6;3

2 Taxa de conclusão dos cursos muito reduzida 14;15;3;13;18;4;5;16

3 Certificação 8;1

4 Modelo pedagógico 3;22;10;23;7;25;24;26

5 Qualidade 27;12

6 Validação e plágio 1

69

4 Resultados e Discussão

Esta seção se dedica à apresentação das relações entre os diferentes conceitos apresentados anteriormente.

O modelo de negócios adotado atualmente pelas grandes plataformas na oferta dos MOOCs, como Cousera,

Udacity e Edx, considera que tais cursos pretendem atingir um grande número de alunos, atraídos pela

possibilidade de participar de cursos oferecidos por grandes marcas do ensino superior, como Harvard, MIT e

Stanford [4]. Apesar de não haver cobrança de taxas de matrícula ou mensalidades, as instituições de ensino

podem ter uma nova fonte de recursos financeiros, provenientes da cobrança pela emissão de certificados. Por

exemplo, a Universidade de Washington, que faz parte da plataforma Coursera, está testando um modelo

híbrido, que apresenta mais rigor na concessão de créditos acadêmicos e, também, considera a cobrança de taxa

para emissão do certificado [6]. Contudo, a sustentabilidade de tal modelo pode ser comprometida se os cursos

tiverem uma taxa de abandono elevada, em torno de 90% [5]. Portanto, aumentar a retenção dos estudantes seria

uma medida de suma importância para garantir a sustentabilidade do modelo de negócios praticado atualmente.

O trabalho de [16] sugere algumas medidas para aumentar a taxa de retenção, tais como, atender os alunos de

acordo com o ritmo e perfil de cada indivíduo, professores que motivem o aluno a completar o curso, com a

utilização de técnicas como o reconhecimento dos resultados alcançados pelos alunos, além de aumentar a

participação e interação entre alunos e professores nos fóruns de discussão de cada curso. De forma adicional,

pensando em aumentar a retenção, os gestores dos MOOCs devem preocupar-se também com as questões

envolvendo a garantia da qualidade (quality assurance) e melhoria da qualidade (quality enhancement) dos

MOOCs.

A emissão, validade, forma e a aceitação pelo mercado dos certificados emitidos pelas instituições que

oferecem MOOCs é outro aspecto que tem causado preocupação e discussão entre os envolvidos no segmento

dos MOOCs. Na medida em que tais certificados forem aceitos pelos empregadores e por instituições de ensino,

é provável que tal fato afete a forma como os MOOCs são vistos em relação ao ensino tradicional.

De todos os problemas apontados na pesquisa, o principal desafio e problema central para os gestores dos

MOOCs esta relacionado com a taxa de conclusão muito reduzida deste tipo de curso. Tal problema é gerado

pela qualidade dos cursos e também pelo modelo pedagógico adotado. É necessário considerar também que

quanto maior for a taxa de conclusão de um determinado curso, mais alunos potencialmente poderão pagar pela

emissão de certificados de conclusão, contribuindo para que o modelo de negócios seja sustentável.

5 Conclusão

A pesquisa teve como objetivo a partir de um estudo bibliográfico, identificar e analisar os principais

problemas no projeto e gestão dos MOOCs. Após a pesquisa, foi possível identificar seis problemas relevantes,

como a taxa de conclusão muito reduzida, a certificação desses cursos, o modelo pedagógico, o processo

envolvendo a garantia e melhoria da qualidade dos MOOCs, a aceitação dos certificados, além da preocupação

com a validação e plágio nesse tipo de curso.

A análise mostrou que o principal desafio para os gestores dos MOOCs é aumentar a taxa de retenção de

seus cursos. Sob o ponto de vista da gestão, a diminuição da taxa de evasão, hoje em torno de 90%,

possibilitaria que o modelo de negócios se tornasse mais viável, pois permitiria que mais alunos conseguissem

concluir os cursos e, consequentemente, considerassem o pagamento das taxas para emissão dos certificados.

Além disso, seria importante que os empregadores conhecessem melhor os MOOCs e passassem a aceitar cada

vez mais tais certificados, da mesma maneira que são aceitos os certificados de cursos presencias.

A preocupação com a qualidade é outro aspecto a ser considerado pelos gestores, pois a adoção de

programas de garantia e melhoria da qualidade seria oportuna para atender às expectativas dos alunos e

aumentar as taxas de retenção dos cursos.

70

Numa análise geral, para o modelo de negócios dos MOOCs se consolidar, as questões envolvendo o modelo

pedagógico, o aumento da taxa de conclusão e a aceitação dos certificados precisam ser exaustivamente

questionadas e analisadas para atingir um nível de maturidade suficiente para garantir a sustentabilidade e a

continuidade desta modalidade de educação.

A principal contribuição da pesquisa foi relacionar os principais problemas no projeto e gestão dos MOOCs,

para em seguida identificar o problema mais significativo, no caso, a taxa de conclusão muito reduzida, além de

analisar como os problemas se relacionam entre si.

Em termos de trabalhos futuros, sugere-se um estudo mais profundo sobre os principais motivos para as

elevadas taxas de evasão nos MOOCs.

6. Referências bibliográficas

1. Cooper, S., Sahami, M.: Reflections on Stanford’s MOOCs. New possibilities in online education create new challenges.

Communications of the acm 56(2), 28-30 (2013)

2. Open Education Europa: European MOOCs Scoreboard., European Commission - Brussels - Belgium (2014)Available

at: http://openeducationeuropa.eu/en/european_scoreboard_moocs

3. Sandeen, C.: Integrating MOOCs into Traditional Higher Education: The emerging "MOOC 3.0" Era. The Magazine of

Higher Learning, 34-39 (2013)

4. Alraimi, K. M., Zo, H., Ciganek, A. P.: Understanding the MOOCs continuance: The role of openness and. Computers &

Education, 28-38 (2015)

5. Jordan, K.: Initial Trends in Enrolment and Completion of Massive Open Online Courses. The International Review of

Research in Open and Distance Learning, 133-160 (2014)

6. Dellarocas, C., Van Alstyne, M.: Money Models for MOOCs. Considering new business models for massive open online

courses. Communications of the acm 56(8), 25-28 (August 2013)

7. Vardi, M. Y.: Will MOOCs Destroy Academia? Communications of the acm 55(11), 5 (November 2012)

8. Hyman, P.: In the Year of Disruptive Education. Communications of the acm 55(12), 20-22 (December 2012)

9. Ong, B. S., Grigoryan, A.: MOOCs and Universities: Competitors or Partners? International Journal of Information and

Education Technology 5(5), 373-376 (2014)

10. Zutshi, S., O´Hre, S., Rodafinos, A.: Experiences in MOOCs: The Perspective of Students. American Journal of

Distance Education, 218-227 (2013)

11. Fournier, H., Kop, R., Durand, G.: Chalenges to Research in MOOCS. Journal of Online Learning and Teaching (2014)

12. Read, T., Rodrigo, C.: Toward a Quality Model for UNED MOOCs. eLearning Papers (2014)

13. Hew, K. F., Cheung, W. S.: Students and Instructors use of massive open online courses (MOOCs): motivations and

challenges. Educacional Research Review, 45-58 (2014)

14. Daniel, J.: Making Sense of MOOCs: musing in a maze of myth, paradox and possibility. Journal of Interactive Media in

Education, 1-20 (2012)

15. Morris, L. V.: MOOCs, Emerging Technologies and Quality. Innovative Higher Education, 251-252 (2013)

16. Khalil, H., Ebner, M.: MOOCs Completion Rates and Possible Methods to Improve Retention - A Literature Review. In

: Proceeding of World Conference on Educational Multimedia, Hypermidia and Telecommunications, Chesapeake,

VA, pp.1236-1244 (2014)

17. Little, G.: Massively Open? The Journal of Academic Librarianship, 308-309 (2013)

18. Wilkowski, J., Deutsch, A., Russell, D. M.: Student Skill and Goal Achievement in the Mapping with Google MOOC. In

: L@S 2014 - Student Skills and Behavior, Atlanta, Georgia, USA., pp.3-10 (2014)

19. Mallon, M.: MOOCs. Public Services Quarterly, 46-53 (2013)

20. Belanger, Y., Thornton, J.: Bioelectricity: A quantitative approach. Duke University First MOOC., Durham, NC (2013)

21. Fini, A.: The Technological Dimension of a Massive Open Online Course: The Case of the CCK08 Course Tools.

International Review of Research in Open and Distance Learning (2009)

22. Welsh, D. H. B., Dragusin, M.: The New Generation of Massive Open Online Course (MOOCS) and Entrepreneurship

Education. Small Business Institute Journal 9(1), 51-65 (2013)

23. Saadatmand, M., Kumpulainen, K.: Participants Perceptions of Learning and Networking in Connectivism MOOCs.

MERLOT Journal Online Learning and Teatching, 16-30 (2014)

71

24. Clow, D.: MOOCs and the Funnel of Participation. In : Proceedings LAK '13, Leuven, Bélgica, pp.186-189 (2013)

25. Blanco, A. F., Garcia-Penalvo, F. J., Sein-Echaluce, M.: A methodology proposal for developing adaptative cMOOC. In

: TEEM 2013 - Proceedings of the First International Conference on Technological Ecosystem for Enhancing

Multiculturality (ACM), Salamanca, Espanha, pp.553-558 (2013)

26. Kennedy, J.: Characteristics of Massive Open Online Courses (MOOCs): A research review, 2009-2012. Journal of

Interactive Online Learning, 1-16 (2014)

27. Rosewell, J., Jansen, D.: The OpenupEd quality label: Benchmarks for MOOCs. The International Journal for Innovation

and Quality in Learning, 88-100 (2014)

72

4.2 - Artigo 2 - “Uma revisão da literatura sobre os fatores responsáveis pela alta taxa

de evasão nos MOOCs” ou “A review of literature on the reasons that cause the high

dropout rates in the MOOCs”

Uma vez identificado que o problema mais significativo para a gestão dos MOOcs, o segundo

artigo, buscou, a partir de uma revisão da literatura, identificar os motivos responsáveis pela

evasão dos alunos nos cursos oferecidos como MOOCs. Os resultados apontaram 24 motivos

para a evasão nos MOOCs, que foram divididos em duas categorias: motivos inerentes às

próprias características dos MOOCs e os relacionados com o desenvolvimento dos alunos

durante o curso.

Em relação aos vinte e quatro motivos relacionados pelos autores, doze deles (50%) são

inerentes às próprias características dos MOOCs, que os gestores desses cursos têm pouca

margem de atuação no sentido de atenuar os seus efeitos em relação às altas taxas de evasão.

Por exemplo, é possível citar fatores como, a heterogeneidade dos alunos, falta de

conhecimento prévio, falta de um processo de admissão e custo baixo para o aluno.

Sobre a outra categoria, relacionada ao desenvolvimento do aluno durante o curso, foram

considerados outros doze motivos (50%). Tal categoria é a mais crítica e merece atenção

especial por parte dos gestores dos cursos, pois a partir do conhecimento prévio desses

motivos seria possível a adoção de mecanismos que possibilitem a diminuição das taxas de

evasão. Como exemplo, é possível citar motivos como: a falta de motivação por parte dos

alunos, a falta de tempo para acompanhar o curso, o modelo de avaliação, dificuldades com a

tecnologia e a falta de eficiência do material didático.

Por fim, foram apresentadas diversas soluções advindas da bibliografia consultada, para

enfrentar os motivos causadores da evasão.

A principal contribuição foi identificar a dificuldade de professores e gestores deste tipo de

curso em identificar o ponto de vista dos alunos. Os principais motivos relacionados ao

desenvolvimento do aluno durante o curso são os mais críticos e merecem atenção especial

por parte dos gestores dos cursos, pois a partir do conhecimento prévio desses motivos seria

possível a adoção de medidas no sentido de implementar mecanismos que possibilitem a

diminuição das taxas de evasão dos MOOCs.

73

A partir dos resultados desse artigo, considerou-se a necessidade de estudos sobre a adoção

de ferramentas computacionais, principalmente Learning Analytics (LA) e Educational Data

Mining (EDM) que permitissem aos gestores, a partir da análise dos dados gerados pelos

alunos no ambiente virtual de aprendizagem, uma análise sobre o padrão ou conjunto de

padrões de comportamento dos alunos. Tal análise permitiria aos gestores elaborar e definir

estratégicas de ação em cada domínio de aplicação, por exemplo, para identificar alunos em

situação de evasão ou melhorar o processo de ensino e aprendizagem.

A seguir o artigo é reproduzido na sua forma original.

74

UMA REVISÃO DA LITERATURA SOBRE OS MOTIVOS RESPONSÁVEIS PELA ALTA

TAXA DE EVASÃO NOS MOOCS

Luis Naito Mendes Bezerra luisnaito@yahoo.com.br

Márcia Terra da Silva marcia.terra@uol.com.br

RESUMO

Diversos autores apontam que o maior desafio para a gestão dos MOOCs reside em sua elevada taxa de evasão, geralmente em torno de 90%. Este artigo tem por objetivo identificar os motivos que levam a uma maior evasão nos cursos oferecidos como MOOCs. Para esse fim, foi realizada uma revisão sistemática da literatura nas bases Springer, Science Direct, ERIC database e ACM Digital Library.

Os resultados apontam 24 motivos para a evasão nos MOOCs, que foram divididos em duas categorias: motivos inerentes às próprias características dos MOOCs e os relacionados com o desenvolvimento dos alunos durante o curso. A última categoria é a mais crítica e merece atenção especial por parte dos gestores dos cursos, pois a partir do conhecimento prévio desses motivos seria possível a adoção de mecanismos que possibilitem a diminuição das taxas de evasão. Por fim, foram apresentadas diversas soluções da bibliografia, para enfrentar os motivos causadores da evasão.

ABSTRACT

The main purpose of this article is to try to identify the reasons that lead to higher dropout rates in the courses offered as MOOCs. For this purpose, there has been a systematic review of the literature. The results suggest 24 different reasons for dropouts from MOOCS, and these reasons have been divided into two groups: reasons inherent to the very characteristics of the MOOCs and those related to the development of the students during the course. Finally, several solutions in the bibliography have been mentioned as ways to tackle the factors that have brought about the high dropout rates.

Keywords: distance education; MOOCs; MOOCs dropout; MOOCs management

75

1. Introdução

A educação a distância (EAD) tem percorrido um longo caminho nas últimas décadas, desde o

modelo inicial baseado em material impresso e ensino por correspondência, passando pela utilização

de rádio e televisão, sendo posteriormente impulsionada pela ampla utilização da Internet e das TICs

(tecnologias da informação e da comunicação) (Borba, Malheiros, & Amaral, 2011).

Recentemente surgiu uma nova modalidade de EAD conhecida como MOOC (Massive Open Online

Course, ou Curso Online Aberto e Massivo). Os MOOCs são cursos abertos, com formato totalmente

online, sem pré-requisitos, sem cobrança inicial de taxas e com potencial para distribuir a educação

em escala global, inclusive permitindo aos alunos oriundos de países em desenvolvimento terem

acesso a instituições e cursos de qualidade com baixo custo (Hyman, 2012; Cooper e Sahami 2013;

Ong e Grigoryan, 2014).

Outros autores, também, citam os MOOCs como um novo modelo de negócios para instituições de

ensino superior, pois embora os cursos sejam isentos de taxas para a inscrição e acesso ao

conteúdo, pode-se cobrar taxas para a emissão dos certificados. Considerando-se o elevado número

de alunos, que optam por essa modalidade de ensino, tal iniciativa poderia gerar um modelo de

negócios sustentável (Hyman, 2012; Dellarocas e Van Alstyne 2013; Alraimi, Zo, & Ciganek, 2015).

É importante considerar, no entanto, que o modelo de negócios dos MOOCs ainda não está

consolidado, pois neste momento, é acessível apenas a uma pequena parcela de instituições de

ensino, tais como: Harvard, Stanford e MIT (Massachusetts Institute of Technology), que ao se

utilizarem de sua longa tradição e excelente reputação acadêmica, receberam investimentos

suficientes para bancar os custos de criação de plataformas para produção e distribuição de

conteúdos em larga escala, tendo como resultado a criação de empresas inspiradas no modelo de

startups do Vale do Silício, como a Coursera (Universidade de Stanford) e Edx (MIT e Harvard)

(Sandeen, 2013).

O primeiro MOOC foi criado em setembro de 2008 no Canadá. Contudo, tal formato começou, de

fato, a despertar a atenção dos alunos a partir de 2011, quando Sebastian Thrun e Peter Norvig

criaram o curso de Inteligência Artificial na Universidade de Stanford que atraiu mais de 160.000

alunos de 190 países diferentes (Rodriguez, 2012; Ong e Grigoryan, 2014). A partir de 2011 o

crescimento desta modalidade de EAD tem sido vertiginoso, com o surgimento, inicialmente, de três

grandes plataformas para a oferta de MOOCS, já citadas anteriormente: Coursera, e EdX, além da

Udacity (Little, 2013; Mallon, 2013; Sandeen, 2013).

Tais plataformas tem conseguido distribuir os MOOCS em escala global. A título de exemplo, em

maio de 2015, a plataforma Coursera apresentava 1038 cursos, mantendo parcerias com 119

instituições de ensino superior de várias partes do mundo (Coursera , 2015). Atualmente o interesse

pelos MOOCS tem crescido, também, na Europa. Segundo o site da Open Education Europa que

agrega dados sobre os MOOCs nos países europeus, em setembro de 2014 foram oferecidos 770

cursos, sendo que em setembro de 2015 já eram 1771 cursos, números que apontam para um

crescimento de 130% (Open Education Europa, 2015).

Apesar da escala global ter sido atingida, do grande número de alunos atendidos e do crescimento

considerável do número de cursos, alguns desafios vêm-se apresentando ao universo dos MOOCs e

tem sido objeto de vários estudos. Diversos autores têm pesquisado aspectos como:

Modelo pedagógico dos MOOCs (Vardi, 2012; Fournier, Kop, & Durand, 2014)

Validação do certificado (Hyman, 2012; Cooper & Sahami, 2013);

Tipologia dos MOOCs (Welsh & Dragusin, 2013; Sandeen, 2013; Almenara, Cejudo, & Vazquez

Martinez, 2014; Rosselle, Caron, & Heutte, 2014; Conole, 2014)

76

Percepção e experiência dos alunos de MOOCs (Zutshi, O´Hre, & Rodafinos, 2013; Coffrin, Barba,

Corrin, & Kennedy, 2014; )

Qualidade dos MOOCs (Read & Rodrigo, 2014; Walker & Lock, 2014)

As pesquisas que abordam os temas relativos à percepção e experiência dos alunos e da qualidade

dos MOOCs tratam, frequentemente, de outro aspecto que deve ser considerado pelos responsáveis

pela gestão dos MOOCs, ou seja, o elevado índice de evasão apresentado por este tipo de curso.

Essa problemática, inclusive, tem sido tratada por diversos autores, que investigam os motivos que

levam muitos programas ao fracasso (Roval & Downey, 2010; Poy & Gonzalles-Aguilar, 2014), os

desafios da aprendizagem neste tipo de curso (Hew & Cheung, 2014) e as principais dificuldades dos

alunos em acompanhar o curso (Liu, et al., 2014).

Objetiva-se com esse trabalho, a partir de uma revisão sistemática da literatura, realizada nas bases

Springer, Science Direct, ERIC database, ACM Digital Library, identificar os motivos da elevada

evasão nos cursos oferecidos como MOOCs.

Além desta introdução, este trabalho foi dividido em mais cinco partes. Na seção inicial é

apresentado o processo de evasão nos MOOCs, para em seguida ser apresentada uma revisão

sistemática da literatura sobre os motivos que levam à evasão nos MOOCs. Na sequência,

apresentam-se os resultados e análise, as conclusões e, por último, as referências bibliográficas.

2. O processo de evasão nos MOOCs

No âmbito dos MOOCs, diversos autores apresentam evidências apontando que tais cursos têm

taxas de evasão muito expressivas, geralmente em torno de 90%. (Daniel, 2012; Morris, 2013;

Sandeen, 2013; Hew & Cheung, 2014; Jordan, 2014; Wilkowski, Deutsch, & Russell, 2014; Alraimi,

Zo, & Ciganek, 2015).

A problemática da evasão, também, pode ser apresentada para melhor entendimento, por meio de

exemplos. Segundo Coffrin, Barba, Corrin, & Kennedy (2014), o MOOC denominado Principles of

Macroeconomics, oferecido pela Universidade de Merlbourne atraiu 54.217 alunos, sendo que

32.598, participaram efetivamente do curso, destes, apenas, 1.412 alunos completaram o curso e

receberam o certificado (4,33%). A mesma preocupação relacionada com as altas taxas de evasão

consta da pesquisa de Rosewell & Jansen ( 2014), que apresentam o caso do primeiro MOOC da

Univesidade de Edinburgo em 2013 que teve apenas 12% de concluintes.

Na mesma linha, uma pesquisa mais ampla, apresentada por Jordan (2014), analisou 91 MOOCs,

com número de estudantes variando entre 4.500 a 226.652 (média de 42.844) com a maioria deles

apresentando taxa de conclusão inferior a 10%, sendo que a taxa de conclusão média foi de apenas

6,5%.

De acordo com Wilkowski, Deutsch, & Russell (2014), em função das caracteríticas dos MOOCs,

como a falta de cobrança de taxas e a ausência de pré-requisitos para a entrada de estudantes,

possibilita que os interessados, apenas, façam o registro e nunca mais voltem para o curso, fato que

certamente colabora para um considerável nível de evasão logo no início do curso. Para entender

melhor o perfil do aluno que decide matricular-se neste tipo de curso, os autores propuseram uma

classificação em quatro categoria:

a) No-shows – o estudante faz o registro no curso (muitas vezes antes do conteúdo estar

disponível) e nunca mais faz login no curso;

b) Observers – quer saber como é um curso online e como é o método de ensino;

77

c) Casual learners – precisa aprender um ou dois novos assuntos, seja por curiosidade ou por

necessidades relacionadas a questões de aprendizagem ou profissionais;

d) Completers - completar o maior número de requisitos do curso para concluir os projetos e

receber o certificado de conclusão.

É importante mencionar que o conhecimento de tal classificação permitiria aos gestores entender

melhor os motivos que levam os alunos a se inscreverem nos cursos, além de possibilitar, também, o

desenvolvimento de projetos que levem em consideração os objetivos de cada aluno. Pode, ainda,

influenciar em como os cursos podem ser oferecidos, possibilitando, por exemplo, a indicação de

apenas um subconjunto do curso para determnados alunos com base em suas preferências

declaradas ou experiências anteriores, possibilitando assim a diminuição da evasão.

De forma adicional, o trabalho de Clow (2013) apresenta o grau de participação que um aluno pode

atingir ao cursar um MOOC, processo que permite entender melhor a questão da evasão neste tipo

de curso. Tal processo composto por quatro etapas, foi apresentado pelo autor por meio de um

modelo que foi denominado de “funnel of participation” ou “funil de participação”, conforme pode ser

observado na figura 1.

Figura 1: O funil de participação – Adaptado de Clow (2013)

As etapas do modelo são detalhadas a seguir:

Etapa 1 – Awareness (conhecimento) – os alunos potenciais devem saber da existência do MOOC.

Etapa 2 – Registration (inscrição) - apenas uma fração daqueles que estão cientes vão querer se

inscrever e conseguem fazê-lo.

Etapa 3 – Activity (atividade) - Em seguida, uma fração dos inscritos vai continuar a se envolver em

alguma atividade ou outra e alguns destes vão atingir a etapa final, denominada (Progress – Progresso)

na qual ocorre uma aprendizagem significativa.

A evasão em todas as etapas já é bastante alta, acentua-se, no entanto, nas etapas 1 e 2.

Os trabalhos de Clow (2013) e Wilkowski, Deutsch, & Russell (2014), são importantes para explicar a

diminuição drástica do interesse e participação dos alunos através do tempo e das fases do curso.

Contudo, não elucidam com detalhes os principais motivos responsáveis pelas altas taxas de evasão

nos MOOCs. Sendo assim, na próxima seção será efetuada uma revisão sistemática da literatura para

identificar os motivos que levam os alunos a abandonarem o curso.

78

3. Revisão sistemática da literatura sobre evasão nos MOOCs

3.1 Procedimentos metodológicos

A revisão da literatura é uma ferramenta chave para tratar a diversidade de conhecimento em uma

área acadêmica específica. No caso desta pesquisa, utilizou-se como referência os trabalhos de

(Kennedy, 2014; Liyanagunawardena, Adams, Rassol, & Williams, 2014; Hew & Cheung, 2014).

Para atingir o objetivo proposto, foi realizado um levantamento bibliográfico que compreende o

período entre a oferta do primeiro MOOC em 2008 (Sandeen, 2013) até o ano em que a pesquisa

está sendo conduzida (2015). Os critérios para pesquisa estão relacionados na tabela 1:

Tabela 1: Critérios para construção da base de artigos

Critério Definição

Tipo de documento Artigos em revista e congressos

Palavras-chave “MOOCs dropout”; “MOOCs no completion rate”; “MOOCs attrition rate”

Periódicos / base de dados Springer Science Direct ERIC database ACM Digital Library

As palavras-chave utilizadas para busca nas bases de dados foram obtidas a partir do relatório de

Quinn (2013), que realizou um estudo para a Comissão Europeia de Educação, que teve como

objetivo, analisar a questão da evasão no ensino superior na modalidade de educação a distância.

A partir dos critérios definidos na tabela 1, foram obtidos os seguintes resultados, que são

apresentados na tabela 2:

Tabela 2: resultado das buscas nas bases de dados

Base de dados URL Resultado da busca - artigos

Springer www.springer.com 61

Science Direct www.sciencedirect.com 95

ERIC database

http://eric.ed.gov/ 14

ACM Digital Library www.acm.org 42

Em seguida, a pesquisa foi direcionada para a leitura dos títulos e abstracts, com o objetivo de

identificar os artigos aderentes aos objetivos do presente estudo. Após a leitura e análise dos títulos

e abstracts, foram selecionados 24 artigos que compõem esta análise.

4. Resultados e análise

A partir da análise das pesquisas acerca do tema foi possível a identificação de 24 motivos para a

não conclusão do curso e que estão relacionados na tabela 3. Em função desta tabela é possível

observar que para cada motivo estão destacados os autores que foram utilizados como referência,

sendo importante destacar que os motivos não foram apresentados em ordem de importância.

79

Tabela 3: Motivos para evasão nos MOOCs

# Motivo Autores

1 Falta de atividade cooperativa entre os alunos / trabalho em grupo

(Blanco, Garcia-Penalvo, & Sein-Echaluce, 2013) (Burd, Smith, & Reisman, 2014)

2 Heterogeneidade dos alunos (Blanco, Garcia-Penalvo, & Sein-Echaluce, 2013) (Gené, Nunes, & Blanco, 2014)

3 Falta de motivação por parte dos alunos

(Gené, Nunes, & Blanco, 2014) (Fini, 2009)

4 Falta de tempo suficiente para acompanhar o curso / dificuldade na gestão do tempo.

Fini, A. (2009) Belanger, Y. and Thornton, J. (2013) (Nawrot & Docet, 2014) (Burge, 2015) (Zheng, Rosson, Shih, & Carrol, 2015)

5 Falta de conhecimento prévio e preparo dos estudantes

(Belanger & Thornton, 2013) (Burd, Smith, & Reisman, 2014) (Maringe & Sing, 2014)

6 Dificuldade em relacionar os conceitos com as aplicações

(Belanger & Thornton, 2013)

7 Nível do curso diferente da expectativa inicial

(Gené, Nunes, & Blanco, 2014)

8 Modelo de avaliação (Garcia_Penalvo, Hermo, Blanco, & Sein-Echaluce, 2014)

9 Falta de retorno das atividades (Garcia_Penalvo, Hermo, Blanco, & Sein-Echaluce, 2014)

10 Dificuldade com a tecnologia (Fini, 2009) (Kennedy, 2014)

2

(Liyanagunawardena, Adams, Rassol, & Williams, 2014)

11 Dificuldade com a língua inglesa (Fini, 2009) (Liyanagunawardena, Adams, Rassol, & Williams, 2014)

12 O curso não correspondeu às expectativas

(Fini, 2009)

13 Diferença de fuso-horário (Kennedy, 2014) 3

14 Ausência de custo para o aluno (Chen, 2014) (Morris, 2013)

15 Falta de processo de admissão (Chen, 2014) (Morris, 2013)

16 Falta de eficácia do material – vídeos e exercícios

(Muñoz-Merino, Ruipérez-Valiente, Alario-Hoyos, Perez-Sanagustin, & Kloos, 2014) (Burge, 2015)

17 Falta de maturidade do aluno (Burd, Smith, & Reisman, 2014)

18 Matrícula em mais de um curso (Burge, 2015)

19 Carga de trabalho excessiva (Zheng, Rosson, Shih, & Carrol, 2015)

20 Demora em iniciar o curso (Zheng, Rosson, Shih, & Carrol, 2015)

21 Aprender apenas um ou mais tópicos do curso

(Brahimi & Sarirete, 2015)

22 Dificuldade em acompanhar o conteúdo do curso

(Zheng, Rosson, Shih, & Carrol, 2015)

23 Falta de urgência ou pressão para terminar o curso

(Zheng, Rosson, Shih, & Carrol, 2015)

24 Falta de um tutorial para orientar os usuários

(Gomes-Zermeno & De La Garza, 2016)

2 Fez referência ao artigo original de (Kop, Fournier, & Mak, 2011)

3 Fez referência ao artigo original de (Kop, Fournier, & Mak, 2011)

80

Na etapa seguinte, os motivos foram divididos em dois grupos para facilitar a análise, sendo

importante destacar que tal divisão foi inspirada nos trabalhos de Clow (2013) e Wilkowski, Deutsch,

& Russell (2014), como segue:

4.1 Motivos inerentes às próprias características do MOOCs

Conforme mencionado anteriormente, os MOOCs apresentam como características aspectos como:

serem cursos abertos, com formato totalmente online, sem pré-requisitos, sem cobrança inicial de

taxas e com potencial para distribuir a educação em escala global, inclusive, permitindo aos alunos

oriundos de países em desenvolvimento terem acesso a instituições de elevada reputação e cursos

de qualidade.

Contudo, características como a ausência de cobrança de taxas e o caráter aberto, propiciam que

um número considerável de alunos faça matrícula apenas por curiosidade ou com objetivo de

conhecer um curso, para desistir logo em seguida, contribuindo assim para elevar a taxa de evasão.

Em relação aos vinte e quatro motivos relacionados pelos autores, doze deles (50%) são inerentes

às próprias características dos MOOCs, sendo importante mencionar que os gestores desses cursos

têm pouca margem de atuação no sentido de atenuar os seus efeitos em relação às altas taxas de

evasão. É importante salientar, no entanto, que esses motivos, neste momento, não são objeto de

análise deste estudo. Os motivos são apresentados na tabela 4:

Tabela 4: Motivos inerentes às próprias características do MOOCs

# Motivo Autores

2 Heterogeneidade dos alunos (Blanco, Garcia-Penalvo, & Sein-Echaluce, 2013) (Gené, Nunes, & Blanco, 2014)

5 Falta de conhecimento prévio e preparo dos estudantes

(Belanger & Thornton, 2013) (Burd, Smith, & Reisman, 2014) (Maringe & Sing, 2014)

9 Falta de retorno das atividades (Garcia_Penalvo, Hermo, Blanco, & Sein-Echaluce, 2014)

11 Dificuldade com o idioma (inglês)

(Fini, 2009) (Liyanagunawardena, Adams, Rassol, & Williams, 2014)

12 O curso não correspondeu às expectativas

(Fini, 2009)

13 Diferença de fuso-horário (Kennedy, 2014)

14 Ausência de custo para o aluno (Chen, 2014) (Morris, 2013)

15 Falta de processo de admissão (Chen, 2014) (Morris, 2013)

18 Matrícula em mais de um curso (Burge, 2015)

20 Demora em iniciar o curso (Zheng, Rosson, Shih, & Carrol, 2015)

21 Aprender apenas um ou mais tópicos do curso

(Brahimi & Sarirete, 2015)

23 Falta de urgência ou pressão para terminar o curso

(Zheng, Rosson, Shih, & Carrol, 2015)

81

4.2 Motivos relacionados ao desenvolvimento do aluno durante o curso

Para esse conjunto de motivos é possível estabelecer uma relação com o modelo Clow (2013) na

etapa de Activity (atividade), na qual os alunos passam a se envolver com o curso, participando de

atividades, como, por exemplo, assistir a vídeos e responder a exercícios. Sendo assim, dos vinte e

quatro motivos relacionados pelos autores, doze deles (50%) são relacionados ao desenvolvimento

do aluno durante o curso. A tabela 5 apresenta os doze motivos:

Tabela 5: Motivos relacionados com o desenvolvimento do aluno durante o curso

# Motivo Autores

1 Falta de atividade cooperativa entre os alunos / trabalho em grupo

(Blanco, Garcia-Penalvo, & Sein-Echaluce, 2013) (Burd, Smith, & Reisman, 2014)

3 Falta de motivação por parte dos alunos

(Gené, Nunes, & Blanco, 2014) (Fini, 2009)

4 Falta de tempo suficiente para acompanhar o curso / dificuldade na gestão do tempo.

Belanger, Y. and Thornton, J. (2013) Fini, A. (2009)

6 Dificuldade em relacionar os conceitos com as aplicações

(Belanger & Thornton, 2013)

7 Nível do curso diferente da expectativa inicial

(Gené, Nunes, & Blanco, 2014)

8 Modelo de avaliação (Garcia_Penalvo, Hermo, Blanco, & Sein-Echaluce, 2014)

10 Dificuldade com a tecnologia (Fini, 2009) (Kennedy, 2014) (Liyanagunawardena, Adams, Rassol, & Williams, 2014)

16 Falta de eficácia do material – vídeos e exercícios

(Muñoz-Merino, Ruipérez-Valiente, Alario-Hoyos, Perez-Sanagustin, & Kloos, 2014)

17 Falta de maturidade do aluno (Burd, Smith, & Reisman, 2014)

19 Carga de trabalho excessiva (Zheng, Rosson, Shih, & Carrol, 2015)

22 Dificuldade em acompanhar o conteúdo do curso

(Zheng, Rosson, Shih, & Carrol, 2015)

24 Falta de um tutorial para orientar os usuários

(Gomes-Zermeno & De La Garza, 2016)

É importante ressaltar que os motivos apresentados na tabela 5, ou seja, aqueles relacionados ao

desenvolvimento do aluno durante o curso são os mais críticos em relação àqueles inerentes às

próprias características do MOOCs e deveriam receber um nível de atenção maior por parte dos

gestores do curso, pois a partir do conhecimento sobre quais motivos influenciam de maneira mais

acentuada a evasão de determinado curso, seria possível adotar estratégias para diminuir as taxas

de evasão.

É possível encontrar na literatura elementos que podem colaborar para propor soluções para tratar

dos motivos apontados na tabela 5. Inicialmente, para o fator 1 (falta de atividade cooperativa entre

os alunos e trabalhos em grupo), Khalil & Ebner (2014) sugerem que nos fóruns de discussão, além

da resposta do professor, de forma adicional, os estudantes sejam incentivados a responderem uns

aos outros, aumentando assim o compartilhamento de recursos suplementares e possibilitando,

também, que os alunos sintam-se parte de uma comunidade de aprendizagem virtual e que possam

recorrer a ela quando necessitarem de ajuda.

Para o motivo 4 (falta de tempo suficiente para acompanhar o curso), motivo 6 (dificuldade em

relacionar os conceitos com as aplicações) e motivo 22 (dificuldade em acompanhar o conteúdo do

82

curso), seria possível utilizar os princípios apontados no trabalho de Blanco, Garcia-Penalvo, & Sein-

Echaluce (2013), que propõe a utilização de uma abordagem adaptativa para o projeto do curso, em

contraste com o projeto rígido adotado pela maioria dos cursos atuais. A abordagem adaptativa leva

em consideração o aspecto heterogêneo dos alunos, sugerindo caminhos de aprendizagem

individualizados, onde uma determinada atividade pode ser interessante para um indivíduo ou grupo

de alunos, mas não para todos.

Ainda segundo os mesmos autores, o sistema adaptativo , a partir de uma avaliação diagnóstica dos

alunos, propõe atividades personalizadas para cada perfil de aluno, sendo possível, ainda, agrupar

os participantes por afinidade (contexto e objetivos de aprendizagem semelhantes) contribuindo

desta maneira para a realização de atividades colaborativas.

Para o motivo 8 (modelo de avaliação), a pesquisa de (Garcia_Penalvo, Hermo, Blanco, & Sein-

Echaluce, 2014) faz constar que os participantes demandam outros métodos de avaliação, diferentes

dos testes adotados pela maioria dos cursos. Por exemplo, sugere-se a adoção do método de

revisão pelos pares (peer reviewing) e mais retorno (feedback) em relação às falhas cometidas

durante o processo de avaliação. Um exemplo nesta direção é o curso Principles of Macroeconomics

da Universidade de Melbourne, no qual os estudantes colaboram entre si por meio de fóruns e redes

sociais. Há também a avaliação em pares, onde um determinado aluno escreve um texto de 1500

palavras que é avaliado por três outros estudantes (Coffrin, Barba, Corrin, & Kennedy, 2014).

Já em relação a falta de eficácia do material (motivo 16), principalmente vídeos e exercícios, o

sistema PES (Precise Effectiveness Strategy) é proposto como uma metodologia para medir a

efetividade dos alunos quando interagem com recursos educacionais e atividades. O sistema utiliza-

se para tanto de métricas para para calcular a efetividade dos alunos quando utilizam, por exemplo,

palestras em vídeo e correção automática de exercícios. O PES estabelece que a conclusão do

recurso (um vídeo, por exemplo) implica em uma interação correta com a atividade. Portanto, um

recurso é concluído quando um aluno resolve um exercício corretamente, mas não quando o aluno

tenta fazê-lo sem sucesso (Muñoz-Merino, Ruipérez-Valiente, Alario-Hoyos, Perez-Sanagustin, &

Kloos, 2014).

Para o motivo 17 (falta de maturidade do aluno), se as atividades de aprendizagem dependem de

ações em grupo, alunos que são imaturos ou despreparados podem prejudicar a aprendizagem dos

outros. Nesse caso, seria importante definir procedimentos de apoio e orientação realistas

(considerando a natureza dos MOOCs). Tipicamente , a única forma de ajuda oferecida na maioria

dos MOOCs é a assistência de pares (peer assistance), onde os alunos colaboram entre si, além da

possibilidade da atribuição de um moderador para colaborar com as discussões em grupo.

Os motivos 10 (dificuldade com a tecnologia) e 19 (carga de trabalho excessiva), apesar de em um

primeiro momento parecerem fora do controle dos gestores, deveriam receber atenção, no sentido de

propor mais atividades colaborativas, que diminuam o estudo individual e promovam o senso de

comunidade entre os alunos. Para a questão da dificuldade com a tecnologia, muitos alunos podem

enfrentar problemas em relação ao uso das ferramentas internas disponíveis, como, por exemplo,

para os fóruns de discussão. Nesse caso, seria possível a utilização de ferramentas externas, como

o Facebook e algumas soluções da Google (Google Docs e Google+) (Zheng, Rosson, Shih, &

Carrol, 2015).

Como exemplo final, para os motivos 3 (falta de motivação por parte dos alunos) e 7 (nível do curso

diferente da expectativa inicial), o trabalho de Gené, Nunes, & Blanco (2014), indica a aplicação do

conceito de gamificação para elevar o nível de motivação dos alunos e diminuir as taxas de evasão.

O termo gamificação (do inglês gamification), refere-se à prática de utilizar elementos de jogos

digitais em produtos e serviços para melhorar a experiência de seus usuários (de-Marcos,

Dominguez, & Saenz-de-Navarrete, 2014). Esse conceito pode ser implementado, por exemplo,

durante o processo de avaliação dos alunos, quando após a realização “quizzes” no ambiente

83

Moodle, os elementos de jogos foram utilizados, com a adoção, por exemplo, de “ranking ratings” para a

classificação dos alunos após cada atividade.

É importante considerar que o caráter heterogêneo e aberto dos MOOCs, permite a participação de

alunos com perfil de aprendizagem e interesses diversos. Sendo assim, seria fundamental para a

diminuição das elevadas taxas de evasão, a partir de uma avaliação diagnóstica para conhecer o

perfil de cada aluno, propor atividades personalizadas para cada aluno ou grupos de alunos. Neste

caso, seria possível propor atividades e selecionar materiais mais adequados aos alunos com

contexto e objetivos de aprendizagem semelhantes, em contraste com o modelo rígido que

prevalece, atualmente, e que trata todos os alunos da mesma maneira.

Neste sentido, são importantes os estudos e projetos de implantação de MOOCs adaptativos, que

permitem a partir de dados originados pelos alunos na utilização e interação com o ambiente de

aprendizagem, o estabelecimento de diferentes estratégias de aprendizagem individualizadas bem

como para grupos de alunos.

5. Conclusão

A pesquisa teve como objetivo identificar na literatura os motivos que levam os MOOCs a

apresentarem altas taxas de evasão. Após revisão sistemática na literatura nas bases Springer,

Science Direct, ERIC database, ACM Digital Library e Google Acadêmico, foram identificados 24

motivos, que na sequência foram divididos em dois grupos, ou seja, motivos inerentes às próprias

características do MOOCs e motivos relacionados com o desenvolvimento do aluno durante o curso.

A análise mostrou que doze dos vinte e quatro motivos são inerentes às próprias características dos

MOOCs, pois, por exemplo, o fato de tais cursos serem abertos e sem cobrança inicial de taxas

contribui de maneira importante para as altas taxas de evasão, pois muitos alunos fazem inscrição

apenas por curiosidade e logo desistem do curso. Para esse grupo de motivos, os gestores desses

cursos têm pouca margem de atuação no sentido de propor soluções para a redução das altas taxas

de evasão.

É importante salientar que os doze motivos relacionados ao desenvolvimento do aluno durante o

curso são os mais críticos e merecem atenção especial por parte dos gestores dos cursos, pois a

partir do conhecimento prévio desses motivos seria possível a adoção de medidas no sentido de

implementar mecanismos que possibilitem a diminuição das taxas de evasão dos MOOCs. Foram

apresentadas a partir da literatura, algumas possíveis soluções para enfrentar tais motivos, dentre

elas a utilização de abordagem adaptativa para o curso, a adoção do processo de gamificação, o

aumento das atividades de cooperação entre os alunos nos fóruns de discussão dos cursos e o

sistema PES (Precise Effectiveness Strategy) para medir a efetividade dos alunos quando interagem

com recursos educacionais e atividades

Em termos de trabalhos futuros, sugere-se a realização de pesquisas de campo com alunos para

verificar se os motivos apontados na literatura são compatíveis com as dificuldades relatadas por

eles durante o curso. Além disso, seria importante estudos sobre a adoção de ferramentas

computacionais, principalmente Learning Analytics (LA) e Educational Data Mining (EDM) que

permitiriam a análise dos dados gerados pelos alunos no ambiente virtual de aprendizagem e

possibilitariam aos gestores uma análise antecipada do comportamento dos alunos, com o objetivo

de prever quando o aluno poderá parar de frequentar o curso e adotar as medidas cabíveis com a

finalidade de diminuir a evasão no curso.

84

6. Referências bibliográficas

Almenara, J., Cejudo, M., & Vazquez Martinez, A. (2014). Las Tipologias de MOOC: Su Diseño e Implicaciones Educativas. Revista de curriculum y formación de profesorado, pp. 14-26.

Alraimi, K., Zo, H., & Ciganek, A. (2015). Understanding the MOOCs continuance: The role of openness and. Computers & Education, pp. 28-38.

Belanger, Y., & Thornton, J. (2013). Bioelectricity: A quantitative approach. Duke University First MOOC. Durham, NC.

Blanco, A., Garcia-Penalvo, F., & Sein-Echaluce, M. (2013). A methodology proposal for developing adaptative cMOOC. TEEM 2013 - Proceedings of the First International Conference on Technological Ecosystem for Enhancing Multiculturality (ACM), (pp. 553-558). Salamanca,

Espanha.

Borba, M., Malheiros, A., & Amaral, R. (2011). Educação a Distância Online. Belo Horizonte:

Autêntica.

Brahimi, T., & Sarirete, A. (2015). Learning outside the classroom through MOOCs. Computers in Human Behavior, 51 - parte B, pp. 604-609.

Burd, E., Smith, S., & Reisman, S. (2014). Exploring Business Models for MOOCs in Higher Education. Innovative Higher Education, pp. 1-13.

Burge, J. (2015). Insights into Teaching and Learning: Reflections on MOOC Experiences. SIGCSE '15 Proceedings of the 46th ACM Technical Symposium on Computer Science Education (pp.

600-603). Kansas City, MO, USA: ACM New York, NY, USA.

Chen, Y. (2014). Investigating MOOCs Through Blog Mining. The International Review of Research in Open and Distance Learning, pp. 85-106.

Clow, D. (2013). MOOCs and the Funnel of Participation. Proceedings LAK '13, (pp. 186-189).

Leuven, Bélgica.

Coetzee, D., Fox, A., Hearst, M., & Hartmann, B. (2014). Should your MOOC Forum use a reputation system? CSCW 2014 - Learning Analytics and Knowledge. Baltimore, Maryland, USA.

Coffrin, C., Barba, P., C.orrin, L., & Kennedy, G. (2014). Visuzalizing patterns of student engagement and performance in MOOCs. Proceedings - LAK2014 - Learning Analytics and Knowledge.

Indianapolis, USA.

Conole, G. (2014). A new classification schema for Moocs. The International Journal for Innovation and Quality in Learning (INNOQUAL), pp. 65-77.

Cooper, S., & Sahami, M. (2013). Reflections on Stanford’s MOOCs. New possibilities in online education create new challenges. Communications of the acm, 56(2), 28-30.

Coursera. (s.d.). Coursera. Acesso em 15 de maio de 2015, disponível em https://pt.coursera.org/

Daniel, J. (2012). Making Sense of MOOCs: musing in a maze of myth, paradox and possibility. Journal of Interactive Media in Education, 1-20.

Dellarocas, C., & Van Alstyne, M. (August de 2013). Money Models for MOOCs. Considering new business models for massive open online courses. Communications of the acm, 56(8), 25-28.

de-Marcos, L., Dominguez, A., & Saenz-de-Navarrete, J. P. (2014). An empirical study comparing gamification and social networking on e-learning. Computers & Education, pp. 82-91.

Fini, A. (2009). The Technological Dimension of a Massive Open Online Course: The Case of the CCK08 Course Tools. International Review of Research in Open and Distance Learning.

85

Fournier, H., Kop, R., & Durand, G. (2014). Chalenges to Research in MOOCS. Journal of Online Learning and Teaching.

Garcia_Penalvo, F., Hermo, V., Blanco, A., & Sein-Echaluce, M. (2014). Applied Educational Innovation MOOC: Learners Experience and Valorization of Strengths and Weaknesses. TEEM 2014 - Proceedings of the Second International Conference on Technological Ecosystem for Enhancing Multiculturality (ACM), (pp. 139-145). Salamanca, Espanha.

Gené, O., Nunes, M., & Blanco, A. (2014). Gamification in MOOC: Challenges, Oportunities and Proposal for Advancing MOOC Model. TEEM 2014 - Proceedings of the Second International Conference on Technological Ecosystem for Enhancing Multiculturality (ACM), (pp. 215-220).

Salamanca, Espanha.

Gomes-Zermeno, M., & De La Garza, L. (2016). Research Analysis on Mooc Course Dropout and Retention Rates. Turkish Online Journal of Distance Education-TOJDE, 17(2), p. (pp.) 3-14.

Guo, P., & Reinecke, K. (4-5 de march de 2014). Demographic Differences in How Students Navigate Through MOOCs. L@S - Student Skills and Behavior.

Hew, K., & Cheung, W. (2014). Students and Instructors use of massive open online courses (MOOCs): motivations and challenges. Educacional Research Review, pp. 45-58.

Hyman, P. (December de 2012). In the Year of Disruptive Education. Communications of the acm, 55(12), 20-22.

Jordan, K. (2014). Initial Trends in Enrolment and Completion of Massive Open Online Courses. The International Review of Research in Open and Distance Learning, pp. 133-160.

Kennedy, J. (2014). Characteristics of Massive Open Online Courses (MOOCs): A research review, 2009-2012. Journal of Interactive Online Learning, pp. 1-16.

Khalil, H., & Ebner, M. (2014). MOOCs Completion Rates and Possible Methods to Improve Retention - A Literature Review. Proceeding of World Conference on Educational Multimedia, Hypermidia and Telecommunications, (pp. 1236-1244). Chesapeake, VA.

Kop, R., Fournier, H., & Mak, J. (2011). A Pedagogy of Abundance or a Pedagogy to Support Human Beings? Participant Support on Massive Open Online Courses. The International Review of Research in Open and Distance Learning, pp. 75-93.

Little, G. (2013). Massively Open? The Journal of Academic Librarianship, pp. 308-309.

Liu, M., Kang, J., Cao, M., Lim, M., Ko, Y., Myers, R., et al. (2014). Understanding MOOCs as an Emerging Online Learning Too: Perspectives from the Students. American Journal of Distance Education, pp. 147-159.

Liyanagunawardena, T., Adams, A., Rassol, N., & Williams, S. (2014). Developing government policies for distance education: Lessons learnt from two Sri Lankan Case Studies. International Review of Educational, pp. 1-19.

Mallon, M. (2013). MOOCs. Public Services Quarterly, pp. 46-53.

Maringe, F., & Sing, N. (2014). Teaching large classes in increasingly internationalising higher education environment: pedagogical, quality and equity issues. Higher Education, pp. 761-782.

Morris, L. (2013). MOOCs, Emerging Technologies and Quality. Innovative Higher Education, 251-252.

Muñoz-Merino, P., Ruipérez-Valiente, J., Alario-Hoyos, C., Perez-Sanagustin, M., & Kloos, C. (2014). Precise Effectiveness Strategy for Analyzing the Effectiveness of Students. Computer in Human Behavior, pp. 1-11.

86

Nawrot, I., & Docet, A. (2014). Building Engagement for MOOC Students. Introducing Support for Time Management on Online Learning Platforms. Proceedings of the 23rd International

Conference on World Wide Web (pp. 1077-1082). Seul, Korea: ACM New York, NY, USA.

Ong, B., & Grigoryan, A. (2014). MOOCs and Universities: Competitors or Partners? International Journal of Information and Education Technology, 5(5), 373-376.

Open Education Europa. (2015). European MOOCs Scoreboard. Acesso em 23 de setembro de 2015, disponível em The European MOOCs Scoreboard: http://openeducationeuropa.eu/sites/default/files/images/scoreboard/Scoreboard_SEPTEMBER_2015.png

Poy, R., & Gonzalles-Aguilar, A. (2014). Factores de éxito de los MOOC: algunas consideraciones críticas. Revista Ibérica de Tecnologia y Sistemas de Información, pp. 105-118.

Quinn, J. (2013). Drop out and Completion in Higher Education in Europe. Acesso em 2015 de julho de 09, disponível em http://www.nesetweb.eu/sites/default/files/HE%20Drop%20out%20AR%20Final.pdf

Read, T., & Rodrigo, C. (2014). Toward a Quality Model for UNED MOOCs. eLearning Papers.

Rodriguez, O. (2012). MOOCs and the AI-Stanford like courses: Two successful and distinct course formats for Massive Open Online Courses. The European Journal of Open Distance and E-Learning, pp. 1-13.

Rosewell, J., & Jansen, D. (2014). The OpenupEd quality label: Benchmarks for MOOCs. The International Journal for Innovation and Quality in Learning, pp. 88-100.

Rosselle, M., Caron, P., & Heutte, J. (2014). A typology and dimensions of a description framework for MOOCs. Proceedings of the European MOOCs Stakeholoders Summit, (pp. 130-139).

Roval, A., & Downey, J. (2010). Why some distance education programs fail while others succeed in a global environment. Internet and Higher Education, pp. 141-147.

Saadatmand, M., & Kumpulainen, K. (2014). Participants Perceptions of Learning and Networking in Connectivism MOOCs. MERLOT Journal Online Learning and Teatching, pp. 16-30.

Sandeen, C. (2013). Integrating MOOCs into Traditional Higher Education: The emerging "MOOC 3.0" Era. The Magazine of Higher Learning, pp. 34-39.

Vardi, M. (November de 2012). Will MOOCs Destroy Academia? Communications of the acm, 55(11),

5.

Walker, L., & Lock, B. (2014). Academics Perception on the Quality of Moocs: an empirical study. The International Journal for Innovation and Quality (INNOQUAL), pp. 53-63.

Welsh, D., & Dragusin, M. (2013). The New Generation of Massive Open Online Course (MOOCS) and Entrepreneurship Education. Small Business Institute Journal, 9(1), 51-65.

Wilkowski, J., Deutsch, A., & Russell, D. (2014). Student Skill and Goal Achievement in the Mapping with Google MOOC. L@S 2014 - Student Skills and Behavior (pp. 3-10). Atlanta, Georgia,

USA.: ACM.

Zheng, S., Rosson, M., Shih, P., & Carrol, J. (2015). Understanding Student Motivation, Behaviors and Perceptions in MOOCs. CSCW '15 Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing (pp. 1882-1895). Vancouver, BC, Canada: ACM New York, NY, USA.

Zutshi, S., O´Hre, S., & Rodafinos, A. (2013). Experiences in MOOCs: The Perspective of Students. American Journal of Distance Education, pp. 218-227.

87

4.3 Artigo 3 - “A aplicação de mineração de dados educacionais na descoberta de

padrões de comportamento dos alunos de uma disciplina online: um caso

brasileiro” ou “Application of educational data mining to understand the online

students behavioral pattern: a brazilian case”

O terceiro artigo descreve a aplicação de técnicas de MDE em uma dimensão menor que a

considerada para o objetivo final da tese. Nesse caso foi escolhida uma disciplina online com

1.113 alunos.

O artigo foi concebido para descrever a aplicação de técnicas de MDE, com o objetivo de

extrair do AVA conhecimentos novos e relevantes a respeito dos padrões de comportamento

dos alunos.

A principal contribuição deste artigo foi constatar que a mineração de dados educacionais

mostrou-se útil na obtenção de conhecimento novo e relevante na análise da oferta inicial de

uma disciplina online. Após a aplicação de dois algoritmos bastante utilizados em contextos

educacionais, a árvore de decisão (decision tree) e o agrupamento (clustering), foi possível,

com a participação do especialista de domínio, revelar aspectos da disciplina que os gestores

desconheciam e acharam relevantes, como as atividades que contribuíram de maneira mais

expressiva para a aprovação dos alunos e os atributos mais significativos para o sucesso dos

mesmos.

Com base nesses resultados, constatou-se a necessidade da ampliação da quantidade de

experimentos, além da aplicação do processo de mineração de dados educacionais em cursos

com caráter massivo.

A seguir o artigo é reproduzido na sua forma original.

88

A APLICAÇÃO DE MINERAÇÃO DE DADOS EDUCACIONAIS NA

DESCOBERTA DE PADRÕES DE COMPORTAMENTO DOS ALUNOS DE UMA

DISCIPLINA ONLINE: UM CASO BRASILEIRO

Luis Naito Mendes Bezerra luisnaito@yahoo.com.br

Márcia Terra da Silva marcia.terra@uol.com.br

RESUMO

Nos Ambientes Virtuais de Aprendizagem (AVAs) uma enorme quantidade de dados de navegação,

participação e progresso pode ser registrada e coletada, possibilitando que sejam feitas diversas

análises relacionadas ao padrão ou conjunto de padrões de comportamento dos alunos. Porém, essa

superabundância de dados tem excedido a capacidade de análise e extração de conhecimento por

meios convencionais. O objetivo deste artigo é descrever a aplicação de técnicas de mineração de

dados educacionais (MDE), com o objetivo de extrair do AVA conhecimentos novos e relevantes a

respeito dos padrões de comportamento dos alunos de uma disciplina online.

A aplicação de dois algoritmos bastante utilizados em contextos educacionais, a árvore de decisão

(decision tree) e o agrupamento (clustering), revelou aspectos da disciplina que os gestores

desconheciam e acharam relevantes, como as atividades que contribuíram de maneira mais

expressiva para a aprovação dos alunos e os atributos mais significativos para o sucesso dos

mesmos.

Palavras-chave: análise de dados, educação a distância, árvore de decisão, agrupamento

ABSTRACT

In Learning Management System (LMS) a large volume of data regarding online access, participation

and progress can be registered and collected allowing innumerous analyses based on students’

behavioral patterns. However, big volumes of data have exceeded the capacity of traditional methods

to extract knowledge from them. The objective of the present article is to describe the application of

educational data mining (EDM) aiming to obtain relevant knowledge of students’ behavioral patterns

in a LMS for an online course.

We applied two well-known algorithms on educational context, decision tree and clustering, unveiling

unknown relevant aspects to managers, such as the most important examinations that contribute to

students’ approval as well as the most significant attributes to their success.

Keywords: data analyzes, distance learning, decision tree, clustering

89

1. Introdução

Com os avanços no uso da tecnologia da informação e da comunicação (TIC) em diversas áreas do

conhecimento, tem crescido de forma muito acelerada o volume de dados gerados e armazenados

em diversos ambientes computacionais, fato que tem produzido uma superabundância de dados. A

quantidade extraordinariamente grande de dados tem sido considerada um problema, pois a

capacidade de coletar e armazenar esses dados tem superado a habilidade de analisar e extrair

conhecimento destes. De forma destacada, a área de mineração de dados tem sido utilizada para

transformar de maneira inteligente e automática, os dados disponíveis em informações úteis, que

representem conhecimento para a tomada de decisão em diversas áreas como, marketing, finanças,

manufatura e saúde. (de Castro & Ferrari, 2016)

Recentemente, com o crescimento e expansão da Educação a Distância (EaD), pesquisas têm sido

conduzidas visando a aplicação de técnicas de mineração de dados também no ambiente

educacional.

É importante citar, que no âmbito da educação superior, as matrículas no ensino a distância, no

Brasil, continuam a apresentar crescimento. De acordo com os dados do último censo, realizado pelo

Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira – INEP (2015), mais de 1,1

milhão de alunos estão matriculados nesta modalidade no Brasil, com crescimento de 24% no

período de 2010-2013 e crescimento médio de 6% ao ano. Nos EUA a situação não é diferente. Os

últimos dados apontam que no período de 2013 a 2014, a taxa de crescimento do número de

estudantes matriculados em pelo menos um curso a distância foi de 3,9%, acima, portanto, da taxa

de 3,7% para o ano anterior. Tal segmento apresentou um total de 5,8 milhões de alunos

matriculados em 2014. (de Baker, Isotani, & de Carvalho, 2011; Allen & Seaman, 2015)

No contexto da EaD, uma nova modalidade também deve ser considerada - os MOOCs (Massive

Open Online Course). Tais cursos são totalmente online, não exigem pré-requisitos para matrícula e

não há cobrança inicial de taxas, podendo ter um número bastante expressivo de alunos

matriculados, oriundos de diversos países (Hyman, 2012; Cooper & Sahami, 2013). Um exemplo é o

curso, Think Again: How to Reason and Argue, oferecido pela Universidade de Duke com parceria

com a provedora Coursera em 2012. Este é um MOOC que chegou a 226.652 alunos matriculados,

Contudo, não é comum cursos com mais de 100.000 alunos, sendo que um MOOC típico apresenta

em média 25.000 alunos matriculados. (Jordan, 2015)

Esse grande número de alunos utiliza normalmente os Ambientes Virtuais de Aprendizagem (AVA)

ou LMS (Learning Management System) comerciais e de código aberto, assim como os ambientes

virtuais utilizados pelas grandes provedoras para a oferta de MOOCs, como Cousera e Udacity.

Sendo assim, uma enorme quantidade de dados sobre a navegação e a respeito da participação e

progresso dos alunos podem ser registrados e coletados, possibilitando que sejam feitas diversas

análises relacionadas ao padrão de comportamento do aluno no ambiente. Tais ambientes incluem

módulos que registram automaticamente cada evento que ocorre no AVA. (Siemens & Long, 2011;

Pardo & Kloos, 2011; You, 2016).

É importante mencionar que no ensino presencial, em sala de aula, o professor tem a possibilidade

interagir com os alunos, tendo condições, portanto, de acompanhá-los e saber a respeito do

entendimento deles sobre o conteúdo e também sobre o desempenho dos mesmos. Considerando

também que o número de alunos que o professor atende no ensino presencial, é consideravelmente

menor que no EaD, é possível que a partir do feedback dos alunos, seja possível ao professor

realizar determinados ajustes na condução da disciplina.

90

Tal modelo não pode ser replicado para os cursos a distância, pois não existe a interação direta e

presencial entre professor e aluno. Nesse caso, há uma enorme quantidade de dados, gerados pelos

alunos nos AVAs, que podem ser coletados e armazenados, mas que não podem ser analisados

manualmente ou mesmo com o auxílio de recursos básicos de programas de computador, como, por

exemplo, uma planilha eletrônica. É importante mencionar que frequentemente os dados não podem

ser analisados por tais meios, em razão de fatores como a enorme quantidade de registros, elevado

número de atributos, valores ausentes, presença de dados qualitativos e não quantitativos, entre

outros. Para tal demanda é essencial a utilização de soluções computacionais mais sofisticadas. (de

Castro & Ferrari, 2016)

Em razão deste contexto, é mister a aplicação de sistemas computacionais adequados para que os

dados mencionados anteriormente sejam analisados, gerando, consequentemente, uma visão sobre

o padrão de comportamento dos alunos no AVA. (Muñoz-Merino, Ruipérez-Valiente, Alario-Hoyos, &

Perez-Sanagustin, 2014; Goldschmidt & Bezerra, 2015; de Castro & Ferrari, 2016)

Neste contexto, surgem as ferramentas da área de “mineração de dados educacionais” (educational

data mining - EDM), que possibilitam a transformação dos dados brutos, gerados pelos ambientes

educacionais, em informações úteis para a prática e a pesquisa educacional. (Romero & Ventura,

2010; Chatti, Dyckhoff, Schroeder, & Thüs, 2012; de Castro & Ferrari, 2016)

O objetivo do presente artigo é descrever a aplicação de métodos de mineração de dados

educacionais, para transformar dados em conhecimentos novos e relevantes, a respeito do padrão

ou conjunto de padrões de comportamento dos alunos de uma disciplina online.

Dessa forma, espera-se contribuir para melhorar o processo de análise e tomada de decisão por

parte dos professores e gestores, possibilitando aos mesmos atuarem de maneira antecipada,

principalmente para melhorar o processo de aprendizagem e aumentar o nível de permanência dos

alunos nos cursos.

Além desta introdução, este trabalho foi dividido em mais cinco partes. Na seção inicial é

apresentada uma fundamentação teórica sobre mineração de dados e mineração de dados

educacionais, além de um levantamento a respeito de trabalhos correlatos. Na sequência,

apresentam-se a metodologia da pesquisa, o estudo de caso, as conclusões e, por último, as

referências bibliográficas.

2. Fundamentação Teórica

2.1 O processo de KDD e mineração de dados

A análise de grandes volumes de dados sem o auxílio de recursos computacionais é impraticável,

pois muitas vezes o conhecimento está oculto em grades bases de dados. Sendo assim, é

fundamental a disponibilização de ferramentas que auxiliem as pessoas na tarefa de analisar,

interpretar e relacionar esses dados, com o objetivo de gerar conhecimento útil e relevante, para que

se possa elaborar e definir estratégias de ação em cada domínio de aplicação. (Goldschmidt &

Bezerra, 2015; de Castro & Ferrari, 2016)

Neste momento é importante definir as diferenças entre os termos dados, informação e

conhecimento. Os dados podem ser interpretados como itens elementares, captados e armazenados

em bases de dados. Já as informações representam os dados processados, com significados e

contextos bem definidos. No topo da pirâmide está o conceito de conhecimento, que pode ser

entendido como a consciência e compreensão de um conjunto de informações e maneiras como

essa informações podem ser úteis para apoiar uma tarefa específica ou para chegar a uma decisão.

91

Pode ser entendido também como um padrão ou conjunto de padrões cuja formulação pode envolver

e relacionar dados e informações. (Goldschmidt & Bezerra, 2015; Stair & Reynolds, 2015)

Neste contexto, existe uma área denominada Descoberta de Conhecimento em Banco de Dados ou

Knowledge Discovery in Databases (KDD). Uma das definições mais aceitas para KDD foi proposta

por Fayyad, Piatetsky-Shapiro, & Smyth (1996), que a trata como um processo não trivial, interativo e

iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir

de grandes conjuntos de dados.

A mineração de dados (data mining) é uma das etapas do processo de extração do conhecimento,

conforme ilustra a figura 1.

A seguir são descritas as etapas para o processo de descoberta do conhecimento: (Elmasri &

Navathe, 2011)

• Seleção – é a etapa que consiste na análise dos dados existentes e na seleção daqueles

a serem utilizados na busca por padrões e na geração de conhecimento novo. Por

exemplo, todos os alunos de uma determinada disciplina e de determinado semestre;

• Pré-processamento – consiste no tratamento e na preparação dos dados para uso pelos

algoritmos. Nesta etapa devemos identificar, corrigir e retirar valores inválidos,

inconsistentes ou redundantes.

• Transformação – consiste em aplicar, quando necessário, alguma transformação linear

ou mesmo não linear nos dados, de forma a encontrar aqueles mais relevantes para o

problema em estudo. Nesta etapa geralmente são aplicadas técnicas de redução de

dimensionalidade e de projeção dos dados.

• Mineração – consiste na busca por padrões através da aplicação de algoritmos e

técnicas computacionais específicas.

• Interpretação – consiste na análise dos resultados da mineração e na geração de

conhecimento pela interpretação e utilização dos resultados em benefício do negócio.

Etapa complexa, na qual são identificados os padrões pelo sistema, estes são

interpretados em conhecimentos e validados, para em seguida proporcionarem suporte a

tomada de decisões humanas

Figura 1: O processo de KDD. Adaptado de (Fayyad, Piatetsky-Shapiro, & Smyth, 1996)

92

2.2 Mineração de Dados (data mining) e Mineração de Dados Educacionais (educational

data mining)

A área de mineração de dados tem sido aplicada em diversos segmentos da sociedade, como por

exemplo, vendas, mercado financeiro, e segurança. Recentemente, com a expansão da EaD, muitos

pesquisadores da área de Informática na Educação têm mostrado interesse em utilizar mineração de

dados para investigar questões ou problemas científicos na área de educação, como, por exemplo,

identificar quais são os fatores que afetam a aprendizagem. (de Baker, Isotani, & de Carvalho, 2011)

Dentro deste contexto, surgiu uma nova área de pesquisa, conhecida como Mineração de Dados

Educacionais (MDE) ou Educational Data Mining (EDM), que tem como foco de pesquisa o

desenvolvimento de métodos para explorar conjuntos de dados coletados em ambientes

educacionais. Por meio dela, é possível compreender de forma mais clara e adequada o

comportamento dos alunos durante o processo de aprendizagem, como eles aprendem, o papel do

contexto na qual a aprendizagem ocorre, além de outros fatores que influenciam a aprendizagem.

(de Baker, Isotani, & de Carvalho, 2011)

2.2.1 Trabalhos na área de mineração de dados educacionais

Na literatura foi possível encontrar por meio de uma revisão da literatura trabalhos correlatos a

respeito do uso de mineração de dados em diversos contextos educacionais. O trabalho de Yadav,

Bharadwaj, & Pal (2012), utiliza a técnica de árvore de decisão, com a aplicação de três diferentes

algoritmos para analisar dados de 48 estudantes de turmas anteriores, com o objetivo de gerar um

modelo para previsão de desempenho dos estudantes da turma atual. Outra pesquisa que pode ser

mencionada é o trabalho de Shahiri, Husain, & Rashid (2015), que apresenta por meio de uma

revisão da literatura, quais algoritmos de predição seriam os mais utilizados para identificar os

atributos mais importantes para a performance em um determinado conjunto de dados de

estudantes. Após a pesquisa, os autores concluiram que os principais algoritmos citados para

predição da performace de alunos são os de Árvore de Decisão (decision tree) e Redes Neurais

(neural network). Além dos trabalhos anteriores, é possível citar, também, o trabalho de Ferguson &

Clow (2015), que explora a questão da dificuldade na escolha do método ou algoritmo de

agrupamento (clustering) no processo de mineração de dados educacionais e da necessidade de

novos estudos para resolver esta questão.

2.2.2 Principais técnicas para mineração de dados

A Mineração de Dados Educacionais emprega técnicas comuns de mineração de dados, sendo que

as principais técnicas são as seguintes:

Descoberta de Associações – neste caso, cada registro do conjunto de dados normalmente é

chamado de transação. Cada transação é composta por um conjunto de itens que

frequentemente ocorram de forma simultânea em transações do conjunto de dados. A tarefa

de descoberta de associações compreende a busca por itens que frequentemente ocorram

de forma simultânea em transações do conjunto de dados. Pode ser aplicado, por exemplo,

93

na área de marketing para se descobrir pessoas que compram de forma associada dois

produtos diferentes. Algoritmos tais como Apriori, GSP e DHP são exemplos da

implementação da tarefa de Descoberta de Associações. (GOLDSCHMIDT, PASSOS e

BEZERRA, 2015)

Classificação – nesta tarefa, os atributos do conjunto de dados são divididos em dois tipos,

ou seja, atributo-tipo e atributo-alvo. Para cada valor distinto do atributo-alvo tem-se uma

classe que normalmente corresponde a um rótulo categórico pertencente a um conjunto

predefinido. A tarefa de classificação consiste em descobrir uma função que mapeie um

conjunto de registros em um conjunto de classes. Uma vez descoberta, tal função pode ser

aplicada a novos registros de forma a prever a classe em que tais registros se enquadram.

Como exemplo, pode ser citada uma financeira que possui o histórico de seus clientes e o

comportamento destes em relação ao pagamento de empréstimos contratados no passado.

Com base nos clientes inadimplentes, a tarefa de Classificação consiste em descobrir uma

função que mapeie corretamente os clientes a partir de seus dados e seja usada para prever

o comportamento de novos clientes que desejem contrair empréstimos. (GOLDSCHMIDT,

PASSOS e BEZERRA, 2015)

Regressão – compreende a busca por uma função que mapeie os registros de um banco de

dados em um intervalo de valores reais. Esta tarefa é similar à tarefa de Classificação, com a

diferença de que o atributo-alvo assume valores numéricos. Por exemplo, predição do risco

de determinados investimentos ou a definição do limite do cartão de crédito para cada

cliente. (GOLDSCHMIDT, PASSOS e BEZERRA, 2015)

Agrupamento (clustering) - o objetivo principal é achar dados que se agrupam naturalmente,

classificando os dados em diferentes grupos e/ou categorias. Estes grupos e categorias não

são conhecidos incialmente. Através de técnicas de agrupamento os grupos/categorias são

automaticamente identificados através da manipulação das características dos dados. É

possível criar esses grupos/categorias utilizando diferentes unidades de análise, por

exemplo, é possível achar grupos de escolas (para investigar as diferenças e similaridades

entre escolas), ou achar grupos de alunos (para investigar as diferenças e similaridades

entre alunos). Uma vez que os grupos são formados, é possível fazer uma análise dos

elementos que compõem cada um deles, identificando as características comuns aos seus

elementos. Os métodos de Agrupamento podem ser divididos em três famílias básicas. A

primeira é a dos algoritmos baseados em distâncias. A segunda é a dos baseados em

distribuições de probabilidades e a última dos algoritmos baseados em densidade. (de Baker,

Isotani, & de Carvalho, 2011; Goldschmidt & Bezerra, 2015)

2.2.3 Ferramentas para mineração de dados

No mercado há uma série de ferramentas que fornecem suporte no processo de KDD, em especial

na etapa de mineração de dados. Tais ferramentas podem ser tanto comerciais, como, por exemplo,

Oracle Data Mining (ODM), IBM SPSS Modeler e SAS Enterprise Miner, quanto de código aberto,

com origem em pesquisas acadêmicas, como RapidMiner e Weka. (Ramamohan, Vasantharao,

Chakravarti, & Ratnam, 2012; Romero & Ventura, 2013)

Neste artigo, foi utilizado o software - RapidMiner Studio -, em sua versão 7.0. Tal ferramenta foi

escolhida por disponibilizar licença acadêmica de forma gratuita, além de estar disponível nas

principais plataformas e sistemas operacionais, como Windows e Linux, sendo importante mencionar

ainda que a citada ferramenta apresenta suas funcionalidades por meio de uma interface gráfica

intuitiva, incorporando, também, a biblioteca de algoritmos de aprendizagem do Weka, totalmente,

94

integrada e com acesso a diferentes fontes de dados, como: Excel, Oracle, Microsoft SQL Server,

MySQL, e outros

3. Metodologia

Neste estudo foram utilizados como referência os trabalhos de Pandey & Sharma (2013), Jeevalatha,

Ananthi, & Kumar (2014) e Selvan, Beleya, Muniandy, Heng, & Remendran (2015) que aplicaram as

etapas do processo de Descoberta de Conhecimento em Banco de Dados ou Knowledge Discovery

in Databases (KDD) em suas pesquisas.

Seguindo o processo de KDD, para a implantação do estudo de caso, em uma primeira etapa, foi

feita a importação dos dados do AVA – Blackboard - e a consequente seleção dos atributos que

serão utilizados, posteriormente, na etapa de mineração de dados. Em seguida, tais dados foram

submetidos à etapa de pré-processamento, e foram eliminados os dados com inconsistência ou

redundância. Na etapa seguinte, de transformação, foram criadas novas colunas calculadas, como

resultado e número de atividades. As duas últimas etapas foram a da mineração propriamente dita,

que consistiu na busca por padrões através da aplicação de algoritmos para árvore de decisão

(decision tree) e o agrupamento (clustering) com o uso da ferramenta RapidMiner. Por fim, foi

efetuada a interpretação dos resultados da etapa anterior.

O experimento teve como objetivo identificar se havia alguma atividade registrada no AVA importante

para caracterizar o grupo dos aprovados. Essa é uma questão importante para o professor entender

a relação dos alunos com o material e as consequências do comportamento do aluno para

aprovação no curso.

4. Estudo de Caso

4.1 Contextualização

No Brasil, há poucos trabalhos na área de mineração de dados educacionais. É possível citar a tese

de Kampff (2009), desenvolvida na Universidade Federal do Rio Grande do Sul (UFRGS), que aplica

técnicas de MDE aos dados de estudantes gerados pela interação em um Ambiente Virtual de

Aprendizagem (AVA), com objetivo de identificar comportamentos e características de estudantes

com risco de abandono ou reprovação.

Outro trabalho que pode ser citado é a tese de Manhães (2015), que apresenta uma proposta de

arquitetura baseada em MDE para predição do desempenho acadêmico de graduandos, com o

objetivo de fornecer aos gestores educacionais das universidades públicas brasileiras, não

especialista em EDM, uma abordagem que oferece informações úteis sobre o desempenho

acadêmico dos graduandos e predizer os que estão em risco de abandonar o sistema de ensino.

O presente trabalho será conduzido, por meio de um estudo de caso, que foi aplicado em uma

Instituição de Ensino Superior Privada (IESP), com diversos campi na cidade de São Paulo, Brasil. A

partir de agora tal instituição será denominada Alfa.

O estudo de caso tem como objetivo avaliar se a utilização dos recursos de MDE pode ser útil para

detecção de padrões de comportamento dos alunos no AVA ou LMS - Blackboard.

Neste estudo serão utilizados apenas dados acadêmicos oriundos do AVA, sem levar em

consideração nenhum dado social ou financeiro para a presente análise.

O modelo que será utilizado no estudo de caso, foi inspirado no processo de KDD, conforme pode

ser observado na figura 2.

95

Figura 2: Processo de descoberta do conhecimento. Fonte: autor

Em seguida são apresentadas as principais características da disciplina que foi utilizada no estudo

de caso.

4.2 Características da disciplina objeto do estudo

A disciplina escolhida para o presente estudo foi a de Língua Portuguesa (LPO), ofertada na

modalidade online, em 10 semanas, no período entre 15/02/2016 a 24/04/2016, contando

inicialmente com 1.978 alunos matriculados. A escolha dessa disciplina se deu em função do seu

número expressivo de alunos e também pelo fato dos alunos matriculados serem oriundos de

diversos cursos da instituição.

Essa base inicial de 1.978 alunos foi submetida a fase de pré-processamento, onde foram eliminados

os alunos inativos ou desistentes, ou seja, aqueles não tiveram qualquer participação nas atividades

durante o decorrer do curso. No seu encerramento, a disciplina contava com 1.113 alunos

matriculados (43,73% de inativos ou desistentes), dos quais 818 foram aprovados e 295 reprovados

Para finalizar esta etapa, foram analisadas as inconsistências do processo de avaliação no

Blackboard, com a retirada de mensagens de erro que permaneceram na planilha gerada pelo

sistema.

Depois desta primeira análise, partiu-se para a etapa de transformação, onde foram criadas novas

colunas calculadas, como resultado e número de atividades para aumentar o nível de detalhamento

do estudo.

Para a planilha com formato XLSX, importada do ambiente Blackboard, foram selecionados os

seguintes atributos:

• Curso

• Nome

• Nome do usuário (registro)

• AP_II e AP_IV, onde AP significa atividade de aprofundamento, com valor de 1,0 cada.

Essa atividade consiste na entrega de um arquivo com a atividade executada, ou seja,

trata-se de uma atividade de caráter dissertativo.

• AS_I até AS_VI, onde AS significa atividade de sistematização, com valor de 0,5 cada.

Essa atividade consiste na resposta de questões de múltipla-escolha.

• Num_ativ – número de atividades entregues pelos alunos

• Total (nota final) – 0 a 5,0

• Resultado – considerando 0 para reprovação e 1 para aprovação

96

Em seguida, foram utilizados os recursos para mineração de dados da ferramenta Rapidminer, com

os algoritmos de árvore de decisão (decision tree) e agrupamento (clustering). Tais algoritmos foram

selecionados, pois são aplicados com sucesso em contextos educacionais. (Baker, 2010; Romero &

Ventura, 2013)

A seguir serão apresentados os experimentos realizados.

4.3 Experimentos com mineração de dados educacionais

4.3.1 Experimento A – Árvore de Decisão (Decision Tree)

Na primeira etapa foi realizada a importação de dados em formato XLSX pela ferramenta

RapidMiner, por meio da utilização do operador Retrieve. O resultado da importação pode ser

observado na figura 3.

Figura 3: Dados após a importação pela ferramenta Rapid Miner

Em seguida, foram utilizados outros operadores da ferramenta Rapid Miner, como Set Role para

definir o atributo que será utilizado para a predição, no caso o atributo “Resultado”. Em seguida, foi

utilizado o operador Select Attributes para determinar quais atributos seriam utilizados no processo,

sendo desconsiderados atributos como, por exemplo, “Nome” e “Último Acesso” que não serão

utilizados no processo de classificação da árvore de decisão. Por fim, foi inserido no processo o

operador Decision Tree, que tem a função de gerar a árvore de decisão, cujo processo completo

pode ser visualizado na figura 4.

Figura 4: processo completo de árvore de decisão na ferramenta RapidMiner.

97

Uma árvore de decisão é simplesmente uma representação gráfica da descrição de cada classe ou

uma representação das regras de classificação. Cada caminho da árvore que parte do nó raiz e

termina em um nó folha corresponde a uma regra da forma SE <condições> ENTÃO <conclusão>. A

representação de modelos por meio de árvore de decisão é útil, pois se trata de um diagrama que

facilita a compreensão e análise do conhecimento pelas pessoas. (Elmasri & Navathe, 2011;

Goldschmidt & Bezerra, 2015)

O algoritmo analisa os diversos campos de forma interativa, buscando identificar aquele com maior

influência nos valores das classes, que serão as folhas das árvores, valores esses presentes em um

campo definido que deve ser informado previamente, Neste exemplo, as classes são aprovado (igual

a 1) e reprovado (igual a 0) do campo resultado.

O campo de maior influência é colocado no topo da arvore (raiz) e, então, o algoritmo continua

buscando novos campos significativos.

Após a execução do processo da figura 4, foram gerados dois resultados para a árvore de decisão. O

primeiro é na forma gráfica, conforme pode ser observado na figura 5.

Figura 5: árvore de decisão na forma gráfica

A segunda possibilidade de observação dos resultados é a forma textual que pode ser verificada na figura 6, que

pode ser chamada também de regras de decisão, pois estão no formato SE <condição> ENTÃO <classificação>.

98

Figura 6: árvore de decisão na forma textual

Com base nos resultados da experiência com o algoritmo de árvore de decisão, é possível interpretar

que o atributo mais significativo para o sucesso dos alunos foi a atividade AS_III. No gráfico podemos

visualizar isto por ser o nó raiz, colocado no topo da árvore, separando os alunos que obtiveram mais

de 0,35 de nota na atividade daqueles que obtiveram menos de 0,35. Para entender melhor este

resultado, calculamos a porcentagem de aprovados neste primeiro grupo de alunos que obtiveram

sucesso na AS_III (foram 768 aprovados e 142 reprovados), e verificamos que 84,4% deles foram

aprovados, independentemente do número de atividades entregues e dos resultados destas

atividades. Já para o grupo de alunos que obteve menos de 0,35 na atividade AS_III, apenas 24,6%

foram aprovados (50 aprovados e 153 reprovados).

A quantidade de atividades entregues não foi um fator significativo para aprovação dos alunos, pois o

caminho que considera os alunos que tiveram bom desempenho na atividade AS_III, desempenho

baixo na AS_VI e entregaram quase todas as atividades, resultou em apenas 06 alunos aprovados.

De acordo com a árvore gerada é possível interpretar ainda, que depois da AS_III, as atividades

AS_VI e AS_V foram as mais significativas para o sucesso dos alunos. Por exemplo, a incidência de

aprovação para os alunos que efetivaram as AS_III, AS_VI e AS_I foi bastante expressiva, visto que

748 alunos com esse perfil conseguiram aprovação, contra 90 reprovados.

Do outro lado da árvore, é possível observar que os alunos que não obtiveram boa nota na atividade

AS_III, mas foram bem nas atividades AS_V e AP_II, também obtiveram sucesso. Neste caso, 16

alunos foram aprovados e apenas 01 reprovado. Este poderia ser um caminho de recuperação para

quem não foi bem na atividade AS_III. No entanto, a nota divisória da atividade AS_V neste caso é

muito alta – 0,45 em 0,50 – e o gráfico mostra que daqueles que falharam na AS_III, um total de 28

alunos conseguiram esta nota na AS_V, enquanto 175 obtiveram nota menor que o necessário.

99

4.3.2 Experimento B – Agrupamento (Clustering)

A clusterização busca descobrir conhecimento de forma indireta, a partir da identificação de grupos

de dados com características semelhantes. Podem ser utilizados em aplicações educacionais, por

exemplo, para formação de grupos de trabalho.

Para o experimento com a técnica de clusterização, foi realizada a importação de dados em formato

XLSX pela ferramenta RapidMiner, por meio da utilização do operador Retrieve. Na sequência foi

utilizado o operador Select Attributes para determinar quais atributos seriam utilizados no processo,

sendo desconsiderados atributos como, por exemplo, “Nome” e “Último Acesso” que não serão

utilizados no processo de agrupamento ou clusterização.

No momento seguinte foi utilizado o operador Clustering com o algoritmo K-means, com parâmetro

de k = 4.

O processo completo pode ser observado na figura 7.

Figura 7: processo de agrupamento ou clustering

Após a execução do processo, o sistema gerou 4 grupos ou clusters com a seguinte distribuição de

alunos:

Cluster 0 com 76 alunos

Cluster 1 com 237 alunos

Cluster 2 com 742 alunos

Cluster 3 com 58 alunos

Como exemplo, a representação gráfica do cluster 0 pode ser observada na figura 8, sendo possível

notar as informações do aluno de id = 7 ou seja, a oitava linha da planilha, pois não está sendo

considerada a linha com o rótulo dos atributos.

Figura 8: Exemplo com fragmento do cluster 0 e um aluno em destaque

100

Outra análise pode ser obtida a partir da tabela que o sistema gerou, denominada Centroid Table ou

médias dos grupos, que traz informações sobre todos os clusters, conforme pode ser verificado na

figura 9.

Figura 9: tabela de centroides ou médias dos grupos

É possível observar que no cluster 1 e no cluster 3 estão agrupados todos os alunos que foram

reprovados, com 237 alunos e 58 alunos, respectivamente.

É possível observar também que os clusters 0 e 2 agruparam os alunos que foram aprovados, com

76 e 742 alunos, respectivamente.

Da mesma maneira que foi observado no experimento com o algoritmo de árvore de decisão, o

número de atividades entregues não foi fator determinante para o agrupamento entre aprovados e

reprovados, pois os alunos do cluster 2 que foram aprovados, entregaram menos atividades que os

alunos do cluster 1, que foram reprovados.

Outra análise possível, diz respeito às atividades de aprofundamento, denominadas AP_II e AP_IV

que têm maior pontuação (1,0 ponto cada) em relação às denominadas de ASs ou atividades de

sistematização, que valem 0,5 ponto cada uma. Uma primeira análise indicaria que as APs são mais

importantes, pois, obviamente, têm valor maior. Pelo resultado da mineração, é possível verificar que,

de fato, a AP_II é a nota mais relevante em cada agrupamento. Contudo, a percepção inicial não se

aplica à atividade AP_IV, pois com exceção do cluster 0, com apenas 76 alunos, todos os demais

clusters, que representam a maioria absoluta, com 1037 alunos, não fizeram a atividade, como é o

caso do cluster 2, ou praticamente não a fizeram, como é o caso dos clusters 1 e 3.

4.3.3 Análise do tutor e responsável pela disciplina

Neste momento é interessante contar o especialista de domínio, ou seja, uma pessoa que tem o

entendimento claro do domínio da aplicação na qual se insere o problema a ser resolvido.

(GOLDSCHMIDT, PASSOS e BEZERRA, 2015)

Com base nestas interpretações, e principalmente no fato de se ter encontrado, uma atividade que

em princípio se configurava como a mais importante do processo – AS_III – a responsável pela

produção do conteúdo e professora responsável pela disciplina foi consultada. A árvore de decisão

foi apresentada a ela para análise e interpretação das informações. Após estudo e algumas reflexões

a professora que reconheceu nunca ter tido contato com informações desse tipo e tampouco

imaginar que um conteúdo ou atividade pudesse ter mais ou menos importância no processo de

aprendizagem tentou buscar elementos que pudessem explicar o fato de a AS_III ser a mais

significativa para o sucesso do aluno. Numa análise rápida, chegou-se a duas primeiras suposições –

101

o fato de o conteúdo ser mais próximo a realidade do aluno já que esse conteúdo aborda questões

relativas a Coesão e Coerência e, portanto pode ser aplicado na vida cotidiana e profissional – e pelo

fato de a atividade estar exatamente na metade do cronograma de oferta dos conteúdos. O conteúdo

dessa disciplina é formado por seis unidades de conhecimento, com a disponibilização, em cada uma

das unidades, uma atividade de sistematização - AS e, uma atividade de aprofundamento AP. Além

disso, outra explicação para esse fenômeno pode estar relacionada ao desempenho do tutor na

condução do processo avaliativo. Pois o tutor pode intensificar o contato com os alunos em

determinadas atividades e em outras não, já que não há um protocolo que oriente, neste nível, a

atuação do tutor. Porém, para se chegar a esse refinamento de analise são necessários maiores

aprofundamentos, o que não foi o foco deste estudo que buscou em um primeiro momento testar os

algoritmos da mineração de dados.

A professora responsável pela produção do conteúdo e pela gestão da disciplina também foi

consultada sobre o resultado do agrupamento ou clusterização, mas teve dificuldade em interpretar

os dados, pois a clusterização é uma técnica indireta de descoberta do conhecimento e muitas vezes

os agrupamentos são de difícil interpretação pelos usuários, sendo necessário o apoio de um

especialista para a análise estatística dos diversos atributos.

5. Conclusão

No contexto educacional atual, com os diversos segmentos da EaD apresentando números muito

expressivos em relação a quantidade de alunos matriculados, uma enorme quantidade de dados

podem ser registrados e coletados nos AVAs, permitindo que diversas análises possam ser

conduzidas. Contudo, os métodos tradicionais de análise aplicados na educação tradicional não

podem ser replicados na EaD, em virtude dessa superabundância de dados, que tem superado a

capacidade humana de analisar e extrair conhecimento destes.

A pesquisa teve como objetivo transformar dados em conhecimentos novos e relevantes, a respeito

do padrão de comportamento dos alunos de uma disciplina online, a partir da aplicação de métodos

de mineração de dados educacionais, de maneira a contribuir para melhorar o processo de análise e

tomada de decisão por parte dos professores e gestores, visando reduzir o nível de evasão da

instituição.

Para alcançar os objetivos desta pesquisa, um estudo de caso foi definido, tendo como objeto de

estudo uma disciplina online com 1.113 alunos. Após a aplicação de dois algoritmos bastante

utilizados em contextos educacionais, - árvore de decisão e - agrupamento (clusterização), foi

possível observar que o objetivo da presente pesquisa foi atingido, pois com a aplicação de tais

algoritmos no mencionado grupo de alunos, foram descobertos elementos que não eram conhecidos

por parte dos responsáveis pela disciplina, como os atributos mais significativos para o sucesso dos

alunos e também padrões de comportamento, ou seja, atividades que contribuíram de maneira mais

expressiva para aprovação dos alunos. Além disso, o agrupamento de alunos permitiu a descoberta

de fatos também desconhecidos, como, por exemplo, que uma atividade avaliada inicialmente com

peso significativo para aprovação dos alunos, mostrou-se pouco relevante após a análise dos resultados

da mineração de dados.

Com base nessas informações, do ponto de vista da gestão, os responsáveis podem replanejar as

estratégias de avaliação, principalmente o peso de cada elemento e sua distribuição pelo

cronograma do curso. No âmbito operacional, a atuação do tutor da disciplina também poderia ser

reavaliada, pois não há um protocolo que oriente as intervenções do tutor por meio de avisos durante

o desenvolvimento da disciplina, sendo que no modelo atual, a intensificação de ações da tutoria

ficam restritas às iniciativas do próprio tutor. Caso o tutor disponha de elementos gerados pela

mineração de dados durante a disciplina, suas intervenções poderiam ser sistematizadas e

102

direcionadas para atender alunos com determinado padrão de comportamento e aumentar as

chances de aprovação e permanência desses alunos na disciplina.

É importante salientar que o processo conduzido neste estudo de caso precisaria ser repetido para

outras turmas, com o objetivo de verificar se há repetição dos padrões identificados.

Em termos de trabalhos futuros, sugere-se, além da replicação dos experimentos com novas turmas

da disciplina de Língua Portuguesa, a ampliação da quantidade de experimentos, além da aplicação

do processo de mineração de dados educacionais em turmas com caráter massivo.

103

6. Referências bibliográficas

Allen, I., & Seaman, J. (2015). Online Learning Consortium. Acesso em 10 de 03 de 2016, disponível em Online Report Card – Tracking Online Education in the United States, 2015: http://onlinelearningconsortium.org/read/online-report-card-tracking-online-education-united-states-2015/

Baker, R. (2010). Data mining for education. International encyclopedia of education, 7, 112-118.

Chatti, M., Dyckhoff, A., Schroeder, U., & Thüs, H. (2012). A reference model for learning analytics. International Journal of Technology Enhanced Learning, 4(5-6), pp. 318-331.

Cooper, S., & Sahami, M. (2013). Reflections on Stanford’s MOOCs. New possibilities in online education create new challenges. Communications of the ACM, 56(2), 28-30.

de Baker, R., Isotani, S., & de Carvalho, A. (2011). Mineração de dados educacionais: oportunidades para o Brasil. Revista Brasileira de Informática na Educação, 19(2), pp. 1-12.

de Castro, L., & Ferrari, D. (2016). Introdução à Mineração de Dados. São Paulo: Saraiva.

Elmasri, R., & Navathe, S. (2011). Sistemas de Banco de Dados (6a. ed.). São Paulo: Pearson

Addison Wesley.

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 39(11), pp. 27-34.

Ferguson, R., & Clow, D. (2015). Examining engagement: analysing learner subpopulations in massive open online courses (MOOCs). In: Proceedings of the Fifth International Conference on Learning Analytics And Knowledge (pp. 51-58). Poughkeepsie, NY: ACM - Association for Computing Machinery.

Goldschmidt, R., & Bezerra, E. (2015). Data mining: conceitos, técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsevier.

Hyman, P. (2012). In the Year of Disruptive Education. Communications of the acm, 55(12), 20-22.

INEP. (2015). Censo da educação superior 2013: resumo técnico. Fonte: Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira: http://portal.inep.gov.br/web/censo-da-educacao-superior/resumos-tecnicos

Jeevalatha, T., Ananthi, N., & Kumar, D. (2014). Performance Analysis of Undergraduate Students Placement Selection using Decision Tree Algorithms. International Journal of Computer Applications, 108(15), 27-31.

Jordan, K. (2015). Massive Open Online Course Completion Rates Revisited: Assessment, Length and Attrition. 16(3).

Kampff, A. (2009). Mineração de dados educacionais para geração de alertas em ambientes virtuais de aprendizagem como apoio à prática docente. Tese de Doutorado.

Manhães, L. (2015). Predição do desempenho acadêmico de graduandos utilizando mineração de dados educacionais. Tese de doutorado - Universidade Federal do Rio de Janeiro.

Muñoz-Merino, P., Ruipérez-Valiente, J., Alario-Hoyos, C., Perez-Sanagustin, M., & Kloos, C. (2014). Precise Effectiveness Strategy for Analyzing the Effectiveness of Students. Computer in Human Behavior, pp. 1-11.

Pandey, M., & Sharma, V. (2013). A decision tree algorithm pertaining to the student performance analysis and prediction. International Journal of Computer Applications, 61(13).

104

Pardo, A., & Kloos, C. (2011). Stepping out of the box: towards analytics outside the learning management system. In Proceedings of the 1st International Conference on Learning

Analytics and Knowledge (pp. 163-167). Banff, Canada: ACM.

Ramamohan, Y., Vasantharao, K., Chakravarti, C., & Ratnam, A. (2012). A study of data mining tools in knowledge discovery process. International Journal of Soft Computing and Engineering (IJSCE), 2(3), 2231-2307.

Romero, C., & Ventura, S. (2010). Educational Data Mining: A Review of the state of the art. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions, 40(6), pp. 601-

618.

Romero, C., & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 3(1), 12-27.

Selvan, A., Beleya, P., Muniandy, M., Heng, L., & Remendran, C. (2015). Minimizing Student Attrition in Higher Learning Institutions in Malaysia Using Support Vector Machine. Journal of Theoretical and Applied Information Technology, 71(3), 377-385.

Shahiri, A., Husain, W., & Rashid, N. (2015). A Review on Predicting Student's Performance Using Data Mining Techniques. Procedia Computer Science, 72, pp. 414-422.

Siemens, G., & Long, P. (2011). Penetrating the Fog: Analytics in Learning and Education. Educase Review, 46(5), pp. 30-40.

Stair, R., & Reynolds, G. (2015). Princípios de Sistemas de Informação (11ª ed.). São Paulo:

Cengage Learning.

Yadav, S., Bharadwaj, B., & Pal, S. (2012). Data Mining Applications: A comparative for predicting student's performance. International Journal of Innovative Technology & Creative Engineering, 1(12), pp. 13-19.

You, J. W. (2016). Identifying significant indicators using LMS data to predict course achievement in online learning. The Internet and Higher Education, 29, pp. 23-30.

105

4.4 Artigo 4 - “O processo de mineração de dados educacionais aplicado em um curso

massivo”

O terceiro artigo descreveu a aplicação de técnicas de MDE em uma dimensão menor que a

considerada para o objetivo final da tese. Foi escolhida uma disciplina online com 1.113

alunos. Já o quarto e último artigo amplia o volume de alunos analisados, no caso um curso

massivo com mais de 180.000 alunos.

O curso foi criado com base em uma pesquisa-ação, por uma equipe multidisciplinar

composta por especialista em conteúdo, produção e edição de vídeo, equipe técnica do LMS,

além do autor da tese. O curso conhecido como Carreira S/A teve 04 semanas de duração e o

objetivo de apresentar aos alunos diversos aspectos a respeito do mercado de trabalho, com

uma temática de interesse de alunos de diversos cursos e oferecido por um grupo educacional

privado.

O artigo foi concebido para analisar as contribuições e restrições da aplicação de métodos de

MDE em um grande conjunto de dados desse curso massivo. A partir da extração de dados

coletados e armazenados no ambiente Blackboard, foi possível com a utilização do processo

de KDD, utilizar algoritmos importantes em contextos educacionais, como árvore de decisão

e agrupamento, e descobertos conhecimentos relevantes, como o tipo de atributo que

contribuiu de maneira mais significativa para a aprovação dos alunos e o padrão de

comportamento de grupos de alunos reprovados.

Um aspecto bastante considerável a respeito dos cursos massivos é que o processo tradicional

de tutoria é impraticável devido ao grande número de alunos, pois seria economicamente

inviável manter o número de tutores suficientes para atender, por exemplo, um curso com

milhares de alunos matriculados. Em termos gerenciais, a utilização de MDE pode ser muito

útil, pois a partir da descoberta de quais grupos têm maior risco de evasão ou reprovação,

seria possível que a tutoria fosse direcionada prioritariamente para atender esses alunos que

precisam de mais atenção.

A seguir o artigo é reproduzido na sua forma original.

106

O PROCESSO DE MINERAÇÃO DE DADOS EDUCACIONAIS APLICADO EM UM

CURSO MASSIVO

Luis Naito Mendes Bezerra luisnaito@yahoo.com.br

Márcia Terra da Silva marcia.terra@uol.com.br

RESUMO

No contexto atual da educação a distância, os LMSs (Learning Management System)

permitem o armazenamento de grande volume de dados sobre a navegação e atividades

realizadas. Para compreender a respeito do padrão de comportamento dos alunos nesse

tipo de ambiente, é preciso que os educadores e gestores repensem as abordagens

tradicionais para análise desses dados, sendo essencial a utilização de soluções

computacionais apropriadas, como a mineração de dados educacionais (MDE). Na

literatura, é possível encontrar trabalhos que utilizam MDE em conjuntos de dados

reduzidos. O presente artigo apresenta como contribuição principal a aplicação de

algoritmos de MDE e análise dos resultados em outra dimensão, no caso, um curso

massivo com 181.677 alunos matriculados. Após a aplicação de algoritmos importantes em

contexto educacionais, como árvore de decisão, agrupamento e regras de classificação,

foram descobertos conhecimentos relevantes, como o tipo de atributo que contribuiu de

maneira mais significativa para a aprovação dos alunos e o padrão de comportamento de

grupos de alunos reprovados.

Palavras-chave: análise de dados, curso massivo, educação a distância, árvore de

decisão, agrupamento

ABSTRACT

Within the current context of distance learning, the Learning Management Systems (LMSs)

allow the storage of a substantial volume of data on navigation and activities carried out. To

understand the standard of behaviour of students in this type of environment, it is necessary

for educators and managers to rethink the traditional approaches for the analysis of this

data, it also being essential to use appropriate computer solutions, such as educational data

mining (EDM). In the specialised literature it is possible to find papers that use EDM in small

sets of data. This article presents, as its main contribution, the application of EDM algorithms

and analysis of results in another dimension, in this case a massive course with a total of

181,677 students enrolled. After the application of some algorithms that are important within

educational contexts, such as decision trees, clustering, and rules of classification, there was

the discovery of relevant knowledge, such as the type of attribute that has made the most

significant contribution to students’ passes, and also the standards of behaviour of groups of

students who have failed.

Key Words: data analysis, massive course, distance learning, decision tree,

clustering

107

1. Introdução

No atual cenário do ensino superior, a modalidade a distância tem apresentado um

expressivo crescimento em relação ao número de alunos matriculados nos últimos

anos (Allen & Seaman, 2015). A partir do surgimento dos MOOCs (Massive Open

Online Course), ocorreu uma mudança de dimensão a respeito da quantidade de

alunos inscritos em um único curso, pois em razão de serem totalmente online, sem

pré-requisitos e também por não exigirem pagamento inicial de taxas, tais cursos

têm atraído, em geral, expressivo volume de alunos (Hyman, 2012; Cooper &

Sahami, 2013). O aspecto massivo presente em seu acrônimo pode ser destacado,

por exemplo, com o curso, Introduction to Computer Science I, oferecido pela

Universidade de Harvard com parceria com a provedora edX. Esse é um MOOC que

chegou a 150.349 alunos matriculados. Não é comum cursos com mais de 100.000

alunos, e um MOOC típico apresenta em média 25.000 alunos matriculados.

(Jordan, 2015)

Nos MOOCs, os Ambientes Virtuais de Aprendizagem (AVA) ou LMS (Learning

Management System) comerciais e de código aberto, assim como os ambientes

virtuais utilizados pelas grandes provedoras como Cousera e edX são o elemento

central de qualquer projeto. Esses cursos são ministrados de forma “automática”,

pois são baseados em videoaulas, atividades com correção automática e projetos

com avaliação pelos pares, sem o contato do aluno com um tutor. Os fóruns de

discussão são importantes para apoiar a colaboração entre os pares, permitindo aos

alunos obterem informações e também interação social com os outros alunos.

Apesar de existir uma trilha de aprendizagem previamente definida, os próprios

alunos podem gerenciar sua aprendizagem. (Nanfito, 2014; You, 2016).

Uma enorme quantidade de dados sobre a navegação, atividades realizadas,

interação com o material didático e com os outros alunos é registrada e coletada

possibilitando que sejam elaboradas análises relacionadas ao padrão de

comportamento dos alunos no ambiente, e atualmente os LMSs incluem módulos

que registram automaticamente cada evento ocorrido no ambiente. Essas análises

permitem direcionar melhor a relação do aluno com o curso e podem predizer suas

dificuldades e oferecer também reforço quando for necessário, sendo portanto um

material rico para permitir o autogerenciamento do curso.. (Pardo & Kloos, 2011;

Hu, Lo, & Shih, 2014; Nanfito, 2014; You, 2016).

Geralmente esses dados gerados pelos LMSs não podem ser analisados

adequadamente por softwares aplicativos básicos como uma planilha eletrônica ou

por mecanismos tradicionais de análise estatística ou ferramentas para acesso a

banco de dados transacionais, em razão de fatores como, a enorme quantidade de

registros, elevado número de atributos, valores ausentes, presença de dados

qualitativos e não quantitativos, entre outros. Os dados coletados de cursos

massivos possibilitam que os educadores e gestores repensem as abordagens

108

tradicionais de análise, e a utilização de soluções computacionais vem se

consolidando como o caminho mais apropriado (Bala & Ojha, 2012; Romero &

Ventura, 2013; Muñoz-Merino, Ruipérez-Valiente, Alario-Hoyos, & Perez-

Sanagustin, 2014; Crossley, Paquette, Dascalu, Mcnamara, & Baker, 2016)

O desenvolvimento e uso de ferramentas computacionais para a análise de dados,

como Data Mining e Learning Analytics, no campo da educação, foi bastante tardio,

em comparação com as áreas de ciências, como biologia e física, além de outras

como marketing, manufatura e finanças. A aplicação de tais técnicas tem enorme

potencial de transformação, para, por exemplo, prever o desempenho dos alunos e

também compreender o comportamento deles no processo de ensino e

aprendizagem. (Siemens & Long, 2011; Bala & Ojha, 2012; Romero & Ventura,

2013; Baker, 2014; Natek & Zwilling, 2014)

Há uma área de pesquisa, relativamente recente, conhecida como “mineração de

dados educacionais” (educational data mining - EDM), que possibilita a

compreensão do desempenho e padrão de comportamento dos alunos analisando

os dados do LMS. (Romero & Ventura, 2010; Chatti, Dyckhoff, Schroeder, & Thüs,

2012; Calders & Pechenizkiy, 2012; Campagni, Merlini, Sprugnoli, & Verri, 2015)

O objetivo do presente artigo é analisar as contribuições e restrições da aplicação

de métodos de mineração de dados educacionais em um grande conjunto de dados

de um curso massivo.

Muitos trabalhos envolvendo MDE foram direcionados para conjuntos reduzidos de

dados. (Natek & Zwilling, 2014; Campagni, Merlini, Sprugnoli, & Verri, 2015) No

caso desta pesquisa, a contribuição principal reside na aplicação de MDE em outra

dimensão em relação ao número de alunos matriculados, no caso, o curso Carreira

S/A com 181.677 alunos matriculados. Esse curso apresenta uma temática que

procurou atender aos interesses de alunos de diversas áreas e cursos de um grupo

educacional privado, não tendo, portanto, o mesmo nível de exigência para

aprovação de uma disciplina regular de um curso.

A oferta de um curso dessa magnitude representa um considerável desafio em

termos de gestão, pois essa enorme quantidade de alunos gerou,

consequentemente, grande quantidade de dados, além de toda a parte operacional,

como verificar os fóruns de discussão e responder as mensagens dos alunos sobre

diversos assuntos.

É importante mencionar que o número de alunos matriculados no curso Carreira S/A

o posiciona em lugar de destaque se comparado com MOOCs que tiveram grande

quantidade de matrículas. Ao analisar os dados de Jordan (2015), ele pode ser

classificado em terceiro lugar, os dois primeiros o Think Again: How to Reason and

Argue da provedora Coursera (Duke University), com 226.552 alunos matriculados

109

e o Social Psychology também da Coursera (Wesleyan University) com 200.000

alunos matriculados,

Dessa forma, espera-se contribuir para melhorar o processo de análise e tomada de

decisão por parte dos professores e gestores de cursos massivos, para melhorar o

processo de aprendizagem e aumentar o nível de permanência dos alunos nos

cursos.

Além desta introdução, este trabalho foi dividido em mais cinco partes. Na segunda

parte é apresentada uma fundamentação teórica sobre o processo de KDD e

mineração de dados educacionais. Na sequência, apresentam-se a metodologia da

pesquisa, os dados do curso Carreira S/A e a aplicação dos algoritmos de

mineração de dados, a discussão e considerações finais e, por último, as

referências bibliográficas.

1.1 Trabalhos na área de mineração de dados educacionais

Na literatura é possível encontrar trabalhos correlatos, ou seja, sobre a utilização de

mineração de dados em diversos contextos educacionais, predominantemente com

grupos reduzidos de alunos. O trabalho de Yadav, Bharadwaj & Pal (2012) utiliza a

técnica de árvore de decisão com a aplicação de três diferentes algoritmos para

analisar dados de 48 estudantes de turmas que já concluiram seus estudos, com o

objetivo de gerar um modelo para previsão de desempenho dos estudantes da

turma atual, possibilitando que os professores consigam identificar aqueles alunos

que necessitam de maior grau de atenção durante as atividades do semestre,

visando aumentar a taxa de aprovação e também avaliar medidas a serem adotadas

para os próximos semestres. Outro trabalho de pesquisa é o de Romero, Zafra,

Luna, & Ventura (2013), aplicando algoritmos de regras de associação como Apriori

e FP-Growth para descobrir associações entre os atributos de 104 alunos que

realizaram testes (quizzes) no LMS Moodle. A partir da descoberta de regras, foi

possível fornecer aos professores informações para melhorar os testes.

Em outra pesquisa, Natek & Zwilling (2014) concentram-se na mineração de dados

para pequenos conjuntos de dados (máximo de 106 alunos), utilizando diferentes

algoritmos de árvore de decisão para prever a taxa de sucesso dos alunos da turma

em curso, com base no desempenho de turmas anteriores da disciplina de

Informática de um curso de Economia. A conclusão da pesquisa indica que o uso

dessas técnicas em ambiente real pode ser útil e promissor, podendo fornecer aos

administradores ferramentas preciosas para a tomada de decisão.

A pesquisa de Campagni, Merlini, Sprugnoli, & Verri (2015) utiliza mineração de

dados educacionais para também analisar pequenos conjuntos de dados, no caso,

os percursos acadêmicos de 141 alunos de Ciência da Computação da

Universidade de Florença na Itália. No trabalho, foram utilizadas diferentes

110

abordagens baseadas em técnicas de agrupamento e padrões sequenciais para

identificar estratégias para melhorar o desempenho dos alunos e a programação

dos exames. Como resultado, os gestores puderam inserir alterações no curso,

como a inclusão de professores tutores para orientar os alunos na sua vida

acadêmica, como, por exemplo, na escolha de disciplinas.

Em relação especificamente aos algoritmos de mineração de dados educacionais,

outras pesquisas podem ser mencionadas, como o trabalho de Shahiri, Husain, &

Rashid (2015), que apresenta por meio de uma revisão da literatura, quais

algoritmos de predição seriam os mais utilizados para identificar os atributos mais

importantes para a performance em um determinado conjunto de dados de

estudantes. Após a pesquisa, os autores concluiram que os principais algoritmos

citados para predição da performace de alunos são os de Árvore de Decisão

(decision tree) e Redes Neurais (neural network).

Finalmente, o trabalho de Dutt, Aghabozrgi, Ismail, & Mahroeian (2015) apresenta

uma revisão da literatura a respeito dos principais algoritmos de agrupamento

(clustering), identificando que K-means é o mais utilizado em trabalhos envolvendo

MDE.

2. Fundamentação Teórica

2.1 KDD e mineração de dados

No cenário da educação superior com a grande difusão de sistemas informatizados,

cresce a cada dia o volume de dados gerados e armazenados em bases de dados

(Rigo, Cambruzzi, Barbosa, & Cazella, 2014). Ests grande volume de dados tem

propiciado a utilização em contextos educacionais de uma área denominada

Descoberta de Conhecimento em Banco de Dados ou Knowledge Discovery in

Databases (KDD). Uma das definições mais aceitas para KDD foi a proposta

inicialmente por Fayyad, Piatetsky-Shapiro, & Smyth (1996), conforme pode ser

observado na figura 1, que corresponde a um processo não trivial, interativo e

iterativo, para identificação de padrões compreensíveis, válidos, novos e

potencialmente úteis, a partir de grandes conjuntos de dados.

111

Figura 1: O processo de KDD. Adaptado de Romero & Ventura (2013)

O processo de KDD depende inicialmente do ambiente educacional (educational

environment), pois diferentes tipos de dados podem ser coletados, por exemplo, a

partir de um ambiente de educação presencial ou educação a distância, além do

tipo de LMS utilizado e também das fontes de dados disponíveis (dados

administrativos, do LMS, questionários, etc). Coletar e integrar esses dados brutos

não é uma tarefa trivial. A etapa seguinte de pré-processamento é essencial nesse

processo. (Romero & Ventura, 2013)

A etapa de pré-processamento (preprocessing) consiste no tratamento e na

preparação dos dados. Nessa etapa devem-se identificar, corrigir e retirar valores

inválidos, inconsistentes ou redundantes. Por exemplo, a limpeza dos dados trataria

da definição de um possível intervalo de valores (domínio) para um determinado

atributo. Caso surgisse algum valor diferente do definido no domínio, esse valor

deve ser corrigido ou mesmo eliminado da base de dados. Na sequência, a etapa

de transformação (modified data), abrange, quando necessário, alguma

transformação linear ou mesmo não linear nos dados, de forma a encontrar aqueles

mais relevantes para o problema em estudo. Geralmente são aplicadas técnicas de

redução de dimensionalidade e de projeção dos dados. (Elmasri & Navathe, 2011)

A etapa seguinte de mineração de dados (data mining) deve ser entendida como

uma das etapas do processo mais amplo de KDD e utiliza algoritmos específicos

para a extração de padrões dessas bases de dados. (Rigo, Cambruzzi, Barbosa, &

Cazella, 2014)

A etapa final de interpretação consiste na análise dos resultados da mineração e na

geração de conhecimento pela interpretação e utilização dos resultados em

benefício da aplicação em questão. Etapa complexa, em que são identificados os

padrões pelo sistema, estes são interpretados em conhecimentos e validados, para

em seguida proporcionarem suporte a tomada de decisões humanas. (Elmasri &

Navathe, 2011)

A Mineração de Dados Educacionais (MDE) ou Educational Data Mining (EDM) trata

da aplicação das técnicas da Mineração de Dados junto aos novos conjuntos de

dados obtidos nos diversos ambientes educacionais. A MDE utiliza

predominantemente as técnicas de classificação (classification), regras de

112

associação (association rules) e agrupamento (clustering). (Romero & Ventura,

2013; Hu, Lo, & Shih, 2014; Campagni, Merlini, Sprugnoli, & Verri, 2015)

2.2 Principais técnicas para MDE

A Mineração de Dados Educacionais emprega técnicas comuns de mineração de

dados, e as principais são as seguintes:

Na descoberta de Regras de Associação, o banco de dados é considerado um

conjunto de transações. Cada transação é composta por um conjunto de itens que

frequentemente ocorrem de forma simultânea em transações do conjunto de dados.

Uma regra de associação tem a forma X => Y, onde X = {x1, x2, ..., xn} e Y = { y1, y2,

..., yn} são conjuntos de itens , com xi e yj, sendo itens distintos para todo i e j. Essa

associação indica que, se um cliente compra X, provavelmente comprará Y. Pode

ser aplicado, por exemplo, na área de marketing para se descobrir pessoas que

compram de forma associada dois produtos diferentes. Algoritmos como Apriori,

GSP e DHP são exemplos da implementação da tarefa de Descoberta Regras de

Associação. (Elmasri & Navathe, 2011)

A classificação é uma forma de análise de dados que extrai modelos que descrevem

classes de dados importantes. A tarefa de classificação consiste em descobrir uma

função que mapeie um conjunto de registros em um conjunto de classes. Uma vez

descoberta, tal função pode ser aplicada a novos registros de forma a prever a

classe em que tais registros se enquadram. (Elmasri & Navathe, 2011) A árvore de

decisão é bastante representativa em relação à tecnica de classificação, sendo um

método adequado quando o objetivo da mineração é a classificação de dados ou

predição de saídas. Uma árvore de decisão possui uma estrutura de árvore, em que

cada nó interno (não-folha), pode ser entendido como um atributo de teste, e cada

nó-folha (nó-terminal) possui um rótulo de classe. O nó de mais alto nível numa

árvore de decisão é chamado de nó-raiz. (Han, Pei, & Kamber, 2011)

O agrupamento (clustering) tem como objetivo principal descobrir dados que se

agrupam naturalmente, classificando os dados em diferentes grupos e/ou

categorias, e os registros em um grupo devem ser semelhantes uns aos outros e

diferentes dos registros em outros grupos. Esses grupos e categorias não são

conhecidos incialmente. Em MDE é possível, por exemplo, descobrir grupos de

escolas (para investigar as diferenças e similaridades entre escolas), ou achar

grupos de alunos (para investigar as diferenças e similaridades entre alunos). Uma

vez que os grupos são formados, é possível fazer uma análise dos elementos que

compõem cada um deles, identificando as características comuns aos seus

elementos. (Elmasri & Navathe, 2011; Han, Pei, & Kamber, 2011)

113

3. Metodologia

Em relação às metodologias utilizadas em MDE é possível citar duas com maior

destaque. A primeira é a conhecida como CRISP-DM (Cross Industry Standard

Process for Data Mining), que propõe um modelo de processo para projetos de

mineração de dados, apresentando seis fases de maneira cíclica, e são as

seguintes: a) entendimento do negócio; b) entendimento dos dados; c) preparação

dos dados; d) modelagem; e) avaliação e f) aplicação. Tal metodologia é

apresentada como um padrão desenvolvido por empresas de software como SPSS

e NCR, além de indústrias como a Daimler-Benz.

A segunda é a metodologia já apresentada no item 2.1, conhecida como KDD, que

será utilizada na presente pesquisa, por ser um modelo voltado para pesquisas

acadêmicas e serviu como base para um bom número de trabalhos publicados,

como, por exemplo, Ramamohan, Vasantharao, Chakravarti, & Ratnam (2012),

Romero & Ventura (2013), Asif, Merceron, & Pathan, (2014), Jeevalatha, Ananthi, &

Kumar (2014) e Selvan, Beleya, Muniandy, Heng, & Remendran (2015) e Shaleena

& Shaiju (2015), que aplicaram as etapas do processo de Descoberta de

Conhecimento em Banco de Dados ou Knowledge Discovery in Databases (KDD)

em suas pesquisas.

Seguindo o processo de KDD, para a implantação do objetivo principal da presente

pesquisa, em uma primeira etapa, foi feita a importação dos dados do AVA –

Blackboard - e a seleção dos atributos que serão utilizados, posteriormente, na

etapa de mineração de dados. Em seguida, tais dados foram submetidos à etapa de

pré-processamento, e foram eliminados os dados com inconsistência ou

redundância. Na etapa seguinte, de transformação, foram criadas novas colunas

calculadas, como resultado e número de atividades. As duas últimas etapas foram a

da mineração propriamente dita, que consistiu na busca por padrões através da

aplicação de algoritmos para árvore de decisão (decision tree) e o agrupamento

(clustering) com o uso da ferramenta Rapidminer. Por fim, foi efetuada a

interpretação dos resultados da etapa anterior.

4. O curso Carreira S/A

O curso foi criado e ofertado no âmbito de um Grupo Educacional Privado a partir de

agora denominado Alfa, com atuação no estado de São Paulo e na região Centro-

Oeste do Brasil. A oferta desse curso representou a primeira experiência do grupo

com um curso que apresentou número tão elevado de alunos matriculados, além de

ser um projeto piloto para o lançamento no futuro de outros cursos no estilo dos

MOOCs. Tal curso preservou as principais características desse tipo de curso, como

não ter cobrança adicional de taxa, ser online, ter o caráter massivo, uso de material

114

didático, predominantemente na forma de vídeo e também pela utilização de fórum

de discussão.

O curso foi chamado de Carreira S/A e não teve do acrônimo MOOC, apenas o

aspecto de abertura (open), pois não foram utilizados recursos educacionais abertos

(REA) em seu projeto. O objetivo do curso foi apresentar aos alunos uma visão do

complexo mercado de trabalho tanto do ponto de vista profissional quanto das

empresas.

A criação desse curso oportunizou a análise dos dados gerados a partir de um curso

massivo, pois, em princípio, os dados originados nos ambientes virtuais de

aprendizagem utilizados pelos MOOCs das principais provedoras como Coursera e

edX, são de difícil acesso para consulta pública, sendo liberados, apenas para as

próprias provedoras e para as instituições de ensino conveniadas que oferecem os

cursos.

Neste estudo serão utilizados apenas dados acadêmicos oriundos do LMS

Blackboard, escolhido pelo fato de ser o ambiente utilizado por instituições de

ensino do grupo Alfa desde 2003.

4.1 Características do curso

O curso Carreira S/A teve duração de 04 semanas, com inicio em 20 de março de

2017 e término em 20 de abril de 2017, sendo oferecido no LMS Blackboard, de

forma gratuita e automática para todos os alunos do grupo Alfa. O curso foi

composto por 04 unidades de aprendizagem, conforme apresentado na figura 2:

Figura 2: Estrutura do Curso. Fonte: O autor

115

O processo de avaliação foi composto de testes de múltipla escolha, e cada unidade

correspondeu a 25% da nota final, ou seja, valendo até 2,5 (dois pontos e meio)

cada unidade. Para ser aprovado, o aluno deveria obter nota final igual ou maior que

6,0 (seis).

Cada unidade foi composta por um vídeo, material em formato texto, apresentado

em formato PDF e livro eletrônico, além de um fórum de discussão. A análise

desses materiais será efetuada no tópico a seguir.

4.2 Análise do material do curso

Vídeo – o curso utilizou tecnologia de vídeo da empresa Kaltura que apresenta uma

plataforma totalmente integrada ao LMS Blackboard, disponibilizando ainda uma

solução que adapta a reprodução do vídeo ao tipo de dispositivo do usuário

(computador desktop, celular e tablet), sendo compatível também com diversos

navegadores (browsers) disponíveis no mercado.

A Kaltura oferece também para os administradores do sistema uma ferramenta para

análise dos vídeos (analytics), que será utilizada nos próximos tópicos.

Na fase de projeto do curso foi considerado que os vídeos deveriam ter duração

média entre 05 e 07 minutos, sendo constituídos por entrevistas e depoimentos de

profissionais especializados, além de material de outras fontes, como trechos de

filmes. Contudo, por ter sido a primeira versão do curso e devido à quantidade e

qualidade do material coletado, a versão final dos vídeos ultrapassou o tempo

projetado. A tabela 1 apresenta os dados oriundos da ferramenta Analytics da

Kaltura.

Tabela 1: Dados relativos aos vídeos. Fonte: Kaltura Analytics

Unid Nome Duração Plays Tempo médio Média (drop-off)

I Planejamento de

Carreira

13:51 30.159 07:35 54,31%

II Competências

Profissionais

13:58 20.317 08:46 62,82%

III Processo seletivo

e recrutamento

11:34 14.357 08:06 70,15%

IV Empreendedorismo 22:19 15.538 13:24 60,12%

Total / Média 80.371 09:06 60,60%

116

Em relação ao tempo de duração dos vídeos é possível encontrar, na literatura,

pesquisas que apontam a média de tempo para reter melhor a atenção dos

estudantes. Na visão de Khan ( 2012), o tempo ideal para melhorar o engajamento

dos estudantes fica entre 10 a 15 minutos. A pesquisa de Khalil & Ebner (2017) foi

direcionada para um MOOC denominado “Social Aspects of Information

Technology” ofertado pela provedora iMooX na Áustria, que contou com 21 vídeos

de duração média de 17 minutos. Os dados de pesquisa da empresa Kaltura (2016)

com 1.500 respondentes (educadores, profissionais especializados em vídeo e

alunos) apontam o intervalo de 5 a 10 minutos como o mais indicado para a duração

de um vídeo. Contudo, é possível encontrar valor inferior como ideal para a duração

de vídeo. Por exemplo, o trabalho de Guo, Kim, & Rubin (2014) analisou os dados

de quatro MOOCs da provedora edX e chegou a conclusão que vídeos de até 06

minutos são muito mais envolventes para reter a atenção dos alunos.

No caso do curso Carreira S/A os alunos, considerando todos dos vídeos,

assistiram, em média, a 9min06s, valor que está coerente com a pesquisa da

Kaltura (2016) e acima do valor indicado por Guo, Kim, & Rubin (2014). Os dados

ainda apontam que os alunos assistem a aproximadamente 60% dos vídeos. A

partir da experiência dessa primeira edição do curso será possível rever a duração

total dos vídeos para a próxima edição.

• Material texto – formado por material elaborado por especialistas em arquivo

no formato PDF, artigos e também pela indicação de capítulos de livros;

• Fórum de discussão – o fórum de discussão não teve um tutor para mediar à

participação dos alunos, em razão do elevado número de alunos e também

por ser uma característica comum aos MOOCs. Para cada unidade, foi

lançado um tema para que alunos pudessem se manifestar e debater a

respeito do assunto, usando um modelo de discussão entre os pares para a

construção coletiva do conhecimento. Por exemplo, para o primeiro fórum foi

sugerida a seguinte questão: você acredita que a elaboração de um plano de

carreira bem feito pode influenciar a sua trajetória profissional? Foi possível

separar os alunos das modalidades presencial e EaD. No caso presencial,

foram postadas 678 publicações, das quais muitas eram comentários a

respeito da questão colocada, mas o espaço acabou também sendo utilizado

para esclarecer algumas dúvidas específicas e operacionais que foram

117

respondidas pelos próprios alunos, como a data de emissão do certificado e

também dúvidas gerais sobre a navegação na disciplina. Os alunos do EaD

com a mesma questão para discussão, tiveram uma participação muito maior,

com 4.367 publicações, a maior parte com comentários a respeito do tema

em questão. Ao final dos 04 fóruns foram 11.272 publicações do EaD e 1.469

dos alunos da modalidade presencial. É muito provável que essa diferença

possa ser explicada pelo fato dos alunos oriundos de cursos EaD já estarem

muito mais acostumados a participarem de fóruns de discussão.

5. Processo de mineração de dados educacionais

A presente etapa contemplará o processo para obtenção do padrão de

comportamento e desempenho dos alunos e será inspirado no modelo de KDD,

conforme ilustra a figura 3.

Figura 3: Processo baseado em KDD. Fonte: O autor

Na etapa inicial, os dados foram extraídos do LMS Blackboard a partir do seu centro

de notas gerando uma planilha em formato Excel com 181.677 linhas. Essa base

inicial foi submetida à fase de pré-processamento, em que foram eliminados os

alunos inativos ou desistentes, ou seja, aqueles que não tiveram qualquer

participação nas atividades durante o período de oferta do curso, além de eliminar

ou ajustar também os casos de alunos com inconsistências no processo de registro

das avaliações no Blackboard, com a retirada de mensagens de erro que

permaneceram na planilha gerada pelo sistema. Por exemplo, o aluno fez uma

atividade e fechou o navegador antes do sistema registrar tal ação definitivamente.

118

Nesse caso, o sistema registrou no lugar da nota, apenas a informação “Em

andamento” ou “Em andamento – nota”. Para corrigir tais problemas foram utilizados

os recursos nativos do Excel, como fórmulas e filtragem dos dados. No final, a

planilha apresentava quase 7 MB de dados, contando com 75.751 alunos que

efetivamente realizaram pelo menos uma avaliação durante o curso e 105.926 que

foram matriculados e não tiveram participação durante o curso. A taxa de

desistência foi de 58,30%. Para efeito de comparação, nos MOOCs a taxa de

evasão ou desistência em média é de 90%. (Sandeen, 2013; Hew & Cheung, 2014;

Alraimi, Zo, & Ciganek, 2015)

Depois dessa primeira análise, a etapa seguinte foi a de transformação, em que

foram criadas novas colunas calculadas, como o número de atividades e o resultado

(aprovado ou reprovado), além da criação de uma coluna para medir a frequência

de entrega das atividades. Para os alunos que enviaram apenas 01 atividade foi

atribuída a classificação “ruim”, para aqueles enviaram 02 atividades atribuiu-se a

classificação “regular”, para 03 atividades a classificação atribuída foi “bom” e,

finalmente, para aqueles que enviaram todas as quatro atividades a classificação foi

“excelente”. A presente classificação foi inspirada nos trabalhos de Clow (2013),

Coffrin, Barba, Corrin & Kennedy (2014) e Wilkowski, Deutsch & Russell (2014), que

criaram categorias para classificar os estudantes em função do modo como eles

interagem com o curso e pelo desempenho nas atividades.

O resultado dessa classificação foi o seguinte:

2.537 alunos classificados com o conceito “ruim” – 3,35%;

830 alunos classificados com o conceito “regular” – 1,10%;

1235 alunos classificados com o conceito “bom” – 1,63%

71.149 alunos classificados com o conceito “excelente” – 93,92%

Tal ação teve por objetivo melhorar a qualidade dos atributos e aumentar o nível de

detalhamento do estudo.

O curso teve alunos oriundos de cursos de graduação nas modalidades presencial e

a distância, e dos alunos que fizeram atividades, da modalidade presencial foram

41.593 e da EaD foram 34.158 alunos.

Em relação ao desempenho dos alunos, os dados obtidos indicam que dos 75.751

alunos que fizeram atividades e obtiveram pontuação durante o curso, 71.425 foram

aprovados (94,29%) e 4.326 foram reprovados (5,71%). Esse alto índice de

119

aprovação está relacionado com o curso ter caráter informativo, direcionado para

atender a um grande número de alunos de diferentes áreas do conhecimento e não

ter o nível de exigência das disciplinas integrantes da matriz curricular de um curso

da graduação.

Para a mineração foi utilizada a ferramenta RapidMiner em sua versão acadêmica

7.4 que permite trabalhar com número ilimitado de registros. Inicialmente ocorreu a

importação da planilha Excel gerada pelo Blackboard, com os seguintes atributos:

• Curso do usuário

• Nome

• AS_I até AS_VI, onde AS significa atividade de sistematização, com valor

de 2,5 cada. Essa atividade consiste na resposta de questões de múltipla-

escolha.

• Total (nota final) – 0 a 10,0

• Resultado – considerando 0 para reprovação e 1 para aprovação

Na etapa de transformação foram adicionadas as seguintes colunas:

• Modalidade – presencial ou EaD

• Num_ativ – número de atividades entregues pelos alunos

• Freq_atividades – classificados em ruim, regular, bom ou excelente

• Condição – aprovado ou reprovado

No processo de MDE, a primeira etapa foi realizada com a importação da planilha

em formato XLSX com 75.751 linhas pela ferramenta RapidMiner. A partir desse

momento, a ferramenta faz um processo de verificação com o objetivo de detectar

algum tipo de erro nos dados.

Em seguida, foram utilizados os recursos para mineração de dados da ferramenta

RapidMiner, com os algoritmos de árvore de decisão (decision tree), agrupamento

(clustering) e regras de associação (association rules). Tais algoritmos foram

selecionados, pois são aplicados com sucesso em contextos educacionais. (Baker,

2010; Romero & Ventura, 2013). Os experimentos e as análises estão relacionados

a seguir.

5.1 Experimento A – Árvore de Decisão (Decision Tree)

A árvore de decisão é representativa em relação à técnica de classificação, sendo

um método adequado quando o objetivo da mineração é a classificação de dados

ou predição de saídas.

120

Para esse primeiro experimento foi utilizado o operador Retrieve para importar os

dados da planilha gerada ao final das etapas de pré-processamento e

transformação, e na sequência utilizou-se o operador Set Role para definir o atributo

que será utilizado como classe, no caso o atributo Condição (aprovado ou

reprovado). Em seguida, foi utilizado o operador Select Attributes para determinar

quais atributos seriam utilizados no processo, sendo desconsiderados atributos

como, por exemplo, “Nome” e “Código do usuário” que não serão utilizados no

processo de classificação da árvore de decisão. Por fim, foi inserido no processo o

operador Decision Tree, com a função de gerar a árvore de decisão, apresentada na

figura 4.

O algoritmo analisa os diversos campos de forma interativa, buscando identificar

aquele com maior influência no resultado das classes (aprovado ou reprovado),

nesse caso indicado pelo atributo Condição. O atributo de maior influência é

colocado no topo da arvore (raiz) e, então, o algoritmo continua buscando novos

campos significativos. Nesse caso, o atributo mais significativo for Freq_Ativ.

Figura 4: Arvore de Decisão gerada pela ferramenta RapidMiner. Adaptada pelo autor

121

Uma árvore de decisão também pode ser representada como conjuntos de regras

do tipo se-então (if-then). As regras são escritas considerando o trajeto do nó raiz

até uma folha da árvore, conforme ilustra a figura 5.

Figura 5: Árvore de decisão - regras do tipo se-então (if-then)

O atributo mais significativo para o sucesso dos alunos foi Freq_Ativ (ruim, regular,

bom e excelente). No gráfico pode-se visualizar isso por ser ele o nó raiz, colocado

no topo da árvore e separando os alunos classificados como “Bom”, dos demais, ou

seja, “Excelente”, “Regular” e “Ruim”. Para o lado direito da árvore, os alunos que

fizeram todas as atividades, classificação “Excelente”, são 70.538 aprovações. Ou

seja, 98,76% dos aprovados. Como se tratou de um curso atípico, com objetivo de

atender alunos das mais diversas áreas e também não apresentou nível de

exigência significativo, o alto índice de aprovações influenciou na análise e geração

da árvore.

O foco principal da análise a partir desse momento se concentrará no conjunto de

alunos reprovados, ou seja, 4.326 alunos. Ainda do lado direito da árvore é possível

verificar que 618 alunos (14,28%) dos reprovados, fizeram todas as atividades e

mesmo assim não foram aprovados. Por outro lado, 2531 alunos realizaram apenas

01 atividade, ou seja, 58,5% do total de reprovados. Provavelmente são os alunos

que fizeram apenas a primeira atividade e desistiram do curso, assim como 829

(19,16%) alunos que avançaram um pouco mais, fazendo 02 atividades, mas

também não continuaram engajados no curso. Os que realizaram apenas 01 ou 02

atividades são 3.360 alunos e representam 77,67% dos reprovados. Esse grupo

significativo de reprovados precisaria com mais urgência de ações por parte da

gestão do curso para diminuir a desistência desses alunos.

Do lado esquerdo da árvore, com alunos classificados como “Bom”, também há

presença de alunos reprovados, mesmo tendo enviado 3 atividades. Após esse

atributo de frequência de entregas (Freq_Ativ), o mais importante foi a atividade

AS_III. Nesse caminho, há um pequeno grupo de 90 alunos que mesmo fazendo 3

122

atividades e AS_III com nota maior que 1,562 (62,48% da nota máxima de 2,5

pontos) não conseguiram aprovação. Desse grupo de 90 alunos, a maioria deles, ou

seja, 74 alunos (82,22%) não fizeram a AS_IV. Os outros 16 que fizeram AS_IV não

tiveram bom desempenho ou deixaram de fazer alguma atividade anterior. Há

também um grupo de 229 alunos que foram reprovados, obtendo nota menor ou

igual a 1,562 na AS_III e notas de AS_II (menor ou igual a 2,188) e AS_IV (menor

ou igual a 2,188). Os outros caminhos não foram significativos em termos do

número de alunos reprovados.

A árvore de decisão poderia ter gerado resultados mais detalhados, caso tivesse

sido possível agregar para a análise, outros atributos, principalmente de caráter

temporal, como a data do último acesso do aluno ao ambiente e a datas de entrega

das atividades. É provável que os dados não foram devidamente registrados, em

função do tamanho dos arquivos de log do Blackboard.

5.2 Experimento B – Agrupamento (Clustering)

Para o experimento com a técnica de clusterização foi utilizado o mesmo conjunto

de dados do experimento de árvore de decisão. Na sequência, foi utilizado o

operador Select Attributes para determinar os atributos utilizados no processo, e os

selecionados foram apenas atributos numéricos, como AS_I, AS_II, AS_III, AS_IV,

além de Num_Ativ e Resultado.

No momento seguinte, foi utilizado o operador Clustering com o algoritmo K-means,

com parâmetro de k = 4. Para definir o parâmetro mais adequado para esse caso,

foi consultada a especialista de domínio, ou seja, a profissional que participou do

projeto do curso e tem o entendimento claro do domínio da aplicação em que se

insere o problema a ser resolvido. Como valor de K foram utilizados os valores de 2

a 8 e consultada a especialista de domínio que ajudou na escolha do número mais

indicado para essa situação.

Após a execução do algoritmo k-means, o sistema gerou 4 grupos ou clusters com a

seguinte distribuição de alunos:

Cluster 0 com 14.168 alunos

Cluster 1 com 3.651 alunos

Cluster 2 com 10.658 alunos

Cluster 3 com 41.274 alunos

A saída gerada pela ferramenta RapidMiner, denominada Centroid Table ou médias

dos grupos, traz informações sobre todos os clusters, conforme pode ser verificado

na figura 6.

123

Figura 6: Tabela Centroid Table. Adaptada pelo autor.

Em relação aos alunos aprovados, no cluster 0 e no cluster 3 estão agrupados todos

esses alunos, com 14.168 alunos e 47.274 alunos, respectivamente. O cluster 3 é o

que reúne maior número de alunos aprovados e com melhor desempenho geral,

pois todos fizeram as 04 atividades e apresentaram maior média em relação à nota

final com 9,844 (98,44% da nota máxima). Os alunos do cluster 0 também fizeram

todas as atividades, mas tiveram desempenho inferior aos alunos do cluster 3 em

todas elas. Os alunos do cluster 3 mantiveram um aproveitamento em relação à

nota máxima de cada atividade (2,5 pontos) de 98,44% em média. Já os alunos do

cluster 0 tiveram aproveitamento de 84,68%.

Os alunos do cluster 3 mantiveram, desse modo, um padrão de comportamento

mais homogêneo nos resultados das 04 atividades, inclusive na última, ocasião em

que muitos já estavam aprovados. Na AS_IV, o aproveitamento desse grupo foi de

97,48% e 98,52% na atividade AS_III. Para os alunos do cluster 0, o aproveitamento

caiu de 87,12% da AS_III para 77,20% na AS_IV. Portanto, os alunos do cluster 3

permaneceram mais engajados até o final.

O cluster 2 com 10.658 alunos apresenta como característica principal, agrupar

alunos aprovados e reprovados. Com total de 10.658 alunos, o cluster 2 tem 9.983

aprovados e 675 reprovados. No caso desse agrupamento há alunos com notas

variando de 4,375 até 7,50 e número de 3 ou 4 atividades entregues no decorrer do

curso.

No cluster 1 somente com alunos reprovados, há um conjunto de 3651 alunos

representando 84,39% do total de reprovados. Os alunos desse grupo obtiveram

nota final média de 2,30, valor muito inferior à nota para aprovação (6,0). Levando-

se em conta que cada aluno precisaria pelo menos de nota 1,5 em cada avaliação,

nesse grupo é possível observar também que de todas as quatro atividades, os

alunos tiveram maior aproveitamento na AS_I com 1,69, pouco acima do mínimo,

representando 67,88% da nota máxima possível nessa primeira atividade (máximo

2,5). Nas atividades seguintes, os alunos continuaram a apresentar um

comportamento em termos de desempenho, bastante inferior aos outros grupos,

124

com queda contínua nas notas das atividades AS_II, AS_III e AS_IV, com média

igual a 0,451, 0,095 e 0,059, respectivamente. Sendo assim, após a entrega e

resultado inferior na primeira atividade, os alunos foram perdendo o interesse e

abandonando o curso.

Os clusters 1 com somente reprovados e o cluster 2 com uma parcela de

reprovados despertaram atenção para entender melhor o padrão de comportamento

desse grupo de alunos. Para refinar um pouco mais a análise foi gerado um novo

agrupamento somente com os 4.326 alunos reprovados. Nesse caso foram gerados

dois clusters e os alunos foram distribuídos da seguinte maneira.

Cluster 0 com 1.462 alunos

Cluster 1 com 2.864 alunos

A Centroid Tables apenas com esses dois clusters pode ser observada na figura 7.

Figura 7: Agrupamento somente dos alunos reprovados. Adaptada pelo autor

Por esse agrupamento, o cluster 0 representa 33,80% dos reprovados e o cluster 1

representa a maioria da base total de alunos, com 66,20%.

Uma análise possível aponta que para permanecer na média de aprovação,

considerando-se a nota final maior ou igual a 6,0 para aprovação, cada aluno

precisaria de nota igual mínima de 1,5 em cada atividade. No cluster 0, que

representa o menor grupo de reprovados, os alunos superaram esse valor nas

atividades AS_I e AS_II, com notas médias de 1,729 e 1,565 respectivamente. A

partir da terceira atividade, esse grupo começou a apresentar desempenho bastante

inferior a nota mínima, com 0,772 na AS_III e 0,541 na AS_IV. Outro aspecto

relevante é que mesmo entregando em média 03 atividades os alunos desse grupo

foram reprovados.

No cluster 1 que representa a maioria dos reprovados, os alunos tiveram nota média

na AS_I de 1,643, pouco acima da nota mínima de 1,5. A partir da atividade AS_II,

os alunos desse grupo praticamente não tiveram aproveitamento nas atividades,

125

representando um abandono do curso, e quase todos entregaram apenas a primeira

atividade.

5.3 Experimento C – Regras de Associação (Association Rules)

A regra de associação é uma técnica usada na construção de relações sob a forma

de regras entre os itens de uma base de dados, ou seja relações entre os atributos.

No caso desse experimento não foi possível utilizar o algoritmo FP-Growth (Frequent

Pattern Growth) da ferramenta RapidMiner, pois o mesmo utiliza apenas atributos

binominais ou binários (duas categorias). (de Castro & Ferrari, 2016) No caso, os

atributos AS_I a AS_V não são adequados, pois são do tipo numérico contínuo.

Sendo assim, o algoritmo de regra de associação não se mostrou adequado a base

de dados desse curso.

6. Conclusão

A pesquisa teve como objetivo analisar as contribuições e restrições da aplicação de

métodos de mineração de dados educacionais em um grande conjunto de dados de

um curso massivo. Para atingir tal objetivo, foi criado e ofertado no âmbito de um

grupo educacional privado, um curso dessa natureza com mais de 180.000

matrículas. Foram considerados na etapa de mineração de dados algoritmos,

bastante utilizados em contextos educacionais, principalmente árvore de decisão e

agrupamento. Após os experimentos, os resultados trouxeram uma clareza maior a

respeito do assunto, pois foram descobertos conhecimentos novos e que podem ser

úteis para os professores e gestores do curso.

Foram considerados para análise, 75.751 alunos que realizaram pelo menos uma

atividade durante o curso. Essas duas primeiras fases do processo de KDD, pré-

processamento e transformação, foram muito trabalhosas, pois mesmo com os

recursos de filtros e fórmulas nativos da planilha Excel, as tarefas, envolvendo uma

base de dados tão volumosa, levaram aproximadamente 60% do tempo total do

processo de KDD.

Antes da análise a respeito da mineração de dados, o curso apresentou 71.425

alunos aprovados (94,29%). Esse alto índice de aprovação é reflexo do nível de

abrangência e profundidade do curso, pois foi concebido para despertar interesse e

atender a alunos das mais variadas áreas e cursos, com o objetivo de ser

informativo, sem o nível de exigência de uma disciplina regular.

No experimento com a árvore de decisão foi possível verificar alguns padrões de

comportamento dos alunos. Por meio desse algoritmo foram destacados 02 grupos

de alunos reprovados que necessitam de maior nível de atenção. Provavelmente

são os 2531 alunos reprovados (58,5%), que fizeram apenas uma atividade e

desistiram do curso, assim como outro conjunto de 829 alunos (19,16%) dos

126

reprovados, que fizeram apenas duas atividades e interromperam o curso. Tais

grupos demonstraram baixo nível de engajamento e seria oportuno para as

próximas edições, o desenvolvimento de um modelo de predição, que baseado

nessas regras, pudesse prever o comportamento dos novos alunos. Aqueles com

comportamento semelhante aos indicados anteriormente, deveriam receber atenção

maior por parte dos professores e gestores do curso, por exemplo, recebendo

mensagens específicas e atividades adicionais.

O algoritmo de agrupamento trouxe contribuições mais significativas em relação ao

de árvore de decisão. Em um primeiro momento, toda a base de dados foi utilizada,

sendo empregado o algoritmo k-means com 04 clusters. Dos grupos gerados, foi

possível verificar que foram 02 clusters de aprovados, 01 de reprovados e outros

com a grande maioria de aprovados. Em relação aos clusters de aprovados, embora

todos tenham entregado as 04 atividades, os alunos do cluster 3 mantiveram um

padrão de comportamento mais homogêneo e engajado, com ótimo aproveitamento

até a última atividade.

Contudo, é o grupo de reprovados que merece mais atenção. No cluster 1, que

reuniu a maioria dos reprovados, os alunos tiveram aproveitamento aceitável

somente na AS_I. A partir dela, os alunos foram diminuindo o aproveitamento e

abandonando o curso. A partir da constatação que o cluster 2 também apresentava

uma pequena parcela de reprovados, foi feito um novo agrupamento (k=2) com uma

nova base somente de reprovados (4.326) para entender melhor esse grupo. Nessa

nova análise, o cluster 0 (1.462 alunos) tem alunos que tiveram nota superior a 1,5

apenas nas AS_I e AS_II e no cluster 1 (2.864 alunos), o desempenho foi ainda pior,

pois a maioria teve aproveitamento satisfatório somente na AS_I, e a partir dela os

alunos praticamente não tiveram aproveitamento nas disciplinas. Esse padrão de

comportamento é semelhante ao da árvore de decisão. Nesse caso, conhecer o

comportamento de cada grupo pode apoiar o gestor ou professor das próximas

turmas. Seria importante analisar semanalmente o comportamento dos alunos a fim

de verificar se o comportamento da turma anterior se repete. Por exemplo, analisar

aqueles que não entregaram atividades 1 e 2 até determinada data. Tal

comportamento poderia indicar um aluno com alto potencial de evasão ou

reprovação.

Esse conhecimento gerado após a utilização de algoritmos de MDE pode ser útil em

cursos a distância e, especialmente, em cursos massivos, principalmente para

compreender o ponto de vista dos alunos. Em um curso a distância, a tutoria tem

papel preponderante no contato com os alunos, orientações, solução de dúvidas,

etc. No caso dos cursos massivos, essa questão da tutoria torna-se inviável para a

gestão do curso, em razão do número de tutores necessários para atender, por

exemplo, mais de 180.000 alunos. Desse modo, os recursos de tutoria deveriam ser

investidos quando são mais necessários. Conhecendo o comportamento de

determinados grupos, os professores e gestores podem enviar mensagens ou

127

propor atividades específicas para esse grupo de alunos, por exemplo, com risco de

abandonar o curso.

A oferta de um curso dessa magnitude representou um considerável desafio em

termos de gestão, pois essa enorme quantidade de alunos gerou além da grande

quantidade de dados, aspectos envolvendo a parte operacional do curso, como

responder as centenas de mensagens dos alunos sobre diversos assuntos e

verificar os temas mais citados nos fóruns de discussão.

O desafio tecnológico também esteve presente, pois é preciso considerar que

alguns aspectos previstos pela equipe de participantes do projeto do curso, como a

integração de quizzes aos vídeos e o registro pelos arquivos de log do Blackboard,

por exemplo das datas de entrega de atividades, datas de acesso do aluno ao

ambiente, não funcionaram como o esperado. Sobre o Blackboard, os dados não

foram devidamente registrados, provavelmente em função do tamanho dos arquivos

de log Em relação aos quizzes, infelizmente um problema na integração e

atualização da versão do software da empresa Kaltura com tal funcionalidade não

estava disponível e não funcionou em tempo para esse curso. Os quizzes

integrados teriam sido úteis, por possibilitariam que as perguntas fossem colocadas

em qualquer ponto do vídeo.

Uma análise superficial dos fóruns de discussão mostrou que os alunos da

modalidade EaD utilizam o espaço com mais frequência e apresentam dúvidas e

colocações em sua maior parte relacionadas com a questão que foi colocada para

discussão. Os alunos da modalidade presencial interagem menos no fórum e

também utilizam o espaço para esclarecer dúvidas a respeito de navegação e

outros aspectos do material e do ambiente. Os alunos da modalidade EaD no caso

desse curso, foram mais participativos e tiveram menos dúvidas a respeito da

utilização do ambiente Blackboard, provavelmente por estarem mais habituados a

utilizarem esse tipo espaço para discussão e por utilizarem com mais intensidade o

ambiente virtual de aprendizagem.

Uma contribuição importante desse trabalho é mostrar a possibilidade da criação de

um sistema de alertas para professores e gestores que, a partir das regras geradas

pelos algoritmos de MDE, como árvore de decisão, identifique alunos com risco de

evasão e possibilite ao professor ou gestor atuar de maneira antecipada, enviando

mensagens de acordo com os alertas recebidos pelo sistema. Em termos de

trabalhos futuros, sugerem-se novos estudos a respeito da aplicação de outros

algoritmos em contextos educacionais, como redes neurais, regressão linear e

regras de classificação.

128

7. Referências bibliográficas

Allen, I., & Seaman, J. (2015). Online Learning Consortium. Acesso em 10 de 03 de 2016, disponível em Online Report Card – Tracking Online Education in the United States, 2015: http://onlinelearningconsortium.org/read/online-report-card-tracking-online-education-united-states-2015/

Alraimi, K., Zo, H., & Ciganek, A. (2015). Understanding the MOOCs continuance: The role of openness and. Computers & Education, pp. 28-38.

Asif, R., Merceron, A., & Pathan, M. (2014). Predicting student academic performance at degree level: a case study. International Journal of Intelligent Systems and Applications, 7(1), 49-61.

Baker, R. (2010). Data mining for education. International encyclopedia of education, 7, 112-118.

Baker, S. (2014). Educational data mining: An advance for intelligent systems in education. IEEE Intelligent systems, 29(3), pp. 78-82.

Bala, M., & Ojha, D. (2012). Study of applications of data mining techniques in education. International Journal of Research in Science and Technology, 1(4), 1-10.

Calders, T., & Pechenizkiy, M. (2012). Introduction to The Special Section onEducational Data Mining. ACM SIGKDD Explorations Newsletter, 13(2), 3-6.

Campagni, R., Merlini, D., Sprugnoli, R., & Verri, M. (2015). Data mining models for student careers. Expert Systems with Applications, 42(13), 5508-5521.

Chatti, M., Dyckhoff, A., Schroeder, U., & Thüs, H. (2012). A reference model for learning analytics. International Journal of Technology Enhanced Learning, 4(5-6), pp. 318-331.

Clow, D. (2013). MOOCs and the Funnel of Participation. Proceedings LAK '13, (pp. 186-189). Leuven, Bélgica.

Coffrin, C., Barba, P., Corrin, L., & Kennedy, G. (2014). Visuzalizing patterns of student engagement and performance in MOOCs. Proceedings - LAK2014 - Learning Analytics and Knowledge. Indianapolis, USA.

Cooper, S., & Sahami, M. (2013). Reflections on Stanford’s MOOCs. New possibilities in online education create new challenges. Communications of the acm, 56(2), 28-30.

Crossley, S., Paquette, L., Dascalu, M., Mcnamara, D., & Baker, R. (2016). Combining Click-Stream Data with NLP Tools to Better. Proceedings of the Sixth International Conference on Learning Analytics & Knowledge. ACM (pp. 6-14). Edinburgh, U.K.: ACM - Association for Computing Machinery.

Dutt, A., Aghabozrgi, S., Ismail, M., & Mahroeian, H. (2015). Clustering Algorithms Applied in Educational Datamining. International Journal of Information and Electronics Engineering, 5(2), 112-116.

Elmasri, R., & Navathe, S. (2011). Sistemas de Banco de Dados (6a. ed.). São Paulo: Pearson Addison Wesley.

129

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 39(11), pp. 27-34.

Guo, P., Kim, J., & Rubin, R. (2014). How video production affects student engagement: An empirical study of mooc videos. Proceedings of the first ACM conference on Learning@ scale conference (pp. 41-50). Atlanta, Georgia, USA: ACM - Association for Computing Machiinery.

Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques (3. ed.). Waltham, MA: Elsevier.

Hew, K., & Cheung, W. (2014). Students and Instructors use of massive open online courses (MOOCs): motivations and challenges. Educacional Research Review, pp. 45-58.

Hu, Y., Lo, C., & Shih, S. (2014). Developing early warning systems to predict students’ online learning. Computers in Human Behavior, 36, pp. 469-478.

Hyman, P. (2012). In the Year of Disruptive Education. Communications of the acm, 55(12), 20-22.

Jeevalatha, T., Ananthi, N., & Kumar, D. (2014). Performance Analysis of Undergraduate Students Placement Selection using Decision Tree Algorithms. International Journal of Computer Applications, 108(15), 27-31.

Jordan, K. (2015). Massive Open Online Course Completion Rates Revisited: Assessment, Length and Attrition. The International Review of Research in Open and Distributed Learning, 16(3).

Kaltura. (2016). The State of Video in Education 2016: A Kaltura Report. Acesso em 20 de abril de 2016, disponível em Kaltura: https://corp.kaltura.com/sites/default/files/The%20State%20of%20Video%20in%20Education%202016%20-%20A%20Kaltura%20Report.pdf?aliId=165316164

Khalil, M., & Ebner, M. (2017). Clustering patterns of engagement in Massive Open Online Courses (MOOCs): the use of learning analytics to reveal student categories. Journal of Computing in Higher Education, 29(1), 1-19.

Khan, S. (2012). The one world schoolhouse: Education reimagined. New Yourk: Twelve.

Muñoz-Merino, P., Ruipérez-Valiente, J., Alario-Hoyos, C., Perez-Sanagustin, M., & Kloos, C. (2014). Precise Effectiveness Strategy for Analyzing the Effectiveness of Students. Computer in Human Behavior, pp. 1-11.

Nanfito, M. (2014). MOOCs: Opportunities, impacts, and challenges: massive open online courses in colleges and universities. Createspace - Amazon.

Natek, S., & Zwilling, M. (2014). Student data mining solution–knowledge management system related. Expert Systems with Applications, 41(14), 6400-6407.

Pardo, A., & Kloos, C. (2011). Stepping out of the box: towards analytics outside the learning management system. In Proceedings of the 1st International Conference on Learning Analytics and Knowledge (pp. 163-167). Banff, Canada: ACM.

Ramamohan, Y., Vasantharao, K., Chakravarti, C., & Ratnam, A. (2012). A study of data mining tools in knowledge discovery process. International Journal of Soft Computing and Engineering (IJSCE), 2(3), 2231-2307.

130

Rigo, S., Cambruzzi, W., Barbosa, J., & Cazella, S. (2014). Aplicações de Mineração de Dados Educacionais e Learning Analytics com foco na evasão escolar: oportunidades e desafios. Revista Brasileira de Informática na Educação, 22(1), 132-146.

Romero, C., & Ventura, S. (2010). Educational Data Mining: A Review of the state of the art. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions, 40(6), pp. 601-618.

Romero, C., & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 3(1), 12-27.

Romero, C., Zafra, A., Luna, J., & Ventura, S. (2013). Association rule mining using genetic programming using genetic programming to provide feedback to instructors from multiple‐choice quiz data. Expert Systems, 30(2), 162-172.

Sandeen, C. (2013). Integrating MOOCs into Traditional Higher Education: The emerging "MOOC 3.0" Era. The Magazine of Higher Learning, pp. 34-39.

Selvan, A., Beleya, P., Muniandy, M., Heng, L., & Remendran, C. (2015). Minimizing Student Attrition in Higher Learning Institutions in Malaysia Using Support Vector Machine. Journal of Theoretical and Applied Information Technology, 71(3), 377-385.

Shahiri, A., Husain, W., & Rashid, N. (2015). A Review on Predicting Student's Performance Using Data Mining Techniques. Procedia Computer Science, 72, pp. 414-422.

Shaleena, K., & Shaiju, P. (2015). Data Mining Techniques for Predicting Student Performance. Engineering and Technology (ICETECH) (pp. 1-3). Coimbatore, TN, India: IEEE.

Siemens, G., & Long, P. (2011). Penetrating the Fog: Analytics in Learning and Education. Educase Review, 46(5), pp. 30-40.

Wilkowski, J., Deutsch, A., & Russell, D. (2014). Student Skill and Goal Achievement in the Mapping with Google MOOC. L@S 2014 - Student Skills and Behavior (pp. 3-10). Atlanta, Georgia, USA.: ACM.

Yadav, S., Bharadwaj, B., & Pal, S. (2012). Data Mining Applications: A comparative for predicting student's performance. International Journal of Innovative Technology & Creative Engineering, 1(12), pp. 13-19.

You, J. W. (2016). Identifying significant indicators using LMS data to predict course achievement in online learning. The Internet and Higher Education, 29, pp. 23-30.

131

5 DISCUSSÃO E CONSIDERAÇÕES FINAIS

A presente tese foi desenvolvida no formato de artigos em sequência, e cada um deles está

alinhado com os objetivos, geral e específicos, apresentados no primeiro capítulo.

Para responder ao primeiro objetivo específico proposto, ou seja, identificar os principais

problemas na gestão de cursos massivos e destacar o mais significativo deles, foram

elaborados dois artigos a partir de uma exaustiva revisão da literatura. O primeiro identificou

os principais problemas no projeto e gestão dos MOOCs, A análise mostrou que o principal

desafio para os gestores dos MOOCs é diminuir a taxa de evasão de seus cursos, em média de

90%. Para entender melhor a questão das altas taxas de evasão nesses cursos, o segundo

artigo identificou os principais fatores que contribuem para a evasão. Nessa etapa da

pesquisa, foram identificados 24 (vinte e quatro) motivos, e na sequência, foram divididos em

dois grupos: motivos inerentes às próprias características do MOOCs; motivos relacionados

com o desenvolvimento do aluno durante o curso.

Este último é o mais importante, pois permite que os gestores atuem para eliminar ou

diminuir seus efeitos.

Para que os gestores de cursos a distância tradicionais e de cursos massivos possam ter

conhecimentos a respeito do comportamento dos alunos nos ambientes virtuais de

aprendizagem e detectar aqueles alunos com dificuldades de aprendizagem ou risco de

abandonar o curso, foi necessário realizar estudos com foco em possíveis soluções

computacionais apropriadas para essa finalidade.

Na etapa seguinte, para responder ao segundo objetivo específico – estudar técnicas de

mineração de dados aplicando-as a um estudo de caso – um terceiro artigo foi elaborado. O

referido artigo apresentou os resultados de um estudo que aplicou as principais técnicas de

MDE com o objeto de analisar uma disciplina online com 1.113 alunos. Após a aplicação de

dois algoritmos bastante utilizados em contextos educacionais, - árvore de decisão (decision

tree) e agrupamento (clustering) - foi possível identificar elementos que não eram

conhecidos por parte dos responsáveis pela disciplina, como os atributos mais significativos

para o sucesso dos alunos e também os padrões de comportamento dos alunos. Além disso,

foi possível identificar, também, as atividades que contribuíam de maneira mais expressiva

para aprovação dos alunos. O agrupamento permitiu, ainda, a descoberta de fatos

desconhecidos, como, por exemplo, uma atividade avaliada, pelos responsáveis pelo

conteúdo da disciplina, como preponderante para a aprovação dos alunos, por ter peso maior

132

na avaliação, mostrou-se pouco relevante após a análise dos resultados da mineração de

dados.

Para atender ao último objetivo específico e também ao geral da presente tese, foi

desenvolvido mais um artigo que apresentou o processo de criação e implantação de um

curso massivo no âmbito de um grupo educacional privado com mais de 180.000 matrículas.

Foram considerados na etapa de mineração de dados novamente algoritmos apropriados para

uso em contextos educacionais, principalmente árvore de decisão e agrupamento. Após os

experimentos, foram descobertos conhecimentos que podem ser úteis para os professores e

gestores do curso, para atender prioritariamente grupos de alunos com dificuldades em

acompanhar o curso.

Os dois últimos artigos trataram de experiências com classificação e agrupamento aplicados

em bases de dados de cursos que já estavam encerrados. O conhecimento obtido a partir

dessas aplicações pode ser útil para os gestores repensarem suas estratégias para os próximos

cursos. Por exemplo, em relação aos 4.326 alunos reprovados no curso massivo, foi

identificado um mesmo padrão de comportamento em 2531 (58,5%) alunos que realizaram

apenas a primeira atividade (AS_I) e em 829 alunos (19,16%) que realizaram apenas as duas

primeiras atividades e interromperam o curso.

A análise sugere baixo nível de engajamento-interesse por parte desses alunos sendo

oportuno que para as próximas edições do curso, os gestores pudessem atuar de forma

antecipada.

Outro viés que merece destaque, do ponto de vista da gestão, diz respeito às estratégias ou

itens de avaliação, afinal, foram mais de 94% de aprovação o que não é comum para cursos

com essas características.

Em um curso a distância tradicional, a tutoria exerce papel importante no contato com os

alunos, já que consegue interagir e perceber algumas situações inerentes ao processo de

ensino e aprendizagem. No contexto de cursos massivos, ainda que houvesse a figura do

tutor, as análises seriam limitadas, em virtude da grande quantidade de dados gerados pelo

ambiente virtual de aprendizagem.

Nos cursos massivos, o uso dos recursos da MDE configura-se como uma ação relevante e

absolutamente útil, para se compreender o ponto de vista dos alunos, suas principais

características e comportamentos, como aprendem e quais as suas dificuldades.

133

No caso da gestão dos cursos massivos, essa questão da tutoria para todos os alunos torna-se

inviável economicamente, em razão do número de tutores necessários para atender, por

exemplo, mais de 180.000 alunos. Desse modo, os recursos de tutoria poderiam ser revertidos

onde são mais necessários e para aqueles alunos que precisam de mais atenção. Conhecendo

o comportamento de determinados grupos de alunos, os professores e gestores poderiam

enviar mensagens específicas ou propor atividades específicas e direcionadas para cada grupo

de alunos, por exemplo, num grupo com baixo desempenho acadêmico e risco de abandonar

o curso, os tutores poderiam sugerir atividades de nivelamento ou reforço de conteúdos.

O presente estudo ocupou-se de analisar dados de cursos já encerrados, contudo, para

aumentar a efetividade, do uso das técnicas da MDE poderia-se criar um sistema de alertas

para diagnóstico precoce e encaminhamento de intervenções durante o decorrer do curso,

para que professores e gestores, a partir das regras geradas pelos algoritmos de MDE,

pudessem identificar aqueles alunos em dificuldades ou risco de abandonar o curso. Os

responsáveis pelos cursos seriam orientados a atuar de maneira antecipada, enviando

mensagens de acordo com os alertas recebidos pelo sistema para grupos específicos de

alunos.

Em termos de trabalhos futuros e complementares ao desenvolvido nesta tese, em primeiro

lugar, seria relevante destacar a necessidade de utilização dessas técnicas de MDE em um

processo que envolva outros fatores não puramente acadêmicos. No processo aplicado aos

dois cursos, foram considerados apenas atributos relativos ao desempenho acadêmico dos

alunos. Para uma solução mais ampla, seria necessário promover a integração de dados de

outras fontes, como dados financeiros, por exemplo. Afinal os alunos não abandonam um

curso, exclusivamente, em função de problemas acadêmicos, questões financeiras - nas IES

privadas - são justificativas para trancamento de cursos bastantes presentes.

Em segundo lugar, é preciso dar atenção aos fóruns de discussão. Nesta tese foi realizada

uma análise superficial dos quatro fóruns de discussão. Contudo, dado o volume de texto

presente em fóruns com milhares de participações de alunos, seria importante como trabalho

futuro, aplicar mineração de textos para uma análise qualitativa, com o objetivo de identificar

informações úteis e implícitas que, normalmente, não poderiam ser recuperadas com métodos

tradicionais.

134

6 REFERÊNCIAS BIBLIOGRÁFICAS

ALRAIMI, K. M.; ZO, H.; CIGANEK, A. P. Understanding the MOOCs continuance:

The role of openness and reputation. Computers & Education, v.80,. 28-38. 2015

ANDERSON, T.; MCGREAL, R. Disruptive Pedagogies and Technologies in

Universities. Educational Technology & Society, v.15, n. 4,. 380-389, 2012.

APARICIO, M.; BACAO, F.; OLIVEIRA, T. MOOC's business models: turning black

swans into gray swans. Proceedings of the International Conference on Information Systems

and Design of Communication. Lisboa: ACM - Association for Computing Machinery. p. 45-

49, 2014.

ARIMOTO, M. M. B.; BARBOSA, E. F. Recursos Educacionais Abertos: Aspectos de

desenvolvimento no cenario brasileiro. Computação Brasil - Revista da SBC, v. 2, n. 12, p.

17-21, 2014.

ATENAS, J. Model for democratisation of the contents hosted in MOOCs. Revista de

Universidad y Sociedad del Conocimiento, v. 12, n. 1, p. 3-14, 2015.

ATKINS, D. E.; BROWN, J. S.; HAMMOND, A. L. A review of the open educational

resources (OER) movement: Achievements, challenges, and new opportunities. Menlo

Park, CA, p. 1-84. 2007.

BAKER, R. S. J. D. et al. Panel: educational data mining meets learning analytics.

In: Proceedings Of International Conference On Learning Analytics & Knowledge. 2012.

BAKER, R. S. J.; ISOTANI, S.; DE CARVALHO, A. M. J. B. Mineração de dados

educacionais: oportunidades para o Brasil. Revista Brasileira de Informática na Educação,

v.19, n. 2, p. 1-12, 2011.

BATES, A. W. Educar na Era Digital: design, ensino e aprendizagem. São Paulo:

Artesanato Educacional / ABED, 2016.

BATURAY, M. H. An overview of the world of MOOCs. Procedia - Social and Behavioral

Sciences, v. 174, p. 427-433, 2015.

BENLAMRI, R.; KLETT, R. Emerging trends for open access learning. Research and

Practice in Technology Enhanced Learning, v. 10, n. 1, p. 1-7, 2015.

BURGE, J. Insights into teaching and learning: Reflections on MOOC experiences.

In: Proceedings of the 46th ACM Technical Symposium on Computer Science Education.

ACM, p. 600-603, 2015.

CABERO ALMENARA, J.; LLORENTE CEJUDO, M. D. C.; VÁZQUEZ MARTÍNEZ, A.

I. Las tipologías de MOOC: su diseño e implicaciones educativas. Revista de curriculum y

formación del profesorado, v. 18, n. 1, p. 13-26, 2014.

135

CAMPAGNI, R. et al. Data mining models for student careers. Expert Systems with

Applications, v.42, n.13, p. 5508-5521, 2015.

CHATTI, M. A. et al. A reference model for learning analytics. International Journal of

Technology Enhanced Learning, v. 4, n. 5-6, 2012. 318-331.

CHAUHAN, A. Massive open online courses (MOOCS): Emerging trends in assessment

and accreditation. Digital Education Review, v.25, 2014. 7-17.

CLOW, D. The learning analytics cycle: closing the loop effectively. In Proceedings of the

2nd international conference on learning analytics and knowledge. Vancouver - Canadá:

ACM.. p. 134-138, 2012.

COFFRIN, C. et al. Visuzalizing patterns of student engagement and performance in

MOOCs. Proceedings - LAK2014 - Learning Analytics and Knowledge. Indianapolis, USA:

2014.

COMBÉFIS, S.; BIBAL, A.; VAN ROY, P. Recasting a Traditional Course into a MOOC

by Means of a SPOC. In: Proceedings of the European MOOCs Stakeholders Summit.

Lausanne (Switzerland),. p. 205-208, 2014.

COOPER, S.; SAHAMI, M. Reflections on Stanford’s MOOCs. New possibilities in

online education create new challenges. Communications of the ACM, v. 56, n. 2, p. 28-30,

2013. ISSN DOI:10.1145/2408776.2408767.

COSTA, E.; BAKER, R.S.J.; AMORIM, L.; MAGALHÃES, J.; MARINHO, T. Mineração

de Dados Educacionais: Conceitos, Técnicas, Ferramentas e Aplicações. Jornada de

Atualização em Informática na Educação, v. 1, n. 1, p. 1-29, 2013.

COURSERA. Coursera, 2016. Disponivel em: <https://pt.coursera.org/>. Acesso em: 10 fev.

2016.

DALSGAARD, C.; K., T. Dimensions of Openness: Beyond the Course as an Open

Format in Online Education. The International Review of Research in Open and

Distributed Learning, v.6, n. 16, 2015.

DANIEL, J. Making Sense of MOOCs: musing in a maze of myth, paradox and

possibility. Journal of Interactive Media in Education, v. 2012, n.13, p. 1-20, 2012.

DILLENBOURG, P. et al. Massive Open Online Courses: Current state and

perspectives. Dagstuhl Perspectives Workshop 14112, v.4, n.1, p. 1-27, 2014.

DE CASTRO, L. N.; FERRARI, D. G. Introdução à Mineração de Dados. São Paulo:

Saraiva, 2016.

DEJAEGER, K. et al. Gaining insight into student satisfaction using comprehensible

data mining techniques. European Journal of Operational Research, v. 218, n. 2, p. 548-562,

2012.

136

ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. 6a. ed. São Paulo: Pearson

Addison Wesley, 2011.

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The KDD process for extracting

useful knowledge from volumes of data. Communications of the ACM, v.39, n. 11, p. 27-

34, 1996.

FERREIRA, S. A.; ANDRADE, A. Academic analytics: Mapeando o genoma da

Universidade. VAEP-RITA, v.1, n.3, p. 167-174, 2013.

FERGUSON, R.; CLOW, D. Examining engagement: analysing learner subpopulations

in massive open online courses (MOOCs). In: Proceedings of the Fifth International

Conference on Learning Analytics And Knowledge. Poughkeepsie, NY: ACM - Association

for Computing Machinery, p. 51-58, 2015.

FILVÀ, D. A.; GUERRERO, M. J. C.; FORMENT, M. A. The effects of massiveness on

the participation in social technologies: a MOOC in secondary education. In Proceedings

of the Second International Conference on Technological Ecosystems for Enhancing

Multiculturality. [S.l.]: ACM, p. 397-402, 2014.

FINI, A. The Technological Dimension of a Massive Open Online Course: The Case of

the CCK08 Course Tools. International Review of Research in Open and Distance Learning,

v.10, n.5, 2009.

FINKLE, T. A.; MASTERS, E. Do MOOCs pose a threat to higher education? Research

in Higher Education Journal, v.26, p. 1-10, 2014

FOX, A. From MOOCs to SPOCs. Communications of the ACM, v. 56, n. 12, p. 38-40,

2013.

GENÉ, O. B.; NUNES, M. M.; BLANCO, A. F. Gamification in MOOC: Challenges,

Oportunities and Proposal for Advancing MOOC Model. TEEM 2014 - Proceedings of

the Second International Conference on Technological Ecosystem for Enhancing

Multiculturality (ACM). Salamanca, Espanha, p. 215-220, 2014.

GERREIRO, D. S. MOOCs: Introdução à discussão. Computação Brasil - Revista da SBC,

p. 30-36, 2013.

GOLDSCHMIDT, R.; PASSOS, E; BEZERRA, E. Data mining: conceitos, técnicas,

algoritmos, orientações e aplicações. Rio de Janeiro: Elsevier, 2015.

GONÇALVES, V.; GONÇALVES, B. M. F. Avaliação de plataformas para criação e

distribuição de MOOC para a formação contínua de professores. International

Conference on Innovation Documentation and Teaching Technologies. Valência, Espanha:

Universidad Politecnica de Valencia. p. 1-11, 2015.

HALL, M. et al. The WEKA data mining software: an update. ACM SIGKDD

explorations newsletter, v.11, n. 1, p.10-18, 2009.

137

HAN, J.; PEI, J.; KAMBER, M. Data mining: concepts and techniques. Waltham, MA:

Elsevier, 2011.

HEW, K. F.; CHEUNG, W. S. Students and Instructors use of massive open online

courses (MOOCs): motivations and challenges. Educacional Research Review, v.12, p. 45-

58, 2014.

HOOD, N.; LITLEJOHN, A.; MILLIGAN, C. Context counts: How learners context

influence learning in a MOOC. Computers & Education, v. 91, p. 83-91, 2015.

HYMAN, P. In the Year of Disruptive Education. Communications of the ACM, v. 55, n.

12, p. 20-22, 2012.

JACOBY, J. The disruptive potential of the Massive Open Online Course: A literature

review. Journal of Open, Flexible and Distance Learning, v.18, p. 73-85, 2014.

JORDAN, K. Initial Trends in Enrolment and Completion of Massive Open Online

Courses. The International Review of Research in Open and Distance Learning, v.15, n.1, p.

133-160, 2014.

JORDAN, K. Massive Open Online Course Completion Rates Revisited: Assessment,

Length and Attrition. The International Review of Research in Open and Distributed

Learning, v.16, n. 3, 2015.

KAMPFF, A. J. C. Mineração de dados educacionais para geração de alertas em

ambientes virtuais de aprendizagem como apoio à prática docente. Tese de Doutorado -

UFRGS, 2009.

KAPLAN, A. M.; HAENLEIN, M. Higher education and the digital revolution: about

MOOCs, SPOCs, social media, and the cookie monster. Business Horizons, n. 59, p. 441-

450, 2016.

KAY, J. et al. MOOCs: So many learners, so much potential. IEEE Intelligent Systems, v.

52, n. 1, p. 49-67, 2013.

KENNEDY, J. Characteristics of Massive Open Online Courses (MOOCs): A research

review, 2009-2012. Journal of Interactive Online Learning, v.13, n.1, p. 1-16, 2014.

KESIM, M.; ALTINPULLUK, H. A theoretical analysis of MOOCs types from a

perspective of learning theories. Procedia-Social and Behavioral Sciences, v. 186, p. 15-19,

2015.

LAUDON, K.; LAUDON, J. Sistemas de Informações Gerenciais. 9ª. ed. São Paulo:

Pearson - Prentice Hall, 2010.

LIÑÁN, L. C.; PÉREZ, A. A. J. Educational Data Mining and Learning Analytics:

differences, similarities, and time evolution. Revista de Universidad y Sociedad del

Conocimiento, v.12, n. 3, p. 98-112, 2015.

138

LITTLE, G. Massively Open? The Journal of Academic Librarianship, v. 39, p.308-309,

2013.

LIYANAGUNAWARDENA, T. R. et al. Developing government policies for distance

education: Lessons learnt from two Sri Lankan Case Studies. International Review of

Educational, v. 60, n.6, p. 1-19, 2014.

MANHÃES, L. M. B. Predição do desempenho acadêmico de graduandos utilizando

mineração de dados educacionais. Tese de doutorado - Universidade Federal do Rio de

Janeiro, 2015.

MARTINS, R. A. Abordagens Quantitativa e Qualitativa. In: CAUCHICK, M. P. A.

Metodologia de pesquisa para engenharia de produção e gestão. Rio de Janeiro: Elsevier,

Abepro, 2012.

MIT. Massachussets Institute of Technology - MIT. MIT OPENCOURSEWARE, 2016.

Disponivel em: <http://ocw.mit.edu/about/our-history/>.

MUÑOZ-MERINO, P. J. et al. Precise Effectiveness Strategy for Analyzing the

Effectiveness of Students. Computer in Human Behavior, v.47, p. 108-118, 2015.

NANFITO, M. MOOCs: Opportunities, impacts, and challenges: massive open online

courses in colleges and universities. Createspace - Amazon, 2014.

NATEK, S.; ZWILLING, M. Student data mining solution–knowledge management

system related. Expert Systems with Applications, v.41, n.14, p. 6400-6407, 2014.

NAWROT, I.; DOUCET, A. Building engagement for MOOC students: introducing

support for time management on online learning platforms. In Proceedings of the

companion publication of the 23rd international conference on World wide web companion.

Seoul, Korea: ACM., p. 1077-1082, 2014.

OLMOS, M. M.; CORRIN, L. Learning analytics: A case study of the process of design of

visualizations. Journal of Asynchronous Learning Network, v.16, n. 3, p.39-49, 2012.

ONG, B. S.; GRIGORYAN, A. MOOCs and Universities: Competitors or Partners?

International Journal of Information and Education Technology, v. 5, n. 5, p. 373-376, 2014.

OPEN EDUCATION EUROPA. (2015). European MOOCs Scoreboard. Acesso em 23 de

setembro de 2015, disponível em The European MOOCs Scoreboard:

http://openeducationeuropa.eu/sites/default/files/images/scoreboard/Scoreboard_SEPTEMBE

R_2015.png

PAPPANO, L. The Year of the MOOC. The New York times, v. 2, n. 12, 2012.

PARDO, A.; KLOOS, C. D. Stepping out of the box: towards analytics outside the

learning management system. In Proceedings of the 1st International Conference on

Learning Analytics and Knowledge. Banff, Canada: ACM., p. 163-167, 2011.

139

PIEDRA, N. et al. Seeking Open Educational Resources to Compose Massive Open

Online Courses in Engineering Education An Approach based on Linked Open Data.

Journal of Universal Computer Science, v. 21, n. 5, p. 679-711, 2015.

POMEROL, J. C.; EPELBOIN, Y.; THORY, C. MOOCs: Design, Use and Business

Models. New Jersey: John Wiley & Sons, 2015.

PRODANOV, C. C.; FREITAS, E. C. Metodologia do Trabalho Científico: Métodos e

Técnicas da Pesquisa e do Trabalho Acadêmico. 2ª. ed. Novo Hamburgo - RS: Editora

Feevale, 2013.

RAPIDMINER Studio, 2016. Disponivel em: <https://rapidminer.com/>.

RIFKIN, J. Sociedade com custo marginal zero. São Paulo: M. Books, 2016.

RODRIGUES, R. L. et al. A literatura brasileira sobre mineração de dados educacionais.

In: Anais dos Workshops do Congresso Brasileiro de Informática na Educação, p. 621, 2014.

RODRIGUEZ, O. MOOCs and the AI-Stanford like courses: Two successful and distinct

course formats for Massive Open Online Courses. The European Journal of Open Distance

and E-Learning, v.15, n.2, p. 1-13, 2012.

ROMERO, C.; VENTURA, S. Educational Data Mining: A Review of the state of the art.

IEEE Transactions Systems, Man, and Cybernetics, Part C: Applications and Reviews. v. 40,

n. 6, p. 601-618, 2010.

ROMERO, C.; VENTURA, S. Data mining in education. Wiley Interdisciplinary Reviews:

Data Mining and Knowledge Discovery, v. 3, n. 1, p. 12-27, 2013.

SAADATMAND, M.; KUMPULAINEN, K. Participants Perceptions of Learning and

Networking in Connectivism MOOCs. MERLOT Journal Online Learning and Teatching,

v. 10, n.1, p. 16-30, 2014.

SA'DON, N. F.; ALIAS, R. A.; OHSHIMA, R. Nascent research trends in MOOCs in

higher educational institutions: A systematic literature review. In Web and Open Access

to Learning (ICWOAL). On IEEE., p. 1-4, 2014.

SANCHEZ-GORDON, S.; LUJÁN-MORA, S. MOOCs gone wild. Proceedings of

INTED2014 Conference, pp. 1449-1458, Valencia, Espanha, 2014.

SANDEEN, C. Integrating MOOCs into Traditional Higher Education: The emerging

"MOOC 3.0" Era. The Magazine of Higher Learning, v. 45, n. 6, p. 34-39, 2013..

SANTANA, B.; ROSSINI, C.; PRETTO, N. D. L. Recursos Educacionais Abertos:

praticas colaborativas e políticas públicas.. 1ª. ed. São Paulo/Salvador: Edufba; Casa da

Cultura Digital, 2012.

140

SANTOS, F. D. Descoberta do desânimo de alunos em ambientes virtuais de ensino e

aprendizagem: um modelo a partir da mineração de dados educacionais.. Tese de

Doutorado - UFRGS, 2016.

SCORTEGAGNA, L.; DA SILVEIRA, L. Massive Open Online Course (MOOC) na

Educação Matemática: Possibilidades. XXV Seminário de Investigação em Educação

Matemática, (pp. 449-452). Braga - Portugal, 2014.

SHAH, D. By The Numbers: MOOCS in 2015. Class Central, 2016. Disponivel em:

<https://www.class-central.com/report/moocs-2015-stats/>. Acesso em: 26 setembro 2016.

SIEMENS, G. MOOCs are really a platform. Elearnspace, 2012. Disponivel em:

<http://www.elearnspace.org/blog/2012/07/25/moocs-are-really-a-platform/>. Acesso em: 12

junho 2015.

SIEMENS, G.; LONG, P. Penetrating the Fog: Analytics in Learning and Education.

Educase Review, v.46, n. 5, p. 30-40, 2011.

SILVA, L. A.; PERES, S. M.; BOSCARIOLI, C. Introdução à Mineração de Dados. Com

aplicações em R. Rio de Janeiro: Elsevier, 2016.

SINGH, S.; KUMAR, V. Classification of student’s data using data mining techniques

for training & placement department in technical education. International Journal of

Computer Science and Network, v. 1, n. 4, p. 121-126, 2012.

SMITH, V. C.; LANGE, A.; HUSTON, D. R. Predictive Modeling to Forecast Student

Outcomes and Drive Effective Interventions in Online Community College Courses.

Journal of Asynchronous Learning Networks, v.16, n. 3,. p.51-67, 2012.

STAIR, R. M.; REYNOLDS, G. W. Princípios de Sistemas de Informação. 11ª. ed. São

Paulo: Cengage Learning, 2015.

TANEJA, S.; GOEL, A. MOOC Providers and their Strategies. International Journal of

Computer Science and Mobile Computing, v. 3, n. 5, p. 222-228, 2014.

TURRIONI, J. B.; MELLO, C. H. P. Pesquisa-ação na Engenharia de Produção. In:

CAUCHICK, M. P. A. Metodologia de pesquisa para engenharia de produção e gestão de

operações. Rio de Janeiro: Elsevier, Abepro, 2012.

TUTEJA, G. S. Need in Management Education. International Journal of Innovative

Research and Development, v.3, n. 11, p. 183-188. 2014.

VARDI, M. Y. Will MOOCs destroy academia? Communications of the ACM, v. 55, n. 11,

p. 5, 2012.

VEDUCA. Veduca Pra Você, 2017. Disponivel em: <https://veduca.org/>. Acesso em: 10

mar. 2017.

141

WEILAND, S. Open Educational Resources: American Ideals, Global Questions. Global

Education Review, v. 2, n. 3, p. 4-22, 2015.

WELSH, D. H. B.; DRAGUSIN, M. The New Generation of Massive Open Online Course

(MOOCS) and Entrepreneurship Education. Small Business Institute Journal, v. 9, n. 1, p.

51-65, 2013.

WILEY, D. A.. The access compromise and the 5th R. Acesso em: 27 de abril de 2016,

disponível em: http://opencontent.org/blog/archives/3221, 2014.

WILKOWSKI, J.; DEUTSCH, A.; RUSSELL, D. M. Student Skill and Goal Achievement

in the Mapping with Google MOOC. L@S 2014 - Student Skills and Behavior. Atlanta,

Georgia, USA.: ACM.. p. 3-10, 2014.

WULF. J. et al. Massive Open Online Courses. Business Information System &

Engineering, v. 6, n. 2, p. 111-114, 2014.

XING, W. et al. Temporal predication of dropouts in MOOCs: Reaching the lowhanging

fruit through stacking generalization. Computers in Human Behavior, v. 58, p. 119-129,

2016.

YEAGER, C.; HURLEY-DASGUPTA, B.; BLISS, C. A. cMOOCs and Global Learning:

An Authentic Alternative. Journal of Asynchronous Learning Networks, v.17, n. 2, p. 133-

147, 2013.

YOU, J. W. Identifying significant indicators using LMS data to predict course

achievement in online learning. The Internet and Higher Education, v.29, p. 23-30, 2016.

YOUSEF, A. M. F. et al. MOOCs. A Review of the State-of-the-Art. CSEDU 2014-6th

International Conference on Computer Supported Education, p. 9-20, 2014.

YUAN, L; POWELL, S. MOOCs and open education: Implications for higher education.

A White Paper. JISC Cetis, 2013. Disponível em: http://publications.cetis.org.uk/2013/667.

Acesso em: 13 de março de 2016.

YUAN, L; POWELL, S. Partnership Model for Entrepreneurial Innovation in Open

Online Learning. eLearning Papers, n.41, 2015.

ZHANG, M. et al. Educational Evaluation in the PKU SPOC Course "Data Structures

and Algorithms. In Proceedings of the Second (2015) ACM Conference on Learning@

Scale. Vancouver, Canadá: ACM - Association for Computing Machinary., p. 237-240, 2015.

ZUTSHI, S.; O´HRE, S.; RODAFINOS, A. Experiences in MOOCs: The Perspective of

Students. American Journal of Distance Education, v.27, n.4, p.218-227, 2013.