Modelo de Regressão Linear aplicado à previsão de desempenho de estudantes em ambiente de...
-
Upload
rodrigo-rodrigues -
Category
Education
-
view
685 -
download
5
description
Transcript of Modelo de Regressão Linear aplicado à previsão de desempenho de estudantes em ambiente de...
Modelo de Regressão Linear aplicado à Modelo de Regressão Linear aplicado à previsão de desempenho de estudantes em previsão de desempenho de estudantes em
ambiente de aprendizagemambiente de aprendizagem
Autores: Rodrigo Lins Rodrigues ([email protected]) Francisco P. A. de Medeiros
([email protected]) Alex Sandro Gomes ([email protected])
Sumário
• Introdução•Objetivos•Trabalhos relacionados•Conceitos fundamentais•Realização do experimento•Considerações finais
2
Os ambientes virtuais de aprendizagem possibilitam a geração de grande quantidade de dados;
Predição de desempenho em algo rotineiro no ensino presencial, mas pouco explorado no ensino a distância;
Extrair informações relevantes que auxiliem a gestão da aprendizagem e viabilizem o acompanhamento efetivo de estudantes é um desafio;
Diversos trabalhos vem sendo desenvolvidos a partir de técnicas de mineração de dados educacionais para fins de tomada de decisão;
Introdução
3
O objetivo deste trabalho foi investigar a viabilidade da utilização do modelo de regressão linear para a obtenção de inferências em etapas iniciais da realização de cursos online, como forma de apoiar a tomada de decisão por parte de professores e gestores.
Identificar comportamento do grupo e possibilitar o replanejamento por parte do professor;
Encontrar padrões e modelos comportamentais que contribuam para oferecer princípios de desenvolvimento que possam ser aplicados para criar interfaces inteligentes;
ObjetivoGeral
Específicos
4
Há na literatura trabalhos que associam a relação entre o nível de interação dos participantes de cursos online com indicadores de desempenho acadêmico.
•Picciano (2002) observou uma correlação entre interações e aprendizagem e concluiu que esse desempenho e o sucesso de um curso dependem da habilidade de interagir dos participantes;
•Russo e Benson (2004) encontraram uma correlação significativa entre o desempenho dos estudantes e a percepção da própria presença social online;
•Watson (2008) associa às interações em ferramentas assíncronas com o potencial de engajamento dos alunos em cursos online;
Trabalhos relacionados
5
Conceitos fundamentais
6
Interação
Diversas taxonomias foram propostas ao longo das últimas décadas:
Moore (1989) descreveu três formas de interação em educação à distância: interação entre o professor e o estudante, interação entre os estudantes e interação entre o estudante e o conteúdo;
Johnson et al. (2010) enfatiza a importância das interações online na melhoria dos resultados de aprendizagem.
Conceitos fundamentais
7
Mineração de Dados Educacionais (EDM)
Nos últimos anos uma nova área de aplicação, chamada de Mineração de Dados na Educação surgiu como uma nova área de pesquisa visando dois objetivos principais [Romero e Ventura, 2006]:
(a) entender melhor o estudante com base em sua interação com os sistemas usados;
(b) entender as configurações e características que levam ao aprendizado;
Conceitos fundamentais
8
• Em um modelo de regressão, geralmente a variável resposta é afetada por várias variáveis;
• Então, analisamos Y como função apenas das K primeiras variáveis, sendo que permanece um erro (ou resíduo), devido a não utilização dasoutras m variáveis.
50
55
60
65
70
75
80
85
90
95
100
150 160 170 180 190
Altura (cm)
Pe
so
(k
g)
1 2 1( , ,..., , ,..., )k k k mY f X X X X X
Conceitos fundamentaisRegressão Linear
9
Se apenas uma variável explicativa é observada, temos:
Os erros também podem ser devido a erros obtidos no processo de Mensuração da variável dependente.
Assim, o modelo ficaria:
1 2( , ,..., )i i i ki iY f X X X 1,2,...,i n
( )i i iY f X
O modelo de regressão linear é composto por:
Conceitos fundamentais
Regressão Linear
10
1. Determinar como duas variáveis se relacionam;
2. Estimar a função que determina a relação entre as variáveis;
3. Usar a equação ajustada para prever valores da variável dependente.
i i iY X Modelo de Regressão Linear Simples
Conceitos fundamentais
Regressão Linear
11
Inclinaçãopopulacional
Interceptopopulacional Erro Aleatório
Variável Independente
Variável Dependente
X
Y
Coeficienteangular
i i iY X
i} ( ) iE Y x Regressão Linear Simples
Conceitos fundamentais
12
O coeficiente de determinação ou simplesmente . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra.
2R
Definimos o coeficiente de determinação ou explicação do modelo, que é dado por:
2 SQreg bSxyR
SQtot Syy
O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste.
20 1R 2R
Conceitos fundamentais
13
Análise de Variância
2;1~QMRes
QMReg nFF 0:H
0:H
11
10
se H0 verdadeiro (Não existe relação linear)
se H0 falso (existe relação linear)
Conceitos fundamentais
14
Disciplina de Jogos Educacionais da graduação em Licenciatura em Computação da UFRPE;
O curso contou com a participação de 98 alunos do sétimo período na modalidade de EAD;
A disciplina teve duração de dois meses durante o primeiro semestre de 2013;
Dentre os módulos que foram abordados:
Semana 1 - Nativos digitais, Geração Y e imigrantes digitais Semana 2 - Estilos de aprendizagem Semana 3 - Design de jogos educacionais Semana 4 - Projeto conceitual e fundamentos de Game Design Semanas 5 e 6 - Implementação de jogos.
Realização do experimento
15
Durante a disciplina diversos artefatos de interação foram utilizados, tais como: utilização de fóruns, vídeo-aulas, material em texto, disponibilização de slides e envio de atividades;
Processo de avaliação e construção da variável resposta:
Primeira unidade foi composta por três atividades virtuais e uma prova escrita presencial;
Segunda unidade foi composta por duas atividades virtuais e uma prova escrita;
O desempenho (variável resposta) foi calculado através da média das duas unidades.
Realização do experimento
16
Realização do experimentoVariáveis Sobre
Desemp_final
Esta variável foi composta por dados das 5 atividades virtuais e das duas provas presenciais, totalizando uma média representativa do desempenho final do aluno.
Int_forum_sem1, Int_forum_sem2, Int_forum_sem2, Int_forum_sem4,
Int_forum_sem5,
Esta variável foi composta pelo somatório das quantidades de interações nos seis fóruns disponibilizados na disciplina durante todo o curso.
Vídeo_sem1, Vídeo_sem2, Vídeo_sem3 Vídeo_sem4, Vídeo_sem5, Vídeo_sem6
Essa variável foi composta pelo somatório das quantidades de interações nas vídeo aulas disponibilizadas pelo professor da disciplina.
Mat_sem1, Mat_sem2, Mat_sem3, Mat_sem4, Mat_sem5, Mat_sem6
Esta variável foi composta através dos dados de acesso dos materiais em formato de textos, apostilas disponibilizadas para leitura.
Ppt_sem1, Ppt_sem2, Ppt_sem3, Ppt_sem4, Ppt_sem5, Ppt_sem6
Variável que mostra a quantidade de acesso ao material do tipo slide.
Media_horas_acesso Esta variável foi composta pela hora média que os alunos costumam acessar o ambiente virtual.
17
Realização do experimentoMeta Dados
18
No estudo tivemos como variável dependente o desempenho final do aluno na disciplina (média final) e como variáveis independentes:
(1) media da quantidade de interações em fóruns (MediaIntForum), (2) média das interações com vídeo-aulas (MediaIntVideo), (3) média das interações com textos (MediaIntMat) (4) média das interações com slides em formato .ppt (MediaIntPtt).
Ao aplicarmos os testes de normalidade foi verificado que apenas a variável (MediaIntForum ) segue uma distribuição normal
Realização do experimento
Variável Resultado do teste Shapiro-Wilks
MediaIntForum p-value = 0.1886MediaIntVideo p-value = 0.0003031MediaIntMat p-value = 0.000419MediaIntPtt p-value = 0.01826
Teste do pressuposto de normalidade
19
Realização do experimento
Verificando o ajuste do modelo linear múltiplo
Call:lm(formula = Desemp_Final ~ MediaIntForum + MediaIntVideo + MediaIntMat + MediaIntPtt)
Residuals: Min 1Q Median 3Q Max -35.602 -11.216 3.434 9.384 25.975
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 16.2680 3.8052 4.275 5.29e-05 ***MediaIntForum 3.7069 0.2966 12.499 < 2e-16 ***MediaIntVideo 1.1275 2.7798 0.406 0.686 MediaIntMat -1.7159 2.4482 -0.701 0.485 MediaIntPtt -2.2358 2.6594 -0.841 0.403 ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
20
> dados <- lm(Desemp_Final~MediaIntForum)> dadosReg Call: lm(formula = Desemp_Final ~ MediaIntForum) Coefficients:
(Intercept) MediaIntForum
13.110 3.626
• Estimando o modelo linear (lm())
Como podemos observar, apenas a variável MediaIntForum obteve um resultado satisfatório quanto ao teste de normalidade;
Abaixo temos o modelo de regressão simples que mostra a inclinação da reta de regressão ajustada na relação entre as duas variáveis.
Realização do experimento
21
Gráfico de dispersão
> plot <- (Desemp_Final~MediaIntForum)
Realização do experimento
22
Teste de significância (summary)
> summary(dadosReg)Call:lm(formula = Desemp_Final ~ MediaIntForum)Residuals: Min 1Q Median 3Q Max -38.491 -10.284 2.693 10.095 25.416 Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) 13.1097 3.3396 3.926 0.000179 ***MediaIntForum 3.6259 0.2653 13.668 < 2e-16 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '
Residual standard error: 14.04 on 82 degrees of freedomMultiple R-squared: 0.795, Adjusted R-squared: 0.7912 F-statistic: 186.8 on 1 and 82 DF, p-value: < 2.2e-16
Realização do experimento
23
Análise de resíduos
•possibilitou a verificação das premissas do modelo;
•(Residuals vs Fitted) correspondeu aos resíduos comparados aos valores preditos pelo modelo;
•(normal Q-Q plot) mostrou o gráfico de quantis para os resíduos, no qual foi possível verificar a normalidade dos resíduos.
Realização do experimento
24
• Podemos afirmar que o modelo linear simples explicou a relação entre dados de interação via fórum e o desempenho dos alunos;
• Podemos ainda afirmar, com uma confiança de 95%, que 79,12% dos alunos que interagem via fórum de discussão, a medida que aumenta a quantidade de interação, tende a aumentar o despenho acadêmico;
• Este resultado é satisfatório, se pensarmos que podemos aplicar modelos desta natureza para desenvolver sistemas que possam prever a proporção de alunos que terão desempenhos satisfatórios em um curso, baseado nas suas interações iniciais;
• Como trabalhos futuros pretendemos aplicar uma modelagem envolvendo mais de uma variável independente e modelos não lineares, utilizando a análise de regressão linear generalizada;
Considerações finais
25