Como estratégia utilizada para a seleção de atributos no trabalho, é proposta a utilização incremental dos atributos a fim de investigar a influência individual que cada conjunto deles (partição) possui na evasão de um aluno.
Denominamos “partição” uma escolha particular de atributos utilizados na construção dos modelos preditivos propostos. Acreditamos que a construção dos modelos preditivos considerando diversas possibilidades de atributos pode resultar em regras potencialmente úteis no contexto educacional. A justificativa para a proposição do critério de partições na seleção dos atributos foi realizada a partir de resultados preliminares da aplicação de um modelo preditivo a partir da utilização conjunta dos atributos das médias nas disciplinas de um período e o CRE naquele período, onde foram obtidas regras com bons desempenhos preditivos, mas que não retratavam a influência direta das disciplinas. Já com a utilização separada, foram descobertas regras com desempenhos preditivos próximos, mas que mostravam diretamente a influência de cada disciplina na evasão de um aluno.
A ideia da utilização da partição veio da constatação de experimentos realizados de que com a geração de regras com todos os atributos leva, na maioria das vezes, o modelo preditivo a encontrar apenas regras baseadas nos atributos que possuem os maiores ganhos de informação, deixando de lado atributos com menores ganhos de informação, mas que fornecem regras tão boas quanto.
No Quadro 1 é mostrado um dos exemplos que motivaram a proposta das partições no presente trabalho. Foi aplicado o algoritmo JRIP no Modelo Curso Balanceado do primeiro período com 930 instâncias (465 alunos graduados e 465 alunos evadidos) considerando os atributos médias das disciplinas, situações das disciplinas e CRE do primeiro período (cre_p1), conforme Quadro 1. A cobertura obtida da regra 1 foi de (326/930) de 35,1%, a cobertura da regra 2 foi de (8/930) que resulta em 0,8%, a cobertura da regra 3 foi de (20/930) que resulta em de 2,2% e a cobertura da regra 4 foi de (19/930) que resulta em 2%. Neste exemplo, foi verificado que o atributo CRE possui grande influência na evasão de um aluno, fazendo com que os atributos relacionados com as médias das disciplinas ficassem escondidos ou com regras com coberturas baixas como evidenciado nas regras 2,3
Quadro 1 – Algoritmo JRIP aplicado com a inclusão do atributo CRE JRIP rules:
===========
(cre_p1 <= 457) => evasao_forma=EVASAO (326.0/15.0) (REGRA 1)
(cre_p1 <= 569) and (media_d2 <= 380) => evasao_forma=EVASAO (8.0/1.0) (REGRA 2) (cre_p1 <= 700) and (media_d6 <= 624) => evasao_forma=EVASAO (20.0/5.0) (REGRA 3) (cre_p1 <= 700) and (media_d4 >= 470) and (media_d5 <= 550) => evasao_forma=EVASAO (19.0/4.0) (REGRA 4)
=> evasao_forma=GRADUACAO (557.0/117.0) (REGRA 5)
Fonte: o autor (2015)
Já a aplicação deste mesmo algoritmo JRip, considerando apenas as médias das disciplinas e situações das disciplinas (excluído o atributo cre_p1), produz as regras mostradas no Quadro 2.
Quadro 2 – Algoritmo JRIP aplicado sem a inclusão do atributo CRE JRIP rules:
===========
(media_d6 <= 624) => evasao_forma=EVASAO (330.0/19.0) (REGRA 1)
(media_d1 <= 540) and (media_d2 <= 570) => evasao_forma=EVASAO (34.0/9.0) (REGRA 2)
(media_d5 <= 680) and (media_d6 <= 724) and (media_d1 >= 760) => evasao_forma=EVASAO (11.0/1.0) (REGRA 3)
(media_d4 <= 600) and (media_d5 <= 570) and (media_d4 >= 500) => evasao_forma=EVASAO (19.0/4.0) (REGRA 4)
=> evasao_forma=GRADUACAO (536.0/104.0) (REGRA 5)
Fonte: o autor (2015)
Ou seja, nas regras obtidas sem a inclusão do atributo cre_p1, mostradas no Quadro 2, percebe-se pela análise da regra 1 com cobertura de (330/930) que resulta em 35,5% e com precisão de (311/330) que resulta em 94,2%, informa que o aluno que obteve média na disciplina 6 menor ou igual a 624, esse aluno evade. Assim, são identificadas efetivamente as disciplinas que mais influenciam na evasão. Perceba que na aplicação do algoritmo JRip com a inclusão do atributo CRE (Quadro 1), não se consegue determinar efetivamente qual disciplina nem o limite de nota que mais influencia na evasão devido as baixas coberturas que são obtidas.
No Modelo Preditivo Semestre, na partição P1, primeiramente são utilizadas apenas as médias e situações das disciplinas que o aluno cursou do primeiro período, considerando o primeiro desempenho do aluno em cada uma das
disciplinas. Na partição P2, além dos dados utilizados na partição P1, é adicionada a média do período considerado. Na partição P3 são utilizadas a média do período considerado e informações relacionadas ao desempenho do aluno no período considerado: quantidade de disciplinas aprovadas, reprovadas, reprovadas por falta e interrompidas no semestre. Na partição P4 são utilizados ao mesmo tempo todos os atributos utilizados nas partições P1, P2 e P3: médias das disciplinas, situações das disciplinas, média do período e quantitativo de reprovações, aprovações, reprovações por falta, interrupções, etc.
No Modelo Preditivo Curso, na partição P5, são utilizadas as informações das médias das disciplinas e situações no período considerado. Na partição P6, além dos dados utilizados na partição P5, são adicionadas as médias e situações das disciplinas dos períodos anteriores, além do CRE no período considerado. Na partição P7 são utilizados o CRE do aluno no período e o quantitativo de reprovações, aprovações, reprovações por falta e interrupções acumuladas até o período considerado. Na partição P8 são utilizados ao mesmo tempo todos os atributos utilizados nas partições P5, P6 e P7: médias das disciplinas acumuladas, situações das disciplinas acumuladas, CREs até determinado período e quantitativo de reprovações acumuladas, aprovações, reprovações por falta e interrupções acumuladas, etc.
Na Tabela 12 são mostrados detalhadamente os atributos propostos nos Modelos Semestre e Modelos Curso elencando todas as possibilidades de partições propostas.
Tabela 12 – Informações Utilizadas em cada partição proposta MODELO
SEMESTRE
MODELO CURSO
ATRIBUTO
P1 P2 P3 P4 P5 P6 P7 P8
X X X X X X Médias das disciplinas do período n X X X X X X Situações das disciplinas do período n
X X X Médias das disciplinas até o período n X X X Situações das disciplinas até o período n
X X X X Média no período n
X X X CRE no período n X Médias até o período n X CREs até o período n
X X X Quantidade de disciplinas aprovadas no período n X X Quantidade de disciplinas aprovadas acumuladas
até período n
X X X Quantidade de disciplinas reprovadas no período n
X X Quantidade de disciplinas reprovadas acumuladas até período n
X X X Quantidade de disciplinas reprovadas por falta no período n
X X Quantidade de disciplinas reprovadas por faltas acumuladas até período n
X X X Quantidade de disciplinas interrompidas no período n
X X Quantidade de disciplinas interrompidas até o período n
Fonte: o autor (2015)
5.5 Modelos Preditivos Semestre e Modelos Preditivos Curso utilizados nos