(f) Generetion 14-15
9 Distortive effects on competition and trade
Nesta etapa são exibidas as diversas árvores construídas com o algoritmo C5.0 para a identificação de transações fraudulentas. O algoritmo C5.0 constrói a árvore através da divisão da amostra de treinamento com base no teste que resulta na maior razão de ganho. Cada subconjunto obtido da primeira divisão é novamente divido pela aplicação de um novo teste e este processo é repetido até que nenhuma outra divisão seja possível. Por fim, a simplificação da árvore com a poda dos nós que não contribuem para a tarefa de classificação é realizada através da poda pessimista embutida no C5.0.
A indução da primeira árvore de decisão com o algoritmo C5.0 foi realizada com os seguintes parâmetros: sem aplicação de custos aos erros de classicação, FN e FP; nível de confiança da poda pessimista em 25% e número mínimo de objetos a serem alocados em um nó folha configurado em 2.
A Tabela 4.3 e Tabela 4.2 exibem o resultado da avaliação de cada transação pelo classificador obtido nas amostras de treinamento e validação. Os casos positivos repre- sentam transações fraudulentas enquanto que os casos negativos representam transações legítimas; uma previsão positiva representa uma possível transação fraudulenta, enquanto uma previsão negativa representa uma possível transação legítima.
Tabela 4.2: Treinamento sem balanceamento para a árvore de decisão Previsão Positiva Previsão Negativa
Caso Positivo 998 2.078
Tabela 4.3: Validação sem balanceamento para a árvore de decisão Previsão Positiva Previsão Negativa
Caso Positivo 513 1.058
Caso Negativo 26 1.206.239
Da Tabela 4.3, obtém-se precisão P=95,17%, sensibilidade S =32,65% e F2=0,3759.
Isto é, um classificador de alta precisão e baixa sensibilidade. Este problema deve-se ao fato das classes fraude e não-fraude serem muito desbalanceadas, daí a necessidade do balanceamento das classes para a identificação dos eventos raros de fraude [8, 25].
Balanceamento
Muitos algoritmos de classificação têm sua acurácia prejudicada quando as classes possuem quantidades de objetos muito diferentes. Nesta situação a classe majoritária pode ser reduzida, a classe minoritária pode ser inflada ou uma combinação de ambas as técnicas [44]. Ao inflar a classe minoritária aumenta-se o custo computacional para a indução do modelo e este pode estar superajustado aos dados [8, 25]; por outro lado, ao diminuir a classe majoritária pode-se excluir objetos relevantes ao modelo e resultar no subajustamento do modelo aos dados [25]. Para evitar a perda de transações relevantes ao modelo optou-se pelo aumento da classe minoritária. Se a classe fraude é balanceada com uma quantidade de objetos próxima à da classe não-fraude, o algoritmo de classificação possui melhores condições de encontrar os padrões que distinguem as classes [25].
Assim, o balanceamento foi efetuado na amostra de treinamento através da replicação de objetos da classe fraude e pela manutenção dos objetos da classe não-fraude. Uma vez que a determinação do fator de balanceamento é empírica [8], a classe fraude foi aumentada cerca de 785 vezes para a quantidade de objetos fosse igualada à da classe
não-fraude.
A Tabela 4.4 apresenta a matriz de confusão obtida pela aplicação do modelo gerado com fator de balanceamento 785 na classe minoritária fraude da amostra de treinamento, enquanto a e Tabela 4.5 exibe a matriz de confusão obtida pela aplicação da árvore de decisão à amostra de validação.
Tabela 4.4: Treinamento fator balanceamento 785 para a árvore de decisão Previsão Positiva Previsão Negativa
Caso Positivo 2.410.416 1.068
Tabela 4.5: Validação fator balanceamento 785 para a árvore de decisão Previsão Positiva Previsão Negativa
Caso Positivo 1.170 401
Caso Negativo 3.213 1.203.052
Observa-se da Tabela 4.5 que a precisão na amostra de validação diminuiu para
P=26,69%, enquanto a sensibilidade S =74,47% e F2=0,5484 melhoraram quando compa-
radas ao desempenho da árvore obtida sem balanceamento dos dados de treinamento. Ao analisarmos com mais atenção a Tabela 4.4 e Tabela 4.5, observa-se que quase todos os objetos fraudulentos, na amostra de treinamento, foram corretamente identificados pela árvore de decisão gerada com uma pequena quantidade de falsos-positivos. Contudo, esse desempenho não é observado na amostra de validação levando a crer que o modelo gerado com fator de balanceamento 785 está sobreajustado aos dados.
A partir de então, o fator de balanceamento, inicialmente em 785, foi reduzido pela
metade enquanto houvesse melhoria da métrica F2 visando a determinação de um máximo
local dessa métrica.
Tabela 4.6: Fatores de balanceamento para a árvore de decisão Amostra de Treinamento Amostra de Validação Fator Precisão Sensibilidade F2 Precisão Sensibilidade F2
1 0,947 0,324 0,3735 0,952 0,327 0,376 3 0,931 0,796 0,820 0,667 0,645 0,649 6 0,963 0,894 0,907 0,585 0,644 0,631 12 0,980 0,965 0,968 0,537 0,659 0,630 24 0,989 0,979 0,981 0,530 0,686 0,648 49 0,993 0,996 0,995 0,490 0,684 0,634 98 0,994 0,997 0,997 0,446 0,717 0,639 196 0,996 0,998 0,998 0,385 0,749 0,630 392 0,997 0,999 0,999 0,329 0,752 0,598 785 0,997 1,000 0,999 0,267 0,745 0,548
Para cada árvore obtida são calculadas a precisão e sensibilidade nas amostras de
validação e treinamento e a medida F2 na amostra de validação para avaliação dos classi-
ficadores gerados, uma vez que a replicação dos objetos da classe minoritária podem levar ao sobreajustamento do modelo gerado aos dados de treinamento.
Como pode ser observado da Tabela 4.6, o melhor valor para a medida F2 foi obtido
Da Figura 4.1 pode-se observar a variação das métricas precisão e sensibilidade e F2 na
amostra de validação obtidas com a aplicação das árvores geradas em função da variação dos fatores de balanceamento.
Figura 4.1: Fatores de balanceamento árvores de decisão
É notório o sobreajustamento do modelo induzido aos dados à medida que o fator de balanceamento tende a 785, pois a precisão do modelo antige valores cada vez menores.
A Tabela 4.7 e Tabela 4.8 exibem as matrizes de confusão para a árvore gerada com fator de balanceamento 3.
Tabela 4.7: Treinamento fator balanceamento 3 para a árvore de decisão Previsão Positiva Previsão Negativa
Caso Positivo 7.344 1.884
Caso Negativo 541 2.414.512
Tabela 4.8: Validação fator balanceamento 3 para a árvore de decisão Previsão Positiva Previsão Negativa
Caso Positivo 1.013 558
Caso Negativo 506 1.205.759
Com este fator de balanceamento os valores obtidos para as métricas de avaliação do
classificador são: P=66,68%, S =64,48% e F2=0,6491. Apesar da Precisão ter superado
o valor mínimo esperado, 25%, a Sensibilidade ainda está aquém de piso de 80% sendo necessário o ajuste dos demais parâmetros para a obtenção de um classificador que possa alcançar os objetivos estabelecidos pelos especialistas do domínio.
Poda
A extensão da poda da árvore é determinada pelo parâmetro nível de confiança que possui valor padrão de 25%. A diminuição deste valor resulta em árvores menores e mais concisas, privilegiando a capacidade de generalização do modelo; por outro lado, o aumento do nível de confiança é usado para a obtenção de árvores de maior acurácia, devido ao maior ajustamento aos dados de treinamento [32].
Foram geradas, então, diversas árvores com a alteração do nível de confiança para a
determinação do nível de confiança que otimiza a métrica F2. Observa-se da Tabela 4.9
que o parâmetro nível de confiança em 20% resulta no melhor valor para a métrica F2
dentre os valores testados.
Tabela 4.9: Nível de confiança.
Amostra de Treinamento Amostra de Validação Nível de Confiança Precisão Sensibilidade F2 Precisão Sensibilidade F2
45% 0,943 0,843 0,848 0,642 0,643 0,643 40% 0,944 0,827 0,848 0,657 0,641 0,644 35% 0,941 0,816 0,838 0,662 0,641 0,645 30% 0,938 0,807 0,830 0,668 0,640 0,646 25% 0,931 0,796 0,820 0,667 0,645 0,649 20% 0,924 0,783 0,808 0,665 0,649 0,652 15% 0,923 0,762 0,790 0,675 0,645 0,651 10% 0,922 0,728 0,760 0,680 0,631 0,641 5% 0,904 0,704 0,737 0,683 0,643 0,651
Da Figura 4.3 visualiza-se que à medida que o nível de confiança diminui, aumenta-se a capacidade de generalização do modelo e, consequentemente, há o aumento da sensibi-
Figura 4.2: Nível de confiança
Da Tabela 4.10 e Tabela 4.11 obtém-se Sensibilidade S =92,36% e Precisão P=78,31% na amostra de treinamento e Sensibilidade S =64,86% e Precisão P=66,51% na amostra de validação.
Tabela 4.10: Treinamento nível de confiança 20% Previsão Positiva Previsão Negativa
Caso Positivo 7.227 2.001
Caso Negativo 597 2.414.456
Tabela 4.11: Validação nível de confiança 20% Previsão Positiva Previsão Negativa
Caso Positivo 1.019 552
Caso Negativo 513 1.205.752
Ainda é possível verificar se a alteração do critério de parada default da árvore resulta em melhoria da acurácia do modelo.
Critério de parada
A árvore gerada pelo algoritmo C5.0 cresce até que todos os objetos em um nó folha pertençam à mesma classe ou o número de objetos nos nós resultantes da aplicação de um
dado teste condicional não sejam inferiores a um dado limiar. Este limiar atua como um limite no número de testes condicionais aplicados e previne o treinamento desnecessário quando da existência de ruído nos dados [32].
Observa-se da Tabela 4.12 que as métricas Precisão, Sensibilidade e F2 variaram mi-
nimamente com o aumento do critério de parada e o melhor resultado foi obtido com o valor de 2 objetos por nó folha.
Tabela 4.12: Mínimo de objetos por folha.
Amostra de Treinamento Amostra de Validação Mínimo de objetos por folha Precisão Sensibilidade F2 Precisão Sensibilidade F2
2 0,924 0,783 0,808 0,665 0,649 0,652 4 0,905 0,755 0,781 0,659 0,650 0,650 8 0,896 0,712 0,742 0,678 0,638 0,646 16 0,870 0,690 0,719 0,653 0,649 0,650 32 0,861 0,663 0,695 0,645 0,630 0,633 64 0,851 0,637 0,671 0,638 0,612 0,617
Uma vez que a alteração dos critérios de parada não resultou em melhoria significativa
da métrica F2, conforme pode ser observado através da Figura 4.3, foi mantido o valor
padrão de no mínimo duas transações por nó folha.
Ainda não foi obtido um classificador que atinja Precisão superior a 25% e Sensibili-
dade mínima de 80%, sendo necessário o ajuste de mais um parâmetro para visando ao
atingimento dos critérios de sucesso do classificador.
Aplicação de Custos
O algoritmo C5.0 permite a utilização de custos, quando da ocorrência de classificações incorretas, visando ao aumento da acurácia da árvore de decisão gerada. Dessa forma, a partir da árvore obtida anteriorme com critério de parada igual a 2, foram aplicados di- versos custos aos objetos fraudulentos classificados como legítimos, isto é, ao subconjunto de objetos classificados como falsos-negativos.
Os resultados obtidos com a aplicação dos modelos gerados às amostras de treinamento e validação podem ser analisados na Tabela 4.13. Destas árvores, a que obteve o melhor
valor para a métrica F2 foi obtida com custo 8 para objetos fraudulentos classificados
incorretamente.
Tabela 4.13: Aplicação de custos.
Amostra de Treinamento Amostra de Validação Custos Precisão Sensibilidade F2 Precisão Sensibilidade F2
1 0,924 0,783 0,374 0,665 0,649 0,652 2 0,876 0,823 0,833 0,580 0,666 0,647 3 0,815 0,862 0,852 0,493 0,694 0,642 4 0,763 0,897 0,866 0,430 0,731 0,641 5 0,710 0,923 0,871 0,367 0,754 0,623 6 0,666 0,925 0,858 0,339 0,773 0,616 7 0,618 0,928 0,844 0,301 0,789 0,596 8 0,590 0,942 0,841 0,280 0,810 0,587 9 0,565 0,937 0,828 0,267 0,820 0,579 10 0,544 0,943 0,823 0,250 0,817 0,562 11 0,534 0,758 0,699 0,281 0,770 0,571 12 0,492 0,947 0,799 0,217 0,835 0,532
Nota-se através da Figura 4.4 que os modelos gerados com custos 8, 9 e 10 apresenta- ram Sensibilidade superior a 80% e Precisão superior a 25% que são os critérios de sucesso estabelecidos pelos especialistas do domínio da instituição financeira; uma vez que a ár-
vore gerada com custo 8 apresentou o melhor valor para a métrica F2 esta foi selecionada
Figura 4.4: Aplicação de custos
Para a confirmação do desempenho, as transações contidas na amostra de teste foram avaliadas pela árvore selecionada. A partir das Tabelas 4.14, 4.15 e 4.16 pode-se avaliar o desempenho do classificador obtido em cada uma das amostras.
Tabela 4.14: Treinamento aplicação de custos Previsão Positiva Previsão Negativa
Caso Positivo 8.691 537
Caso Negativo 6.041 2.409.012
Tabela 4.15: Validação aplicação de custos Previsão Positiva Previsão Negativa
Caso Positivo 1.272 299
Caso Negativo 3.270 1.202.995
Tabela 4.16: Teste aplicação de custos
Previsão Positiva Previsão Negativa
Caso Positivo 1.228 282
Uma vez que a Sensibilidade obtida na amostra de teste foi S =81,32% e a Precisão foi P=28,22% demonstrou-se que o classificador obtido atingiu os critérios de sucesso da instituição financeira para a identificação de transferências eletrõnicas fraudulentas.