Distortive effects on competition and trade

(f) Generetion 14-15

9 Distortive effects on competition and trade

Nesta etapa são exibidas as diversas árvores construídas com o algoritmo C5.0 para a identificação de transações fraudulentas. O algoritmo C5.0 constrói a árvore através da divisão da amostra de treinamento com base no teste que resulta na maior razão de ganho. Cada subconjunto obtido da primeira divisão é novamente divido pela aplicação de um novo teste e este processo é repetido até que nenhuma outra divisão seja possível. Por fim, a simplificação da árvore com a poda dos nós que não contribuem para a tarefa de classificação é realizada através da poda pessimista embutida no C5.0.

A indução da primeira árvore de decisão com o algoritmo C5.0 foi realizada com os seguintes parâmetros: sem aplicação de custos aos erros de classicação, FN e FP; nível de confiança da poda pessimista em 25% e número mínimo de objetos a serem alocados em um nó folha configurado em 2.

A Tabela 4.3 e Tabela 4.2 exibem o resultado da avaliação de cada transação pelo classificador obtido nas amostras de treinamento e validação. Os casos positivos repre- sentam transações fraudulentas enquanto que os casos negativos representam transações legítimas; uma previsão positiva representa uma possível transação fraudulenta, enquanto uma previsão negativa representa uma possível transação legítima.

Tabela 4.2: Treinamento sem balanceamento para a árvore de decisão Previsão Positiva Previsão Negativa

Caso Positivo 998 2.078

Tabela 4.3: Validação sem balanceamento para a árvore de decisão Previsão Positiva Previsão Negativa

Caso Positivo 513 1.058

Caso Negativo 26 1.206.239

Da Tabela 4.3, obtém-se precisão P=95,17%, sensibilidade S =32,65% e F2=0,3759.

Isto é, um classificador de alta precisão e baixa sensibilidade. Este problema deve-se ao fato das classes fraude e não-fraude serem muito desbalanceadas, daí a necessidade do balanceamento das classes para a identificação dos eventos raros de fraude [8, 25].

Balanceamento

Muitos algoritmos de classificação têm sua acurácia prejudicada quando as classes possuem quantidades de objetos muito diferentes. Nesta situação a classe majoritária pode ser reduzida, a classe minoritária pode ser inflada ou uma combinação de ambas as técnicas [44]. Ao inflar a classe minoritária aumenta-se o custo computacional para a indução do modelo e este pode estar superajustado aos dados [8, 25]; por outro lado, ao diminuir a classe majoritária pode-se excluir objetos relevantes ao modelo e resultar no subajustamento do modelo aos dados [25]. Para evitar a perda de transações relevantes ao modelo optou-se pelo aumento da classe minoritária. Se a classe fraude é balanceada com uma quantidade de objetos próxima à da classe não-fraude, o algoritmo de classificação possui melhores condições de encontrar os padrões que distinguem as classes [25].

Assim, o balanceamento foi efetuado na amostra de treinamento através da replicação de objetos da classe fraude e pela manutenção dos objetos da classe não-fraude. Uma vez que a determinação do fator de balanceamento é empírica [8], a classe fraude foi aumentada cerca de 785 vezes para a quantidade de objetos fosse igualada à da classe

não-fraude.

A Tabela 4.4 apresenta a matriz de confusão obtida pela aplicação do modelo gerado com fator de balanceamento 785 na classe minoritária fraude da amostra de treinamento, enquanto a e Tabela 4.5 exibe a matriz de confusão obtida pela aplicação da árvore de decisão à amostra de validação.

Tabela 4.4: Treinamento fator balanceamento 785 para a árvore de decisão Previsão Positiva Previsão Negativa

Caso Positivo 2.410.416 1.068

Tabela 4.5: Validação fator balanceamento 785 para a árvore de decisão Previsão Positiva Previsão Negativa

Caso Positivo 1.170 401

Caso Negativo 3.213 1.203.052

Observa-se da Tabela 4.5 que a precisão na amostra de validação diminuiu para

P=26,69%, enquanto a sensibilidade S =74,47% e F2=0,5484 melhoraram quando compa-

radas ao desempenho da árvore obtida sem balanceamento dos dados de treinamento. Ao analisarmos com mais atenção a Tabela 4.4 e Tabela 4.5, observa-se que quase todos os objetos fraudulentos, na amostra de treinamento, foram corretamente identificados pela árvore de decisão gerada com uma pequena quantidade de falsos-positivos. Contudo, esse desempenho não é observado na amostra de validação levando a crer que o modelo gerado com fator de balanceamento 785 está sobreajustado aos dados.

A partir de então, o fator de balanceamento, inicialmente em 785, foi reduzido pela

metade enquanto houvesse melhoria da métrica F2 visando a determinação de um máximo

local dessa métrica.

Tabela 4.6: Fatores de balanceamento para a árvore de decisão Amostra de Treinamento Amostra de Validação Fator Precisão Sensibilidade F2 Precisão Sensibilidade F2

1 0,947 0,324 0,3735 0,952 0,327 0,376 3 0,931 0,796 0,820 0,667 0,645 0,649 6 0,963 0,894 0,907 0,585 0,644 0,631 12 0,980 0,965 0,968 0,537 0,659 0,630 24 0,989 0,979 0,981 0,530 0,686 0,648 49 0,993 0,996 0,995 0,490 0,684 0,634 98 0,994 0,997 0,997 0,446 0,717 0,639 196 0,996 0,998 0,998 0,385 0,749 0,630 392 0,997 0,999 0,999 0,329 0,752 0,598 785 0,997 1,000 0,999 0,267 0,745 0,548

Para cada árvore obtida são calculadas a precisão e sensibilidade nas amostras de

validação e treinamento e a medida F2 na amostra de validação para avaliação dos classi-

ficadores gerados, uma vez que a replicação dos objetos da classe minoritária podem levar ao sobreajustamento do modelo gerado aos dados de treinamento.

Como pode ser observado da Tabela 4.6, o melhor valor para a medida F2 foi obtido

Da Figura 4.1 pode-se observar a variação das métricas precisão e sensibilidade e F2 na

amostra de validação obtidas com a aplicação das árvores geradas em função da variação dos fatores de balanceamento.

Figura 4.1: Fatores de balanceamento árvores de decisão

É notório o sobreajustamento do modelo induzido aos dados à medida que o fator de balanceamento tende a 785, pois a precisão do modelo antige valores cada vez menores.

A Tabela 4.7 e Tabela 4.8 exibem as matrizes de confusão para a árvore gerada com fator de balanceamento 3.

Tabela 4.7: Treinamento fator balanceamento 3 para a árvore de decisão Previsão Positiva Previsão Negativa

Caso Positivo 7.344 1.884

Caso Negativo 541 2.414.512

Tabela 4.8: Validação fator balanceamento 3 para a árvore de decisão Previsão Positiva Previsão Negativa

Caso Positivo 1.013 558

Caso Negativo 506 1.205.759

Com este fator de balanceamento os valores obtidos para as métricas de avaliação do

classificador são: P=66,68%, S =64,48% e F2=0,6491. Apesar da Precisão ter superado

o valor mínimo esperado, 25%, a Sensibilidade ainda está aquém de piso de 80% sendo necessário o ajuste dos demais parâmetros para a obtenção de um classificador que possa alcançar os objetivos estabelecidos pelos especialistas do domínio.

Poda

A extensão da poda da árvore é determinada pelo parâmetro nível de confiança que possui valor padrão de 25%. A diminuição deste valor resulta em árvores menores e mais concisas, privilegiando a capacidade de generalização do modelo; por outro lado, o aumento do nível de confiança é usado para a obtenção de árvores de maior acurácia, devido ao maior ajustamento aos dados de treinamento [32].

Foram geradas, então, diversas árvores com a alteração do nível de confiança para a

determinação do nível de confiança que otimiza a métrica F2. Observa-se da Tabela 4.9

que o parâmetro nível de confiança em 20% resulta no melhor valor para a métrica F2

dentre os valores testados.

Tabela 4.9: Nível de confiança.

Amostra de Treinamento Amostra de Validação Nível de Confiança Precisão Sensibilidade F2 Precisão Sensibilidade F2

45% 0,943 0,843 0,848 0,642 0,643 0,643 40% 0,944 0,827 0,848 0,657 0,641 0,644 35% 0,941 0,816 0,838 0,662 0,641 0,645 30% 0,938 0,807 0,830 0,668 0,640 0,646 25% 0,931 0,796 0,820 0,667 0,645 0,649 20% 0,924 0,783 0,808 0,665 0,649 0,652 15% 0,923 0,762 0,790 0,675 0,645 0,651 10% 0,922 0,728 0,760 0,680 0,631 0,641 5% 0,904 0,704 0,737 0,683 0,643 0,651

Da Figura 4.3 visualiza-se que à medida que o nível de confiança diminui, aumenta-se a capacidade de generalização do modelo e, consequentemente, há o aumento da sensibi-

Figura 4.2: Nível de confiança

Da Tabela 4.10 e Tabela 4.11 obtém-se Sensibilidade S =92,36% e Precisão P=78,31% na amostra de treinamento e Sensibilidade S =64,86% e Precisão P=66,51% na amostra de validação.

Tabela 4.10: Treinamento nível de confiança 20% Previsão Positiva Previsão Negativa

Caso Positivo 7.227 2.001

Caso Negativo 597 2.414.456

Tabela 4.11: Validação nível de confiança 20% Previsão Positiva Previsão Negativa

Caso Positivo 1.019 552

Caso Negativo 513 1.205.752

Ainda é possível verificar se a alteração do critério de parada default da árvore resulta em melhoria da acurácia do modelo.

Critério de parada

A árvore gerada pelo algoritmo C5.0 cresce até que todos os objetos em um nó folha pertençam à mesma classe ou o número de objetos nos nós resultantes da aplicação de um

dado teste condicional não sejam inferiores a um dado limiar. Este limiar atua como um limite no número de testes condicionais aplicados e previne o treinamento desnecessário quando da existência de ruído nos dados [32].

Observa-se da Tabela 4.12 que as métricas Precisão, Sensibilidade e F2 variaram mi-

nimamente com o aumento do critério de parada e o melhor resultado foi obtido com o valor de 2 objetos por nó folha.

Tabela 4.12: Mínimo de objetos por folha.

Amostra de Treinamento Amostra de Validação Mínimo de objetos por folha Precisão Sensibilidade F2 Precisão Sensibilidade F2

2 0,924 0,783 0,808 0,665 0,649 0,652 4 0,905 0,755 0,781 0,659 0,650 0,650 8 0,896 0,712 0,742 0,678 0,638 0,646 16 0,870 0,690 0,719 0,653 0,649 0,650 32 0,861 0,663 0,695 0,645 0,630 0,633 64 0,851 0,637 0,671 0,638 0,612 0,617

Uma vez que a alteração dos critérios de parada não resultou em melhoria significativa

da métrica F2, conforme pode ser observado através da Figura 4.3, foi mantido o valor

padrão de no mínimo duas transações por nó folha.

Ainda não foi obtido um classificador que atinja Precisão superior a 25% e Sensibili-

dade mínima de 80%, sendo necessário o ajuste de mais um parâmetro para visando ao

atingimento dos critérios de sucesso do classificador.

Aplicação de Custos

O algoritmo C5.0 permite a utilização de custos, quando da ocorrência de classificações incorretas, visando ao aumento da acurácia da árvore de decisão gerada. Dessa forma, a partir da árvore obtida anteriorme com critério de parada igual a 2, foram aplicados di- versos custos aos objetos fraudulentos classificados como legítimos, isto é, ao subconjunto de objetos classificados como falsos-negativos.

Os resultados obtidos com a aplicação dos modelos gerados às amostras de treinamento e validação podem ser analisados na Tabela 4.13. Destas árvores, a que obteve o melhor

valor para a métrica F2 foi obtida com custo 8 para objetos fraudulentos classificados

incorretamente.

Tabela 4.13: Aplicação de custos.

Amostra de Treinamento Amostra de Validação Custos Precisão Sensibilidade F2 Precisão Sensibilidade F2

1 0,924 0,783 0,374 0,665 0,649 0,652 2 0,876 0,823 0,833 0,580 0,666 0,647 3 0,815 0,862 0,852 0,493 0,694 0,642 4 0,763 0,897 0,866 0,430 0,731 0,641 5 0,710 0,923 0,871 0,367 0,754 0,623 6 0,666 0,925 0,858 0,339 0,773 0,616 7 0,618 0,928 0,844 0,301 0,789 0,596 8 0,590 0,942 0,841 0,280 0,810 0,587 9 0,565 0,937 0,828 0,267 0,820 0,579 10 0,544 0,943 0,823 0,250 0,817 0,562 11 0,534 0,758 0,699 0,281 0,770 0,571 12 0,492 0,947 0,799 0,217 0,835 0,532

Nota-se através da Figura 4.4 que os modelos gerados com custos 8, 9 e 10 apresenta- ram Sensibilidade superior a 80% e Precisão superior a 25% que são os critérios de sucesso estabelecidos pelos especialistas do domínio da instituição financeira; uma vez que a ár-

vore gerada com custo 8 apresentou o melhor valor para a métrica F2 esta foi selecionada

Figura 4.4: Aplicação de custos

Para a confirmação do desempenho, as transações contidas na amostra de teste foram avaliadas pela árvore selecionada. A partir das Tabelas 4.14, 4.15 e 4.16 pode-se avaliar o desempenho do classificador obtido em cada uma das amostras.

Tabela 4.14: Treinamento aplicação de custos Previsão Positiva Previsão Negativa

Caso Positivo 8.691 537

Caso Negativo 6.041 2.409.012

Tabela 4.15: Validação aplicação de custos Previsão Positiva Previsão Negativa

Caso Positivo 1.272 299

Caso Negativo 3.270 1.202.995

Tabela 4.16: Teste aplicação de custos

Previsão Positiva Previsão Negativa

Caso Positivo 1.228 282

Uma vez que a Sensibilidade obtida na amostra de teste foi S =81,32% e a Precisão foi P=28,22% demonstrou-se que o classificador obtido atingiu os critérios de sucesso da instituição financeira para a identificação de transferências eletrõnicas fraudulentas.

In document Evaluation of SkatteFUNN (sider 118-128)