Segundo (SHEARER, 2000), é possível utilizar diversas técnicas de modelagem de dados em busca de resolver problemas de análise de informações. As técnicas estatísticas permitem entender e desenvolver fórmulas matemáticas cujos parâmetros de saída serão calibrados para buscar o melhor valor que irá procurar distinguir o objetivo que foi definido nas etapas anteriores, na definição do perfil que espera-se distinguir, neste caso, clientes com perfil de bons pagadores de débito. Existem várias técnicas que possibilitam resolver um problema de Mineração de Dados, tais como, redes neurais, regressão logística, árvores de decisões, dentre outras contida na área de estatística. Para iniciar o processo e validar a acurácia do modelo que será desenvolvido, é necessário dentro dos dados selecionados nas etapas de pré-processamento separar uma amostra aleatória de 30% da amostra para treinamento e 70% para teste e validação do modelo (PICARD; BERK, 1990).
Em algoritmos supervisionados com a regressão logística (STEHMAN, 1997), a variável-alvo é um label dicotômico em que, no experimento em questão, um (1) representa clientes que efetuaram pagamentos e zero (0) clientes que não pagaram o débito. Um modelo preditivo tem como finalidade estimar a probabilidade de os eventos raros acontecerem utilizando informações históricas que representam
o comportamento do ambiente no qual os dados foram coletados. Para buscar o melhor conjunto de variáveis, foi necessário verificar o acumulado de respostas positivas e negativas contidas no conjunto de dados que saiu do estágio de transformação, que visou melhorar a classificação do conjunto de classes de cada variável e de cada cliente a ser utilizado no processo.
A utilização de algoritmos classificadores visa ordenar os clientes com a finalidade de relacionar os padrões algébricos das características de cada vetor individual para obter uma probabilidade de acontecimento do fato em relação à necessidade de resposta do negócio.
4.4.1 Regressão logística
A regressão logística de Hosmer e Lemeshow (1989) é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias. A regressão logística é amplamente utilizada em ciências médicas e sociais e tem outras denominações, como modelo logístico, modelo logit, e classificador de máxima entropia (HOSMER; LEMESHOW, 1989). A regressão logística pode ser utilizada, de forma exemplificada, nas áreas descritas a seguir.
Em medicina, permite determinar os fatores que caracterizam um grupo de indivíduos doentes em relação a indivíduos sãos.
No domínio dos seguros, permite encontrar frações de clientes que sejam sensíveis a determinada política securitária em relação a dado risco particular.
Em instituições financeiras, pode detectar os grupos de risco para a subscrição de um crédito.
Em econometria, permite explicar uma variável discreta, como, por exemplo, as intenções de voto em atos eleitorais.
O êxito da regressão logística assenta-se, sobretudo, nas numerosas ferramentas que permitem interpretar de modo aprofundado os resultados obtidos. Em comparação com as técnicas conhecidas de regressão, em especial a linear, a regressão logística distingue-se essencialmente pelo fato de a variável resposta ser categórica. Enquanto método de predição para variáveis categóricas, a regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neuronais etc.), ou ainda a análise discriminante preditiva em estatística exploratória. É possível compará-las para escolha do modelo mais adaptado de certo problema preditivo a resolver.
Trata-se de um modelo de regressão para variáveis dependentes ou de respostas binomialmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer como função de outros fatores. É um modelo linear generalizado que usa como função de ligação a função logit. A regressão logística analisa dados distribuídos binomialmente da forma em que os números de ensaios de Bernoulli ni são conhecidos e as probabilidades de êxito pi são desconhecidas. Um exemplo dessa distribuição é a percentagem de sementes (pi) que germinam depois de ni ser plantadas. O modelo é então obtido na base de que cada ensaio (valor de i), e o conjunto de variáveis explicativas (independentes) pode informar acerca da
probabilidade final. As variáveis explicativas podem-se ver como um vector Xik- dimensional, e o modelo toma então a forma .
Os logits das probabilidades binomiais desconhecidas são modelados como uma função linear dos Xi que pode ser definida por pela fórmula
.
Note-se que um elemento particular de Xi pode ser ajustado a 1 para todo i, obtendo-se um intercepto no modelo. Os parâmetros desconhecidos βj são habitualmente estimados por meio de máxima verossimilhança. A interpretação dos valores estimados do parâmetro βj é similar aos efeitos aditivos em log odds ratio (CORNFIELD, 1951) para uma unidade de mudança na enésima variável explicativa. No caso de uma variável explicativa dicotômica, por exemplo, o gênero eβ é o estimador de odds ratio para obter o resultado para, por exemplo, homens comparados com mulheres.
O modelo tem uma formulação equivalente dada pela equação de a qual após o resultado dos cálculos logísticos pode-se
utilizar para obter a probabilidade de o evento acontecer.
Essa forma funcional é habitualmente identificada como um perceptron (ou perceptrão) de uma camada simples ou rede neuronal artificial de uma só camada, que calcula uma saída contínua em vez de uma função (RYPLEY, 1996; SARLE, 1995). A derivada de pi em relação a X = x1...xk é calculada na forma geral
Com essa escolha, a rede de camada simples é idêntica ao modelo de regressão logística. Essa função tem uma derivada contínua, que pode ser usada em uma propagação posterior. Essa função também é preferida, pois sua derivada é facilmente calculável pela fórmula .
Após a inclusão dos vetores pré-processados no software SAS com apoio da biblioteca SAS Statistics, foi possível obter a fórmula específica na Tabela 7, a seguir.
Tabela 7 – Parâmetros do algoritmo pós-regressão
Parameter DF Estimate Standard error Wald Chi-Square Pr > ChiSq
Intercept 1 -4.9396 0.0657 5655.9386 <.0001 brretorn_man_inform 1 0.8192 0.0983 69.4377 <.0001 emailbrretorn_man_in 1 1.2694 0.1451 76.5901 <.0001 atend_recep_contat 1 1.8098 0.4204 18.5340 <.0001 telbrretorn_man_info 1 1.9946 0.4954 16.2079 <.0001 comprovantebrretorn_ 1 1.8183 0.2840 41.0007 <.0001 dev_client_entr 1 2.1163 0.2958 51.1769 <.0001 ja_efetu_pag 1 2.8704 0.4810 35.6131 <.0001 ira_efetu_pag 1 2.0383 0.4596 19.6698 <.0001 boletobrretorn_man_i 1 1.3205 0.2570 26.4108 <.0001 formaliz_acord_vist 1 1.4352 0.2922 24.1328 <.0001 aleg_pag_client 1 3.9339 0.3068 164.3868 <.0001 aleg_pag_pagt 1 4.2753 0.4664 84.0328 <.0001 formaliz_acord_val 1 1.7754 0.4046 19.2532 <.0001 Fonte: Dados da pesquisa
Com os dados processados e ajustados para os clientes-alvo foi possível obter os parâmetros (eβ) que melhor explicam o alvo dicotômico, definido como “target” no processo de definição do alvo do projeto, e para conseguir classificar tais clientes pela propensão de efetuar o pagamento.
4.5 AVALIAÇÃO E RESULTADOS
Essa fase consistiu na avaliação do algoritmo, ou modelo, desenvolvido na etapa de modelagem de dados com o intuito de entender se os resultados vão ao encontro dos objetivos do negócio, definidos inicialmente na etapa de definição do alvo do projeto.
A partir daí, é possível verificar se o processo de modelagem das informações se encerará, devendo-se então passar para a fase de levantamento de requisitos para implantação ou, se necessário, efetuar correções no processo, voltando para as fases anteriores e verificando oportunidades de melhoria em alguma das fases desenvolvidas.
Para entender se o algoritmo desenvolvido possui acurácia e estabilidade, foi proposto utilizar o teste não paramétrico de Kolmogorov-Smirnov, que possibilita avaliar a qualidade do ajuste do modelo desenvolvido.
4.5.1 Kolmogorov-Smirnov
Em estatística, o teste Kolmogorov-Smirnov é usado para determinar se duas distribuições de probabilidade subjacentes diferem uma da outra ou se uma dessas distribuições difere da distribuição em hipótese, em qualquer dos casos com base em amostras finitas. O nome é uma referência aos matemáticos russos Andrey Kolmogorov e Vladimir Ivanovich Smirnov (EADIE et al., 1971).
O teste de duas amostras de K-S é um dos métodos mais úteis e não paramétricos gerais para a comparação de duas amostras, dado que é sensível a
diferenças tanto à localização quanto à forma das funções de distribuição cumulativas empíricas das duas amostras em análise.
Para gerar os resultados do teste de K-S, com que trabalhos já realizados com mineração de texto obtiveram bons resultados e a acurácia da fórmula foi validada (MONTANERET al., 2006; MINGUEZ al., 2007), utilizou-se o software SAS e os conjuntos de treinamento e teste utilizados no processo de modelagem. Depois de aplicado o teste de K-S, na base de treinamento observou-se o resultado de 0.495, conforme demonstrado na Figura 8, a seguir.
Figura 8 – Teste K-S amostra treinamento
Fonte: Elaborado pelo autor (2013)
Com base no resultado para a amostra de treinamento, observou-se a distribuição das populações em teste conforme Figura 9, abaixo.
Figura 9 – Distribuição teste K-S
Conforme proposto na metodologia, é necessário aplicar o teste de K-S na amostra de teste, a qual representa a distribuição populacional real da base e que permitirá entender se o algoritmo quando aplicado em uma amostra real será capaz de distinguir o alvo definido. A Figura 10 demonstra o resultado de K-S 0.488.
Figura 10 – Teste de K-S amostra teste
Fonte: Elaborado pelo autor (2013)
Os resultados obtidos pelos testes efetuados no conjunto de treinamento possibilitam identificar que o modelo desenvolvido possui aderência ao objetivo do negócio, pois quando se analisam os resultados de K-S é perceptível que existe pouca variação entre as amostras de treinamento e de teste, ou seja, demonstram ser parecidos e não apresentam diferenças significativas quando aplicado o teste de K-S em amostras populacionais distintas, o que segundo Sicsú (2010) pode levar à conclusão dos trabalhos em relação ao algoritmo desenvolvido.
Figura 11 - Distribuição teste de K-S amostra teste
Fonte: Elaborado pelo autor (2013)
4.6 IMPLANTAÇÃO
A implantação do modelo geralmente não é o fim de um projeto de Data Mining. Mesmo que a finalidade do modelo seja aumentar o conhecimento dos dados, os conhecimentos adquiridos ao longo do processo terão de ser organizados e apresentados de maneira que o cliente possa usá-lo. Dependendo das exigências, a fase de implantação pode ser tão simples como gerar um relatório ou tão complexo como a implantação/alteração de um sistema de alta plataforma. Em muitos casos, não é o analista de sistemas quem realiza a implantação, e sim o usuário. De qualquer forma, caso o analista realize o esforço de implantação, é importante para o cliente entender as ações que devem ser realizadas, de modo a realmente fazer uso dos modelos criados (SHEARER, 2000).
O presente projeto apresenta uma solução de Mineração de Dados que classifica desde os clientes que possuem baixo potencial de pagamento até os que possuem alto potencial de efetuar o pagamento do débito. Segundo as práticas utilizadas no mercado brasileiro, a forma de utilizar o escore desenvolvido é agrupar
clientes com perfis semelhantes dentro de classes de escore para melhorar a interpretação dos resultados obtidos (CREDIT..., 2014).
A Tabela 9, abaixo, exemplifica esse conceito.
Tabela 8 – Modelo aplicado a todas as observações
Faixa escore Mau Bom Total % mau % bom Odds ratio Classe pagto
0.73 a 1.00 15.345 1357 16.702 8,99% 65,23% 7,26 Alta 0.58 a 0.72 14.549 292 14.841 8,52% 14,02% 1,64 Média 0.38 a 0.57 17.600 175 17.774 10,31% 8,39% 0,81 Média-Baixa 0.00 a 0.37 123.220 257 123.477 72,18% 12,36% 0,17 Baixa
TOTAL 170.713 2.081 172.794 100,00% 100,00% Fonte: Dados da pesquisa
Para utilização do escore foi gerado um protótipo de interface que visa auxiliar a atualização do processo periodicamente, a cada trinta dias corridos. O escore não será apresentado diretamente aos recuperadores de crédito, pois os números pouco representam na operação de cobrança se não estiverem alocados em categorias.
Propõe-se aos gestores utilizar a classificação de probabilidade de pagamento da Tabela 8, acima, facilitando o processo de compreensão do modelo desenvolvido aos recuperadores de crédito. O propósito desta aplicação não é atender somente os recuperadores de crédito, mas também pode ser parte de uma estratégia maior, por exemplo, atuando no envio de SMS, e-mail e malas direta, focando a redução de custos e aumento de receitas.
Para otimizar o processo de atualização da fórmula desenvolvida no processo de modelagem, foi criada uma aplicação utilizando a linguagem de programação C# para aplicar o modelo desenvolvido. Esta ferramenta trabalha com layout específico das variáveis utilizadas para desenvolver este estudo. Para a utilização, é necessário
acessar a aplicação, conforme a Figura 13, e selecionar a opção desejada para importar os arquivo necessários para a execução do processo. O programa se encarrega de efetuar toda a preparação dos dados, pré-processamento dos textos e aplicação do algoritmo de classificação desenvolvido no estudo.
Figura 12 – Programa de implantação
Fonte: Elaborado pelo autor (2013)
A utilização da ferramenta desenvolvida possibilita a implantação do algoritmo pela área de negócio de forma simples e sistematizada possibilitando velocidade na tomada de decisão por parte dos gestores que possivelmente irão utilizar este recurso.
5 CONCLUSÃO
O presente projeto teve como objetivo desenvolver uma aplicação de apoio à tomada decisões com Mineração de Dados para auxiliar as equipes de cobrança que atuam no segmento de cartões de crédito. Também foi objetivo mapear o conhecimento existente somente no processo operacional e identificar padrões válidos que estavam ocultos nas informações contidas dentro do ambiente de dados. Tecnicamente, a solução de Mineração de Dados atende a todos esses objetivos e transforma os dados textuais que não são utilizados em um algoritmo que possibilita à operação do negócio desenvolver estratégias baseadas no perfil de pagamento dos clientes no ambiente de negócio.
Após a conclusão de todas as etapas, a aplicação projetada é capaz de classificar os clientes pelo potencial de retorno ao negócio, com base em informações coletadas entre junho/2012 e fevereiro/2013. Com essas informações, espera-se que os gestores de cobrança e executivos da empresa no qual o teste foi executado consigam elaborar planos estratégicos para abordar cada cliente de acordo com o potencial de pagamento, minimizando o custo com telefonia, despesas operacionais e melhorias nos resultados de cobrança.
Observa-se na avaliação do projeto que os resultados em relação ao modelo desenvolvido utilizando técnicas de processamento textual foram satisfatórios do ponto de vista da qualidade do algoritmo desenvolvido e em relação à praticidade na aplicação. Ao revisitar o objetivo principal deste trabalho, fica claro que a validação do conceito sobre a possibilidade de aplicação de técnicas de Mineração de Textos para
desenvolver modelos no ciclo de crédito é promissora e possibilita grande oportunidade de estudos futuros, pois o universo financeiro oferece diversos cenários e objetos de estudo onde esse tipo de tecnologia pode ser aplicado e testado. São diversos segmentos econômicos brasileiros, tais como industrial, financeiro, securitário e demais empresas, que realizam operações de recuperação de crédito dentro do ambiente de negócio, possibilitando a oportunidade de avaliar o quanto a metodologia proposta neste estudo pode ser aplicada e qual sua aderência em ambientes adversos de outros segmentos.
REFERÊNCIAS
ABECS, Associação Brasileira das Empresas de Cartões de Crédito e Serviços. Disponível em <http://www.abecs.org.br/novo_site/origem_cartao.html>. Acesso em 04 nov. 2013.
______. Disponível em
<http://www.abecs.org.br/media/c:fullcentered/w:872/h:472/f/8/9/2d84985ce1b7d5e5e7e 470bcb6e12.jpg>. Acesso em 18 mar. 2014
ARGENTA, José Leonor. Cobrança e recuperação de créditos na agência do Banco do
Brasil de São Jerônimo (RS). Disponível em
<http://www.lume.ufrgs.br/bitstream/handle/10183/14090/000649438.pdf?sequence=1>. Acesso em 22 out. 2014.
BANDURA, A. Social Learning Theory. New York: General Learning Press, 1977.
BESS, C. et al. The grand challenges of information technology. In: ENGINEERING MANAGEMENT CONFERENCE, 2003. IEMC’03. Managing technologically driven organizations: the human side of innovation and change; 2003, p. 610-5.
BCB. Sistema financeiro Brasil. Banco Central do Brasil. Disponível em <http://www.bcb.gov.br/?sfn>. Acesso em 10 set. 2013.
______. Organização do Sistema Financeiro Nacional. Disponível em
<http://www.bcb.gov.br/htms/estabilidade/2012_03/refc4p.pdf>. Março, 2012. Acesso em 10 set. 2013.
BRASIL. Constituição da República Federativa do Brasil de 1998. Disponível em <http://www.planalto.gov.br/ccivil_03/constituicao/constituicao.htm>. Acesso em 19/10/2013.
CALVO, Rafael A; D’MELLO, Sidney. Affect detection: an interdisciplinary review of models, methods, and their applications. IEEE Transactions on Affective
COHEN, K. Bretonnel; HUNTER, Lawrence. Getting started in Text Mining. PLoS
Computational Biology 4 (1): e20, 2008. doi:10.1371/journal.pcbi.0040020. PMC
2217579. PMID 18225946
COMPRA com cartão de crédito lidera inadimplência. Estadão.com.br. Economia &
Negócios. 31/01/2013. Disponível em:
<http://economia.estadao.com.br/noticias/economia-geral,compra-com-cartao-de- credito-lidera-inadimplencia,142562,0.htm>. Acesso em 22/01/2014.
CORNFIELD, J. A method for estimating comparative rates from clinical data. Applications to cancer of the lung, breast, and cervix. Journal of the National Cancer
Institute, 1951,11:1269-75.
CREDIT Rating 101. DebtCanada. Disponível em
<http://www.debtcanada.ca/library/credit-rating-101>. Acesso em 21 abr. 2014.
EADIE, W.T. et al. Statistical methods in experimental physics. Amsterdam: North- Holland, 1971, pp. 269-71. ISBN 0444101179.
ESPRIT. Welcome to Esprit, the EU information technologies programme. Arquivado em 06/11/2009. Disponível em <http://cordis.europa.eu/esprit/home.html>. Acesso em 15 fev. 2014.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to knowledge discovery: an overview. Advances in Knowledge Discovery and Data
Mining. Cambridge, Mass.: MIT Press, 1996, pp. 1-36.
FOX, C. Lexical analysis and stoplists. Upper Saddle River, NJ: Prentice-Hall, 1992.
HAN, J.; KAMBER, M. Data mining concepts and techniques. EUA: Elsevier Press, 2006.
HAND, D.J.; MANINILA, H.; SMYTH, P. Principles of Data Mining. Massachusetts, EUA: MIT Press, 2001.
HOBBS, Jerry R.; WALKER, Donald E.; AMSLER, Robert A. Natural language access to structured text. Proceedings… of the 9th conference on Computational linguistics 1. pp. 127–32, 1982.
HOSMER, W.D.; LEMESHOW, S. Applied logistic regression. New York: John Wiley Sons, 2005.
KIMBALL, Ralph; MERZ, Richard. The data webhouse toolkit: building the web-enabled data warehouse. New York: Wiley, 2000. ISBN 0-471-37680-9.
KURGAN, L.; MUSILEK, P. A survey of knowledge discovery and Data Mining process models. The Knowledge Engineering Review. Reino Unido: Cambridge University Press, 2006, v. 21, p. 1-24.1.
LAWRENCE, B.D. Risco e recompensa: o negócio de crédito ao consumidor. São Paulo: Bandeirante, 1987, p. 188.
LOVINS, J. Development of a stemming algorithm. Mechanical Translation and
Computational Linguistics, 1968 11: 22–31.
______. Desenvolvimento de um algoritmo de stemming. Mecânica e Linguística
Computacional, 1968, 11: 22-31.
MINGUEZ, P. et al. Functional profiling of microarray experiments using text-mining derived bioentities: Bioinformatic. Gene expression, vol. 23 no. 22, 2007, pp. 3098-9.
MISSIO, F.; JACOBI, L. Variáveis dummy: especificações de modelos com parâmetros variáveis, Departamento de Estatística – CCNE/UFSM, 2007. Disponível em <http://www.researchgate.net/publication/252322545_Variveis_dummy_especifies_de_ modelos_com_parmetros_variveis/file/72e7e51f2f8cee4a3b.pdf>. Acesso em 18 abr. 2014.
MONTANER,D. et al. Next station in microarray data analysis: GEPAS. Nucleic Acids
Res., 34, W486–W491, 2006.
NLTK, N. Nltk documentation. Disponível em: <http://www.nltk.org/news.html>>. Acesso em 22 jan. 2014.
OVERBACK ANALITICA. CRISP-DM Data Mining technology. Disponível em <http://www.abecs.org.br/media/c:fullcentered/w:872/h:472/f/8/9/2d84985ce1b7d5e5e7e 470bcb6e12.jp>. Acesso em 201.
PICARD, R.; BERK, K. Data splitting. American Statistician, 1990 44:140-7.
PORTAL EDUCAÇÃO, P. Definição de crédito. Disponível em <http://www.portaleducacao.com.br/financas/artigos/21494/definicao-de-credito>.
Acesso em 04 nov. 2013.
RYPLEY, B.D. Pattern recognition and neural networks. Cambridge: Cambridge University Press, 1996.
SARLE, W.S. Neural networks and statistical models. Proceedings… 19th Annual SUGI, Cary, NC: SAS Institute Inc., 1995.
SAVOY, J. Light stemming approaches for the French, Portuguese, German and Hungarian languages. ACM SYMPOSIUM ON APPLIED COMPUTING, SAC 2006, ISBN 1-59593-108-2.
SHEARER C. The CRISP-DM model: the new blueprint for Data Mining J Data
Warehousing, 2000. Ed. 5.
SICSÚ, L.A. Credit scoring – desenvolvimento, implantação e acompanhamento. São Paulo: Blucher, 2010.
SME ToolKit. Disponível em <http://brasil.smetoolkit.org/brasil/pt_br>. Acesso em 18 fev. 2014
SPSS Inc. CRISPMWP-1104. Disponível em
<ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/ UserManual/CRISP-DM.pdf>. Acesso em 15 fev. 2014
STEHMAN, S.V. Selecting and interpreting measures of thematic classification accuracy. Remote Sensing of Environment, 1997 62 (1):77-89.
TAN, Ah-Hwee Tan. Text mining: the state of the art and the challenges. 1999. Pacific- Asia Workshop on Knowledge Discovery from Advanced Databases – PAKDD’99.
ZANASI, Alessandro. Virtual weapons for real wars: Text Mining for national security.
Proceedings… of the International Workshop on Computational Intelligence in Security