O modelo é aplicável em situações onde se deseja predizer valores de uma variável dependente em função dos valores conhecidos de variáveis independentes. Caso seja possível identificar uma relação significativa entre as variáveis, dependente e independentes, é possível criar um modelo preditivo da variável depedente em função do conhecimento prévio das variáveis independentes, que podem ser categóricas ou métricas, onde é possível interpretar o resultado em termos de probabilidade. Sendo que, a principal particularidade que distingue o modelo de regressão logística dos demais modelos de regressão é o fato da variável dependente ser dicotômica, sendo este o modelo mais apropriado para este tipo de situação.
Corroborando com a informação acima descrita, Anderson (2007) escrevendo a respeito da regressão logística, cita que atualmente esta técnica estatística tem sido aceita como opção de escolha para o desenvolvimento de modelos de credit scoring, pois foi desenvolvida justamente para lidar com modelos de resultados binários e também pelo fato de fornecer uma estimativa bastante robusta da probabilidade real, dada a informação disponível.
Corrar, Paulo e Dias Filho (2007) exemplificam a questão relativa à variável binária ou dicotômica, citando que há diversos processos onde a variável dependente possui a natureza binária, citando, como exempo, o fato de um aluno poder ser reprovado ou não, um produto poder ou não ser aceito pelo controle de qualidade ou um cliente vir a se tornar inadimplente ou não.
Em continuação, Corrar, Paulo e Dias Filho (2007), citam que o resultado atribuível à variável dependente se encontra dentro do intervalor de 0 a 1 e isto atende a dois objetivos: (1)
Identificar a probabilidade de ocorrência de determinado evento e (2) classificar o evento em categorias. Neste tipo de situação, por convenção, poderia-se determinar que qualquer resultado superior a 0,5 determina uma provável inadimplência, enquanto que o resultado inferior a 0,5 determina uma provável adimplência.
Corroborando com a informação apresentada acima, Hair et al. (2007), menciona que o modelo de regressão logística possui valores de probabilidade que podem ocorrer no intervalo de zero a um, sendo que, para definir uma relação delimitada de zero a um, o modelo em questão se utiliza de uma relação assumida entre as variáveis, dependente e independente, que lembra uma curva em S, conforme figura abaixo:
Figura 11 – Forma da relação logística entre variáveis dependente e independente
Fonte: Hair at al. (2007, p. 232)
Anderson (2007) discorre a respeito da regressão logística reforçando a ideia de que a técnica é mais apropriada para resultados binários e, consequentemente, apropriada para modelos de credit scoring. Em seu desenvolvimento, o método se utiliza de um processo chamado de estimativa por máxima verossimilhança, que (i) transforma a variável dependente em uma função de log, (ii) faz um palpite sobre o que os coeficientes devem ser, e (iii) determina mudanças nos coeficientes, para maximizar a verossimilhança.
Em complemento ao exposto por Anderson (2007) acima, os modelos lineares poderiam trazer resultados maiores do que um ou menores do que zero para a variável dependente. Devido a isto, se faz necessário, conforme Corrar, Paulo e Dias Filho (2007, p. 284), "[…] converter as observações em razão de chance (odds ratio) e submetê-las a uma transformação logarítmica […]".
Em realação ao processo de estimativa por máxima verossimilhança, Field (2009) descreve como Y a probabilidade de algo ocorrer e, como probabilidade, varia de 0 a 1. Sendo assim, 0 siginifica que a ocorrência de Y é bastante remota e 1, bem provável. Desta maneira, o modelo escolhido será aquele que os valores das variáveis independentes, ou previsoras, resultem em um Y mais próximo do valor observado. Sendo que os valores dos parâmetros são estimados utilizando a estimação da máxima verossimilhança, cuja seleção procura os coeficientes que tornam os valores observados mais prováveis de terem ocorrido.
Em suma, o modelo geral de regressão logística pode ser representado da seguinte maneira:
ln
(
P(Sucesso))
=b
0 +b
1x
1i +b
2x
2i+ … +b
kx
ki1 - P(Sucesso)
Onde temos no início da fórmula o logaritmo natural da razão de chance, que se trata da probabilidade de sucesso em relação à probabilidade de fracasso e, o lado direito da fórmula, as variáveis independentes e os coeficientes estimados (
b
0 +b
1+ b
2x
2i+ … +b
k).O modelo de regressão logística é amplamente utilizado por desenvolvedores de scores, como citou-se previamente no presente trabalho, sendo mais bem aplicado em processos em que a variável dependente possui resultados binários. No entanto, a fácil utilização do modelo pode induzir ao erro um pesquisador superficial, conforme alerta Menard (2001) expondo que a facilidade de usar, a flexibilidade, a ampla aplicabilidade e popularidade atual de análise de regressão logística tornam-na particularmente suscetível ao uso indevido. Aplicações impensadas e mecânicas da análise de regressão logística não serão mais proveitosas do que aplicações impensadas e mecânicas de regressão linear ou qualquer outra técnica.
Em relação aos pressupostos da técnica há que se observar os requisitos técnicos a serem satisfeitos para a utilização adequada da regressão logística. Apesar de ser mais flexível do que outras técnicas multivariadas, a regressão logística é sensível às questões de multicolineariedade, ou seja, altos níveis de correlação entre as variáveis independentes, sendo que, a fim de minimizar problemas de multicolineariedade, o pesquisador poderá incorporar mais informações ao modelo, ou seja, aumentar o número de observações. Além disso, o
pesquisador deverá se certificar de que não existem problemas de variáveis omitidas e também, identificar a presença de outliers, que são os casos destoantes na amostra.
Tecnicamente, uma forma de detectar problemas de multicolineariedade é estimar uma correlação entre as variáveis independentes de tal modo que coficientes próximos ou superiores a 0,9 indicam a presença de multicolinearidade, sendo que as variáveis independentes com esta característica, pouco contribuem para a formação do modelo.
Em relação aos outliers, dependendo da intensidade dos mesmos, pode-se causar efeitos indesejados na pesquisa, em que, especificamente no caso da regressão logística, a presença de outliers prejudica o ajuste do modelo, sendo que, um ponto importante é que o pesquisador informe o método utilizado para lidar com os casos destoantes.
O modelo de regressão logística é mais comumente utilizado em relação a análise discriminante, pois a última impõe às variáveis independentes algumas condições como serem normalmemte distribuídas e terem suas matrizes de variância-covariância iguais entre os dois grupos de classificação.
Conforme Hair at al. (2007), a regressão logística não depende da exigência de normalidade das variáveis independentes e da igualdade de matrizes de covariância, pressupostos básicos da análise discriminante, além de possuir capacidade de incorporar efeitos não lineares.