• No results found

Motion blur and spectral rendering

8.5 Extensions

8.5.3 Motion blur and spectral rendering

Quando se selecionam dados no âmbito de um problema de classificação, a tendência é acrescentar o maior número de variáveis possíveis, de forma a melhor caracterizar o problema. Acontece, normalmente, que muitas das variáveis não estão associadas a variável resposta (target), havendo nestes casos, dois tipos de variáveis: as variáveis completamente irrelevantes, ou seja, que em nada distiguem a variável resposta; e as variáveis redundantes, ou seja, que em nada acrescentam a discriminação da variável resposta dado que alguma outra variável já acrescentou a mesma informação. Por esta razão, é comum em estudos deste gênero, considerarem-se diversas abordagens de forma a encontrar as relações tidas entre as variáveis independentes e a variável resposta.

O propósito da seleção de variáveis consiste em, a partir de um conjunto inicial de F variáveis, selecionar um subconjunto H, tal que H<F, tendo sido H apurado segundo um determinado critério que permita identificar as variáveis relevantes para o problema em análise. A eliminação de variáveis inúteis permite reduzir a dimensão dos dados e a sua complexidade e portanto, reduzir o tempo de processamento dos métodos. Além disso, segundo Hosmer e Lemeshow (2000), a seleção de variáveis é um passo muito importante, pois tendencialmente, com um menor número de variáveis o modelo será mais robusto.

Para alcançar o objetivo na seleção de variáveis é necessário: (1) um plano de seleção de variáveis, (2) um método para a validação do modelo em termos das variáveis individuais e também do ponto de vista do ajuste com todas no modelo (HOSMER; LEMESHOW, 2000).

Na obtenção de um modelo estatístico procura-se o mais parcimonioso, mas que explique bem os dados. A vantagem em minimizar o número de variáveis é que o modelo resultante provavelmente é mais estável numericamente e é mais fácil de ser generalizado, pois quanto mais variáveis o modelo tiver, maiores serão os erros padrão estimados e o modelo fica cada vez mais dependente dos dados observados.

Conforme Hosmer e Lemeshow (2000), as etapas para a seleção de variáveis são as seguintes:

1) O processo de seleção começa com uma análise exploratória univariada cuidadosa para cada variável. Deve-se tomar cuidado com a variável independente, pois dependendo de seu tipo podem ocorrer tabelas de contigência com caselas zero, que produzirá uma estimativa pontual univariada para uma das razões de chances iguais a zero ou infinito.

2) Depois é feita a seleção para uma análise multivariada. A variável cujo teste univariado tiver valor-p < 0,25 é candidata a entrar no modelo multivariado juntamente com outras variáveis consideradas importantes pelo especialista responsável pela análise.

O valor de nível de significância é usado como critério para seleção de variáveis, pois o uso do valor tradicional ( ) frequentemente falha na identificação de variáveis conhecidas como importantes.

3) Nesta etapa, a importância de cada variável incluída no modelo deve ser verificada. Por isso, deve-se calcular a estatística de Wald e uma comparação de cada coeficiente estimado com o coeficiente do modelo univariado contendo apenas aquela variável. As variáveis que não contribuírem para o modelo baseado neste critérios devem ser eliminadas e um novo modelo deve ser ajustado. O novo modelo é comparado com o modelo anterior (sempre com mais variáveis) por meio do teste da razão de verossimilhança. Os coeficientes estimados para as variáveis restantes devem ser comparados com aqueles do modelo completo. É necessário, verificar as variáveis cujos coeficientes têm mudanças marcantes em magnitude. Este processo de eliminação, reajustamento e verificação é feito até que todas as variáveis importantes estejam incluídas no modelo e aquelas excluídas não tenham importância estatística.

4) Após a obtenção do modelo com todas as variáveis essenciais, é interessante considerar os termos de interação entre as variáveis. Primeiro, incluí- se no modelo principal cada interação e compara-se o modelo de interação com o modelo principal. Selecionam-se as interações significativas e ajusta-se um novo modelo. O novo modelo é comparado com o modelo principal. Se não existir efeito de interação o processo está completo, mas, se existir o efeito de interação, o processo continuará até que se determine o modelo completo com as interações.

Outra maneira para selecionar variáveis é o método Stepwise. Neste tipo de seleção, as variáveis são selecionadas tanto por inclusão como por exclusão no modelo em um uso sequencial baseado exclusivamente em critério estatístico. Existem duas outras versões do procedimento de seleção:

a) Seleção forward com teste para eliminação backward;

b) Eliminação backward seguido de um teste de seleção forward. A seleção stepwise é útil porque ela constrói modelos em forma sequencial e permite o exame de um conjunto de modelos que podem não ter sido examinados.

A seleção stepwise é um algoritmo estatístico que verifica a importância das variáveis e também em incluí-las ou excluí-las com base numa regra de decisão fixada. A importância de uma variável é definida em termos de uma medida da significância estatística do coeficiente da variável (HOSMER; LEMESHOW, 2000).

Segundo Hosmer e Lemeshow (2000), na Regressão Linear Stepwise, o teste F é usado desde que os erros sejam assumidos com distribuição Normal. Na Regressão Logística Stepwise, os erros são assumidos a partir da distribuição Binomial e a significância é avaliada pelo teste razão de verossimilhança qui- quadrado.

Assim, em cada passo do procedimento, a variável mais importante, em termos estatísticos, será a variável que produz a maior mudança no log de verossimilhança relativo a um modelo não contendo a variável (modelo com maior estatística da razão de verossimilhança ) (HOSMER; LEMESHOW, 2000).

Depois que o modelo de Regressão Logístico é ajustado, podem ocorrer alguns problemas numéricos:

a) Frequência de zeros em uma tabela de contigência: Uma prática comum para evitar uma estimativa do ponto indefinido é adicionar 1,5 para cada célula. Este valor adicionado permite a mudança da análise de uma tabela de contingência simples, mas raramente é satisfatório para um conjunto de dados mais complexo (HOSMER; LEMESHOW, 2000).

A presença de uma célula de contagem zero deve ser detectada na análise univariada dos dados, pois esta célula causará problemas de estágio de modelagem de análise. Para contornar este problema, pode-se juntar as categorias

da variável em uma forma significativa para eliminá-la, ou se a variável é no mínimo de escala ordinal, tratá-la como se ela fosse contínua.

b) Covariáveis discriminam perfeitamente: É quando um conjunto de covariáveis separa completamente os grupos respostas. Se uma covariável é conhecida, o valor da variável resposta com certeza é conhecido.

c) Colinearidades: Como no caso da Regressão Linear, o ajuste do modelo via Regressão Logística é também sensível para colinearidades entre as variáveis independentes no modelo.

Hosmer e Lemeshow (2000) destacam que os problemas numéricos de uma célula de contagem zero, separação completa e colinearidade, são sempre manifestados por erros padrão estimados extraordinariamente grandes e algumas vezes, por coeficientes estimados grandes.