• No results found

Algumas ferramentas estatísticas são extremamente importantes e de amplo conhecimento geral, portanto, estas serão mostradas de forma resumida sem maior preocupação em apresentar detalhes de elaboração das mesmas.

O Histograma é uma forma muito útil de organizar um conjunto de observações tal que estas possam ser facilmente interpretadas e avaliadas. Conforme Soong (2004), este proporciona uma impressão visual da forma da distribuição, da tendência central e da dispersão dos dados. Na Figura 2.29 é apresentado um histograma onde os dados de

rendimento de um determinado processo são divididos em faixas no eixo das abcissas e a frequência de dados nestas faixas é mostrada no eixo das ordenadas.

Figura 2.29 – Histograma para dados de rendimento de um processo. Fonte: SOONG, 2004.

Outra ferramenta gráfica muito útil é o Boxplot, pois descreve simultaneamente importantes aspectos da distribuição dos dados como centro e dispersão, simetria e a presença de observações não usuais. Segundo Montgomery e Runger (2003), o Boxplot apresenta os três quartis (na estatística descritiva, um quartil é qualquer um dos três valores que divide o conjunto ordenado de dados em quatro partes iguais, e assim cada parte representa 1/4 da amostra ou população), o mínimo, o máximo em uma caixa retangular. Esta caixa mostra a distância interquartílica entre o primeiro quartil (extremidade esquerda) e o terceiro quartil (extremidade direita). A linha no centro da caixa representa o segundo quartil (mediana ou percentil 50% dos dados). Os pontos que se encontram a uma distância superior a 1,5 vezes a distância interquartílica do primeiro ou terceiro quartil são chamados outliers ou não usuais. A Figura 2.30 mostra uma representação de um Boxplot.

Figura 2.30 - Componentes de um Boxplot. Fonte: MONTGOMERY, RUNGER, 2003.

As ferramentas apresentadas são importantes para verificar o comportamento individual de cada variável, mas para se avaliar as relações entre as mesmas, durante o desenvolvimento deste trabalho adotou-se a correlação r como parâmetro para avaliar se determinada variável preditora exerce algum efeito significativo sobre a variável resposta.

Conforme Montgomery e Runger (2003), quando duas ou mais variáveis são definidas, é útil descrever como eles variam conjuntamente e medir a relação entre elas. Uma forma simples de ser interpretada para medir a relação entre duas variáveis X e Y é a correlação r apresentada na equação (2.21).

ݎ௑௒ൌ ඥ௏ሺ௑ሻǤ௏ሺ௒ሻ஼ை௏ሺ௑ǡ௒ሻ ൌ ೉ೊ (2.20)

O qual:

COV(X,Y) = covariância entre as duas variáveis σX = desvio padrão da variável X

σY = desvio padrão da variável Y

Uma vez que σX e σY são positivos maiores que zero, se a covariância entre as variáveis X e Y é positiva, negativa ou zero, a correlação entre X e Y é positiva, negativa ou zero, respectivamente. A correlação r é adimensional e para quaisquer valores das variáveis X e Y tem-se:

െͳ ൑ ݎ௑௒ ൑ ͳ (2.21)

Valores da correlação r maiores que zero indicam que a relação entre as variáveis tendem a ser visualizadas ao longo de uma linha com inclinação positiva, ou seja, o aumento

de X é acompanhado por um aumento de Y. No caso contrário, valores da correlação r menores do que zero, a tendência é de aumento de X acompanhado de uma redução de Y. A correlação é uma medida de relação linear entre variáveis e caso esta relação não seja linear, a correlação pode não ser útil para indicar esta variação.

Em alguns casos as variáveis podem não estar na melhor condição para análise e Chatterjee e Hadi (2006) afirma que podem ser aplicadas transformações das variáveis antes de se realizar as análises. Existem diversas transformações visando normalizar os dados, estabilizar a variância e linearizar os dados. No caso da aplicação da correlação r e nas análises de regressão linear é útil buscar uma linearização das variáveis de interesse através da aplicação de transformações e posteriormente correlacionar estas variáveis transformadas. Estas transformações consistem em aplicar uma função matemática aos dados originais e realizar a correlação com os novos valores obtidos. No entanto, existem distribuições de dados que não podem ser facilmente linearizadas e que não podem ser tratadas por métodos de análises lineares. Este tema será abordado mais adiante quando forem descritas as funções de transferência usadas no modelo neural.

A Figura 2.31 mostra gráficos de dispersão entre as variáveis X e Y e suas correspondentes retas de ajuste de um modelo de regressão linear. Nos gráficos à esquerda a variável X não está transformada e mostra uma não linearidade em relação a Y. Nos gráficos à direita verifica-se uma linearidade entre Y e a variável X após transformação.

Figura 2.31 – Linearização da relação X e Y: a) transformação da variável X usando a função quadrática, b) transformação da variável X usando a função raiz quadrada.

Usualmente uma ferramenta muito utilizada para construção de modelos entre variáveis é a análise de regressão. Os conceitos e premissas envolvidas em uma análise de regressão não são escopo deste texto, uma vez que, no caso específico deste trabalho, a ferramenta foi utilizada como técnica de seleção de variáveis a serem trabalhadas na etapa subsequente usando um modelo neural. Para este fim utilizou-se a regressão stepwise que é descrita por Montgomery e Runger (2003) como a técnica de seleção de variável provavelmente mais utilizada.

O procedimento da regressão stepwise consiste na construção de uma sequência de modelos de regressão adicionando ou removendo variáveis iterativamente. O critério para adicionar ou remover uma variável em cada passo é usualmente baseado em um teste F parcial. Considerando fin o valor F parcial para adicionar uma variável ao modelo e fout o valor F parcial para retirar a variável do modelo, então fin ≥ fout e usualmente fin = fout.

Inicia-se a regressão stepwise formando um modelo usando a variável preditora que apresenta a maior correlação com a variável resposta e produzindo a maior estatística F. Em geral, a cada etapa o conjunto de variáveis preditoras restantes é examinado e a variável com o maior valor da estatística parcial F é adicionada, considerando que o valor F parcial excede

fin. Então a estatística F parcial é novamente calculada para cada variável preditora e aquela com menor valor, desde que este valor seja menor que fout, é retirada do modelo. O procedimento continua até que nenhuma variável possa ser adicionada ou retirada do modelo.

Com estas ferramentas apresentadas pode-se avaliar o efeito de cada variável preditora sobre a variável resposta, as variáveis correlacionadas entre si e qual destas melhor explica a variação da resposta, e realizar uma seleção das mesmas anteriormente ao trabalho usando o modelo neural. Em um ambiente de grande variabilidade dos dados a visualização destes efeitos pode ficar prejudicada e uma alternativa é aplicar um filtro aos mesmos para que esta variabilidade seja minimizada e possa se observar o comportamento médio da variável ao longo do tempo.