• No results found

A análise de variância permite que sejam apartadas as variâncias explicadas e não explicada por meio da reta de regressão. A variância em questão refere-se à variabilidade para as observações Y. Quanto maior a variância explicada pelo ajuste, melhor será a estimativa de Y com base X. Para que esta análise se cumpra, é necessário que sejam calculadas somas de quadrados de especial interesse, os quais sejam, Soma de Quadrados Total (SQT), Equação 2-15, Soma de Quadrados da Regressão (SQR), Equação 2- 16 e Soma de Quadrados dos Erros (SQE), Equação 2-17, formalizadas com base nos valores observados (Yi), valores ajustados (Yi) e média estimada para

Y ( ̅) conforme segue: ∑ ̅ Equação 2-15 ∑( ̂ ̅) Equação 2-16 ∑( ̂) Equação 2-17

45 A soma dos quadrados total, SQT, representa a variabilidade total observada para os valores de Y. SQR totaliza a parcela desta variabilidade que foi explicada pela regressão, pois toma por base os afastamentos dos valores ajustados, ̂ , em relação ao referencial, a média ̅ . SQE responde pela variabilidade não explicada, pois envolve os desvios das observações Yi em

relação aos valores ajustados ̂ , é a parcela que contabiliza a incerteza do modelo matemático de regressão. Estes valores respeitam o seguinte balanço: SQT = SQR + SQE, sendo que SQT é uma constante, dada uma determinada amostra de dados.

O fracionamento da variância em termos de SQT, SQR e SQE possui sua correspondência em termos dos graus de liberdade (gl) associados a cada uma dessas parcelas. O conceito de graus de liberdade em estatística repousa em fontes de variabilidade, portanto, tem-se de ponderar quantos pontos independentes é fonte de variabilidade e quantos parâmetros estimados intermediários estão envolvidos nos cálculos de cada uma das variâncias acima. Nesse contexto, SQT está associado a (n-1)gl, um grau de liberdade em relação ao número total de observações disponíveis é perdido, haja vista que para o seu calculo é necessário estimar o valor para a média ̅. SQR associa- se a 1gl apenas, pois embora existam n desvios de valores ajustados em relação à média, todos eles baseiam-se na reta de regressão e seus dois graus de liberdade (correspondentes ao intercepto e à inclinação estimados que definem a reta de regressão), e um graus de liberdade é perdido pela necessidade de se subtrair ̅ do cálculo de SQR. Finalmente, SQE está associado a n-2 gl, pois embora haja n desvios de valores ajustados em relação aos valores observados, dois graus de liberdade são perdidos em função das estimativas para o intercepto e a inclinação da reta de regressão. Com os respectivos graus de liberdade, podem-se obter as somas de quadrados médios (BARRETO, 2011):

̅

46 Equação 2-19 ∑ ̅ Equação 2-20

É desejável que SQR seja o maior possível, pois significa formalmente a redução ao máximo de incerteza em relação aos valores de Y, com base no modelo de regressão compondo a variável X. Com o ímpeto de avaliar a magnitude de SQR em relação a SQT, é de especial interesse calcular o coeficiente de determinação (R²), Equação 2-21, que mede a proporção da variabilidade total observada para Y que é explicada pela reta de regressão de Y sobre X (KELLEY e MAXWELL, 2003), (DAVDSON e MACKINNON, 1993):

Equação 2-21

O coeficiente de determinação varia entre 0 e 1. Se R²=1, o ajuste linear aos dados é perfeito, há uma regressão perfeita, e toda variabilidade de Y pode ser explicada pela reta de regressão em função de X, sendo que ̂ ; se R²=0, a regressão não consegue explicar qualquer parcela da variabilidade de Y (CHATTERJEE e PRICE, 1991).

No caso de regressão linear simples, a raiz quadrada do coeficiente de determinação resulta no coeficiente de correlação, r, entre Y e X, que assume valores entre -1 e 1, sendo que o sinal do coeficiente é atribuído em função da inclinação da reta de regressão (b1) (Equação 2-22) for negativo ou positivo (CHATTERJEE e PRICE, 1991):

̅ ̅ ∑ ̅

47 O coeficiente de correlação mede o grau de associação linear entre as duas variáveis. Valores elevados para r são desejáveis em análise de regressão, na medida em que isso indica formalmente que há um alto grau de linearidade entre X e Y, o que, pode favorecer a estimação de modelos lineares de regressão bem ajustados. Além disso, em regressão linear simples o coeficiente de correlação (r) representa uma medida do grau de ajustamento linear da reta de regressão.

Cabe observar que, um valor elevado para r ou R² não significa estritamente que as estimativas proporcionadas pelo modelo de regressão sejam satisfatórias, considerando sua aplicabilidade prática. Deve-se considerar que o modelo matemático de regressão é probabilístico, e que ao estimar valores pontuais para resposta Y assume-se que há um grau de incerteza envolvendo este resultado, e que deve ser mensurado de algum modo. Assim, quanto à avaliação da precisão das estimativas, devem-se analisar outras inferências obtidas a partir do modelo de regressão, especialmente intervalos de confiança.

Quando se trata de análise de variância em regressão múltipla, os valores das somas de quadrados, SQT, SQR e SQE possuem o mesmo significado já apresentado em relação à regressão linear simples, porém há diferenças em relação aos graus de liberdade: SQT associa-se a (n-1) gl, como em regressão simples; SQR a (p-1) gl e SQE a (n-p) gl, sendo p o número de parâmetros do modelo de regressão múltipla (BARRETO, 2011).

Assim, SQT mantém a mesma notação da equação da SQT (Equação 2-15), mas QMR e EQM exprimem-se, respectivamente, por:

Equação 2-23 e Equação 2-24

Em regressão com mais de uma variável explicativa, o coeficiente de determinação R², exprime o quanto da variabilidade total para as observações

48 Y é reduzida com advento do modelo de regressão contando com p-1 variáveis explicativas. Em regressão múltipla, o coeficiente de determinação também varia entre 0 e 1, sendo que, valores próximos de 1 sugerem o bom ajuste da superfície de regressão aos dados observado, deve-se considerar que agora a referência é em relação a uma superfície de regressão, a três ou mais dimensões, e não mais a uma reta a duas dimensões.

São necessárias análises adicionais, principalmente fundadas em intervalos de confiança e na avaliação dos erros de predição / estimativa mesmo havendo um valor elevado para R², que não significa estritamente que as estimativas proporcionadas pelo modelo de regressão múltipla sejam satisfatórias em termos de aplicabilidade prática, no caso de regressão múltipla, a quantidade de variáveis mascara em certo sentido a interpretação tomada a partir de um coeficiente de determinação calculado nos moldes de R². De fato, um valor mais elevado para R² deve-se a inclusão de mais variáveis preditoras no modelo de regressão. No entanto, não significa necessariamente um melhor ajuste de regressão aos dados nem maior precisão. Além disso, a inclusão de mais uma variável no modelo pode acarretar problemas de multicolinearidade e especificação que impactem justamente no ajuste e na precisão do modelo.

E ainda, em última análise, a qualidade de um modelo de regressão não é medida de forma alguma pelo número de variáveis nele incorporadas. Por estes fatores, uma medida do grau de ajustamento que leve em consideração o número de variáveis incluídas no modelo deve ser considerada, no mínimo por questões de parcimônia, e também para fins de comparação entre modelos com números distintos de parâmetros (p) incorporados ao modelo de regressão.

Esta medida é o coeficiente de determinação ajustado, que é obtido pela divisão das somas de quadrados por seus respectivos graus de liberdade, conforme segue: Equação 2-25

49 O detalhe importante é que a inclusão de uma variável adicional no modelo de regressão pode fazer o valor para diminuir, ao invés de aumentar.

Deve-se frisar que embora o coeficiente de correlação (r) e os coeficientes de determinação (R²) para regressão linear simples e múltipla se constituam em medidas quantitativas do grau de ajustamento do modelo linear aos dados de estimação, em análise de regressão estes valores devem ser considerados com certa cautela, e a titulo de indicação, pois valores elevados calculados para estas medidas não necessariamente, e ato contínuo, significam que os dados se ajustam bem ao modelo estimado.

Análises adicionais realizadas na fase de diagnóstico que se encarregam de detalhadamente avaliar a qualidade e adequação do ajustamento do modelo estimado.