Metode - Kroppsoppfatning og seksualitet etter behandling av brystkreft

De acordo com Gujarati (2000, p. 3) o termo regressão foi introduzido por Francis Galton, em seu famoso trabalho publicado em 188632. Porém, em linhas gerais, a moderna interpretação da regressão é a seguinte:

A análise de regressão ocupa-se do estudo da dependência de uma variável, a variável dependente, em relação a uma ou mais variáveis, as variáveis explicativas, com o objetivo de estimar e/ou prever a média (da população) ou o valor médio da dependente em termos dos valores conhecidos ou fixos (em amostragem repetida) das explicativas (GUJARATI, 2000, p. 4).

Antes de tudo, é importante ressaltar que nesta pesquisa, o intuito da aplicação da regressão simples e múltipla nas relações que se pretendem investigar (apresentadas no tópico 3.4), não é formular equações capazes de preverem as variáveis dependentes, mas sim, identificar a capacidade de aderência destas variáveis com as variáveis independentes.

32_{GALTON, Francis. Family Likeness in Stature. Londres: Proceedings of Royal Society, v. 40, p. 42-72,}

De qualquer maneira, conforme visto, a regressão pode ser entendida como sendo o estabelecimento de uma relação funcional ente duas ou mais variáveis envolvidas para a descrição de um fenômeno.

Entretanto, a diferença básica de uma regressão simples para uma regressão múltipla é que, enquanto a primeira tem o intuito de prever uma variável dependente a partir do conhecimento de uma única variável independente, a segunda tem o mesmo objetivo, porém, com mais de uma variável independente.

Sendo assim, a combinação linear da(s) variável(is) independente(s) usadas para prever a variável dependente geram equações ou modelos estatísticos de regressão, conforme apresentados a seguir: - Regressão simples: (10) onde: = variável dependente; = variável independente; = intercepto do modelo; = parâmetro do modelo;

= termo que representa o resíduo ou erro da regressão.

- Regressão múltipla: (11)

onde:

= variável dependente;

= variáveis independentes; = intercepto ou coeficiente angular;

= parâmetros da regressão (coeficientes angulares); = termo que representa o resíduo ou erro da regressão.

O termo é denominado intercepto, ou coeficiente linear, e representa o valor da intersecção da reta de regressão com o eixo dos Y. Ou seja, representa o valor de Y quando X

é igual à zero. Já os termos são chamados coeficientes angulares (CORRAR, PAULO e DIAS FILHO, 2007, p. 135).

Segundo Corrar et al. (2007), ao estimar a equação da regressão, busca-se a que melhor se ajusta aos dados, ou seja, aquela para qual a diferença entre os valores observados e os valores estimados é menor, isto é, a de menor resíduo ponderado entre todas as observações reais e as estimadas. Dessa forma, segundo os próprios autores, o método de estimação de modelos mais comumente utilizados em regressão linear é o método dos mínimos quadrados (MMQ), cujo objetivo é justamente obter a menor soma dos quadrados dos resíduos possível (SQR).

Para modelar uma regressão múltipla pode-se adotar o método Enter ou os métodos de busca sequencial. No método Enter, todas as variáveis independentes são obrigatoriamente incluídas na equação. Nos métodos de busca sequencial busca-se estimar a equação com um conjunto inicial delas e então acrescentar seletivamente ou eliminá-las até que alguma medida de critério geral seja alcançada.

Esta última técnica fornece um método objetivo para selecionar variáveis que maximiza a previsão ao mesmo tempo em que emprega o menor número de variáveis. Há dois tipos de abordagens de busca sequencial: (1) estimação stepwise e (2) adição forward e eliminação backward. Em cada tratamento, as variáveis independentes são individualmente avaliadas quanto à sua contribuição relativa na previsão da variável dependente, sendo acrescentadas ou não no modelo de regressão múltipla (HAIR JR. et al., 2009, p. 177).

Devido à simplicidade do modelo de regressão múltipla estimado nesta pesquisa, relacionando apenas duas variáveis independentes (Investimento em Capital Fixo e Giro) com a variável dependente (Retenção do Lucro), não há necessidade de maior aprofundamento nos métodos de seleção de variáveis que visam melhorar o modelo de regressão.

Em relação ao poder explicativo do modelo de regressão estimado, tem-se o coeficiente de determinação (R²). Resumidamente, o R² indica quanto da variação na variável dependente Y é explicada pelas variações nas variável(is) independente(s) X(s). Se o modelo de regressão previu perfeitamente a variável dependente, R² = 1,0. Mas se não forneceu previsões melhores do que o uso da média (previsão de referência), R² = 0 (HAIR JR. et al., 2009, p. 160).

Quase sempre o R² aumenta quando o número de variáveis independentes aumenta. Dessa forma, o R² ajustado é muito útil para isolar este efeito, pois é uma medida modificada

do coeficiente de determinação que considera o número de variáveis independentes incluídas no modelo e o tamanho da amostra. Nesse sentido, esta medida é também utilizada para avaliar o poder explicativo de cada regressão (ajuste do modelo) (CORRAR, PAULO e DIAS FILHO, 2007, p. 150).

Outra medida de precisão da previsão do modelo é o erro-padrão da estimativa. Segundo Hair Jr. et al. (2009), essa medida pode ser definida simplesmente como o desvio- padrão esperado dos erros de previsão. Ou seja, representa uma espécie de desvio-padrão em torno da reta de regressão. Quanto menor esta medida se apresentar, melhor o modelo estimado.

Para testar o efeito conjunto da(s) variável(is) independente(s) sobre a variável dependente, foi utilizado o teste F-ANOVA (análise de variância), que tem por finalidade verificar a probabilidade de que os parâmetros da regressão em conjunto sejam iguais à zero. Neste caso, não existiria uma relação estatística significativa e o modelo seria invalidado.

Dito de outro modo, o teste F-ANOVA verifica se a combinação linear das variáveis independentes exerce influência significativa ou não sobre a variável dependente. Nesse sentido, testa-se a hipótese nula de que a quantia de variação explicada pelo modelo de regressão é maior que a variação explicada pela média, ou seja, a hipótese a ser testada é a de que (CORRAR, PAULO e DIAS FILHO, 2007, p. 143):

Para que o modelo de regressão seja significativo, a hipótese nula tem que ser rejeitada, ou seja, tem que ser significativamente maior que zero (p-valor ou Sig. menor do que o nível de significância adotado, no caso deste estudo 5%).

Por fim, foi testada a significância dos coeficientes do modelo de regressão isoladamente através da distribuição t de Student. As hipóteses testadas em cada modelo para cada coeficiente são (CORRAR, PAULO e DIAS FILHO, 2007, p. 144):

Assim, para verificar se os coeficientes eram significativamente diferentes de zero comparou-se o p-valor (Sig.) ao nível de significância adotado de 5%.

Além de todos estes testes, por se tratar de uma técnica estatística multivariada, a análise de regressão requer também testes de suposições para as variáveis separadas e em conjunto. De acordo com Corrar et al. (2007, p. 151) os principais pressupostos da análise de regressão são:

 Normalidade dos resíduos;

 Homoscedasticidade dos resíduos;  Linearidade dos coeficientes;

 Ausência de autocorrelação serial nos resíduos;  Multicolinearidade entre as variáveis independentes.

A condição de normalidade dos resíduos não é necessária para a obtenção dos estimadores pelo método dos mínimos quadrados (MMQ), mas sim para a definição de intervalos de confiança e testes de significância. Nesta pesquisa, o diagnóstico da normalidade dos resíduos foi feito por meio do teste estatístico Kolmogorov-Smirnov. O teste K-S, examina se dada série está conforme a distribuição esperada (sentido da distribuição qui- quadrado), com as seguintes hipóteses:

= a distribuição da série testada é normal = a distribuição da série testada não é normal

Segundo Corrar et al. (2007, p. 191), a estatística K-S usa a distribuição D (distância euclidiana máxima), calculada com a seguinte regra de decisão: se D calculado _{D crítico, se} aceita (hipótese nula), ou ainda, se Sig. é maior que _{(5%) se aceita} . Cabe observar que, no caso de amostras com número de observações menores que 30, o teste KS deve ser substituído pelo teste de normalidade Shapiro-Wilk, mantendo a mesma forma de interpretação das hipóteses apresentadas. Portanto, para alguns setores estudados na pesquisa foram aplicados este último teste.

A presença de homocedasticidade dos resíduos é entendida quando o conjunto de resíduos referente a cada observação de X tem variância constante ou homogênea em toda a extensão das variáveis independentes, ou seja, a dispersão de Y em relação às observações de X deve manter consistência em todas as dimensões desta variável. O diagnóstico da homocedasticidade nesta pesquisa foi realizado através do teste estatístico Pesarán-Pesarán. De acordo com Corrar et al. (2007, p. 193) este teste implica em regredir o quadrado dos resíduos padronizados em função do quadrado dos valores estimados padronizados, com as seguintes hipóteses:

= os resíduos são homocedásticos = os resíduos são heteroscedásticos

Dessa forma, como em qualquer outra regressão, avalia-se o coeficiente dos valores estimados padronizados do ponto de vista de sua significância estatística, ou seja, se esta se apresentar estatisticamente significante, indica presença de heteroscedasticidade (variâncias não homogêneas).

Tratando-se da linearidade, Hair Jr et al. (2009, p. 152), explicam que os modelos lineares preveem valores que estão sobre uma reta que tem uma taxa constante de variação (coeficiente angular) da variável dependente em relação a uma variação unitária constante na variável independente. Nesse sentido, a linearidade da relação ocorre quando a variação da variável explicada está associada diretamente com a variação da variável explanatória. Neste trabalho, o diagnóstico da linearidade dos coeficientes foi feito mediante a análise de diagramas de dispersão.

O modelo de regressão pressupõe que a correlação entre os resíduos ao longo do espectro das variáveis independentes é zero. Ou seja, que os resíduos são independentes entre si e só se observa o efeito de X sobre Y, não havendo autocorrelação residual. Para verificar esse pressuposto foi utilizado o teste de Durbin-Watson, que se baseia no cálculo de uma medida conhecida como Estatística DW, representada por valores críticos tabelados segundo o nível de confiança escolhido. De acordo com Corrar et al. (2007, p. 191), uma “regra de bolso” que pode ser utilizada é de que valores de Estatística DW próximos a 2 atendem ao pressuposto.

Por fim, o último pressuposto analisado é a multicolinearidade, requerido somente para as regressões múltiplas. Segundo Frisch33 (1934 apud GUJARATI, 2000, p. 318), o termo multicolinearidade significa “a existência de uma perfeita (ou exata) relação linear entre algumas ou todas as variáveis explicativas de um modelo de regressão”. Entretanto, o problema de multicolinearidade é uma questão de grau e não de natureza, pois sempre existirá correlação entre variáveis independentes, devendo-se buscar as que a apresentam em menor grau. Para Hair Jr. et al. (2009, p. 190), a situação ideal para um pesquisador seria ter diversas variáveis independentes altamente correlacionadas com a variável dependente, mas com pouca correlação entre elas próprias. O diagnóstico de multicolinearidade nesta pesquisa foi

33_{FRISCH, Ragnar. Statistical Confluence Analysis by Means of Complete Regression Systems. Instituto de}

realizado por meio dos testes: VIF (Variance Inflation Factor - Fator de Inflação da Variância), da tolerância e do conditional índex.

As estatísticas Tolerance e VIF são medidas recíprocas, tendo, portanto, a mesma interpretação. Entretanto, a forma de analisar os valores dos resultados de cada teste é diferente, conforme explicam Corrar et al. (2007, p. 188):

 VIF: até 1 sem multicolinearidade; de 1 até 10 com multicolinearidade aceitável; acima de 10 com multicolinearidade problemática.

 Tolerance: até 1 sem multicolinearidade; de 1 até 0,10 com multicolinearidade aceitável; abaixo de 0,10 com multicolinearidade problemática.

 Condition índex: índices maiores que 15 importam em alto relacionamento entre as variáveis, indicando a presença de multicolinearidade.

In document Kroppsoppfatning og seksualitet etter behandling av brystkreft (sider 10-15)