3. Situaciones fisiológicas o patológicas con riesgo de generar estrés oxidativo
3.1. Hiperbaria, hiperoxia y buceo con botella
3.2.1. Estrés oxidativo asociado al ejercicio agudo
Se nosso objetivo for apenas o de estimar Ø1 e Ø2, o método dos MQO examinado na seção ante-
rior é suficiente. Entretanto, lembre-se, do Capítulo 2, de que, na análise de regressão, nosso objetivo não é apenas o de obter ØO1 e ØO2, mas o de tecer inferências relativas aos verdadeiros Ø1 e Ø2.Por exem-
plo, podemos estar interessados em saber quão próximos ØO1 e ØO2 estão de suas contrapartes na popula-
ção ou quanto YOi se aproxima da verdadeira E(Y j Xi). Para isso, precisamos não apenas especificar a
forma funcional do modelo, como na Equação (2.4.2), mas fazer certas hipóteses a respeito da ma- neira como Yi é gerado. Veja a FRP: Yi D Ø1 C Ø2 Xi C ui. Ela demonstra que Yi depende de Xi e ui.
Portanto, a menos que sejamos específicos quanto à maneira como Xi e ui foram criados ou gerados,
não há forma de fazer qualquer inferência estatística sobre Yi, e também, como veremos, sobre Ø1 e Ø2.
Assim, as hipóteses feitas quanto à(s) variável(is) Xi e ao termo de erro são fundamentais para a inter-
pretação das estimativas da regressão.
O modelo clássico de regressão linear, gaussiano ou padrão (MCRL), que é a pedra angular de boa parte da teoria econométrica, parte de sete hipóteses.7 Discutiremos primeiro essas hipóteses no
contexto do modelo de regressão de duas variáveis; e, no Capítulo 7, as estenderemos ao modelo de regressão múltipla, isto é, ao modelo em que há mais de um regressor. Como será discutido no Capí- tulo 7, este modelo pode ser estendido para incluir mais variáveis explicativas.
HIPÓTESE 1 Modelo de regressão linear: o modelo de regressão é linear nos parâmetros, embora
possa não ser linear nas variáveis. Este é o modelo de regressão como mostrado na Equação. (2.4.2):
YiD Ø1C Ø2 XiC ui (2.4.2) Como será discutido no Capítulo 7, este modelo pode ser estendido para incluir mais variáveis explicativas.
Já examinamos o modelo (2.4.2) no Capítulo 2. Como os modelos de regressão linear nos parâme- tros são o ponto de partida do MCRL, manteremos esta hipótese na maior parte do livro.8 Tenha em
mente que o regressando Y e o regressor X podem ser não lineares, conforme visto no Capítulo 2.
HIPÓTESE 2 Valores de X fixos ou independentes do termo de erro: valores assumidos pelo regressor X podem ser fixos em amostras repetidas (caso do regressor fixo) ou seus valores podem mudar de acordo com a variável dependente Y (no caso do regressor estocástico). No segundo caso, supõe-se que as variáveis X e o termo de erro são independentes, isto é, cov (Xi, ui) D 0.
Isso pode ser explicado em termos do exemplo da Tabela 2. l. Considere as várias populações Y correspondentes aos níveis de renda mostrados na tabela. Mantendo fixo o valor da renda X no nível de $ 80, podemos selecionar aleatoriamente uma família e observar suas despesas semanais de consu- mo Y, que são de $ 60. Ainda considerando X igual a $ 80, selecionamos outra família e observamos o valor Y de $ 75. Em cada uma dessas seleções (isto é, amostra repetida), o valor de X está fixo em $ 80. Podemos repetir o processo para todos os valores de X apresentados na Tabela 2.1. Na verdade, as amostras das Tabelas 2.4 e 2.5 foram selecionadas dessa maneira.
Por que assumimos que os valores de X não são estocásticos? Considerando que, na maioria das ciências sociais, os dados para ambas as variáveis X e Y em geral são coletados aleatoriamente,
7 É clássico no sentido de que foi formulado primeiro por Gauss em 1821 e, desde então, serve de norma ou pa-
drão em rela ção ao qual podem ser comparados os modelos que não atendem às premissas gaussianas.
Capítulo 3 Modelo de regressão de duas variáveis: o problema da estimação 85
parece natural assumir o oposto – que a variável X, assim como a Y, também é aleatória ou estocás- tica. Mas inicialmente consideraremos a variável X não estocástica pelas seguintes razões:
Primeiro, isso é feito inicialmente para simplificar e para apresentar gradualmente ao leitor as complexidades da análise de regressão. Segundo, em situações experimentais talvez não seja forçado assumir que os valores de X são fixos. Por exemplo, um fazendeiro pode dividir sua terra em diversos lotes e aplicar uma quantidade de fertilizante diferente em cada lote para ve- rificar o efeito sobre a plantação. Da mesma maneira, uma loja de departamentos pode decidir aplicar diferentes porcentuais de desconto a um produto para verificar o impacto nos consumi- dores. Às vezes podemos querer fixar os valores de X para uma finalidade específica. Suponha que queiramos descobrir o rendimento médio semanal dos trabalhadores (X) com diversos ní- veis de escolaridade (Y), como no caso dos dados fornecidos na Tabela 2.6. Desse modo, a va- riável X pode ser considerada fixa ou não estocástica. Terceiro, como mostraremos no Capítulo 13, mesmo que as variáveis X sejam estocásticas, os resultados estatísticos da regressão linear baseada no caso de regressores fixos também são válidos quando a variável X é aleatória, contanto que algumas condições sejam atendidas. Uma condição é de que o regressor X e o termo de erro ui se-
jam independentes. Como observa James Davidson, “[...] este modelo [isto é, de regressores estocás- ticos] ‘imita’ o modelo de regressores fixos, e [...] muitas das propriedades estatísticas de mínimos quadrados no modelo de regressor fixo continuam válidas”.9
Por todas essas razões, discutiremos primeiro o modelo MCRL (regressor fixo) em detalhes. No entanto, no Capítulo 13, examinaremos o caso dos regressores estocásticos e ressaltaremos as ocasiões em que é necessário considerar os modelos de regressor estocástico. Casualmente, note que, se a variável X for estocástica, o modelo resultante será chamado de modelo neoclássico de regressão
linear (MNRL),10 em contraste com o MCRL, em que as variáveis X são tratadas como fixas ou não
aleatórias. Para fins de discussão, chamaremos o primeiro modelo de modelo de regressão estocás-
tico e o segundo de modelo de regressão fixo.
Esta hipótese afirma que o valor médio de ui, condicionado a um dado Xi, é zero. Geometricamen-
te, esta hipótese pode ser ilustrada como na Figura 3.3, que mostra alguns dos valores da variável X e das populações Y associadas a cada uma delas. Conforme mostrado, cada população Y correspon-
9 DAVIDSON, James. Econometric theory. RU: Blackwell Publishers, 2000. p. 10.
10 Um termo de GOLDBERGER, Arthur S. A course in econometrics. Cambridge, MA: Harvard University Press,
1991. p. 264. FIGURA 3.3 Distribuição condicional dos termos de erro ui. X1 X2 X3 X4 X Y Média Yi=Ø1+Ø2Xi FRP: +ui –ui
86 Parte Um Modelos de regressão com equação única
dente a um dado X distribui-se em torno da média (mostrada pelos pontos circulados sobre a FRP), com alguns valores de Y acima e outros abaixo da média. As distâncias acima e abaixo da média não são nada mais que os ui . A Equação (3.2.1) requer que o valor médio desses desvios em relação a
qualquer X seja zero.
Esta hipótese não é difícil de entender em vista do que foi discutido na Seção 2.4 (veja a Equação (2.4.5)). A hipótese 3 informa simplesmente que fatores não incluídos explicitamente no modelo e, portanto, agrupados em ui, não afetam sistematicamente o valor médio de Y; em outras palavras, os
valores positivos de ui cancelam os negativos, de modo que seu efeito médio sobre Y é igual a 0.11
Note que a premissa E(uijXi) D 0 implica que E (YijXi) D Ø1 C Ø2 Xi. (Por quê?) Portanto, as
duas hipóteses são equivalentes.
É importante ressaltar que a Hipótese 3 implica que não existe viés de especificação ou erro de
especificação no modelo usado na análise empírica. Em outras palavras, o modelo de regressão está
especificado corretamente. Deixar de fora variáveis explanatórias importantes, incluir variáveis desnecessárias ou escolher incorretamente a forma funcional da relação entre as variáveis Y e X são alguns exemplos de erro de especificação. Discutiremos o tópico em detalhe no Capítulo 13.
Note também que, se a média condicional de uma variável aleatória dada outra variável aleatória é zero, a covariância entre as duas variáveis é zero e, portanto, as duas variáveis não são correlacio- nadas. Sendo assim, a Hipótese 3 implica que Xi e ui não são correlacionadas.12
A razão para assumir que o termo de erro u e a(s) variável(eis) explanatória(s) X não são cor- relacionados é simples. Quando expressamos a FRP na Equação (2.4.2), assumimos que Xe u (que representa a influência de todas as variáveis omitidas) têm influências separadas (e aditivas) sobre
Y. Mas, se Xe u são correlacionados, não é possível avaliar seus efeitos individuais sobre Y. Por- tanto, se Xe u são positivamente correlacionados, Xaumenta quando u aumenta e diminui quando
u diminui. Da mesma forma, se Xe u são negativamente correlacionados, Xaumenta quando u diminui e diminui quando u aumenta. Em situações como essa, é bem possível que o termo de erro realmente inclua algumas variáveis que deveriam ser incluídas como regressores adicionais no modelo. É por esse motivo que a Hipótese 3 é outra maneira de afirmar que não existe erro de especificação no modelo de regressão escolhido.
A Equação (3.2.2) informa que a variância de ui para cada Xi (a variância condicional de ui) é
um número positivo constante igual a æ 2. Tecnicamente, a Equação (3.2.2) representa a premis-
sa da homocedasticidade ou igual (homo) dispersão (cedasticidade) ou variância igual. A palavra tem ori gem no verbo grego skedanime, que significa dispersar ou espalhar. Em outras palavras, a Equação (3.2.2) indica que as populações Y correspondentes aos vários valores de X têm a mesma variância. Simplificando, a variação em torno da linha de regressão (que é a linha das relações médias entre Y e X) é a mesma para todos os X; não aumenta nem diminui quando X varia. A Figura 3.4 representa isso graficamente.
11 Razões mais técnicas para a necessidade da Hipótese 3 podem ser encontradas em MALINVAUD, E. Statistical
methods of econometrics. Chicago: Rand McNally, 1966. p.75. Veja também o Exercício 3.3.
12 O oposto, contudo, não é verdadeiro porque correlação é uma medida de associação linear apenas. Mesmo se
Xi e ui não forem correlacionadas, a média condicional de ui dado Xi, pode não ser zero. No entanto, se Xi e ui forem correlacionadas, E(uijXi) deve ser diferente de zero, o que viola a Hipótese 3. Devemos este argumento a Stock e Watson. Veja STOCK, James H.; WATSON, Mark W. Introduction to econometrics. Boston: Addison-Wes- ley, 2003. p. 104-105.
HIPÓTESE 3 Valor médio do termo de erro uié zero: dado o valor de Xi, o valor médio ou esperado, do termo de erro aleatório ui é zero. Simbolicamente, temos:
E(uij Xi) D 0 (3.2.1)
ou, se X é não estocástico,
Capítulo 3 Modelo de regressão de duas variáveis: o problema da estimação 87
HIPÓTESE 4 Homocedasticidade ou variância constante de ui: A variância do termo de erro é a mesma
independentemente do valor de X. De maneira simbólica, var(ui) D E [ui° E(uijXi)]2
D E(ui2 |Xi), devido à Hipótese 3 D E(ui2), se Xi é não estocástica
D æ2 (3.2.2)
em que var é a abreviatura de variância.
Em contrapartida, considere a Figura 3.5, em que a variância condicional da população de Y varia com X. Essa situação é co nhecida, adequadamente, como heterocedasticidade ou dispersão ou variân-
cia desigual. Simbolica mente, nessa situação a Equação (3.2.2) pode ser representada como
var (uijXi) D σ2i (3.2.3)
Observe o subscrito em æ 2 na Equação (3.2.3), que indica que a variância da população Y não é mais
constante.
Para tornar essa diferença entre as duas situações clara, suponha que Y represente as despesas semanais de consumo e X, a renda semanal. As Figuras 3.4 e 3.5 mostram que à medida que a renda aumenta, as despesas também aumentam. Mas na Figura 3.4 a variância das despesas de consumo permanece a mesma em todos os níveis de renda, enquanto na Figura 3.5 ela aumenta com o aumen- to da renda. Em outras palavras, as famílias mais ricas em média consomem mais do que as famílias mais pobres, mas também há maior variabilidade nas despesas de consumo das primeiras.
Para entender a lógica por trás desta hipótese, veja a Figura 3.5. Como ela mostra, var (u|X1) <
var(ujX2), . . ., < var(ujXi). Portanto, a probabilidade de que as observações Y vindas de uma popula-
ção com X D X1 estarão mais próximas da FRP do que as da população que corresponde a X D X2,
X D X3 e assim por diante. Em resumo, nem todos os valores Y correspondentes aos vários X serão
igualmente confiáveis; essa confiabilidade é avaliada pela proximidade ou distância em que os valo- res de Y distribuem-se em torno de sua média, isto é, os pontos sobre a FRP. Se esse for de fato o caso, não seria preferível tirar a amostra de populações Y que estejam mais próximas da média do que da- quelas que estão mais dispersas? Mas fazer isso pode restringir a variação que obtemos entre os va- lores de X.
Ao invocarmos a Hipótese 4, estamos dizendo que, neste estágio, todos os valores de Y correspon- dentes aos vários X são igualmente importantes. No Capítulo 11, veremos o que acontece quando não é esse o caso, isto é, quando há heterocedasticidade.
Densidade de probabilidade de ui f (u) Y X X1 X2 Xi FRP: Yi=Øb1+Øb2Xi FIGURA 3.4 Homocedasticidade.
88 Parte Um Modelos de regressão com equação única
Note que a Hipótese 4 implica que as variâncias condicionais de Yitambém são homocedásticas.
Isto é,
var (Yi jXi) D æ2 (3.2.4)
Obviamente, a variância incondicional de Y é æY2. Mais adiante, veremos a importância de fa-
zer a distinção entre as variâncias condicional e incondicional de Y (veja no Apêndice A deta- lhes das variâncias condicional e incondicional).
HIPÓTESE 5 Não há autocorrelação entre os termos de erro: dados quaisquer dois valores de X, Xi e Xj
(i ≠ j), a correlação entre quaisquer dois ui e uj (i ≠ j) é zero. Simbolicamente,
cov(ui, uj j Xi e Xj) D 0 (3.2.5) cov(ui, uj) D 0, se X for não estocástica
em que i e j são duas observações diferentes e cov significa covariância.
Em palavras, a Equação (3.2.5) postula que os termos de erro ui e uj não são correlacionados.
Tecnicamente, esta é a hipótese de ausência de correlação serial ou de ausência de autocorrelação. Isso significa que, dado Xi, os desvios de quaisquer dois valores de Y em relação a sua média não
apresentam padrões como os das Figuras 3.6(a) e (b). Na Figura 3.6(a), vemos que há uma correlação
positiva entre os u: um u positivo seguido de um u positivo ou um u negativo seguido de outro ne-
gativo. Na Figura 3.6(b), os u apresentam uma correlação negativa: um u positivo seguido de outro negativo e vice-versa.
Se os termos de erro (desvios) seguem padrões sistemáticos, como os das Figuras 3.6(a) e (b), há autocorrelação ou correlação serial e a Hipótese 5 requer que tais correlações estejam ausentes. A Figura 3.6(c) mostra que não há um padrão sistemático nos u, o que indica uma correlação zero.
A importância desta hipótese será explicada em detalhes no Capítulo 12, mas é possível explicá-la intuitivamente do seguinte modo. Suponha que, em nossa FRP (Yt D Ø1 C Ø2 Xt C ut), ut e ut°1 sejam
positivamente correlacionados. Então, Yt depende não apenas de Xt, mas também de ut°1, pois ut°1
até certo ponto determina ut. Neste estágio de nossa formulação, ao invocarmos a Hipótese 5 estamos
dizendo que consideraremos o efeito sistemático, se houver, de Xt sobre Yt e não nos preocuparemos com
outras influências que possam pesar sobre Y como resultado da possível intercorrelação entre os u. Mas, conforme observado, no Capítulo 12 veremos como as intercorrelações entre os termos de erro po- dem ser introduzidas na análise e quais são as consequências.
FIGURA 3.5 Heterocedasticidade. X Densidade de probabilidade de ui Y Xi X2 X1 bØ1 + Øb2 iX f(u)
Capítulo 3 Modelo de regressão de duas variáveis: o problema da estimação 89
Mas devemos acrescentar aqui que a justificativa para esta hipótese depende do tipo de dados usados na análise. Se os dados forem de corte transversal e forem obtidos como uma amostra aleató- ria da população, esta hipótese será normalmente válida. Entretanto, se os dados são de séries tem- porais, a hipótese de independência é difícil de manter, pois observações sucessivas de uma série temporal, como o PIB, são altamente correlacionadas. Mas trataremos desta situação quando exami- narmos séries temporais mais adiante no livro.
HIPÓTESE 6 O número de observações n deve ser maior que o número de parâmetros a serem estimados: como alternativa, o número de observações n deve ser maior que o número de variá- veis explanatórias.
HIPÓTESE 7 Variabilidade dos valores deX: os valores de X em uma amostra não devem ser os mesmos.
Tecnicamente, var (X) deve ser um número positivo. Além disso, não pode haver valores extre- mos (outliers) da variável X, isto é, valores muito grandes ou discrepantes em relação ao resto das observações.
Esta hipótese não é tão inócua quanto parece. No exemplo hipotético da Tabela 3.1, ima gine que só tivéssemos o primeiro par de observações de Y e X (4 e 1). Com base nessa única observação, não há como estimar as duas incógnitas Ø1 e Ø2. São necessários pelo menos dois pares de observações
para estimar as duas incógnitas. Em um capítulo posterior, veremos a importân cia fundamental desta hipótese.
Esta hipótese também não é tão inócua quanto parece. Veja a Equação (3.1.6). Se todos os valores de X forem idênticos, então Xi D X
–
(por quê?) e o denominador da equação será zero, tornando
+ui –ui +ui –ui +ui –ui +ui –ui +ui –ui +ui –ui (a) (b) (c) FIGURA 3.6 Padrões de correlação entre os termos de erro. (a) correlação serial positiva; (b) correlação serial negativa; (c) correlação zero.
90 Parte Um Modelos de regressão com equação única
impossível estimar Ø2 e, portanto, Ø1. Intuitivamente, podemos ver por que esta hipótese é tão impor-
tante. Voltando ao exemplo das despesas de consumo familiar do Capítu lo 2, se houver pouca varia- ção na renda das famílias, não seremos capazes de explicar boa parte da variação dos gastos com consumo. O leitor deve ter em mente que a variação tanto de Y quanto de X é essencial para o uso da análise de regressão como uma ferramenta de pesquisa. Resumindo, as variáveis precisam variar!
A exigência de que não haja valores extremos para a variável X é para evitar que os resultados da regressão sejam dominados por esses valores extremos. Se existirem alguns poucos valores de X que são, por exemplo, 20 vezes a média dos valores de X, as linhas de regressão estimadas com ou sem tais observações serão consideravelmente diferentes. Com frequência os valores extremos são resul- tado de erros humanos de aritmética ou da mistura de amostras de diferentes populações. No Capítu- lo 13, discutiremos o tópico em mais detalhes.
Nossa discussão sobre as hipóteses subjacentes ao modelo clássico de regressão linear agora está completa. É importante destacar que todas essas hipóteses aplicam-se apenas à função de regressão populacional, não à função de regressão amostral. Contudo, é interessante observar que o método dos mínimos quadrados examinado anteriormente possui algumas propriedades similares às hipóteses da FRP. Por exemplo, a conclusão de que PuOi D 0 e, portanto, uO D 0 é semelhante à premissa
E(uijXi) D 0. Do mesmo modo, a conclusão de que PuOi Xi D 0 é se melhante a cov(ui, Xi) D 0. É re-
confortante notar que o método dos mínimos quadrados tenta “duplicar” algumas das premissas que impusemos à FRP.
É claro, a FRA não duplica todas as premissas do modelo clássico de regressão linear. Como mostraremos mais adiante, embora cov(ui, uj) D 0 (i ≠ j) por definição, não é verdadeiro que, na
amostra, cov (uOi, uOj) D 0 (i ≠ j). Na realidade, mostraremos mais adiante que os resíduos são não só
autocorrelacionados, como também heterocedásticos (veja o Capítulo 12).
Um comentário a respeito dessas hipóteses
A pergunta fundamental é: até que ponto todas essas hipóteses são realistas? A “realidade das hipó- teses” é uma questão antiga na filosofia da ciência. Alguns argumentam que não importa se são realis- tas; o que importa são as previsões feitas com base nelas. Um notável dentre os defensores da “tese da irrelevância das hipóteses” é Milton Friedman. Para ele, a irrealidade das premissas é uma vantagem positiva: “para ser importante [...] uma hipótese deve ser descritivamen te falsa em suas premissas”.13
Podemos não concordar plenamente com esse ponto de vista, mas lembre-se de que em qual- quer estudo científico fazemos certas suposições porque facilitam o desenvolvimento do assunto em etapas graduais, e não porque sejam necessariamente realistas no sentido de replicar a realidade com exatidão.
Como um autor observa: “[...] se a simplicidade é um critério desejável da boa teoria, todas as boas teorias idealizam e simplificam exageradamente”.14
O que planejamos fazer é, primeiro, estudar minuciosamente as propriedades do MCRL e, em capítulos posteriores, examinar com profundidade o que aconte ce quando as hipóteses da MCRL não são atendidas. No final deste capítulo, apresentamos na Tabela 3.4 um guia que mostra onde verificar o que acontece com o modelo clássico de regressão linear se dada hipótese não for satisfeita.
Como um colega ressaltou, quando examinamos pesquisas feitas por outras pessoas, precisamos considerar se as hipóteses feitas pelo pesquisador são adequadas aos dados e ao problema. Com mui- ta frequência, as pesquisas publicadas se embasam em hipóteses implícitas sobre o problema e em dados que provavelmente não estão corretos e produzem estimativas baseadas nessas hipóteses. Evi- dentemente, o leitor atento deveria, ao perceber esse problema, adotar uma atitude cética em relação à pesquisa. As hipóteses apresentadas na Tabela 3.4 proporcionam uma lista de verificação para orientar nossas pesquisas e avaliar as de terceiros.
13 FRIEDMAN, Milton. Essays in positive economics. Chicago: University of Chicago Press, 1953. p. 14
14 BLAUG, Mark. The methodology of economics: or how economists explain. 2. ed. Nova York: Cambridge University
Capítulo 3 Modelo de regressão de duas variáveis: o problema da estimação 91
Com esse pano de fundo, estamos agora prontos para estudar o modelo clássico de regressão linear. Em especial, queremos verificar as propriedades estatísticas dos MQO em comparação com as propriedades puramente matemáticas que examinamos anteriormente. As propriedades