O sentido de “aceitar” ou “rejeitar” uma hipótese
Se, com base em um teste de significância, por exemplo, o teste t, decidirmos “aceitar” a hipótese nula, tudo o que estamos dizendo é que, com base na evidência amostral, não temos razões para re- jeitá-la; não estamos dizendo que a hipótese nula é sem sombra de dúvida verdadeira. Por quê? Para responder, volte ao nosso exemplo de salários-escolaridade e suponha que H0: Ø2 D 0,70. Agora, o
valor estimado da inclinação é ØO2 D 0,7241, com um erro padrão de (ØO2) D 0,0701. Com base no
teste t, verificamos que t H (0;7241 ° 0;7)
0;0701 H0;3438, que é insignificante a Æ D 5%. Portanto, deci- dimos “aceitar” H0. Mas suponhamos que H0: Ø2 D 0,6. Aplicando o teste t novamente, obtemos
t H (0;7241 ° 0;6)
0;0701 H1;7703, que também é estatisticamente insignificante. Então, podemos “aceitar” essa H0. Qual das duas hipóteses nulas é “verdadeira”? Não sabemos. Ao aceitarmos a hipótese nula, de-
vemos sempre ter em mente que outra hipótese nula pode ser igualmente compatível com os dados. É preferível dizermos que é possível aceitar a hipótese nula em vez de dizer que a aceitamos. Melhor ainda,
[...] tal como um júri emite um veredicto de “não culpado” em vez de “inocente”, a conclusão de um teste estatístico é “não rejeitamos” em vez de “aceitamos”.12
A hipótese nula “zero” e a regra prática “2-t”
Uma hipótese nula muito testada empiricamente é H0: Ø2 D 0, ou seja, o coeficiente angular é
igual a zero. Essa hipótese nula “zero” é uma espécie de testa de ferro, cujo objetivo é descobrir se Y está relacionado de alguma forma a X, a variável explanatória. Se a princípio não existe nenhuma relação entre Y e X, testar uma hipótese como Ø2 D 0,3 ou qualquer outro valor não faz nenhum sentido.
12 KMENTA, Jan. Elements of econometrics. Nova York: Macmillan, 1971. p. 114.
H0: hipótese nula H1: hipótese alternativa Regra de decisão: rejeitar H0 se
æ2 D æ 20 æ2 > æ 20 gl(æˆ2) > ¬2Æ,gl æ20 æ2 D æ 20 æ2 < æ 20 gl(σˆ2) < ¬2(1° Æ),gl æ20 æ2 D æ 20 æ2≠ æ 20 ou < ¬2 (1° Æ=2),gl gl(σˆ2) > ¬2Æ=2,gl æ20 Nota: æO 2
0, é o valor de æ 2sob a hipótese nula. O primeiro subscrito de ¬2 na última coluna é o nível de significância e o segundo refere-se aos graus de liberdade. Esses são os valores críticos de ¬2.Observe que os graus de liberdade são (n ° 2) para o modelo de regressão de duas variáveis, (n ° 3) para o modelo de regressão de três variáveis e assim por diante.
TABELA 5.2
Um resumo do teste χ2
140 Parte Um Modelos de regressão com equação única
Essa hipótese nula pode ser testada facilmente pelas abordagens do intervalo de confiança ou do teste t, vistas na seção anterior. Mas muitas vezes o teste formal pode ser contornado adotando-se a regra “ 2-t” de significância, que pode ser expressa como:
Regra prática “2-t”
Se o número de graus de liberdade for de 20 ou mais e se Æ, o nível de significância, for definido em 0,05, a hipótese nula Ø2D 0 pode ser rejeitada se o valor t calculado por meio da Equação (5.3.2)
for maior que 2 em valor absoluto.
A lógica dessa regra não é difícil de entender. Da Equação (5.7.1), sabemos que rejeitaremos H0:
Ø2 D 0 se:
t H ØO2=ep(ØO2) > tÆ=2 quando ØO2>0
ou:
t H ØO2=ep(ØO2) < °tÆ=2 quando ØO2<0
ou quando
jtj H ØO2
ep(ØO2)
>tÆ=2 (5.8.1)
para graus de liberdade apropriados.
Agora, se examinarmos a tabela t apresentada no Apêndice D, veremos que, para todos os graus de liberdade de 20 ou mais, um valor t calculado maior que 2 (em termos absolutos) é estatisticamen- te significativo no nível de 5%, implicando a rejeição da hipótese nula. Se verificarmos que com 20 ou mais graus de liberdade o valor de t será de 2,5 ou 3, não precisaremos nem mesmo consultar a tabela t para avaliar a significância dos coeficientes angulares calculados. É claro que sempre pode- mos consultar a tabela t para obter o nível exato de significância, e devemos consultá-la sempre que os graus de liberdade forem menores que, por exemplo, 20.
Note que, se estamos testando a hipótese unilateral Ø2 D 0 contra Ø2 > 0 ou Ø2 < 0, devemos rejeitar
a hipótese nula se:
jtj H ØO2
ep(ØO2)
>tÆ (5.8.2)
Se fixarmos Æ em 0,05, verificaremos na tabela t que, com 20 ou mais graus de liberdade, um valor t superior a 1,73 é estatisticamente significativo no nível de 5% de significância (unilateral). Sempre que um valor t for maior que, por exemplo, 1,8 (em termos absolutos) e os graus de liberdade forem 20 ou mais, não será necessário consultar a tabela para verificar a significância do coeficiente observado. É claro, se escolhermos Æ em 0,01 ou qualquer outro nível, teremos de decidir sobre o valor adequado de t como marco de referência. Mas, a esta altura, o leitor já está apto para isso.
Elaboração das hipóteses nula e alternativa
13Dadas as hipóteses nula e alternativa, testar sua significância estatística já não deve ser um misté- rio. Mas como formulá-las? Não há regras rigorosas. Muitas vezes o fenômeno estudado sugere a natureza das hipóteses nula e alternativa. Por exemplo, considere a linha do mercado de capitais (LMC) da teoria do portfólio que postula que Ei D Ø1 C Ø2æi, em que E D retorno esperado sobre o
portfólio e æ D desvio padrão do retorno, uma medida de risco. Pelo fato de esperar-se que exista
13 Para uma discussão interessante sobre a formulação de hipóteses veja LONG, J. Bradford; LANG, Kevin. “Are all
Capítulo 5 A regressão de duas variáveis: estimação de intervalo e teste de hipóteses 141
uma relação positiva entre retorno e risco — quanto mais alto o risco, maior o retorno —, a hipótese alternativa natural à hipótese nula Ø2 D 0 seria Ø2> 0. Ou seja, não se consideraria os valores de Ø2
menores que zero.
Mas suponha o caso da demanda por moeda. Como mostraremos mais adiante, um dos determi- nantes importantes da demanda por moeda é a renda. Estudos anteriores sobre as funções de deman- da por moeda mostram que a elasticidade renda da demanda (a variação percentual da demanda por moeda decorrente do aumento de 1% na renda), em geral, situa-se entre 0,7 e 1,3. Em um novo estu- do da demanda por moeda, se postularmos que o coeficiente elasticidade-renda Ø2 é l, a hipótese al-
ternativa será Ø2≠ l, uma hipótese alternativa bilateral.
Assim, é possível basear-se em expectativas teóricas ou trabalhos empíricos anteriores, ou em am- bos, para formular as hipóteses. Mas qualquer que seja o modo de formulação das hipóteses, é da
maior importância que o pesquisador defina essas hipóteses antes de levar adiante a pesquisa empíri- ca. Caso contrário, será acusado de raciocínio evasivo ou de profecias autorrealizáveis. Se as hipóteses
forem formuladas depois de examinar os resultados empíricos, pode-se cair na tentação de elaborar hipóteses que justifiquem os resultados obtidos. Essa prática deve ser evitada a todo custo, no mínimo, em prol da objetividade científica. Tenha em mente a citação de Stigler que abre o capítulo!
Escolhendo Æ, o nível de significância
Do que foi dito até aqui, deve estar claro que rejeitar ou não a hipótese nula depende fundamen- talmente de Æ, o nível de significância ou a probabilidade de cometer um erro do Tipo I — a proba- bilidade de rejeitar a hipótese verdadeira. No Apêndice A, discutiremos em detalhe a natureza de um erro do Tipo I, sua relação com um erro do Tipo II (a probabilidade de aceitarmos a hipótese falsa) e por que a estatística clássica concentra-se, de modo geral, no erro do Tipo I. Mas, mesmo assim, por que Æ é em geral fixado nos níveis de probabilidade de 1%, 5% ou no máximo 10%? Na realidade, não há nada de especial nesses valores, quaisquer outros funcionariam igualmente bem.
Em um livro introdutório como este, não é possível examinar em profundidade os motivos pelos quais escolhemos níveis de significância de 1%, 5% ou 10%, pois levaria-nos ao campo da tomada de decisão estatística, que é uma disciplina em si. No entanto, podemos oferecer um breve resumo. Como discutiremos no Apêndice A, para um dado tamanho de amostra, se tentamos reduzir um erro
do Tipo I, o erro do Tipo II aumenta e vice-versa. Dado o tamanho da amostra, se tentamos reduzir a
probabilidade de rejeitar a hipótese verdadeira, estamos, ao mesmo tempo, aumentando a possibili- dade de aceitar a falsa. Portanto, há um trade-off (dilema ou escolha conflitiva) entre esses dois tipos de erro, dado o tamanho da amostra.
A única forma de resolver o dilema é descobrir o custo relativo dos dois tipos de erro. Então,
...Se o erro de rejeitar a hipótese nula, que na verdade é verdadeira (erro do Tipo I), for custoso em relação ao erro de não a rejeitar quando ela for de fato falsa (erro do Tipo II), será racional definir uma probabilidade baixa para o primeiro tipo de erro. Se, por outro lado, o custo de cometer um erro do Tipo I for baixo em relação ao custo de cometer um erro do Tipo II, compensará definir uma probabilidade alta para o primeiro tipo de erro (tornando baixa a probabilidade do segundo tipo de erro)...14
Obviamente, a questão é que raramente conhecemos o custo de cometer os dois tipos de erros. Na econometria aplicada, em geral segue-se a prática de definir o valor de Æ em 1%, 5% ou no máximo 10% e escolher um teste estatístico que torne a probabilidade de cometer um erro do Tipo II a menor possível. Como 1 menos a probabilidade de cometer um erro do Tipo II é conhecido como a potência
do teste, esse procedimento equivale a maximizar a potência do teste. (Veja o Apêndice A para uma
discussão sobre a potência dos testes.)
Felizmente, o dilema de escolher um valor de Æ adequado pode ser evitado usando o que é conhe- cido como valor p do teste estatístico, que será discutido a seguir.
142 Parte Um Modelos de regressão com equação única
O nível de significância exato: o valor p
Como acabamos de mencionar, o calcanhar de Aquiles do teste de hipóteses é a arbitrariedade na seleção de Æ. Uma vez obtido o teste estatístico (por exemplo, o teste t) em um dado exemplo, por que não simplesmente consultar a tabela estatística adequada e verificar a probabilidade efe- tiva de obter um valor do teste estatístico tão grande ou maior que o obtido no exemplo? Essa probabilidade é denominada valor p (o valor da probabilidade), também conhecida como nível
de significância exato ou observado ou probabilidade exata de cometer um erro do Tipo I.
Mais tecnicamente, o valor p é definido como o menor nível de significância em que uma hipó-
tese nula pode ser rejeitada.
Para ilustrarmos, voltemos ao nosso exemplo da relação salários-escolaridade. Dada a hipótese nula de que o verdadeiro coeficiente de escolaridade é de 0,5, obtivemos um valor t de 3,2 na Equação (5.7.4). Qual é o valor p de obter um valor t igual ou maior que 3,2? Consultando a tabela de t do
Apêndice D, observamos que, com 11 graus de liberdade, a probabilidade de obter tal valor t deve
ser menor que 0,005 (unilateral) ou 0,0010 (bilateral). Se usar os pacotes estatísticos Stata ou EViews, verá que o valor p de obtenção de um valor t de 3,2 ou maior é de cerca de 0,0001, ou seja, é extre- mamente pequeno. Esse é o valor p da estatística t observada. O nível exato de significância observa- do da estatística t é muito menor que o nível de significância fixado de maneira convencional, e arbitrária, como l %, 5% ou 10%. Na realidade, se fôssemos usar o valor p que acabamos de calcular e rejeitar a hipótese nula de que o verdadeiro coeficiente de educação é de 0,5, a probabilidade de cometermos um erro de Tipo I seria de apenas 1 em 100.000!
Como observado, se os dados não sustentam a hipótese nula, o |t| obtido sob a hipótese nula será “grande” e, portanto, o valor p da obtenção de tal valor |t| será “peque no”. Em outras palavras, para determinado tamanho de amostra, quando |t| aumenta, o valor p diminui, e, por conseguinte, é possí- vel rejeitar a hipótese nula com maior confiança.
Qual a relação entre o valor p e o nível de significância Æ? Se nos acostumarmos a fixar Æ igual ao valor p de um teste estatístico (como a estatística t), não haverá conflito entre os dois valores. Em outras palavras, é melhor abrir mão de fixar Æ arbitrariamente em algum nível e apenas escolher o valor p do teste estatístico.
É preferível deixar ao leitor a decisão de rejeitar ou não a hi pótese nula a um dado valor p. Se, em uma aplicação, o valor p em um teste estatístico for de 0,145% ou 14,5% e se o leitor desejar rejeitar a hipótese nula neste (exato) nível de significância, que assim seja. Não há nada de mau em arriscar estar errado em 14,5% das vezes se você rejeitar a hipótese nula verdadeira. Do mesmo modo, como em nosso exemplo salários-escolaridade, não há nada de errado se o pesquisador escolher um valor p de 0,02% e não correr o risco de estar errado mais do que 2 em 10 mil vezes. Afinal, alguns pesqui- sadores podem ser adeptos ao risco e outros avessos a ele.
No restante do livro, citaremos o valor p de determinado teste estatístico. Alguns leitores preferi-
rão fixar Æ em algum nível e rejeitar a hipótese nula se o valor p for menor que Æ. A escolha é deles.
Significância estatística versus significância prática
Volte ao Exemplo 3.1 e aos resultados da regressão da Equação (3.7.1). Essa regressão relaciona as despesas pessoais de consumo (DPC) e o PIB nos Estados Unidos para o período 1960-2005, am- bas as variáveis medidas em bilhões de dólares de 2000.
Com base nessa regressão, vemos que a propensão marginal a consumir (PMC), isto é, o consumo adicional como resultado de 1 dólar adicional de renda (conforme medido pelo PIB) é de cerca de 0,72, ou aproximadamente de 72 centavos. Com os dados da Equação (3.7.1), o leitor pode verificar que o intervalo de confiança de 95% para o PMC é (0,7129, 0,7306). (Nota: como há 44 gl neste problema, não temos um valor t crítico preciso para tal grau de liberdade. Consequentemente, você pode usar a regra prática 2 ° t para calcular o intervalo de confiança de 95%.)
Suponha que alguém afirme que a verdadeira PMC seja de 0,74. Esse número é diferente de 0,72? Será se nos ativermos estritamente ao intervalo de confiança definido anteriormente.
Capítulo 5 A regressão de duas variáveis: estimação de intervalo e teste de hipóteses 143
Mas qual a significância prática ou substantiva de nossa conclusão? Que diferença faz dizer que assumimos que a PMC é de 0,74 não de 0,72? Essa diferença de 0,02 entre as duas PMC é tão impor- tante na prática?
A resposta depende do que pretendemos fazer com as estimativas. Por exemplo, a macroecono- mia nos ensina que o multiplicador da renda é 1=(1 ° PMC). Portanto, se a PMC é de 0,72, o multi- plicador é de 3,57, mas será de 3,84 se a PMC for de 0,74. Assim, se o governo resolvesse aumentar seus gastos em $ 1 para tirar a economia de uma recessão, a renda acabaria aumentando em $ 3,57, se a PMC fosse de 0,72, mas aumentaria em $ 3,84, se a PMC fosse de 0,74. E essa diferença poderia ser fundamental para a recuperação da economia.
O importante nessas considerações é que não devemos confundir significância estatística com significância prática ou econômica. Como observa Goldberger:
...Quando uma hipótese nula, digamos Øj D l, é especificada, o que se quer dizer é que Øj está próximo de l, tão próximo que para todos os fins pode ser tratado como se fosse 1. Mas o fato de 1,1 ser ...‘praticamente a mesma coisa que’... 1,0 é uma questão econômica, não estatística. Não é possível decidir a questão baseando-se em um teste de hipóteses, porque o teste estatístico mede o coeficiente estimado em unidades de erro padrão, que não se prestam à medição do parâmetro econômico Øj ° l. Talvez seja uma boa ideia reservar o termo “significância” para o conceito estatístico e adotar ...“substancial”... para o conceito econômico...15
A questão levantada por Goldberger é importante. À medida que o tamanho da amostra torna-se muito grande, a significância estatística perde importância, mas os aspectos de significância econô- mica passam a ser fundamentais. De fato, com amostras muito grandes praticamente nenhuma hipó- tese nula será rejeitada, haverá casos em que a grandeza das estimativas pontuais será o único ponto a discutir.
A escolha entre as abordagens do intervalo de confiança e do teste de
significância no teste de hipóteses
Na maioria das análises de economia aplicada, a hipótese nula é definida como testa de ferro e o objetivo da análise empírica é derrubá-la, ou seja, rejeitar a hipótese nula. No exemplo da relação entre consumo e renda, a hipótese nula de que a PMC Ø2 D 0 é obviamente absurda, mas muitas vezes
recorremos a ela para aumentar o impacto dos resultados empíricos. Aparentemente, os editores de periódicos famosos não consideram empolgante publicar artigos empíricos em que a hipótese nula não seja rejeitada. Parece que a verificação de que a PMC é estatisticamente diferente de zero é mais digna de manchetes do que a constatação de que ela é igual, por exemplo, a 0,7.
Assim, J. Bradford De Long e Kevin Lang argumentam que é melhor para os economistas
[...] concentrarem-se na grandeza dos coeficientes e informar os níveis de confiança em vez dos testes de significância. Se todas ou quase todas as hipóteses nulas são falsas, faz pouco sentido especular se uma estimativa pode ser distinguida ou não do seu valor previsto sob a hipótese nula. Em vez disso, queremos lançar luz sobre quais modelos são boas aproximações, o que requer que conheçamos as faixas de valores dos parâmetros excluídas das estimativas empíricas.16
Em resumo, esses autores preferem a abordagem do intervalo de confiança à do teste de signifi- cância. Talvez o leitor deva manter esse conselho em mente.17
15 GOLDBERGER, Arthur S. A course in econometrics. Cambridge, Massachusetts: Harvard University Press, 1991.
p. 240. Note que bj é o estimador de MQO para Øj e æObj é seu erro padrão. Para uma opinião neste mesmo sentido, veja MCCLOSKEY, D. N. “The loss function has been mislaid: the rhetoric of significance tests.” Ameri- can Economic Review, 1985. v. 75, p. 201-205. Veja também MCCLOSKEY, D. N.; ZILIAK, S. T. “The standard error of regression.” Journal of Economic Literature, 1996. v. 37, p. 97-114.
16 Veja o artigo dos autores citado na nota de rodapé 13, p. 1.271.
17 Para uma perspectiva diferente, veja HILL, Carter; GRIFFITHS, William; JUDGE, George. Undergraduate econome-
144 Parte Um Modelos de regressão com equação única