5 Sammenfatting av artiklene
5.3 Artikkel III
O modelo estatístico básico para os dados de contagem é o modelo de regressão de
distribuição de Poisson. Assumimos para o modelo de regressão de Poisson que:
Hipótese 1:
ƒ(y| ) = exp(- ) .
y/ y! , função de probabilidade condicional onde > 0.
Hipótese 2
= exp(x ) ,
onde é o vetor (k x 1) dos parâmetros e x é o
vetor (k x 1) dos regressores ( variáveis independentes), incluindo uma constante.
Hipótese 3
Os pares (y
i, x
i), com i = 1,...,n são independentemente e individualmente
distribuídos
As hipóteses acima implicam que:
a média desta distribuição é: E(y|x) = = exp(x )
a variância é: Var(y|x) = = exp(x ) (WINKELMANN, 2008).
Consideramos a distribuição de probabilidade condicional de y, dado o vetor x,
sendo uma função exponencial:
E(y|x) = E(y|x
1, x
2,..., x
k) = exp(
o+
1x
1+...+
kx
k).
(4.1)
Como exp(.) é sempre positivo, então os valores previstos de y também serão
sempre positivos.
Como a função exponencial é não-linear, então a equação (4.1) é não-linear em
seus parâmetros e não podemos utilizar os métodos de regressão linear para
estimar estes parâmetros (ou métodos OLS). Assim sendo, os estimadores deverão
ser obtidos pelo método de maximização da função de verossimilhança (ou em
alguns casos pela estimação de quase-máxima verossimilhança ou QMLE)
17. O
princípio de máxima verossimilhança estabelece que os parâmetros devem ser
determinados de modo a maximizar a probabilidade que o modelo especificado
tenha gerado com os dados observados (WINKELMANN, 2008).
Por outro lado, os dados de contagem, como mencionamos anteriormente, não
poderão seguir uma distribuição normal e são heterocedásticos, com variância
crescente com a média (CAMERON et al. 1988).
Segundo WOOLRIDGE (2006), como nosso interesse está no efeito das variáveis
explicativas sobre a variável dependente y, devemos olhar a distribuição de Poisson
condicional em x – vetor de variáveis explicativas. A distribuição de Poisson é
determinada por sua média condicional E(y|x) e a probabilidade de que y seja igual
ao um valor h, condicional em x, é:
p(x) P(y=h|x) = exp [-exp(x )] [exp(x )]
h/ h!,
(4.2)
onde h = 0,1,...,n.
Assim, a função log-verossimilhança a ser maximizada é:
L( ) = {y
ix
i– exp(x
i)}, para i=1,...,n.
(4.3)
Embora a análise de estimação de máxima verossimilhança de Poisson seja o
primeiro passo natural para estimar dados de contagem, segundo CAMERON &
TRIVEDI (1998), a regressão de Poisson é intrinsecamente heterocedástica e,
frequentemente, restritiva (WOOLRIDGE, 2006) quanto à hipótese assumida da
variância ser igual à média
18. Contudo, os erros-padrão podem ser ajustados porque
a variância pode ser proporcional à média:
Var(y|x) =
2E(y|x)
(4.4)
17
Segundo CAMERON & TRIVEDI (1998), a estimação de quase-máxima verossimilhança (QMLE) refere-se
quando a distribuição do estimador é obtida assumindo algumas condições mais fracas do que pelo método de
maximização da função de verossimilhança, considerando que a densidade da distribuição está correta.
Contudo, a regressão de dados de contagem de Poisson por estimação QML é equivalente ao método padrão
de máxima verossimilhança (CAMERON & TRIVEDI, 1998). WOOLRIDGE (2010) sugere que a consistência da
QMLE não requer condições adicionais no que se refere à distribuição. No entanto, se no caso específico da
estimação de quase-máxima verossimilhança (QMLE) a média é corretamente especificada, então, segundo
WINKELMANN (2008), a função de quasi-verossimilhança é parte da familia de funções exponenciais para os
modelos generalizados lineares e, assim, refere-se a estimação como sendo de pseudo-máxima
verossimilhança (PMLE).
18
Propriedade da distribuição de Poisson onde μ
x= σ
x 2onde
2>0 é um parâmetro desconhecido
19da razão entre média e variância. Assim,
quando
2=1, a condição de equidispersão é garantida para o modelo de Poisson;
quando
2>1, a variância será maior que a média para todo os x
ie ocorre
sobredispersão e quando
2<1 temos subdispersão.
Assim sendo, para o modelo de regressão de dados de contagem de Poisson, a
propriedade de equidispersão deve ser observada nos dados e é recomendável
verificá-la através de um teste estatístico de sobredispersão (ou overdispersion test).
Teste de Sobredispersão
A condição de equidispersão pode ser testada de diversas formas
20. Segundo
CAMERON & TRIVEDI (1998, 2010), o teste deverá ser um teste de hipótese na
qual a hipótese nula H
oé Var(y|x)=E(y|x) é testada contra a alternativa de
sobredispersão através da equação:
Var(y|x) = E(y|x) + . E(y|x)
2(4.5)
onde é um parâmetro desconhecido
21da razão entre média e variância e g(.) é
uma função conhecida, sendo g(.) = E(y|x)
2ou g(.) = E(y|x). Conforme CAMERON &
TRIVEDI (2010), assume-se g(.) = E(y|x)
2. Esta equação representa a variância de
um modelo de distribuição Binomial negativa no qual é testado: H
o: = 0 e H
1: 0.
CAMERON & TRIVEDI (2010) sugerem que o teste seja realizado através da
regressão da variável dependente {(y- hat)
2– y} / hat em hat, sem um intercepto,
realizando o teste t para hat = 0, no qual seria assintoticamente normal na
condição da hipótese nula de não sobredispersão.
Diversos estudos sobre modelos de regressão de dados de contagem têm abordado
a característica restritiva de dispersão dos parâmetros do modelo de Poisson
(CAMERON et al. 1988) e, com o intuito de contorná-la, foram sugeridos outros
modelos que permitem sobredispersão ou subdispersão. O modelo mais comum de
19
Conforme notação de WOOLRIDGE (2010).
20
WOOLRIDGE (2010) sugere que para determinar o estimador de σ
2utilize-se o modelo de regressão linear
generalizado (Generalized linear model ou GLM) a fim de determinar o estimador de dispersão de Pearson.
21
regressão de dados de contagem que acomoda o problema de sobredispersão é o
modelo obtido utilizando a distribuição Binomial negativa.
A média condicional do modelo de distribuição Binomial negativa continua com uma
forma exponencial das variáveis explicativas e os coeficientes devem ser
interpretados como no caso do modelo de Poisson. O modelo de regressão com
distribuição Binomial negativa, apresentado por CAMERON & TRIVEDI (1986, 1998)
e CAMERON et al. (1988), tem uma parametrização que define de forma a evitar
que haja problema de sobredispersão. O modelo de regressão Binomial negativa é
também conhecido como modelo Binomial negativa robusto.
Outros erros de especificação do modelo de regressão de Poisson
Outra fonte de erro na especificação do modelo de regressão de Poisson é a
questão que envolve heterogeneidade não observada. Nesse caso, como a variável
dependente é aleatória e condicional a (WINKELMANN, 2008), se houver outras
variáveis explicativas que influenciam , o número esperado de ocorrência no
intervalo de tempo, e não forem consideradas no modelo, podemos ter um problema
de heterogeneidade não observada.
Considerando o modelo verdadeiro como sendo:
E(y|x,w) = exp(x + w )
(4.6)
onde as variáveis do vetor w não é observado, temos então:
E(y|x, v) = exp(x + v) = exp(x ).u, onde u = exp(v)
(4.7)
Assim, devido a não-lineariade da distribuição de Poisson, é necessário que a
condição de independência entre x e v seja garantida, ou seja, que:
E[ exp(v)|x] = E[exp(v)] = E[u]
(4.8)
Nesse caso, também, é apropriado utilizar como modelo alternativo o modelo de
distribuição Binomial negativa.
Finalmente, considerando o problema de heterogeneidade não observada e a
condição de heterocedasticidade intrínseca da regressão de Poisson, assim como o
fato da distribuição de Poisson pertencer à família de distribuição exponencial para
modelos generalizados lineares, o que permite ser ajustada pelo método de
estimação de pseudo-máxima verossimilhança (PMLE), pode-se utilizar o método de
regressão de Poisson robusto comparável com o método de Huber-White para os
modelos OLS, bem como o modelo de regressão Negbin.
Testes para os modelos de regressão de dados de contagem
Os testes sobre os parâmetros do modelo de regressão de dados de contagem de
Poisson ou Binomial negativa são, geralmente, testes de restrições de exclusão
22,
como é o teste de hipóteses conjuntas (H
o:
j=0 onde a hipótese nula constitui j
restrições de exclusão e H
1: H
onão é verdadeiro), podendo utilizar a estatística F (ou
razão F). Contudo, mesmo que essa estatística tenha justificativa de amostra grande
sem a hipótese de normalidade, é freqüentemente utilizada para estes modelos a
estatística de teste razão de verossimilhança (LR ou likelihood ratio).
O teste razão de verossimilhança (LR ou likelihood ratio test) é definido pela
diferença entre as funções log-verossimilhança (L) entre y em x e z (modelo
irrestrito) e y em x (modelo restrito). Ao calcular a estatística LR, é importante saber
que a função log-verossimilhança será sempre um número negativo. O teste de
hipótese nula é H
o: =0, que é simplesmente 2(Lir – Lr), analogamente ao teste F
em modelos lineares de mínimos quadrados ordinários (OLS).
Por fim, é necessário definir a medida de grau de ajuste para o modelo de regressão
de dados de contagem considerado um modelo não-linear. Para os modelos lineares
é utilizado o coeficiente de múltipla determinação R
2, que determina a proporção da
variação amostral da variável dependente y, que é explicada pelos regressores (ou
reta de regressão). A extensão do R
2para modelos não-lineares é o pseudo-R
2,
que apresenta vários cálculos para esta medida. Para os modelos de regressão de
dados de contagem, CAMERON & TRIVERDI (2005) sugerem o pseudo-R
2COR, que
é o quadrado do coeficiente de correlação entre os valores reais e os valores
22
É importante notar que WOOLRIDGE (2010) propõe testes robustos para a variância condicional no contexto
de modelos exponenciais, que tem como caso especial o modelo de regressão de dados de contagem de
Poisson ou Binomial negativa.
estimados yhat ajustados. Assim, o coeficiente pseudo-R
2CORpode ser comparado
com o coeficiente R
2do modelo linear com intercepto.
Interpretação dos parâmetros
Para os modelos lineares, a interpretação dos parâmetros é obtida diretamente.
Considerando a distribuição condicional de y, dado o vetor x, sendo linear:
E(y|x) = E(y|x
1, x
2,..., x
k) =
o+
1x
1+...+
kx
k.
(4.9)
O coeficiente
oé o intercepto da equação e os coeficientes
js(para j = 1,...,k) são
interpretados como sendo a variação de uma unidade no regressor x
j. Como os
modelos de regressão de dados de contagem são não-lineares, a interpretação dos
coeficientes deve ser modificada. No modelo com a distribuição condicional de y,
dado o vetor x, sendo exponencial, a variação no regressor pode ser definida como
a derivada:
E(y|x)/ x
j=
j. exp(x )
(4.10)
Como a variação depende de exp(x ^), assim, segundo CAMEDRON &TRIVEDI
(2010), uma boa estimativa para a resposta à interpretação do coeficiente é a
resposta média, ou seja, de modo simplificado j^.y
médio23.
Por outro lado, podemos notar que o logaritmo do valor esperado de y dado x é
linear:
log [E(y|x
1, x
2,..., x
k)] =
o+
1x
1+...+
kx
k,
(4.11)
ou seja, 100
jé aproximadamente a porcentagem de mudança em E(y|x), dado um
aumento de uma unidade na variável x
j.
23
A resposta média (average response) é (1/n).Σ
N∂E(y
i|x
i)/∂x
ij= β
j^ x (1/n).Σ
Nexp(x
i´β^) (CAMERON &TRIVEDI,
2010). Segundo WOOLRIDGE (2010), considerar os efeitos médios parciais nas variáveis aleatórias em modelos
de regressão de dados de contagem de Poisson é uma maneira direta de se interpretar o efeito destas
variáveis sobre a VDL e permite utilizar a resposta média como fator para comparação com os coeficientes de
modelos lineares.
4.3.2 Modelo de regressão de dados de contagem modificado hurdle Logit-Poisson e
In document
6- og 7-åringers muntlige fortellinger basert på ei ordløs bildebok : Fortelling, barn, bildebok
(sider 96-100)