• No results found

5 Sammenfatting av artiklene

5.3 Artikkel III

O modelo estatístico básico para os dados de contagem é o modelo de regressão de

distribuição de Poisson. Assumimos para o modelo de regressão de Poisson que:

Hipótese 1:

ƒ(y| ) = exp(- ) .

y

/ y! , função de probabilidade condicional onde > 0.

Hipótese 2

= exp(x ) ,

onde é o vetor (k x 1) dos parâmetros e x é o

vetor (k x 1) dos regressores ( variáveis independentes), incluindo uma constante.

Hipótese 3

Os pares (y

i

, x

i

), com i = 1,...,n são independentemente e individualmente

distribuídos

As hipóteses acima implicam que:

a média desta distribuição é: E(y|x) = = exp(x )

a variância é: Var(y|x) = = exp(x ) (WINKELMANN, 2008).

Consideramos a distribuição de probabilidade condicional de y, dado o vetor x,

sendo uma função exponencial:

E(y|x) = E(y|x

1

, x

2

,..., x

k

) = exp(

o

+

1

x

1

+...+

k

x

k

).

(4.1)

Como exp(.) é sempre positivo, então os valores previstos de y também serão

sempre positivos.

Como a função exponencial é não-linear, então a equação (4.1) é não-linear em

seus parâmetros e não podemos utilizar os métodos de regressão linear para

estimar estes parâmetros (ou métodos OLS). Assim sendo, os estimadores deverão

ser obtidos pelo método de maximização da função de verossimilhança (ou em

alguns casos pela estimação de quase-máxima verossimilhança ou QMLE)

17

. O

princípio de máxima verossimilhança estabelece que os parâmetros devem ser

determinados de modo a maximizar a probabilidade que o modelo especificado

tenha gerado com os dados observados (WINKELMANN, 2008).

Por outro lado, os dados de contagem, como mencionamos anteriormente, não

poderão seguir uma distribuição normal e são heterocedásticos, com variância

crescente com a média (CAMERON et al. 1988).

Segundo WOOLRIDGE (2006), como nosso interesse está no efeito das variáveis

explicativas sobre a variável dependente y, devemos olhar a distribuição de Poisson

condicional em x – vetor de variáveis explicativas. A distribuição de Poisson é

determinada por sua média condicional E(y|x) e a probabilidade de que y seja igual

ao um valor h, condicional em x, é:

p(x) P(y=h|x) = exp [-exp(x )] [exp(x )]

h

/ h!,

(4.2)

onde h = 0,1,...,n.

Assim, a função log-verossimilhança a ser maximizada é:

L( ) = {y

i

x

i

– exp(x

i

)}, para i=1,...,n.

(4.3)

Embora a análise de estimação de máxima verossimilhança de Poisson seja o

primeiro passo natural para estimar dados de contagem, segundo CAMERON &

TRIVEDI (1998), a regressão de Poisson é intrinsecamente heterocedástica e,

frequentemente, restritiva (WOOLRIDGE, 2006) quanto à hipótese assumida da

variância ser igual à média

18

. Contudo, os erros-padrão podem ser ajustados porque

a variância pode ser proporcional à média:

Var(y|x) =

2

E(y|x)

(4.4)

17

Segundo CAMERON & TRIVEDI (1998), a estimação de quase-máxima verossimilhança (QMLE) refere-se

quando a distribuição do estimador é obtida assumindo algumas condições mais fracas do que pelo método de

maximização da função de verossimilhança, considerando que a densidade da distribuição está correta.

Contudo, a regressão de dados de contagem de Poisson por estimação QML é equivalente ao método padrão

de máxima verossimilhança (CAMERON & TRIVEDI, 1998). WOOLRIDGE (2010) sugere que a consistência da

QMLE não requer condições adicionais no que se refere à distribuição. No entanto, se no caso específico da

estimação de quase-máxima verossimilhança (QMLE) a média é corretamente especificada, então, segundo

WINKELMANN (2008), a função de quasi-verossimilhança é parte da familia de funções exponenciais para os

modelos generalizados lineares e, assim, refere-se a estimação como sendo de pseudo-máxima

verossimilhança (PMLE).

18

Propriedade da distribuição de Poisson onde μ

x

= σ

x 2

onde

2

>0 é um parâmetro desconhecido

19

da razão entre média e variância. Assim,

quando

2

=1, a condição de equidispersão é garantida para o modelo de Poisson;

quando

2

>1, a variância será maior que a média para todo os x

i

e ocorre

sobredispersão e quando

2

<1 temos subdispersão.

Assim sendo, para o modelo de regressão de dados de contagem de Poisson, a

propriedade de equidispersão deve ser observada nos dados e é recomendável

verificá-la através de um teste estatístico de sobredispersão (ou overdispersion test).

Teste de Sobredispersão

A condição de equidispersão pode ser testada de diversas formas

20

. Segundo

CAMERON & TRIVEDI (1998, 2010), o teste deverá ser um teste de hipótese na

qual a hipótese nula H

o

é Var(y|x)=E(y|x) é testada contra a alternativa de

sobredispersão através da equação:

Var(y|x) = E(y|x) + . E(y|x)

2

(4.5)

onde é um parâmetro desconhecido

21

da razão entre média e variância e g(.) é

uma função conhecida, sendo g(.) = E(y|x)

2

ou g(.) = E(y|x). Conforme CAMERON &

TRIVEDI (2010), assume-se g(.) = E(y|x)

2

. Esta equação representa a variância de

um modelo de distribuição Binomial negativa no qual é testado: H

o

: = 0 e H

1

: 0.

CAMERON & TRIVEDI (2010) sugerem que o teste seja realizado através da

regressão da variável dependente {(y- hat)

2

– y} / hat em hat, sem um intercepto,

realizando o teste t para hat = 0, no qual seria assintoticamente normal na

condição da hipótese nula de não sobredispersão.

Diversos estudos sobre modelos de regressão de dados de contagem têm abordado

a característica restritiva de dispersão dos parâmetros do modelo de Poisson

(CAMERON et al. 1988) e, com o intuito de contorná-la, foram sugeridos outros

modelos que permitem sobredispersão ou subdispersão. O modelo mais comum de

19

Conforme notação de WOOLRIDGE (2010).

20

WOOLRIDGE (2010) sugere que para determinar o estimador de σ

2

utilize-se o modelo de regressão linear

generalizado (Generalized linear model ou GLM) a fim de determinar o estimador de dispersão de Pearson.

21

regressão de dados de contagem que acomoda o problema de sobredispersão é o

modelo obtido utilizando a distribuição Binomial negativa.

A média condicional do modelo de distribuição Binomial negativa continua com uma

forma exponencial das variáveis explicativas e os coeficientes devem ser

interpretados como no caso do modelo de Poisson. O modelo de regressão com

distribuição Binomial negativa, apresentado por CAMERON & TRIVEDI (1986, 1998)

e CAMERON et al. (1988), tem uma parametrização que define de forma a evitar

que haja problema de sobredispersão. O modelo de regressão Binomial negativa é

também conhecido como modelo Binomial negativa robusto.

Outros erros de especificação do modelo de regressão de Poisson

Outra fonte de erro na especificação do modelo de regressão de Poisson é a

questão que envolve heterogeneidade não observada. Nesse caso, como a variável

dependente é aleatória e condicional a (WINKELMANN, 2008), se houver outras

variáveis explicativas que influenciam , o número esperado de ocorrência no

intervalo de tempo, e não forem consideradas no modelo, podemos ter um problema

de heterogeneidade não observada.

Considerando o modelo verdadeiro como sendo:

E(y|x,w) = exp(x + w )

(4.6)

onde as variáveis do vetor w não é observado, temos então:

E(y|x, v) = exp(x + v) = exp(x ).u, onde u = exp(v)

(4.7)

Assim, devido a não-lineariade da distribuição de Poisson, é necessário que a

condição de independência entre x e v seja garantida, ou seja, que:

E[ exp(v)|x] = E[exp(v)] = E[u]

(4.8)

Nesse caso, também, é apropriado utilizar como modelo alternativo o modelo de

distribuição Binomial negativa.

Finalmente, considerando o problema de heterogeneidade não observada e a

condição de heterocedasticidade intrínseca da regressão de Poisson, assim como o

fato da distribuição de Poisson pertencer à família de distribuição exponencial para

modelos generalizados lineares, o que permite ser ajustada pelo método de

estimação de pseudo-máxima verossimilhança (PMLE), pode-se utilizar o método de

regressão de Poisson robusto comparável com o método de Huber-White para os

modelos OLS, bem como o modelo de regressão Negbin.

Testes para os modelos de regressão de dados de contagem

Os testes sobre os parâmetros do modelo de regressão de dados de contagem de

Poisson ou Binomial negativa são, geralmente, testes de restrições de exclusão

22

,

como é o teste de hipóteses conjuntas (H

o

:

j

=0 onde a hipótese nula constitui j

restrições de exclusão e H

1

: H

o

não é verdadeiro), podendo utilizar a estatística F (ou

razão F). Contudo, mesmo que essa estatística tenha justificativa de amostra grande

sem a hipótese de normalidade, é freqüentemente utilizada para estes modelos a

estatística de teste razão de verossimilhança (LR ou likelihood ratio).

O teste razão de verossimilhança (LR ou likelihood ratio test) é definido pela

diferença entre as funções log-verossimilhança (L) entre y em x e z (modelo

irrestrito) e y em x (modelo restrito). Ao calcular a estatística LR, é importante saber

que a função log-verossimilhança será sempre um número negativo. O teste de

hipótese nula é H

o

: =0, que é simplesmente 2(Lir – Lr), analogamente ao teste F

em modelos lineares de mínimos quadrados ordinários (OLS).

Por fim, é necessário definir a medida de grau de ajuste para o modelo de regressão

de dados de contagem considerado um modelo não-linear. Para os modelos lineares

é utilizado o coeficiente de múltipla determinação R

2

, que determina a proporção da

variação amostral da variável dependente y, que é explicada pelos regressores (ou

reta de regressão). A extensão do R

2

para modelos não-lineares é o pseudo-R

2

,

que apresenta vários cálculos para esta medida. Para os modelos de regressão de

dados de contagem, CAMERON & TRIVERDI (2005) sugerem o pseudo-R

2COR

, que

é o quadrado do coeficiente de correlação entre os valores reais e os valores

22

É importante notar que WOOLRIDGE (2010) propõe testes robustos para a variância condicional no contexto

de modelos exponenciais, que tem como caso especial o modelo de regressão de dados de contagem de

Poisson ou Binomial negativa.

estimados yhat ajustados. Assim, o coeficiente pseudo-R

2COR

pode ser comparado

com o coeficiente R

2

do modelo linear com intercepto.

Interpretação dos parâmetros

Para os modelos lineares, a interpretação dos parâmetros é obtida diretamente.

Considerando a distribuição condicional de y, dado o vetor x, sendo linear:

E(y|x) = E(y|x

1

, x

2

,..., x

k

) =

o

+

1

x

1

+...+

k

x

k

.

(4.9)

O coeficiente

o

é o intercepto da equação e os coeficientes

js

(para j = 1,...,k) são

interpretados como sendo a variação de uma unidade no regressor x

j

. Como os

modelos de regressão de dados de contagem são não-lineares, a interpretação dos

coeficientes deve ser modificada. No modelo com a distribuição condicional de y,

dado o vetor x, sendo exponencial, a variação no regressor pode ser definida como

a derivada:

E(y|x)/ x

j

=

j

. exp(x )

(4.10)

Como a variação depende de exp(x ^), assim, segundo CAMEDRON &TRIVEDI

(2010), uma boa estimativa para a resposta à interpretação do coeficiente é a

resposta média, ou seja, de modo simplificado j^.y

médio23

.

Por outro lado, podemos notar que o logaritmo do valor esperado de y dado x é

linear:

log [E(y|x

1

, x

2

,..., x

k

)] =

o

+

1

x

1

+...+

k

x

k

,

(4.11)

ou seja, 100

j

é aproximadamente a porcentagem de mudança em E(y|x), dado um

aumento de uma unidade na variável x

j

.

23

A resposta média (average response) é (1/n).Σ

N

∂E(y

i

|x

i

)/∂x

ij

= β

j

^ x (1/n).Σ

N

exp(x

i

´β^) (CAMERON &TRIVEDI,

2010). Segundo WOOLRIDGE (2010), considerar os efeitos médios parciais nas variáveis aleatórias em modelos

de regressão de dados de contagem de Poisson é uma maneira direta de se interpretar o efeito destas

variáveis sobre a VDL e permite utilizar a resposta média como fator para comparação com os coeficientes de

modelos lineares.

4.3.2 Modelo de regressão de dados de contagem modificado hurdle Logit-Poisson e