Os modelos de dados em painel combinam dados em corte transversal (cross- section) com séries temporais, ou seja, representam um conjunto de dados de entidades individuais (sejam famílias, empresas, municípios, estados etc.) ao longo do tempo. Assim, os modelos de dados em painel compreendem grande número de observações para cada indivíduo da amostra, possuindo assim uma dimensão temporal e outra espacial (GUJARATI, 2006; PINDYCK; RUBINFELD, 2004; STOCK; WATSON, 2004).
De acordo com esta pesquisa, o modelo de dados em painel permitiu analisar tanto a mudança nos valores de IPDM de um único município ao longo do tempo quanto a variação nos valores de IPDM de muitos municípios em um único ano.
A partir disso, entende-se que a técnica de dados em painel apresenta vantagens específicas que não podem ser medidas por meio dos modelos de séries temporais ou de corte transversal.
O uso de dados em painel apresenta uma série de vantagens, a saber: (a) maior número de pontos de amostragem, o que gera graus de liberdade adicionais, estimações mais eficientes e redução do problema da colinearidade entre as variáveis explicativas; (b) inclusão de corte transversal e de séries temporais pode diminuir as
123
dificuldades que surgem quando há omissão de variáveis; (c) consideram a heterogeneidade individual das entidades estudadas, ou seja, sugerem que elas são heterogêneas, o que permite obter resultados mais adequados; (d) detectam e medem melhor os efeitos das unidades em análises do que se a observação fosse realizada pela série temporal ou corte transversal (GUJARATI, 2006; PINDYCK; RUBINFELD, 2004; SILVA; CRUZ JÚNIOR, 2004).
Pindyck e Rubinfeld (2004), no entanto, ressaltaram que o uso de dados em painel adiciona nova dimensão de dificuldade ao problema da especificação do modelo, pois o termo de erro ou de perturbação provavelmente é a série temporal, o corte transversal e a combinação desses dois.
Silva e Cruz Júnior (2004) mencionaram que considerando um conjunto de dados com N unidades (cross-section), T períodos de tempo e K-1 variáveis explicativas, tem-se um modelo de dados em painel, o qual pode ser expresso pela seguinte fórmula geral:
T t e N i it kit K k kit it it x e y 1,2, , 1,2, , 2 1
(1)sendo, o intercepto diferenciado para cada unidade de seção cruzada i no 1it período t, as diferentes inclinações para cada unidade de seção cruzada i kit analisada em cada período t, e e o termo de erro definido também para cada it unidade de seção cruzada i analisada em cada período t.
Um importante aspecto desse modelo estático é que as variáveis explicativas são independentes do termo de erro (e ), o que faz que o tratamento deste (it e ) seja it fundamental na escolha do modelo, que combina séries temporais e dados em corte transversal, a ser utilizado nas análises (SILVA; CRUZ JÚNIOR, 2004).
Os modelos estimados de dados em painel normalmente consideram os efeitos fixos e os efeitos aleatórios, os quais se diferenciam pelas premissas que fazem a respeito do intercepto e do termo de erros (GUAJARATI, 2006). Entretanto, Pindyck e Rubinfeld (2004) enfatizaram que a primeira técnica para estimação do modelo de dados em painel utiliza os mínimos quadrados ordinários (OLS). No entanto, Marques (2000) argumentou que a aplicação de OLS à amostra longitudinal,
124
a qual é denominada pooled OLS, ignora a heterogeneidade, o que poderá levar o modelo a um erro de especificação.
O modelo de regressão de efeitos fixos considera que as variáveis omitidas podem gerar mudanças nos interceptos. A partir disso, esse modelo assume que as diferenças entre os indivíduos ou unidades de corte transversal podem ser mensuradas pelo termo de intercepto (constante), o qual é um parâmetro desconhecido a ser estimado. Ressalta-se que nesse modelo o intercepto varia de um indivíduo para outro, mas permanecem essas diferenças constantes ao longo do tempo. O modelo de efeitos fixos aborda as diferenças individuais de maneira sistemática e permite que elas sejam testadas (PINDYCK; RUBINFELD, 2004; GREENE, 2002; MARQUES, 2000).
Segundo Pindyck e Rubinfeld (2004) os modelos de efeitos fixos inserem variáveis dummy (variáveis binárias) para que se permita ao termo de intercepto variar ao longo das unidades em corte transversal e ao longo do tempo.
Gujarati (2006) argumentou que o intercepto ( ) do modelo de dados em i painel pode diferenciar entre indivíduos ou unidades de corte transversal ao considerar que cada um pode apresentar características especiais, as quais não foram englobadas nas variáveis observadas e influenciam a variável dependente. Assim, o modelo de efeitos fixos pode ser expresso pela seguinte fórmula:
it it k it i it 1 1 (2) em que, i representa a i-ésima unidade de corte transversal e t o t-ésimo período de tempo, Y a variável dependente, o intercepto, o coeficiente estimado, X as variáveis independentes, e o termo de erro.
O subscrito i no termo de intercepto sugere a diferença entre os interceptos dos indivíduos ou unidades de corte transversal. Gujarati (2006) enfatizou que esse modelo é denominado efeitos fixos porque cada intercepto individual não se altera ao longo do tempo.
O modelo dos efeitos aleatórios ou modelo de componente dos erros corresponde a uma alternativa de uso ao modelo de efeitos fixos. Aquele sugere que a falta de conhecimento sobre o modelo seja expressa por meio do termo de erro it e não por variáveis binárias (GUJARATI, 2006).
125
A principal diferença entre o modelo de efeitos aleatórios e o de efeitos fixos está no fato de que o primeiro assume que o intercepto de uma unidade ou indivíduo é uma extração aleatória de uma população muito maior com um valor médio constante, e as diferenças individuais no intercepto refletem no termo de erro, i (GUJARATI, 2006; SILVA; CRUZ JÚNIOR, 2004).
A partir do exposto, o modelo de efeitos aleatórios é representado por:
it i nit n it it 1 2 2 it = 1 22it nnit it (3) em que: it i it (4) em que o termo de erro é composto por dois elementos: it , que é o elemento do i corte transversal, tem média zero e variância 2
, específico de cada indivíduo ou unidade e , que é o elemento combinado da série temporal e do corte transversal. it
Uma vantagem do modelo de efeitos aleatórios em relação ao de efeitos fixos é que o primeiro é mais econômico em graus de liberdade do que o segundo, já que não se tem que estimar N interceptos individuais, sendo apenas necessário estimar o valor médio do intercepto e sua variância (GUJARATI, 2006).
Os pressupostos do modelo de efeitos aleatórios são de que os componentes de erro individuais não sejam correlacionados entre si e nem entre as unidades de corte transversal e as de séries temporais (GUJARATI, 2006; MADDALA, 2003).
Caso os componentes de erros estejam correlacionados, o método mais adequado para estimar o modelo de efeitos aleatórios é o dos Mínimos Quadrados Generalizados (MQG), de modo a obter estimativas eficientes (GUJARATI, 2006; PINDYCK; RUBINFELD, 2004; STOCK; WATSON, 2004).
Para decidir qual o melhor método de análise dos dados, entre modelos de efeitos fixos e de efeitos aleatórios, pode-se realizar o teste de Hausman. A hipótese nula desse teste é que os estimadores do modelo de efeitos fixos e de efeitos aleatórios não diferem substancialmente. Caso a hipótese nula seja rejeitada, conclui- se que o modelo aleatório não é adequado, sendo preferível utilizar o modelo de
126
efeitos fixos. Do contrário, o modelo mais adequado é o de efeitos aleatórios (GUAJARATI, 2006).
Antes da realização do teste de Hausman, deve-se realizar o teste de Chow, com o objetivo de verificar se o modelo de efeitos fixos é melhor do que o modelo “pool” (ausência de efeitos). Com a rejeição da hipótese nula, segundo a qual os efeitos não existem, assume-se que o modelo de efeitos fixos é mais adequado do que o “pool”, demonstrando a relevância da utilização do modelo de dados em painel (DANTAS et al., 2010; PINDYCK; RUBINFELD, 2004).
Caso se verifique no teste de Hausman que o modelo de efeitos aleatórios é o mais adequado, realiza-se o teste proposto por Breusch e Pagan de multiplicador de Lagrange (LM), o qual testa se o modelo de efeitos aleatórios é mais adequado do que o modelo “pool” (ausência de efeitos). A hipótese nula desse teste é de que a variância do componente individual é zero. Ao rejeitar a hipótese nula, assume-se que o modelo de efeitos aleatórios é mais adequado do que o modelo “pool” (modelo de regressão clássico) (GUJARATI, 2006).
Uma vez realizados os testes mencionados e identificado o modelo mais adequado, passou-se para a verificação dos possíveis problemas de autocorrelação e de heterocedasticidade. Caso haja a ocorrência desses problemas, Hoechle (2007) sugere que a correção deve ser realizada por meio do procedimento de Driscoll- Kraay, o qual, segundo esse autor, é o mais adequado para corrigir a autocorrelação e a heterocedasticidade, pois considera a dependência temporal e cross-section. O referido autor enfatizou que, caso se considere apenas a correlação das unidades em um único período de tempo, os resultados podem levar a uma análise estatística tendenciosa. Após a correção da autocorrelação e da heterocedasticidade, deve-se reestimar o modelo mais adequado.