O método de agregação do WGI descrito por Kaufmann, Kraay e Mastruzzi (2010) estima indicadores agregados (no caso do WGI, seis indicadores de governança) combinando informações desagregadas fornecidas por diferentes fontes de dados para um mesmo período de tempo. A ferramenta estatística usada é um modelo de componentes não observados (UCM, na sigla em inglês). A premissa estatística básica para esta abordagem é simples, cada fonte de dados consiste em um “sinal” imperfeito de um indicador mais complexo que seria difícil de observar diretamente.
20 Isso significa que, em posse de dados desagregados de diferentes fontes, enfrentam-se os seguintes problemas de extração de sinal: como isolar sinais informativos sobre o componente não observado do indicador agregado que se pretende estimar (no caso específico deste trabalho, qualidade das instituições políticas e das instituições econômicas) comum a cada fonte de dados utilizada; e como combinar otimamente os dados das diferentes fontes para obter o melhor sinal possível da qualidade das instituições em cada país baseado nos dados disponíveis. O UCM provém uma solução para esses problemas de extração de sinal (KAUFMANN, KRAAY E MASTRUZZI, 2010).
Para cada indicador agregado, um de qualidade das instituições políticas e o outro das instituições econômicas, assume-se que a variável observada, , da fonte de dados k para o país j, seja uma função linear do indicador não-observado de instituições para o país j, , e do termo de erro, :
(2.1) onde e são parâmetros. Assume-se que seja uma variável aleatória com distribuição normal com média zero e desvio-padrão igual a um, o que é a uma “escolha inócua de unidades” necessária para a identificação dos parâmetros
k e
k.
Os autores assumem ainda que: o termo de erro tem distribuição normal com média zero e variância constante entre os países, mas diferente entre fontes de dados., ; e que os erros são independentes entre as fontes, , quando a fonte m é diferente da fonte k. Essa hipótese identificadora de independência dos erros pressupõe que a única fonte de correlação entre fontes diferentes deve-se ao fato de que tais fontes contêm “sinais” da mesma variável não-observável.8 Outra consequência desta hipótese é que diferentes indicadores de uma mesma fonte de dados não podem ser agregados por esse modelo, pois, como são calculados pelas mesmas equipes de especialistas utilizando as mesmas metodologias, provavelmente, violariam a hipótese de independência dos erros. Para que seja
8 Kaufmann, Kraay e Mastruzzi (2010) discutem as chances e as consequências da violação dessa
hipótese e mostram que, na prática, não há maiores problemas para os indicadores estimados. yjk gj jk yjk k k gj jk k k gj V jk k2 E jk jm 0
21 possível levar em consideração as informações contidas nos diferentes indicadores de cada fonte, é preciso primeiro estimar as médias de cada fonte e, então, agregar as diversas fontes pelo modelo de componentes não-observados.
O termo de erro, , capta duas fontes de “ruídos” entre a variável não-observada e as variáveis observadas: a primeira é o erro de mensuração de cada fonte específica, k; a segunda é a relação imperfeita entre os conceitos das variáveis de cada fonte específica, k, e o conceito mais amplo da variável agregada não- observada. Dessa forma, a variância do termo de erro de cada indicador, , reflete essas duas fontes de ruídos, indicando que quando menor for a variância, mais preciso é o sinal extraído por uma fonte para a variável não-observada.
Para se estimar os parâmetros do modelo, , e , para cada fonte de dados 𝑘 (onde 𝑘 = , , 𝐾) é preciso maximizar uma função de verossimilhança, descrita por Kaufmann, Kraay e Mastruzzi (2010), para cada período de tempo. Como, no presente trabalho, utilizam-se apenas fontes com dados representativos para o mundo, conforme será descrito na próxima seção, foi estimada apenas a função recomendada para este tipo de fonte de dados. A representatividade mundial das amostras é crucial porque justifica a hipótese assumida por Kaufmann, Kraay e Mastruzzi (2010) de normalidade conjunta de e . A notação usada é a seguinte: sejam os vetores 𝛼 = (𝛼 , , 𝛼𝐾𝑗), 𝛽 = (𝛽 , , 𝛽𝐾𝑗) e 𝜎 = (𝜎 , , 𝜎𝐾𝑗), onde 𝐾𝑗 é o número de fonte de dados disponíveis para cada país 𝑗. Sejam ainda Β e Σ matrizes diagonais com β e σ2, respectivamente, nas diagonais principais e Ω = 𝛽𝛽′+ ΒΣΒ′. A contribuição do país 𝑗 para a log-verossimilhança é, então, dada por:
𝑙𝑛𝐿 𝛼, 𝛽, 𝜎 ∝ 𝑙𝑛|Ω| + (𝑦𝑗− 𝛼)′Ω− (𝑦𝑗− 𝛼) (2.2) Somando os resultados desta função para todos os 𝑗 países e, em seguida, maximizando a função de log-verossimilhança, estimam-se os parâmetros desconhecidos, 𝛼𝑘, 𝛽𝑘 e 𝜎𝑘 para cada fonte de dados 𝑘.9 Como o número de fontes de dados disponíveis para cada país pode variar, as dimensões de 𝑦𝑗 e α (que são vetores 𝐾𝑗 𝑋 ) e de Β, Σ e Ω (que são matrizes 𝐾𝑗 𝑋 𝐾𝑗) também podem variar. Desta forma, é possível utilizar a função de verossimilhança mesmo que não haja dados de
9 A identificação do modelo requer que se tenham no mínimo três fontes de dados. jk k 2 k k k 2 gj jk
22 todas as fontes para todos os países (KAUFMANN, KRAAY E MASTRUZZI, 2010, p.24).
Em seguida, é possível estimar a variável não-observada do país j, , por meio da distribuição de condicional aos dados observados, . Essa distribuição também é normal e tem a seguinte média:
𝐸[𝑔𝑗⁄𝑦𝑗 , … , 𝑦𝑗𝑘] = ∑𝐾𝑘= 𝑤𝑘𝑦𝑗𝑘𝛽−𝛼𝑘 𝑘 (2.3)
que é usada como estimativa pontual da variável não-observada. Em palavras, o que a equação (2.3) faz é uma média ponderada de variáveis observadas reescalonadas para uma unidade comum de medida e que resultam em indicadores agregados com média zero e desvio-padrão igual a um.
Na prática, os resultados podem ser ligeiramente diferentes disso – a média pode não ser exatamente zero e desvio padrão pouco menor que um. Para ajustar os dados para essas diferenças e também para levar em conta a inclusão ou a exclusão de países ao longo da série, evitando problemas em comparações interanuais e entre países (cross-country) dos dados, serão feitos dois tipos de ajustes nos dados como proposto pelos autores do método e descrito no ANEXO A. Os pesos designados para cada fonte de dados são obtidos diretamente pelo modelo por meio da seguinte equação:
𝑤
𝑘=
+∑ ⁄𝜎( 𝜎𝑘𝑘
⁄ )
𝐾
𝐾= (2.4)
que implica que fontes com menor variância do termo de erro (ou seja, com “sinais” mais informativos sobre as instituições) recebem maior peso na ponderação e que a soma dos pesos é igual a um: ∑𝐾𝑘= 𝑤𝑘 = .
Ainda com base nas informações das variâncias dos termos de erro de cada fonte de dados, é possível se avaliar o grau de incerteza das estimativas para os indicadores agregados – o que é uma das principais qualidades desse método. Esse grau de incerteza é obtido pelo desvio padrão da distribuição da variável não- observada (
gj) condicional aos dados observados para cada país, que será gj gj yjk
23 chamado de “erro padrão” para se diferenciar do desvio padrão de cada indicador (
k) e será estimado pela seguinte equação:
2 1 1 2 1, , 1 1 K k k jk j j y y g SE (2.5)
Esta equação (2.5) indica que quanto maior for o número de fontes de dados, k, e quanto maior for o grau de precisão de cada fonte de dados, menor será o grau de incerteza do indicador estimado. A forma mais interessante de se visualizar esse tipo de incerteza é calculando o intervalo de confiança utilizando este mesmo desvio padrão. A presença destas margens de erro reflete a imperfeição das variáveis
proxies para os conceitos de instituições que se tentam mensurar aqui.
Como mencionado anteriormente, esse método propicia uma interessante forma de uniformização das pontuações a serem agregadas. Mas, por que é relevante este tipo de uniformização dos dados? Mais ainda, esse procedimento torna desnecessário qualquer reescalonamento prévio das bases de dados? Respostas a estas questões serão debatidas a seguir.