m & red
4.4 Heat Exchanger
De posse dos coeficientes estimados (betas), para cada variável dependente em cada equação do sistema (3.4) para os 100 melhores modelos para cada país, calculamos a média desses coeficientes para aqueles que tiveram valores diferentes de 0 em mais de 50% desses 100 melhores modelos.
Com o perfil de cada país na relação entre produto, investimento, poupança e preço do produto e investimento (dado por um vetor equivalente à equação (3.1) fixo no tempo para cada país), calculamos uma matriz com as distâncias euclidianas entre os perfis de todos os países.
Os clusters foram construídos por hierarquização com o método de Ward. O método de Ward consiste em otimizar (minimizar) a variância dentro de cada cluster. Para construção do cluster, por hierarqui- zação, iniciamos o processo no primeiro passo com n clusters de 1 indivíduo (país), onde n é o número de países. No segundo passo, computamos a soma do quadrado das distâncias euclidianas para todas as combinações 2 a 2, dos perfis dos países. Isto consiste na construção de uma matriz triangular n × n. Dentro dessa matriz escolhemos o par que tem a menor soma do quadrado das distâncias. Escolhemos essa primeira dupla e formamos o primeiro cluster. Assim, ao fim do segundo passo, temos n − 1 clusters,
9 A condição de rank é necessaria e suficiente para garantir a identificação em um sistema de equações simultâneas. Segundo esta, dadas as restrições em uma determinada equação (coeficientes iguais a 0 ou fixos), não se deve impor restrições excessivas nas demais equações do sistema, para as variáveis com restrição na equação de referência. De forma mais direta, para cada equação do sistema, a matriz formada pelas colunas, nas demais equações, relativas às variáveis excluídas dessa equação, deve ter determinante diferente de 0.
com 1 cluster com 2 países e o resto com 1 país. No terceiro passo realizamos o mesmo procedimento para todas as combinações de 2 a 2 (com um cluster com 2 países) e formamos n − 2 clusters. O algoritmo continua até termos 1 cluster com n (todos os) países.
Nosso objetivo aqui é agrupar os países com perfil similar do sistema de equações simultâneas, ao mesmo tempo em que destacamos os grupos com perfis diferentes.
Escolhemos o método de Ward, porque, dentro da literatura, ele é um dos dois que, tradicionalmente, apresenta os melhores resultados. Uma crítica ao método de Ward é que ele tende a gerar clusters com o mesmo número de indivíduos. Uma boa alternativa, e o outro método que na literatura apresenta os melhores resultados, é o average linkage que pode destacar grupos com minorias. Este método calcula a distância entre as médias dentro de cada grupo. Mas isso também não é muito desejável, pois existe uma tendência a sobrevalorizar as individualidades dos países. Na verdade, o uso do procedimento de average
linkage em nossas estimações não gerou resultados interessantes.
Esse procedimento é feito, tal como descrito no tópico de resultados, para 3 conjuntos distintos de variáveis, ou subconjuntos do perfil total (com todos os coeficientes) dos países.
Além da análise de clusters, nós vamos usar a análise de fatores para definir grupos de países similares. Apesar das duas técnicas poderem ser utilizadas para agrupar indivíduos, elas o fazem utilizando diferentes critérios. Enquanto que na análise de fatores estamos preocupados com as correlações entre as variáveis dos perfis dos países, na análise de clusters nós vamos focar em uma medida de distância, que em nosso caso é a distância euclideana. A análise de fatores agrupa os indivíduos com base na correlação e a análise de cluster com base na medida de distância ou similaridade. Dessa forma, os resultados, em termos de agrupamento de países, na análise de fatores e de clusters não necessariamente são os mesmos. No entanto, como vamos usar variáveis normalizadas (numa mesma escala) tanto na análise de clusters como de fatores, nós esperamos que os resultados da análise do co-movimento e das distâncias sejam similares. O problema do número de clusters é particularmente importante porque, dentro da análise de clusters sua definição é discricionária e fonte de críticas. Para contornar o problema e objetivar a solução, nós vamos utilizar o número de fatores com autovalores maiores que 1, estimados na análise de fatores com o mesmo conjunto de dados, para definir o número de clusters nesse conjunto de dados. Faremos isso porque, ao usar variáveis com a mesma escala, esperamos que os resultados nessas duas análises fossem similares.
Por serem baseados em medidas de distância, os resultados da análise de clusters são particularmente sensíveis a outliers. Nesse sentido, com o objetivo de identificar, visualmente, países com valores extremos nas variáveis, mostramos na figura (2) o perfil dos países em diagramas. No eixo horizontal estão as variáveis e no vertical os valores. Assim, cada linha mostra o comportamento de cada país ao longo das variáveis. Note que, devido a limitações do número de países, algumas cores são usadas para 2 países.
Assim, de acordo com a figura (2) podemos identificar como países com valores atípicos (linhas des- toantes): Belize e República Africana Central (Diagrama 1), Guiana (Diagrama 2), Noruega (Diagrama 4) e Suécia (Diagrama 5). De fato, nas análises feitas esses países tendem a estar sozinhos em clusters separados.
Um último aspecto importante relacionado a essas duas análises é o peso ou a importância de cada variável para definir se um país faz parte de cada fator e de cada cluster. No caso da análise de fatores esse peso vai ser dado diretamente e objetivamente pelos fator scoring. Para a análise de clusters nós não
Figura 2 – Diagrama de Perfil dos países -4 -2 0 2 4 6 valores 0 20 40 60 variáveis
Albania/Burundi Antigua e Barbuda/Camarões
Argentina Armênia Austrália Bahamas, As Bahrain Bangladesh Barbados Belarus Belize Butão Bolívia Brasil Bulgária
Diagrama do perfil dos países - 1
-5 0 5 valores 0 20 40 60 variáveis
Canadá/Etiópia República Centro-Africana/Fiji
Chade Chile
China Colômbia
Congo, Rep. Costa Rica
Croácia Chipre
República Checa República Dominicana
Equador Egito, Rep. Arab
Estônia
Diagrama do perfil dos países - 2
-4 -2 0 2 4 valores 0 20 40 60 variáveis Georgia/Kuwait Granada/Letônia Guatemala Guiana
Honduras Hong Kong SAR, China
Hungria Islândia
India Indonésia
Israel Japão
Jordânia Kênia
Korea, Rep.
Diagrama do perfil dos países - 3
-10 -5 0 5 valores 0 20 40 60 variáveis
Lituânia/Oman Macedônia, FYR/Panamá
Madagascar Malawi Malásia Malta Maurícia México Moldova Mongólia Marrocos Namíbia Nicarágua Nigéria Noruegua
Diagrama do perfil dos países - 4
-4 -2 0 2 4 valores 0 20 40 60 variáveis
Papua-Nova Guiné/St. Lucia Paraguai/São Vicente e Granadinas
Peru Filipinas
Polônia Romênia
Federação Russa Ruanda
Sérvia Seicheles
Serra Leoa Singapura
Eslováquia África do Sul
Sri Lanka
Diagrama do perfil dos países - 5
-5 0 5 valores 0 20 40 60 variáveis Suazilândia/Vietnã Suécia
Suíça Síria, Rep Arab
Tanzânia Tailândia
Tonga Trinidad e Tobago
Uganda Ucrânia
Reino Unido Estados Unidos
Uruguai Vanuatu
Venezuela, RB
Diagrama do perfil dos países - 6
NOTA: As figuras mostram o diagrama do perfil dos países. No eixo horizontal estão as variáveis e no eixo vertical estão mensurados os valores delas. Cada linha representa um país e mostra os valores, para esse país, de todas as variáveis consideradas ao longo do eixo horizontal. Como as variáveis foram normalizadas então é possível compará-las e uma mesma escala. O objetivo é identificar países outliers, que seriam representadas por linhas com valores extremos nas variáveis, que podem distorcer a análise de clusters.
temos os pesos. Assim, nós vamos usar a média dos valores de cada variável, dos países pertencentes ao
cluster, para identificar as características importantes para cada cluster.