GEOGRAFICAMENTE PONDERADO
Considere o modelo de regress˜ao, equivalente com o apresentado na sec¸˜ao 3.1, da forma
yi= h(xi;θ) +εi, (4.8)
onde n˜ao necessariamente os res´ıduosεi s˜ao ortogonais `as vari´aveis preditoras no vetor xi. A
os instrumentos est˜ao no vetor zi, que poder´a conter alguns dos elementos no vetor xi. Para
o modelo de regress˜ao acima, equac¸˜ao (4.8) , tem-se uma amostra de dimens˜ao n, onde cada unidade observacional corresponde a uma unidade geogr´afica, com coordenadas lati e longi.
Em muitos casos, as unidades i correspondem a pol´ıgonos (munic´ıpios, unidades da federac¸˜ao, setores censit´arios etc.), e as coordenadas latie longipodem ser as coordenadas dos centr´oides
de cada pol´ıgono.
A id´eia do m´etodo de momentos generalizados geograficamente ponderado ´e estimar um vetor de parˆametros θi diferente para cada unidade i, com a restric¸˜ao de que esse vetor de
parˆametros varie suavemente no espac¸o. Para isso, para cada unidade i ser´a estimado um modelo diferente, utilizando-se todas as observac¸˜oes na amostra com ponderac¸˜oes diferentes para cada uma delas. A seguir, apresentamos o pseudo-c´odigo desse processo de estimac¸˜ao:
1) Fixe um valor para o bandwidthλ , o qual ser´a utilizado para todos os pol´ıgonos na amostra.
2) Para o primeiro pol´ıgono na base de dados(i = 1), calcule os pesos ˜wkpara todas as unidades kna amostra(k = 1, . . . , n). Os pesos s˜ao calculados segundo a express˜ao a seguir utilizando um kernel normal bivariado
˜ wk= 1 2πλ2e − h
(lati−latk)2+(longi−longk)2
2λ 2
i
(4.9) 3) Note que o peso ˜wk ´e m´aximo quando i= k, e decresce quanto mais distante geograficamente
o pol´ıgono k estiver do pol´ıgono i. Os pesos ˜wks˜ao ent˜ao normalizados para que o somat´orio
deles seja igual a n. Portanto, os novos pesos normalizados wktˆem express˜ao
wk= ˜wk×
n ∑ni=1w˜j
, k = 1, . . . , n. (4.10) 4) Com base nos pesos wk, k= 1, . . . , n, estime o vetor de parˆametros ˆθ1, para o primeiro
pol´ıgono i= 1, utilizando estimac¸˜ao via m´etodo de momentos generalizado ponderado2. O parˆametro de bandwidth λ indica o grau de diferenc¸a entre os pesos wk. Quanto menor o
valor de λ maior a diferenc¸a entre os pesos; no limite, quandoθ → 0, tem-se w1→ n, e
wk6=1→ 0. Por outro lado, quandoλ → ∞, wk→ 1, para todo k = 1,...,n.
5) Repita os passos (2) a (4), para todos os demais pol´ıgonos na amostra, i= 2, . . . , n. Portanto, para cada um dos n pol´ıgonos, ser˜ao recalculados todos os pesos wk, e estimado um novo
vetor de parˆametros ˆθi. Portanto, ao final das estimativas, teremos n vetores de parˆametros
2A estimac¸˜ao pode efetuada com o software estat´ıstico SAS, utilizando o PROC MODEL. Ou implementado
θi. Quando o bandwidthλ tem um valor muito baixo, os pesos wkficam mais diferentes com
os pesos mais altos para os pol´ıgonos mais pr´oximos do pol´ıgono focal i. Por esse motivo, quanto menor o valor deλ, mais diferentes s˜ao os valores dos parˆametros estimados ˆθi. Por
outro lado, quandoλ → ∞ , todos os valores estimados ˆθiconvergem para um ´unico valor
ˆ
θ, que ´e justamente o valor estimado a partir de um GMM n˜ao ponderado geograficamente.
Conforme normalmente utilizado para o contexto de regress˜ao linear e de estimac¸˜ao via m´axima verossimilhanc¸a geograficamente ponderada, a escolha do bandwidth neste trabalho ser´a feita via validac¸˜ao cruzada (cross-validation). A id´eia ´e variar o valor deλ dentro de um intervalo [λmin,λmax]. Para cada valor deλ utilizado, calcula-se uma medida C(λ) de ajuste
geral em toda a amostra.
Considere o problema de estimac¸˜ao do vetor de parˆametros ˆθi, utilizando m´etodo de mo-
mentos generalizados ponderados (weighted GMM), conforme definido na sec¸˜ao 4.1. Essa estimac¸˜ao consiste em minimizar a func¸˜ao objetivo
g(θi) = 1 n n
∑
k=1 wk×h[εkzk]TΩ−1i [εkzk] i , (4.11)onde os pesos wk foram calculados em torno do pol´ıgono i. Substituindo o valor de εk =
yk− h(xk;θi), temos g(θi) = 1 n n
∑
k=1 wk× h [yk− h(xk;θi) × zk]TΩ−1i [yk− h(xk;θi) × zk] i . (4.12)A matrizΩ−1i corresponde ao inverso da matriz de covariˆancia das condic¸˜oes de momento, conforme metodologia tradicional de GMM. Com base na equac¸˜ao acima, uma primeira medida de ajuste global, para um dado bandwidthλ, seria dada pela express˜ao
C(λ) =1 n n
∑
k=1 ×h[yk− h(xk;θi) × zk]TΩ−1i [yk− h(xk;θi) × zk] i . (4.13)Na express˜ao para C(λ), note que o erro [yk− h(xk;θi)], na observac¸˜ao k, utiliza o vetor de
parˆametros ˆθk. Al´em disso, para cada k= 1, . . . , n, a matriz especifica Ω−1k ´e utilizada. Essa
construc¸˜ao de C(λ) segue os mesmos princ´ıpios das medidas de ajuste global para validac¸˜ao cruzada, nos casos de regress˜ao geograficamente ponderada e de m´axima verossimilhanc¸a geo- graficamente ponderada.
O problema de se utilizar C(λ), conforme descrito acima, ´e que C(λ) → 0 quando λ →
esse problema, uma soluc¸˜ao comumente utilizada na literatura de regress˜ao geograficamente ponderada ´e retirar a observac¸˜ao i da amostra, na estimac¸˜ao deθi. Considere ent˜ao a estimativa,
obtida via minimizac¸˜ao da func¸˜ao objetivo3
¯ g(θi) = 1 (n − 1) n
∑
k= 1 k6= i wk× h [yk− h(xk;θi) × zk]TΩ−1i [yk− h(xk;θi) × zk] i . (4.14)A partir dos vetores ¯θk, k= 1, . . . , n, podemos calcular a medida ¯C(λ), que n˜ao sofre do mesmo
problema mencionado anteriormente para C(λ). A express˜ao para ¯C(λ) ´e dada por
¯ C(λ) =1 n n
∑
k=1 ×h[yk− h(xk; ¯θi) × zk]TΩ−1i [yk− h(xk; ¯θi) × zk] i . (4.15)Durante todas as estimativas, utilizaremos a medida ¯C(λ). Portanto, o pseudo-c´odigo para a escolha do bandwidth ´e dado por:
a) Selecione valores m´ınimo e m´aximo,λmin,λmax, e um valor de subintervalo∆λ.
b) Fac¸amos λ =λmin+ u × ∆λ , onde u= 0, . . . , m, onde m ´e o n´umero de subintervalos no
intervalo[λmin,λmax].
c) Para cada valor deλ, proceda com os passos (1) a (5) do pseudo-algoritmo. A diferenc¸a ´e que, para cada i=1,. . . n, obt´em-se a estimativa ¯θk ao inv´es de ˆθi. Al´em disso, adiciona-se o
passo (6), que corresponde justamente ao c´alculo da medida ¯C(λ).
d) Ao final, do processo, teremos(m + 1) valores deλ e(m + 1) valores de ¯C(λ). Escolhe-se ent˜ao o valorλ∗deλ apresentando o menor valor de ¯C(λ).
e) Finalmente, para o valor λ∗ do bandwidth, realizam-se os passos de (1) a (5) acima, sem fazer modificac¸˜ao alguma no pseudo-c´odigo. Como o objetivo agora n˜ao ´e mais a escolha do bandwidth, e sim a estimativa final dos vetores de parˆametros θi, i= 1, . . . , n, n˜ao h´a
mais a necessidade de calcular a estimativa ¯θk ao inv´es de ˆθi. Portanto, as n estimativas
ˆ
θi, i = 1, . . . , n, s˜ao as estimativas utilizadas na an´alise dos dados. Essas estimativas podem
ser ent˜ao visualizadas em mapas para melhor interpretac¸˜ao dos resultados.
3Se quis´essemos ser consistentes em relac¸˜ao aos passos do pseudo-c´odigo acima, ter´ıamos que re-normalizar
os pesos wkpara que eles, sem incluir o peso wi, somassem iguais a(n − 1). No entanto, nessa etapa do processo,
onde apenas queremos estimar pontualmente o valor deθi, com ou sem re-normalizac¸˜ao, a estimativa ¯θin˜ao se