Isto posto, generalizando os modelos (4.1.11), ln wM* = XυM + WX M + [(1 - )/ ] ln LM* + ξM, (4.1.12), ln wH* = XυH + [(1 - )/ ] ln LH* + ξH, e (4.1.13),
lnw∗ =Xυ+WXδ η+ lnLM∗+ξ, como em (4.2.8), yi t, =Zi t,β µ ζ+ i+ i t, , podemos estimá-los para verificar os retornos à escala da aglomeração urbana, considerando os fenômenos espaciais como discutido até aqui. Para tanto, baseamos nosso estudo fundamentalmente em dados extraídos dos censos demográficos, de responsabilidade do IBGE (Instituto Brasileiro de Geografia e Estatística),25 e referentes aos anos de 1980, 1991 e 2000, formando um painel cuja dimensão temporal tem tamanho igual a três.
Uma característica importante dessa base de dados, para efeitos do presente trabalho, é o fato de a mesma conter dados desagregados em nível de pessoas e domicílios para cada município. Dessa forma, a agregação dos dados pode ser obtida de forma consistente com o nosso modelo.
Os levantamentos censitários realizados pelo IBGE compreendem dois grupos. O grupo censitário, no qual é aplicado o questionário básico, abrange 100% da população residente, enquanto que o questionário amostral, contendo, além das perguntas que também constam do questionário básico, outras questões mais detalhadas sobre características do domicílio e das pessoas, tais como religião, migração, escolaridade, fecundidade, mão-de- obra e rendimento, e é aplicado para uma amostra selecionada a partir de estimativas para
25
Salvo exceção para a variável “condições de saúde”, como veremos, cuja construção foi baseada em dados da Fundação SEADE.
os municípios. Para o ano de 1980 esta amostra representou 25% da população residente do País. Já para o ano de 1991 e 2000 o questionário de amostra foi aplicado em 20% da população residente em cidades com população estimada até 15.000 habitantes e 10% da população para as demais cidades. Como a base é amostral, no processo de agregação dos dados deve-se levar em conta o peso de cada pessoa e de cada domicílio para o município agregado. Esses pesos são calculados a partir do procedimento de mínimos quadrados generalizados, conforme IBGE (2002).
Os dados podem ser agregados por município, microrregião, Estado ou macrorregião. Nossa definição de localidade considerou a menor unidade de desagregação espacial compatível com a natureza de nossos dados, de modo que temos por foco os municípios. Entretanto, como vários municípios foram criados no espaço de tempo entre os censos, desconsiderar tal fato poderia enviesar nossos resultados. Assim sendo, tomamos como base o ano de 1980 e consideramos a divisão territorial, à época, como base de nosso estudo. As informações para os municípios criados nesse período foram agregadas aos municípios que os originaram. No total, foram analisados os dados para 571 municípios do Estado de São Paulo.
Para incluir a dimensão espacial em nosso estudo computamos uma matriz de vizinhança a partir das distâncias geográficas entre os centróides dos municípios, com os dados disponíveis no IBGE.26 Nenhuma distância máxima é assumida, mas os dados são linha-normalizados, de modo a torná-la uma matriz de pesos espaciais, como discutido acima. Esse procedimento permite-nos obter uma matriz de dimensão 571 × 571 -
26
IBGE (s/d). Cidades e Vilas. Disponível em http://www2.ibge.gov.br/pub/Organizacao_do_Territorio/ Cidades_e_Vilas/. Acessado em março de 2004.
associando pesos entre pares de municípios. Uma defasagem espacial é obtida pré- multiplicando um vetor de dados por essa matriz.
Uma generalização do modelo (4.2.8) é ainda testada incluindo, para cada município, um vetor de características defasadas espacialmente. Tal vetor é construído pré- multiplicando o vetor de características observáveis incluído em (4.2.8) pela matriz de pesos espaciais discutida acima. O modelo geral estimado é, portanto
t r r m t r m t r t r m t r L w ' , , , , ,∗=X β+WX δ +η ln +µ +ζ (4.3.1)
onde m é um índice que varia de acordo com o modelo estimado, podendo representar o setor competitivo, o setor de serviços regulamentados ou a média do município; wr tm,∗ é a
variável a ser explicada do município r no instante t; Xr,t é um vetor k × 1, de características observáveis, e WXr,t é a r-ésima linha da matriz WX obtida da multiplicação de W por X, onde W é uma matriz de pesos espaciais, de dimensão n × n, e X é uma matriz n × k obtida do empilhamento de '
,t
r
X , linha a linha, para as n observações. O vetor k × 1 WXr,t é a defasagem espacial do vetor X . 'r,t ,
m r t
L ∗ é o total de trabalhadores
no setor m; e são vetores k × 1 de parâmetros a serem estimados. m é o parâmetro de retornos à escala que se deseja estimar. Para setores competitivos, m é positivo, enquanto que para os setores de serviços regulamentados, m é negativo. Para a média do município,
m
dependerá da composição desses setores no produto total. µi é um efeito específico a cada localidade. Por fim, i,t é um erro que pode ser modelado para incorporar dependência espacial, como discutido acima.
Para analisar os setores que apresentam retornos, crescentes ou não, à escala, dividimos a força de trabalho de cada município em onze setores, como definidos no
Quadro 4.1. Dessa forma, promovemos mais uma generalização do modelo discutido no capítulo 3, considerando para o trabalho empírico onze setores, mais o salário médio do município. As atividades econômicas foram agrupadas em setores seguindo a classificação padrão mais agregada adotada pelo IBGE.
Quadro 1: Setores econômicos Atividades agropecuárias, de extração vegetal e pesca
Indústria de transformação Indústria da construção civil
Outras atividades industriais (extração mineral e serviços industriais de utilidade pública) Comércio de mercadorias
Transporte e comunicação
Serviços técnicos e auxiliares da atividade econômica (técnico-profissionais e auxiliares das atividades econômicas)
Prestação de serviços (alojamento e alimentação, reparação e conservação, pessoais, domiciliares e diversões)
Social (comunitárias, médicas, odontológicas e ensino)
Administração Pública (Administração Pública, Defesa Nacional e Segurança Pública). Outras atividades (instituições de crédito, seguros e capitalização, comércio e administração de imóveis e valores mobiliários, organizações internacionais e representações estrangeiras, atividades não compreendidas nos demais ramos e atividades mal definidas ou não declaradas)
Esses municípios, a depender do efeito escala estimado, podem ser classificados em setor com retornos crescentes à escala, caso o coeficiente estimado seja positivo; setor com
retorno decrescente à escala, caso ele seja negativo; setor com retorno constante, caso seja zero ou não significante.
4.4 Variáveis utilizadas
4.4.1 Variáveis dependentes
a) Salário médio do município e da cidade média
O salário-hora nominal médio para um município foi calculado utilizando a informação de rendimento do trabalho principal e horas trabalhadas semanais no trabalho principal (convertidas para horas mensais). Foi calculada a média geométrica do salário do município, utilizando os pesos reportados pelo IBGE para a expansão da amostra. Deste modo, a informação de salário utilizada nesse trabalho foi calculada da seguinte forma
( ) ( ) 1 1 1 ln ( ) ln l r a a l r a a a a W w r h ω ω = = =
∑
∑
onde W é o salário do trabalho principal de um a indivíduo na amostra censitária do município r, h são suas horas mensais de trabalho, ω é o peso desse indivíduo para a expansão da amostra e l(r) é o total de indivíduos da amostra na localidade r.
O salário para a “cidade média” é obtido a partir da média geométrica do salário médio de cada localidade r, ou seja
1 1 ln ln ( ) R r w w r R = =
∑
onde R é o total de municípios na amostra. Por fim, o desvio de cada localidade em relação à “cidade média” é obtido fazendo
lnw∗( )r =ln ( ) lnw r − w
b) Salário médio do setor no município e na cidade média
De forma semelhante à anterior, o salário-hora nominal médio para um determinado setor de um município é calculado utilizando a informação de rendimento do trabalho principal e horas trabalhadas semanais no trabalho principal (convertidas para horas mensais), dos trabalhadores desse setor. Ou seja
( ) ( ) 1 1 1 ln ( ) ln m m m l r m m a a m l r a m a a a W w r h ω ω = = =
∑
∑
onde Wm é o salário do trabalho principal de um a indivíduo na amostra censitária do município r, empregado no setor m, hm são suas horas mensais de trabalho, ωm é o peso desse indivíduo para a expansão da amostra e lm(r) é o total de indivíduos da amostra na localidade r, empregados no setor m.
O salário do setor m para a “cidade média” é obtido a partir da média geométrica do salário médio do setor m em cada localidade r, ou seja
1 1 ln ln ( ) R m m r w w r R = =
∑
onde R é o total de municípios na amostra. Por fim, o desvio de cada localidade em relação à “cidade média” é obtido como na expressão abaixo
lnwm∗( )r =lnwm( ) lnr − wm
4.4.2 Estoque de trabalhadores
A informação de trabalhadores total em cada localidade é obtida também da amostra censitária. Para os objetivos desse trabalho foram considerados trabalhadores todos aqueles que declararam ao Censo possuir rendimento de ao menos uma fonte de trabalho. Utilizamos o peso desse indivíduo na amostra para calcular o total de trabalhadores do município.
De forma semelhante, para cada setor considerado levamos em conta a informação do setor de trabalho declarada pelo indivíduo cuja renda do trabalho era não nula. O total de trabalhadores para o setor foi também obtido a partir do peso de cada indivíduo na população total.
Finalmente, para a cidade média, o total de trabalhadores e total de trabalhadores por setor é obtido a partir da média geométrica de cada uma dessas variáveis.
4.4.3 Variáveis de controle
Para compor o vetor de características observáveis de cada localidade consideramos as variáveis Índice de Infra-estrutura, Índice de Potencial de Consumo, Índice de Condições de Saúde e Índice de Educação.
De uma forma geral, essas variáveis são consideradas variáveis de controle cujo efeito sobre os salários de cada localidade não são objeto desse estudo. Sua inclusão visa
reduzir o viés de variável relevante omitida. Elas captam o ambiente socioeconômico de cada localidade em cada instante de tempo da forma como podemos observá-lo.
Os três primeiros índices buscam controlar os efeitos da qualidade do custo de vida local não observável refletido nessas variáveis. O índice de infra-estrutura capta as condições estruturais de uma localidade no que tange aos serviços públicos oferecidos e sua universalidade, e podem ter um impacto na remuneração cobrada pelo trabalhador na medida em que representam amenidades urbanas. Já o índice de potencial de consumo pode captar o efeito demonstração para os migrantes em potencial, os ganhos da renda não- trabalho de uma dada localidade e a facilidade de acesso aos bens de consumo duráveis. O índice de saúde controla as condições gerais de saúde da população local - que se supõe relacionada ao custo de vida local. Já o índice de educação busca controlar o efeito sobre o salário devido apenas ao fato de a população local apresentar um maior estoque de capital humano.
A seguir, discutimos a construção de cada uma dessas variáveis.
a) Infra-estrutura
A tabela 4.1 reporta os pesos apurados para o índice de infra-estrutura a partir do Método de Componentes Principais. O Índice de Infra-estrutura foi calculado utilizando-se de cinco indicadores comuns a todos os anos, a saber: porcentual de domicílios com acesso à rede de água, porcentual de domicílios com água canalizada em pelo menos um cômodo, porcentual de domicílios com acesso à rede de esgoto, porcentual de domicílios com acesso à rede de energia elétrica, taxa de urbanização. Os pesos apurados para os bancos de dados individuais de cada censo encontram-se nas colunas respectivas a cada ano censitário. A coluna média reporta a média aritmética das colunas anteriores. Na última coluna da tabela, os pesos foram apurados juntando-se os bancos de dados dos três anos
anteriores. Nosso objetivo é analisar como cada variável selecionada influi no Índice de Infra-Estrutura a cada ano, bem como sua variação ao longo do tempo, e compará-la ao resultado da última coluna.
Na tabela, podemos perceber uma tendência de queda na participação da variável rede de água na composição do Índice de Infra-Estrutura entre os anos considerados. De 1980 a 2000, sua participação cai para aproximadamente 0,3 pontos porcentuais. Quando tomamos o modelo geral, nota-se, no entanto, que o peso apurado está muito mais próximo do peso do para o ano 2000 do que para o ano inicial. Contudo, essa variável é a que apresenta a maior estabilidade quando comparamos o peso médio com aquele apurado considerando a variância total. A diferença é de 0,11 pontos porcentuais.
Tabela 4.1: Índice de Infra-estrutura: pesos calculados pelo método de componentes principais
Pesos Variáveis 1980a 1991b 2000c Média Gerald rede de água 21.70 21.60 21.42 21.58 21.47 água canalizada 21.19 20.16 19.34 20.23 20.72 rede esgoto 19.39 18.30 19.60 19.10 19.38 energia 18.75 18.95 18.77 18.82 19.43 taxa de urbanização 18.91 20.92 20.87 20.23 19.01 a
Para 1980, a primeira componente responde por 78,13% da variância total.
b
Para 1991, a primeira componente responde por 68,53% da variância total.
c
Para 2000, a primeira componente responde por 67,91% da variância total.
d
Para os cálculos juntando todos os bancos de dados, a primeira componente responde por 80,01% da variância total.
Todas as demais variáveis apresentam grande oscilação em seus pesos entre os anos. A maior delas é a variação da taxa de urbanização entre os anos de 1980 e 1991, quando o peso para essa variável sobe pouco mais de 2,0 pontos porcentuais. Quando
comparamos os pesos médios com o geral, essa variável também é a que tem a maior diferença entre ambos: cerca de 1,2 pontos porcentuais.
Vale registrar, no entanto, que mesmo sendo essa a maior diferença apurada, não se trata de uma diferença considerável, de modo que, tomando o modelo geral, percebe-se que todas as variáveis têm pesos próximos, variando no intervalo de 19% a 21,5%.
b) Consumo
O Índice de consumo foi apurado de forma similar ao índice de infra-estrutura, ou seja, a partir do método de componentes principais e com a mesma estrutura temporal. As variáveis utilizadas para a composição desse indicador foram: porcentual de domicílios com ao menos um aparelho de rádio, porcentual de domicílios com ao menos uma geladeira elétrica, porcentual de domicílios com ao menos uma linha telefônica, porcentual de domicílio com ao menos um aparelho televisor, preto e branco ou colorido e porcentual de domicílios com ao menos um automóvel de uso particular.
Tabela 4.2: Índice de Consumo: pesos calculados pelo método de componentes principais
Pesos Variáveis
1980a 1991b 2000c Média Gerald % domicílios com rádio 15.34 20.53 19.60 18.49 18.80 % domicílios com geladeira 22.54 21.07 20.60 21.40 21.16 % domicílios com telefone 19.27 17.53 18.00 18.27 19.11 % domicílios com televisor 22.08 21.02 22.22 21.77 20.79 % domicílios com automóvel 20.19 19.88 19.57 19.88 20.28
a Para 1980, a primeira componente responde por 68,63% da variância total. b
Para 1991, a primeira componente responde por 68,18% da variância total.
c
Para 2000, a primeira componente responde por 68,64% da variância total.
d
Para os cálculos juntando todos os bancos de dados, a primeira componente responde por 79,57% da variância total.
Na tabela 4.2 podemos perceber que a variável cujo peso sofre menos variações de os anos é o porcentual de domicílios com automóveis, que varia no intervalo de 19,57% a 20,19%. Todas as demais variáveis apresentam variações maiores. Merece destaque o porcentual de domicílios com rádio, que varia 5,2 pontos porcentuais entre os anos de 1980 e 1991. Quando comparamos os pesos médios com o geral, a variável porcentual de domicílios com aparelho de televisão é o que apresenta a maior diferença: quase 1,0 ponto porcentual. E a menor diferença é para o porcentual de domicílios com geladeira: variação de pouco mais de 0,2 pontos porcentuais.
Novamente, essas diferenças não apresentam magnitudes consideráveis, de modo que, tomando o modelo geral, percebe-se que todas as variáveis têm pesos próximos, variando no intervalo de 18,8% a 21,2%.
c) Condições de Saúde
Para sintetizar as condições de saúde dos municípios, utilizaremos neste trabalho a taxa de mortalidade infantil. Uma estimativa para esse indicador é disponibilizada anualmente pela Fundação SEADE para quase todos os municípios do Estado. A escolha de apenas um indicador para essa variável, ao contrário das duas anteriores, foi uma restrição imposta pela indisponibilidade de dados para o período considerado e para todos os municípios analisados.
Afora esse problema com a variável, ainda detectamos outros dois. Primeiro, a série de dados disponível para a taxa de mortalidade infantil para os municípios paulistas encontra-se truncada para vários municípios. Outro problema se deve ao fato de que para muitos municípios, em especial os municípios muito pequenos, esse indicador apresenta uma variação muito grande, uma vez que a morte de uma criança em um município com taxa de natalidade muito pequena, em um determinado ano, implica em uma taxa de
mortalidade elevada. Portanto, a opção de trabalharmos com os dados disponíveis para os anos censitários se mostrou falha, por implicar perda de muita informação e, além disso, especificamente em um ano censitário, pelo fato de o indicador poder estar enviesado pela ocorrência de algum fenômeno totalmente idiossincrático, não tendo nenhuma relação com o objetivo para o qual escolhemos tal indicador.
A solução encontrada foi trabalhar com dados médios calculados a partir da série disponível. Como os dados disponíveis para esse indicador na fundação SEADE referem- se ao período 1980-2002, arbitrariamente escolhemos como informação-base, para o ano de 1980, a média do período 1980-1985, para o ano de 1991, a média do período 1986- 1995, e para o ano de 2000, a média do período 1996-2002.
d) Educação
Uma variável que busque medir a importância da educação em um determinado município se justifica como medida para o que entendemos por capital humano, conhecimento técnico ou especializado etc. Esses conceitos são importantes, uma vez que várias teorias têm chamado a atenção para as questões associadas aos ganhos de renda e educação em nível pessoal, e para o conhecimento técnico e o crescimento econômico em nível agregado.
Para a qualidade de vida, uma melhor formação técnica da população local terá impacto positivo sobre a produtividade, uma vez que aumenta tanto a renda local quanto o nível de qualidade de vida coletivo. Pode-se conjecturar acerca da existência de externalidades positivas advindas do fato de o conjunto da população ser mais educado. Tais externalidades poderiam se dar, por exemplo, por amenidades locais – uma melhor vizinhança, menores problemas no trânsito, menos criminalidade etc.
Como medida para educação, optamos pelos anos de estudos médios do conjunto de seus moradores. Como toda medida de tendência central, também essa apresenta a dificuldade de captar o que ocorre com as pontas da distribuição. Duas cidades com o mesmo número de anos médios de estudos podem apresentar quantidades diferentes de indivíduos mais ou menos educados, podendo uma ser mais homogênea na distribuição da educação entre seus habitantes do que a outra.
Embora tal problema não seja de se desprezar, o que se observa empiricamente é que a heterogeneidade na distribuição dos anos de estudos guarda estreita relação com o tamanho do município. Municípios maiores tendem a ser mais heterogêneos na composição de sua população – não apenas, mas inclusive, no que se refere aos anos de estudos – que os municípios menores, e o que se busca captar com essa medida é a importância relativa da educação formal no município.
4.5 Estratégias de estimação
Como discutido anteriormente, os modelos em painel assumem, em geral, que os efeitos específicos podem ser de duas naturezas. Esses efeitos podem ser estimados considerando-os fixos ao longo do tempo ou podem ser considerados como sendo aleatórios. A estimação por efeito fixo é feita a partir de um modelo com variáveis
dummies para cada localidade, considerando a variação entre localidades no mesmo
instante de tempo como espúria. Já o modelo de efeitos aleatórios pondera tanto a variação no tempo para a mesma localidade como a variação entre localidades no mesmo instante de tempo.
Tendo em vista que estamos lidando com as mesmas localidades ao longo do tempo, o que implica que nosso painel não é desbalanceado, e tendo em vista a forma como construímos nossas observações,27 o modelo de efeito fixo nos parece o mais adequado.
Nossa estratégia de estimação é, inicialmente, testar um modelo mais restrito, regredindo a variável dependente contra a variável que mede o estoque de trabalhador, por setor e para média, utilizando um painel com efeitos fixos. Os resultados deste teste são considerados como uma primeira aproximação para a identificação dos retornos crescentes nos setores e para a média do município. Os erros dessas regressões são avaliados pelo teste I de Moran para autocorrelação dos resíduos. Em seguida, incluímos as variáveis de controle em nível, refazendo os testes e analisando novamente seus resíduos. Finalmente, consideramos um modelo mais geral, incluindo as variáveis defasadas espacialmente e analisamos a autocorrelação dos seus resíduos.
Para os setores que continuaram apresentando erros espacialmente relacionados,