4.1 Modelo econométrico
O trabalhador autônomo deve decidir se contribui ou não para a previdência social. Ao modelar essa situação, a variável de resposta pode assumir dois valores, isto é, a contribuição previdenciária é uma variável binária. Para atender tal problema, utilizam-se modelos de escolha qualitativa. Neste trabalho, optou-se por utilizar o modelo Logit, embora o modelo Probit atenda também a este critério (GREENE, 2008)15. Para estimar a probabilidade de o autônomo i contribuir para a previdência é necessário, inicialmente, linearizar a função de distribuição acumulada logística
� = � = = � = + ℯ− �′�. (5)
Assim, a equação a ser estimada é
� = ′� + � , (6)
38 em que:
� = ln ��
− �� é uma variável binária igual a 1 se o autônomo i contribui para
previdência e 0 se ele não contribui;
�é um vetor de parâmetros a serem estimados; ′é a matriz dos regressores; e
� é a perturbação aleatória.
Serão estimados dois modelos: um modelo para o profissional liberal e outro para outros autônomos. As variáveis explicativas consideradas nos modelos são16:
i. Sexo: é variável dummy que assume valor 1 se o indivíduo é homem e 0, caso contrário;
ii. Idade: idade do indivíduo, em anos;
iii. Idade ao quadrado: idade do indivíduo elevada ao quadrado; iv. Escolaridade: anos de estudo do indivíduo;
v. Renda: renda mensal do trabalhador autônomo, de todas as fontes, em reais; vi. Renda ao quadrado: renda mensal elevada ao quadrado;
vii. Grupo de atividade econômica: oito variáveis dummies para os grupos de atividades econômicas exercidas pelos autônomos (outras atividades industriais; construçãocivil; comércio e reparação; alojamentos e alimentação; transporte, armazenagem e comunicação; educação, saúde e serviços sociais; outros serviços; e outras atividades). A categoria-base é indústria e transformação; viii. Região: variáveis dummies para a região de residência dos indivíduos (Norte,
Sul, Centro-Oeste e Nordeste). A categoria-base é sudeste;
ix. Componentes no domicílio: número de indivíduos residentes no domicílio em que o trabalhador autônomo vive.
Como existe possibilidade de relação linear entre algumas variáveis (escolaridade, renda e idade), é necessário fazer o teste de correlação, pois o problema de colinearidade alta dificulta a estimação dos parâmetros com maior precisão, ou seja, os coeficientes da regressão terão erros-padrão altos. Esse teste – coeficiente de correlação de Pearson – possibilita medir a colinearidade das variáveis, que pode assumir valores entre –1 e 1. Quando o valor é igual a 1, diz-se que há colinearidade
16
A escolha das variáveis explicativas baseou-se em estudos sobre demanda de seguro como os de Truett e Truett (1990), Showers e Shotick (1994), Loke e Goh (2012) e Outreville (2013).
39 perfeita positiva entre as duas variáveis. Se o valor for –1, interpreta-se como colinearidade perfeita negativa. Caso o valor seja 0, significa que não existe colinearidade. Pesquisadores consideram valores acima de 0,7 como valores altos de correlação, entre 0,3 a 0,7 como valores moderados e valores abaixo de 0,3 significa fraca correlação entre as duas variáveis (GREENE, 2008).
O método utilizado para estimar o modelo Logit é a Máxima Verossimilhança (MV). Como o presente trabalho utiliza o banco de dados da PNAD que incorpora todas as características de um plano amostral complexo, não é possível utilizar MV. Desse modo, o modelo utilizado é Máxima Pseudo-Verossimilhança (MPV).
De acordo com Silva, Pessoa e Lila (2002), os aspectos que descrevem o plano amostral complexo são: estratificação, conglomeração, probabilidades distintas em relação em um ou mais estágios e ajustes dos pesos amostrais com totais populacionais conhecidos. Assim sendo, os dados retirados da PNAD não podem ser tratados como se fossem sido geradas de amostras aleatória simples, tal qual são observações independentes e identicamente distribuídas na qual exibem probabilidade de seleção igual.
Os pesquisadores utilizam os dados da PNAD para análises descritivas, medidas de dispersão e para a construção e ajuste de modelos em análises secundárias, como por exemplo, modelos de regressão, modelos de regressão logística, modelos de regressão multinominal logística, e outros. Vale lembrar que é necessário incorporar os pesos, pois quando são considerados nos cálculos – os pesos das unidades amostrais disponíveis nos arquivos de microdados– asseguram que as estimativas obtidas para os parâmetros populacionais sejam não-viesadas e consistentes.
Os parâmetros estimados da equação (6) não informam diretamente os efeitos marginais das variáveis explicativas sobre a probabilidade de o autônomo contribuir para a previdência. No caso de variáveis explicativas contínuas, o efeito marginal pode ser calculado por
��
� = � − � �
(7)
O efeito marginal representa o impacto de uma variação em uma unidade na variável explicativa sobre a probabilidade (em pontos percentuais) de i-ésimo individuo contribuir para a previdência, ceteris paribus. Em relação às variáveis explicativas
40 discretas (dummies), o efeito marginal indica qual a variação na probabilidade de o individuo i contribuir se a variável passa do valor zero para o valor um.
4.2 Fonte de dados
Os pesquisadores dos problemas socioeconômicos têm como suporte várias fontes de levantamentos de dados, de modo que investigam várias características dos indivíduos, como aquelas relacionadas à habitação, rendimento, trabalho, educação, entre outros. Uma das mais importantes fontes no Brasil é o Instituto Brasileiro de Geografia e Estatística (IBGE), responsável pela realização dos censos demográficos, da Pesquisa Mensal de Emprego(PME), da Pesquisa de Orçamento Familiar(POF) e da Pesquisa Nacional por Amostras de Domicílios(PNAD). Esta última baseia-se em uma amostra complexa de domicílios, executada em todo o Brasil, sendo sua população-alvo os domicílios e as pessoas residentes.
Para a realização do presente trabalho, foram utilizados os dados da PNAD de 2013, publicado em 2014 pelo Instituto Brasileiro de Geografia e Estatística(IBGE). A importância da utilização da PNAD está relacionada ao significativo número de informações individuais contidas na pesquisa, chamados de microdados. A consistência destas informações está na possibilidade de desagregação dos dados da pesquisa em seu menor grau possível, isto é, os microdados permitem o acesso minucioso das informações de milhares de pessoas e maior precisão nos resultados estimados, por meio de informações socioeconômicas de cada indivíduo.
O corte da amostra é composto por 30.788 trabalhadores autônomos urbanos maiores de 16 anos que estão ativos na ocupação (essa amostra representa uma população de 14.626.461 autônomos no Brasil). Os trabalhadores rurais autônomos foram excluídos da amostra, pois eles se enquadram na categoria de segurados especiais da Previdência Social. Os indivíduos aposentados também foram retirados da amostra, uma vez que eles não têm os mesmos incentivos para contribuir para a previdência. Além disso, essas restrições permitem reduzir as chances de viés de seleção.