• No results found

Chapter 5: Data Presentation and Analysis

5.3 Impacts of Urbanization and Development Activities on Traditional Occupation

5.3.2 Ecological Impacts of Urbanization and Development Activities

Como foi apresentado na seção anterior, a informação sobre a escolaridade das mães não foi

fornecida por uma proporção elevada de indivíduos, principalmente no caso da PNAD. Este é um

fenômeno bastante comum nas bases de dados de pesquisas socioeconômicas. O problema da

dos métodos estatísticos de análise supõe que as bases de dados são completas. Para lidar com

esta questão, foram desenvolvidos diferentes métodos (Allison, 2001), alguns dos quais serão

discutidos a seguir.

5.3.1. Tipos de valores faltantes

Em primeiro lugar, é necessário conhecer o tipo de mecanismo que define a distribuição da não

resposta na base de dados, já que este mecanismo é que determina o método estatístico mais

adequado para seu tratamento. Seguindo Little e Rubin (2002), uma base completa como Y e a

matriz de unidades não respondidas como M. A composição dos valores faltantes na amostra é

definida pela distribuição de M condicionada à base Y, ou seja, por

f M Y,

, onde  faz

referência ao conjunto de parâmetros desconhecidos.

O primeiro mecanismo de valores faltantes seria aquele em que a distribuição dos valores não

respondidos depende da base Y (que inclui os valores observados e os não respondidos), de tal

forma que:

f M Y,

 f M 

para toda Y, .

(x)

Esse tipo de mecanismo é chamado de “completamente aleatório”. Para identificá-lo, usa-se a

sigla em inglês MCAR (Missing Completely At Random). Para mostrar como funciona esse

mecanismo, apresenta-se o seguinte exemplo: suponha-se uma base de dados Y, onde há uma

única variável Y

K

com dados incompletos, e as demais variáveis, Y

1

….Y

K-1

, são completamente

observadas. M é um indicador com valor 1 quando não há informação na variável Y

K

e 0 quando

o valor é observado. Supondo que Y e M são independentes, os valores faltantes seriam MCAR

se:

Pr M

i  1 yi1,..., yK;

(21)

Nesse caso, os dados completos são equivalentes a uma amostra aleatória da base total, que

inclui os valores faltantes. A condição MCAR é muito forte e pouco habitual, já que a não

resposta está, quase sempre, ligada às outras variáveis em estudo.

Definamos agora os dados observados da base Y como Y

obs

, e os dados faltantes como Y

miss

.

Quando os dados não respondidos estão condicionados unicamente aos Y

obs

, o mecanismo é

chamado de aleatório e denominado pela sigla MAR (Missing At Random). Esta é uma condição

mais flexível que a anterior e consiste em:

f M Y,

 f M Y

obs,

 para todo Y

miss

,

(22)

Seguindo o exemplo anterior (21) os dados seriam MAR no caso em que:

Pr M

i  1 yi1,..., yK;

 Pr M

i  1 yi1,..., yK1;

(23)

Desta forma, a distribuição dos valores faltantes é aleatória unicamente ao condicioná-la aos

valores das variáveis completas, sem incluir a variável com dados faltantes, Y

K

.

Por último, existe a possibilidade de que a distribuição de valores faltantes esteja condicionada a

esses mesmos valores não respondidos da base de dados Y. Neste caso, o mecanismo que gerou a

não resposta seria não aleatório e denominado pela sigla MNAR (Missing Not At Random). Seria

o caso em que a distribuição de valores não respondidos da variável Y

K

dependesse também da

variável Y

K

. Este último caso é o mais difícil de tratar analiticamente.

5.3.2. Métodos para tratar os valores faltantes

Existem inúmeros métodos para analisar bases de dados com valores faltantes. Eles têm

proliferado, especialmente nas últimas décadas (Allison, 2001), graças à existência de pacotes

estatísticos que permitem utilizar métodos de alta intensidade computacional. São vários os

livros e artigos que descrevem exaustivamente cada um desses métodos e suas variantes, como,

por exemplo: Little e Rubin (2002), Allison (2001) ou Schafer (1997), entre outros. Neste

capítulo, são discutidos os métodos que são considerados mais relevantes e aqueles que serão

empregados nesta tese para o tratamento da variável de escolaridade das mães.

resposta na escolaridade das mães serão escolhidos para ser aplicados. A escolha de mais de um

método vai permitir comparar os resultados de várias metodologias e obter resultados mais

confiáveis e consistentes.

5.3.2.1. Métodos baseados em dados completos

Esses métodos propõem restringir a análise dos dados àquelas unidades respostas, excluindo os

dados faltantes. Estão neste grupo, os métodos que utilizam estratégias como o listwise ou o

pairwise (Allison, 2001) para eliminar total ou parcialmente as unidades não respondidas. Podem

ser aplicados quando a quantidade de não resposta é pequena, poucas variáveis são afetadas, e

assumindo que os valores faltantes são MCAR (Nie et al., 1975). Além disso, a base de dados

completa precisa ser uma amostra aleatória da amostra total. Quando estas condições não são

observadas, este grupo de métodos pode induzir a grandes vieses e ser muito ineficiente (Little e

Rubin, 2002). Além disso eliminar dados da amostra pode implicar uma perda de precisão. O

tamanho do viés provocado pela aplicação destas técnicas depende da proporção de unidades

completas existentes na amostra, do tipo de distribuição dos dados faltantes, e das diferenças

existentes entre os valores faltantes e os valores completos (Little e Rubin, 2002).

5.3.2.2. Variável dummy para os dados faltantes

Este método propõe criar uma variável adicional que recolha todos os valores faltantes da

variável incompleta. Por exemplo (Allison, 2001): tendo uma variável Y

K

com dados

incompletos, deve ser criada a variável D (dummy), com valor 1 quando Y

K

não tem informação

e com valor 0 quando o variável de Y

K

é respondida. Da mesma forma, pode se recodificar Y

K

como Y

K

* de modo que:

Y

K

*

Y

K

quando ovalor é completo

c

quandoovalor é incompleto





onde c é uma constante. No caso em que a variável é categórica, o tratamento dos valores

faltantes é ainda mais simples, podendo ser criada uma categoria adicional que reúna todos os

valores não respondidos da variável em questão.

A principal vantagem desse método é que a informação de variáveis completas, de indivíduos

sem informação em outras variáveis, não se perde. O problema derivado desse método é que, ao

realizar uma regressão com a variável com dummy, a estimação dos coeficientes incorpora,

inevitavelmente, viés. Segundo Jones (1996), este método sobreestima a variância do resíduo da

regressão, diminuindo a significância do modelo.

5.3.2.3. Métodos de Imputação

A imputação consiste em substituir os valores não respondidos por valores gerados através de

valores preditos. Esta substituição é realizada com base em pressupostos extraídos dos dados

completos (Little e Rubin, 2002). Ou seja, analisando o comportamento das variáveis completas

associadas à variável com não resposta é possível predizer o valor dos dados faltantes. Entre os

muitos métodos que permitem a imputação das cédulas sem informação, apresentam-se aqui o da

imputação pela média, da imputação por regressão, da imputação múltipla, assim como os

métodos denominados hot deck.