Chapter 5: Data Presentation and Analysis
5.3 Impacts of Urbanization and Development Activities on Traditional Occupation
5.3.2 Ecological Impacts of Urbanization and Development Activities
Como foi apresentado na seção anterior, a informação sobre a escolaridade das mães não foi
fornecida por uma proporção elevada de indivíduos, principalmente no caso da PNAD. Este é um
fenômeno bastante comum nas bases de dados de pesquisas socioeconômicas. O problema da
dos métodos estatísticos de análise supõe que as bases de dados são completas. Para lidar com
esta questão, foram desenvolvidos diferentes métodos (Allison, 2001), alguns dos quais serão
discutidos a seguir.
5.3.1. Tipos de valores faltantes
Em primeiro lugar, é necessário conhecer o tipo de mecanismo que define a distribuição da não
resposta na base de dados, já que este mecanismo é que determina o método estatístico mais
adequado para seu tratamento. Seguindo Little e Rubin (2002), uma base completa como Y e a
matriz de unidades não respondidas como M. A composição dos valores faltantes na amostra é
definida pela distribuição de M condicionada à base Y, ou seja, por
f M Y,
, onde faz
referência ao conjunto de parâmetros desconhecidos.
O primeiro mecanismo de valores faltantes seria aquele em que a distribuição dos valores não
respondidos depende da base Y (que inclui os valores observados e os não respondidos), de tal
forma que:
f M Y,
f M
para toda Y, .
(x)
Esse tipo de mecanismo é chamado de “completamente aleatório”. Para identificá-lo, usa-se a
sigla em inglês MCAR (Missing Completely At Random). Para mostrar como funciona esse
mecanismo, apresenta-se o seguinte exemplo: suponha-se uma base de dados Y, onde há uma
única variável Y
Kcom dados incompletos, e as demais variáveis, Y
1….Y
K-1, são completamente
observadas. M é um indicador com valor 1 quando não há informação na variável Y
Ke 0 quando
o valor é observado. Supondo que Y e M são independentes, os valores faltantes seriam MCAR
se:
Pr M
i 1 yi1,..., yK;
(21)
Nesse caso, os dados completos são equivalentes a uma amostra aleatória da base total, que
inclui os valores faltantes. A condição MCAR é muito forte e pouco habitual, já que a não
resposta está, quase sempre, ligada às outras variáveis em estudo.
Definamos agora os dados observados da base Y como Y
obs, e os dados faltantes como Y
miss.
Quando os dados não respondidos estão condicionados unicamente aos Y
obs, o mecanismo é
chamado de aleatório e denominado pela sigla MAR (Missing At Random). Esta é uma condição
mais flexível que a anterior e consiste em:
f M Y,
f M Y
obs, para todo Y
miss,
(22)
Seguindo o exemplo anterior (21) os dados seriam MAR no caso em que:
Pr M
i 1 yi1,..., yK;
Pr M
i 1 yi1,..., yK1;
(23)
Desta forma, a distribuição dos valores faltantes é aleatória unicamente ao condicioná-la aos
valores das variáveis completas, sem incluir a variável com dados faltantes, Y
K.
Por último, existe a possibilidade de que a distribuição de valores faltantes esteja condicionada a
esses mesmos valores não respondidos da base de dados Y. Neste caso, o mecanismo que gerou a
não resposta seria não aleatório e denominado pela sigla MNAR (Missing Not At Random). Seria
o caso em que a distribuição de valores não respondidos da variável Y
Kdependesse também da
variável Y
K. Este último caso é o mais difícil de tratar analiticamente.
5.3.2. Métodos para tratar os valores faltantes
Existem inúmeros métodos para analisar bases de dados com valores faltantes. Eles têm
proliferado, especialmente nas últimas décadas (Allison, 2001), graças à existência de pacotes
estatísticos que permitem utilizar métodos de alta intensidade computacional. São vários os
livros e artigos que descrevem exaustivamente cada um desses métodos e suas variantes, como,
por exemplo: Little e Rubin (2002), Allison (2001) ou Schafer (1997), entre outros. Neste
capítulo, são discutidos os métodos que são considerados mais relevantes e aqueles que serão
empregados nesta tese para o tratamento da variável de escolaridade das mães.
resposta na escolaridade das mães serão escolhidos para ser aplicados. A escolha de mais de um
método vai permitir comparar os resultados de várias metodologias e obter resultados mais
confiáveis e consistentes.
5.3.2.1. Métodos baseados em dados completos
Esses métodos propõem restringir a análise dos dados àquelas unidades respostas, excluindo os
dados faltantes. Estão neste grupo, os métodos que utilizam estratégias como o listwise ou o
pairwise (Allison, 2001) para eliminar total ou parcialmente as unidades não respondidas. Podem
ser aplicados quando a quantidade de não resposta é pequena, poucas variáveis são afetadas, e
assumindo que os valores faltantes são MCAR (Nie et al., 1975). Além disso, a base de dados
completa precisa ser uma amostra aleatória da amostra total. Quando estas condições não são
observadas, este grupo de métodos pode induzir a grandes vieses e ser muito ineficiente (Little e
Rubin, 2002). Além disso eliminar dados da amostra pode implicar uma perda de precisão. O
tamanho do viés provocado pela aplicação destas técnicas depende da proporção de unidades
completas existentes na amostra, do tipo de distribuição dos dados faltantes, e das diferenças
existentes entre os valores faltantes e os valores completos (Little e Rubin, 2002).
5.3.2.2. Variável dummy para os dados faltantes
Este método propõe criar uma variável adicional que recolha todos os valores faltantes da
variável incompleta. Por exemplo (Allison, 2001): tendo uma variável Y
Kcom dados
incompletos, deve ser criada a variável D (dummy), com valor 1 quando Y
Knão tem informação
e com valor 0 quando o variável de Y
Ké respondida. Da mesma forma, pode se recodificar Y
Kcomo Y
K* de modo que:
Y
K*