Ecological Impacts of Urbanization and Development Activities

Chapter 5: Data Presentation and Analysis

i  1 yi1,..., yK;

i  1 yi1,..., yK;

i  1 yi1,..., yK1;

Ecological Impacts of Urbanization and Development Activities

Chapter 5: Data Presentation and Analysis

5.3 Impacts of Urbanization and Development Activities on Traditional Occupation

5.3.2 Ecological Impacts of Urbanization and Development Activities

Como foi apresentado na seção anterior, a informação sobre a escolaridade das mães não foi

fornecida por uma proporção elevada de indivíduos, principalmente no caso da PNAD. Este é um

fenômeno bastante comum nas bases de dados de pesquisas socioeconômicas. O problema da

dos métodos estatísticos de análise supõe que as bases de dados são completas. Para lidar com

esta questão, foram desenvolvidos diferentes métodos (Allison, 2001), alguns dos quais serão

discutidos a seguir.

5.3.1. Tipos de valores faltantes

Em primeiro lugar, é necessário conhecer o tipo de mecanismo que define a distribuição da não

resposta na base de dados, já que este mecanismo é que determina o método estatístico mais

adequado para seu tratamento. Seguindo Little e Rubin (2002), uma base completa como Y e a

matriz de unidades não respondidas como M. A composição dos valores faltantes na amostra é

definida pela distribuição de M condicionada à base Y, ou seja, por

f M Y,

, onde  faz

referência ao conjunto de parâmetros desconhecidos.

O primeiro mecanismo de valores faltantes seria aquele em que a distribuição dos valores não

respondidos depende da base Y (que inclui os valores observados e os não respondidos), de tal

forma que:

f M Y,

 f M 

para toda Y, .

(x)

Esse tipo de mecanismo é chamado de “completamente aleatório”. Para identificá-lo, usa-se a

sigla em inglês MCAR (Missing Completely At Random). Para mostrar como funciona esse

mecanismo, apresenta-se o seguinte exemplo: suponha-se uma base de dados Y, onde há uma

única variável Y

com dados incompletos, e as demais variáveis, Y

….Y

, são completamente

observadas. M é um indicador com valor 1 quando não há informação na variável Y

e 0 quando

o valor é observado. Supondo que Y e M são independentes, os valores faltantes seriam MCAR

se:







(21)

Nesse caso, os dados completos são equivalentes a uma amostra aleatória da base total, que

inclui os valores faltantes. A condição MCAR é muito forte e pouco habitual, já que a não

resposta está, quase sempre, ligada às outras variáveis em estudo.

Definamos agora os dados observados da base Y como Y

, e os dados faltantes como Y

.

Quando os dados não respondidos estão condicionados unicamente aos Y

, o mecanismo é

chamado de aleatório e denominado pela sigla MAR (Missing At Random). Esta é uma condição

mais flexível que a anterior e consiste em:







 para todo Y

, 

(22)

Seguindo o exemplo anterior (21) os dados seriam MAR no caso em que:









(23)

Desta forma, a distribuição dos valores faltantes é aleatória unicamente ao condicioná-la aos

valores das variáveis completas, sem incluir a variável com dados faltantes, Y

.

Por último, existe a possibilidade de que a distribuição de valores faltantes esteja condicionada a

esses mesmos valores não respondidos da base de dados Y. Neste caso, o mecanismo que gerou a

não resposta seria não aleatório e denominado pela sigla MNAR (Missing Not At Random). Seria

o caso em que a distribuição de valores não respondidos da variável Y

dependesse também da

variável Y

. Este último caso é o mais difícil de tratar analiticamente.

5.3.2. Métodos para tratar os valores faltantes

Existem inúmeros métodos para analisar bases de dados com valores faltantes. Eles têm

proliferado, especialmente nas últimas décadas (Allison, 2001), graças à existência de pacotes

estatísticos que permitem utilizar métodos de alta intensidade computacional. São vários os

livros e artigos que descrevem exaustivamente cada um desses métodos e suas variantes, como,

por exemplo: Little e Rubin (2002), Allison (2001) ou Schafer (1997), entre outros. Neste

capítulo, são discutidos os métodos que são considerados mais relevantes e aqueles que serão