• No results found

Chapter 5: Data Presentation and Analysis

5.4. Present Livelihood Activities of the Majhi People

Uma vez analisada a distribuição dos valores da variável escolaridade e encontradas as possíveis

variáveis associadas à sua distribuição, é preciso determinar qual é o melhor método para o

tratamento dos dados faltantes. A literatura mostra que algumas técnicas são superiores a outras,

porém, parece importante testar várias delas para achar a mais adequada ao objeto de estudo.

Com o objetivo de obter estimativas mais consistentes com a variável escolaridade das mães,

neste trabalho serão testados diversos modelos de tratamento dos valores faltantes dessa variável,

apresentados à seguir.

Em primeiro lugar, e como forma de controle dos posteriores tratamentos, o primeiro método

consiste em não imputar nenhum valor, agrupando os dados faltantes em uma categoria a parte

(dummy) nos modelos de regressão a serem aplicados. Desta forma, os dados da variável de

escolaridade são categorizados em três grupos, mais a categoria de dados faltantes: 1) sem

escolaridade; 2) com 1 a 8 anos de estudo; 3) 9 anos de estudo ou mais; 4) dados faltantes.

Apesar de que esse tipo de tratamento dos dados faltantes provoca viés nos coeficientes

estimados, este modelo pode servir como referência dos outros, além de mostrar como os dados

faltantes se comportam em relação à variável dependente.

O segundo método consiste em realizar uma imputação por regressão estocástica. É necessário

escolher as variáveis que vão ser utilizadas para a imputação. No caso da PPV, essas foram: a

idade do filho, a idade do filho ao quadrado, a região de nascimento, se o filho morou em área

rural ou urbana antes dos 15 anos e em que área mora atualmente, a cor, se o pai está vivo ou

morto no momento da entrevista e o nível de escolaridade do pai. No caso da PNAD, as variáveis

foram: a idade do filho, a idade do filho ao quadrado, a região de nascimento e de residência do

filho, se o filho mora em área urbana ou rural, a cor, e a renda domiciliar per capita do filho.

A regressão para imputar os valores faltantes assume uma distribuição normal da variável

resposta, o que significa que a variável escolaridade deve ser tratada como contínua. Porém, no

questionário, esta variável é codificada em 10 intervalos de anos de estudo. Apesar disso,

assume-se que estes intervalos, ordenados de menor a maior escolaridade podem ser uma

aproximação de uma distribuição contínua.

Em terceiro lugar, aplicou-se o método de imputação múltipla. A técnica escolhida foi a que

oferece o programa Stata 10.0, explicada em detalhe em Royston (2004) e baseada no método

descrito por Van Buuren et al. (1999). É um método de imputação múltipla de equações em

cadeia que, usando a sigla em inglês, é chamado de MICE (Multiple Imputation by Chained

Equations). Esse método consiste em gerar várias amostras aleatórias a partir de regressões

univariadas e iterativas de cada uma das variáveis incompletas condicionadas à distribuição das

outras variáveis com dados faltantes (Van Buuren et al., 1999). Por exemplo, assumindo-se uma

base de dados com três variáveis com valores incompletos, Y

1

, Y

2

e Y

3

, o método pode ser

descrito da seguinte forma: em primeiro lugar, os valores faltantes de Y

1

são imputados de forma

aleatória, utilizando todas as variáveis completas e as variáveis com valores faltantes. Em

seguida, a variável Y

2

é imputada com as variáveis completas, incluindo a variável Y

1

imputada. O mesmo passo é realizado com Y

3

. O processo se repete, desta vez usando as

variáveis Y

2

e Y

3

imputadas para estimar os valores faltantes de Y

1

novamente, e assim por

diante, até a imputação de número vinte que, segundo Van Buuren et al. (1999), é um número

suficientemente grande para estabilizar a imputação.

O modelo utilizado para imputar a variável com valores faltantes, permite tratar esta como

categórica. Assim, a variável escolaridade das mães pode ser dividida em quatro categorias: sem

escolaridade, de 1 a 4 anos de estudo, de 5 a 8 anos de estudo, e de 9 e mais. O modelo de

regressão escolhido para sua imputação foi uma regressão logística ordenada. As variáveis

independentes do modelo são as mesmas que no caso da imputação com a regressão estocástica.

Foram realizadas 20 imputações diferentes, onde a média dos valores imputados foi utilizada

como resultado final

9

.

Outro modelo de imputação utilizado foi o da imputação hotdeck. O método hotdeck escolhido é

o que oferece o programa estatístico Stata 10.0, baseado no modelo de imputação bootstrap de

aproximação bayesiana de Rubin e Schenker (1986). A substituição das unidades com valores

incompletos pela informação de unidades completas é realizada gerando, inicialmente, uma

amostra bootstrap de unidades completas. Posteriormente, é gerada uma amostra aleatória da

amostra bootstrap de unidades completas, que é usada para preencher as unidades com valores

sem resposta. Por ser um modelo baseado em uma imputação estocástica, é importante gerar

mais de uma imputação para poder incorporar a variabilidade do modelo.

9

O ideal seria que cada uma das imputações da variável de escolaridade das mães fosse utilizada para gerar um modelo de número de mortes. Desta forma, os coeficientes finais do modelo de sobrevivência analisados seriam a média de todos os modelos com cada uma das variáveis imputadas. Infelizmente, como o modelo de regressão do número de mortes já é resultado de coeficientes bootstrap, optou-se por essa simplificação na imputação. Caso

Nesta imputação não foi possível incluir as mesmas variáveis que nos modelos anteriores. O uso

de muitas variáveis no método de imputação hotdeck diminui a probabilidade de encontrar

unidades semelhantes às unidades com dados faltantes. No caso dos dados da PPV, o modelo foi

restringido às seguintes variáveis: a idade, a região de nascimento, área de residência (rural ou

urbana) até os 15 anos, área de residência (rural/urbana) no momento da entrevista, e o estado de

sobrevivência do pai. Com a PNAD, as variáveis escolhidas foram: a idade, a região de

nascimento e a região de residência, área de residência (urbana/rural) e cor. A variável de

escolaridade foi tratada como categórica, utilizando a mesma classificação adotada no caso da

imputação múltipla. Como na imputação múltipla, a imputação final é resultado da média de 20

imputações hotdeck.

O último modelo de imputação aplicado à variável escolaridade é o algoritmo de Expectativa e

Maximização (EM). Foi utilizado o modelo apresentado pelo programa Amelia II do pacote

estatístico R 2.9.0. Neste programa, aplica-se uma versão particular do algoritmo EM combinado

com um procedimento bootstrap, que permite imputar valores faltantes. O modelo assume que a

base de dados é multivariada e com distribuição normal. Apesar desse pressuposto ser uma

aproximação bastante limitada da realidade, a literatura mostra que o modelo funciona de forma

aceitável para dados discretos ou categóricos (King et al., 2001).

A particularidade deste método é que, ao invés de estimar os parâmetros através de uma simples

máxima verossimilhança, o modelo incorpora um componente aleatório na estimativa e cria uma

distribuição bootstrap dos parâmetros. A partir desses parâmetros, estimam-se as expectativas

dos valores faltantes. O procedimento se repete iterativamente, até chegar à convergência dos

resultados. Uma vez estimados os parâmetros convergentes, estes são usados para estimar

aleatoriamente a imputação dos valores faltantes. Como o procedimento final de imputação é

aleatório, é recomendado que se realizem várias imputações, aproximadamente vinte (Honaker et

al., 2009). A imputação final é o resultado da média das vinte imputações.

As variáveis utilizadas neste modelo são as mesmas que foram usadas na imputação simples e

múltipla, porém, sem incluir a idade ao quadrado. O modelo assume que todas as variáveis são

contínuas e com distribuição normal, o que não é o caso das variáveis escolhidas, já que muitas

são categóricas ou dicotômicas. Da mesma forma que foi realizado com a imputação estocástica,

assumiu-se que as 10 categorias iniciais da variável de escolaridade aproximavam-se de uma

distribuição contínua.

5.4.4. Resultados do tratamento dos dados faltantes da variável escolaridade das