Development of radioecological criteria for

Outra das técnicas contemporâneas para lidar com dados omissos, permitindo a es- timação de um modelo com trajetória latente é a imputação múltipla. A imputação múltipla consiste em atribuir valores às observações que se encontram omissas, ao con- trário do método da máxima verosimilhança que não necessita de imputar ou substituir os valores omissos, usando, alternativamente, toda a informação disponível para estimar os parâmetros e os erros padrão (Schaffer e Graham [143]). Todavia, esta abordagem, tal como o método da máxima verosimilhança, assenta no pressuposto de que o mecanismo de omissão de dados é ignorável e de que os dados seguem distribuição normal multivariada. Uma abordagem com imputação múltipla consiste em três etapas: uma primeira etapa de imputação, de seguida a etapa da análise e por fim uma etapa em que os resultados obtidos na etapa anterior são combinados (ver figura 4.2). Na fase da imputação são ge- radas várias réplicas dos dados (m), cada uma das quais contendo um conjunto único de valores imputados. Na fase da análise, para cada uma das (m) réplicas de dados geradas no passo anterior, isto é, para cada um dos conjuntos de dados já completos, é estimado o modelo de interesse (no âmbito do presente trabalho um modelo com trajetória latente). Na última fase, as estimativas dos parâmetros e os erros padrão obtidos (m) no passo anterior são combinadas num único valor.

Amostra com omissões … m 1 …

Etapa de imputação Etapa de análise Etapa de combinar

1 m 2 2 Amostras imputadas Resultados das análises Resultados finais

Figura 4.2: Diagrama das três etapas da imputação múltipla

A imputação múltipla, ao contrário do método da máxima verosimilhança, é bas- tante exigente do ponto de vista computacional, em particular na fase da imputação. Um número considerável de algoritmos diferentes passíveis de utilização nesta primeira fase do método podem ser encontrados na literatura (Lavori et al. [82], Raghunathan et al. [121], Rosenbaum e Rubin [128], Schaffer [142], Tanner e Wong [153]). Todavia, o algoritmo

CAPÍTULO 4. MODELAÇÕES CONSIDERANDO A EXISTÊNCIA DE DADOS OMISSOS

mais utilizado e que se encontra implementado em grande número de pacotes estatísticos é o Data Augmentation (Schaffer [142], Tanner e Wong [153]). Este algoritmo que consiste num processo iterativo em dois passos, é bastante semelhante ao algoritmo EM proposto por Dempster et al. [32]. Os passos E e M determinísticos são substituídos pelos passos, I (passo de imputação) e P (passo de simulação da distribuição a posteriori) estocásticos, conforme descrito a seguir.

• Passo I - Imputação

No passo I é utilizada uma estimativa do vetor das médias e da matriz de covariân- cias para construir um conjunto de equações de regressão que predizem as variáveis incompletas a partir das variáveis observadas. Com este objetivo são constituí- dos grupos de observações que partilham o mesmo padrão de omissão, sendo que para cada um destes existe uma equação de regressão (ou conjunto de equações de regressão). Esta equação (ou equações) tem um termo residual que se assume com distribuição normal. Quando duas ou mais variáveis se encontram omissas, a distribuição dos resíduos assume-se normal multivariada.

Assim, o passo I pode ser descrito como:

Y∗_h ∼ P (Ymiss|Yobs, θ∗_h−1) (4.8)

em que, Y∗_h representa os valores imputados no passo I na iteração h, Ymiss corres-

ponde aos dados omissos, Yobscorresponde aos dados observados e θ∗h−1é o vetor das

médias e a matriz das variâncias-covariâncias do passo P anterior (ou seja, iteração

h − 1). A primeira iteração do passo I utiliza um vetor de médias e uma matriz de

covariâncias obtidos pelo método da máxima verosimilhança.

• Passo P - Simulação da distribuição a posteriori

O passo P começa por usar os valores imputados do passo I anterior para estimar o vetor das médias e a matriz de variâncias-covariâncias. De seguida o algoritmo gera um novo conjunto de valores dos parâmetros adicionando um termo residual aleatório a cada elemento µ e ˆˆ Σ, ou seja, um novo vetor de médias e uma nova

matriz de variâncias-covariâncias é gerada a partir das respetivas distribuições a

posteriori. A distribuição a posteriori da matriz de covariância é dada por

P (Σ|ˆµ, Y ) ∼ W−1(N − 1, ˆΛ) (4.9)

em que, µ é o vetor das médias amostrais, Y é a matriz dos dados preenchida doˆ

passo I anterior, W−1 representa a inversa da distribuição de Wishart, N − 1 os graus de liberdade e ˆΛ é a matriz das somas de quadrados e dos produtos cruzados dos valores amostrais. Utilizando procedimentos de Monte Carlo é gerada a partir da distribuição a posteriori uma nova matriz de variâncias-covariâncias, Σ∗.

CAPÍTULO 4. MODELAÇÕES CONSIDERANDO A EXISTÊNCIA DE DADOS OMISSOS

O algoritmo usa um procedimento análogo para criar um novo conjunto de médias, sendo a distribuição a posteriori do vetor das médias dado por

P (µ|Y ,ˆ Σ) ∼ MN(ˆµ, N−1Σ∗) (4.10)

onde, MN denota uma distribuição normal multivariada, µ é um vetor de médiasˆ

amostrais e Σ∗ é a matriz de variâncias-covariâncias simulada. Procedimentos de Monte Carlo geram um novo conjunto de médias a partir da distribuição a posteriori e que são designadas por µˆ∗.

Em resumo, o passo P simula o vetor das médias e a matriz de variâncias-covariância da população a posteriori, dado a amostra completa, isto é,

θ∗_h ∼ P (θ|Yobs, Y∗h) (4.11)

em que, θ∗_h são os valores dos parâmetros simulados do passo P, Yobs são os dados

observados e Y∗_h contem os valores imputados do passo I imediatamente anterior. O objetivo do passo P é gerar estimativas alternativas do vetor da média e da matriz de variâncias-covariâncias para utilizar no passo I seguinte, que irá produzir um novo conjunto de coeficientes de regressão e consequentemente um conjunto diferente de im- putações. Deste modo, a repetição destes dois passos, I e P, um grande número de vezes cria uma cadeia de Markov com várias cópias de dados, cada uma delas contendo esti- mativas únicas dos valores omissos, isto é, (Y1∗, θ1∗), (Y2∗, θ2∗), (Y3∗, θ3∗), . . . , (Yh∗, θh∗).

Esta sucessão converge em distribuição para P (Ymiss, θ|Y_obs). Assumindo que as itera-

ções convergem para uma distribuição estacionária, o objetivo é simular uma extração aproximadamente independente dos valores omissos dessa distribuição.

De salientar que, devido ao procedimento descrito, as amostras preenchidas obtidas numa dada iteração h estão fortemente correlacionadas com as obtidas na iteração h − 1, havendo assim a necessidade de ter o cuidado de selecionar para a etapa da análise um número m de amostras tomadas em iterações suficientemente distantes na sequência, por exemplo Yh∗, Yh+a∗, Yh+2a∗, . . ., para um valor grande de a, que podem ser tomadas como

imputações de Ymiss. Por outro lado, é necessário perder algumas amostras obtidas nas

primeiras iterações do algoritmo até guardar a primeira amostra com valores imputados. Determinar esse número de iterações pode ser complexo, sendo necessário estudar a es- tabilidade dos parâmetros obtidos no passo P. Os gráficos da função de autocorrelação que são disponibilizados nos pacotes estatísticos que têm implementado procedimentos de imputação múltipla, como, por exemplo o Mplus, são ferramentas indispensáveis nessa análise.

O número de amostras geradas na fase de imputação para posterior análise tem sido alvo de discussão na literatura da área. De acordo com Schaffer [142], o número de

CAPÍTULO 4. MODELAÇÕES CONSIDERANDO A EXISTÊNCIA DE DADOS OMISSOS

amostras geradas deve ser entre 3 a 5. Todavia abordagens mais recentes sugerem a uti- lização de pelo menos 20 amostras imputadas (Graham et al. [57]).

Depois de geradas as imputações, cada uma das (m) amostras completas são analisadas com a abordagem estatística desejada, neste caso um modelo com trajetória latente (figura 3.7) é estimado para cada uma das amostras completas. Resultando deste processo um conjunto de estimativas para os parâmetros e erros padrão (em número m), que são com- binados num único resultado na terceira etapa utilizando as fórmulas de Rubin.

De acordo com Rubin [132] para qualquer parâmetro deve ser calculada uma média das estimativas obtidas para as várias amostras (m),

¯ θ = 1 m m X r=1 ˆ θr. (4.12)

Todavia, combinar os erros padrão é um pouco mais complexo, uma vez que são consideradas duas fontes de variabilidade amostral: a variância dentro das imputações que é dada por

VW = 1 m m X r=1 SE_r2, (4.13) em que SE2

r é o quadrado do erro padrão (i.e., variância amostral) para a amostra r, com

r = 1, . . . , m, e a variância entre imputações dada por VB = 1 m − 1 m X r=1 (ˆθr− ¯θ)2. (4.14)

Assim, a variância total, que é uma variância combinada, é dada pela seguinte ex- pressão

VT = VW + VB+

m (4.15)

e consequentemente o erro padrão é calculado como SE =√VT.

In document Regulatory improvements related to the radiation and environmental protection during remediation of the nuclear legacy sites in North West Russia (sider 31-45)