Chapter 5: Data Presentation and Analysis
5.2 The way of Resource Management of The Majhi People Then and Now
A aplicação do método estocástico finaliza com a obtenção dos períodos de exposição ao risco
de morte para cada uma das mães na amostra, resultando na criação de banco de dados
longitudinal. É possível aplicar a este banco de dados, técnicas de análise de sobrevivência que
modelem o número de óbitos em função do tempo de exposição e de quaisquer outras
características que forem de interesse e estiverem disponíveis na base de dados, podendo estimar
taxas específicas de mortalidade por idade em função dessas características.
A taxa de mortalidade entre a idade x e a idade x+n, de uma determinada coorte, denominada
aqui por
nM
x, é calculada pela divisão do número de mortes na idade x (
nd
x) e o tempo de
exposição ao risco de morrer, definido pelo número de pessoas-ano (
nL
x). Isto é:
x n x n x n
L
d
M
.
(11)
O número de óbitos é obtido a partir da distribuição do número de mães mortas por idade da mãe
e demais características de interesse. Já o número de pessoas-ano representa o número de anos
vividos por todas as mães desde o momento que tiveram o filho até o momento da sua morte ou
até a data da entrevista, distribuídos entre os grupos de idade e as demais variáveis a serem
consideradas.
Para o cálculo do número de pessoas-ano, utiliza-se a função split do programa STATA 10.0.
Essa função transforma cada indivíduo em um número de pseudo-indivíduos igual ao número de
anos que estiveram expostos ao risco de morrer. Por exemplo, se uma mãe esteve exposta ao
risco de morte desde os 20 até os 33 anos de idade (idade em que morreu), a função split cria 14
pseudo-indivíduos para representar a trajetória desta mãe entre estas idades, de tal forma que é
possível conhecer a contribuição exata de cada indivíduo para o tempo total de exposição.
Uma vez calculado o número de pessoas-ano é possível modelar o número de mortes das mães
em função do tempo de exposição ao risco de morte. Entre os modelos que existem para
trabalhar com dados contáveis, encontram-se a regressão Poisson e a regressão binomial
negativa. A diferença entre os dois modelos é que no caso da regressão Poisson, assume-se que a
variância da variável contável é igual a sua média. Já na binomial negativa, é pressuposto que a
variável dependente pode ter sobredispersão, e que, portanto, a variância não se equipararia à
média (Rodriguez, 2001; Long e Freese, 2003)
5.
A fórmula da regressão Poisson é definida por uma regressão log-linear que pode ser descrita
como:
log(
i)
i X
i,
(12)
onde X representa um vetor de variáveis e os coeficientes
são estimados por máxima
verossimilhança.
A regressão binomial negativa consiste em adicionar ao modelo um efeito aleatório que
represente a heterogeneidade que não está sendo controlada na regressão Poisson, segundo a
seguinte forma:
log(
i)
i X
i
i(13)
Para poder decidir qual dos dois modelos é superior, é preciso observar se existe sobredispersão
na variável resposta. Dentro da distribuição da regressão binomial negativa existe um parâmetro
(chamado de parâmetro alfa em Long e Freese (2003)) que mede o nível de sobredispersão. O
programa STATA 10.0 realiza um teste de máxima verossimilhança sobre a hipótese de que o
parâmetro alfa seja igual a zero, que implicaria a não existência de sobredispersão. Se o teste não
é estatisticamente significativo, significa que a regressão Poisson é superior à regressão binomial
negativa
6.
5
Além da regressão binomial, há um outro modelo que controla a sobredispersão da variável contável chamado “zero inflated poisson” (zip).
6
Uma das causas mais comuns que provoca sobredispersão na varié que parte dos zeros da amostra na variável resposta não sejam reais, ou seja, que existam indivíduos que respondem zero porque não estão expostos ao risco ou porque existe uma variável latente não controlada no modelo. Sendo a variável dependente neste estudo, o número de mortes, assume-se que todos os membros da amostra estejam expostos ao risco de morte. Por isso, espera-se que
No caso das duas regressões (Poisson e binomial negativa), para que seja possível modelar o
número de óbitos em função da exposição ao risco, permitindo estimar taxas de mortalidade, o
tempo de exposição deve ser incorporado à equação (13) como um termo independente do vetor
de variáveis,
log E mortes
i X
i log exposição
(14)
Para obter as taxas de mortalidade em função das características das mães presentes na base de
dados é preciso incluir estas variáveis no modelo de regressão, no lugar do vetor X
ida equação
(14).
As duas variáveis básicas que vão ser analisadas nesta tese são a idade e a escolaridade. Porém,
as variáveis incluídas no modelo de regressão poderiam ser quaisquer que estejam presentes na
base de dados relacionadas com a mãe do entrevistado. O primeiro modelo a ser estudado
incorpora unicamente a variável de idade, permitindo estimar taxas específicas de mortalidade
por idade. Este modelo seria:
log E mortes
1
2i idade
ii1 j1
log exposição
,
(15)
onde i representa um dos j grupos de idade em que se divide esta variável, sendo que o grupo de
referência será omitido da regressão.
O outro modelo a ser testado incorpora a idade e a escolaridade. Este modelo permite analisar
como a mortalidade muda em função da escolaridade, uma vez controlando pelo efeito de idade,
sempre presente. O modelo de regressão ficaria igual a:
log E mortes
1
2i idade
bb1 B1
3c escolaridade
c c1 C1
log exposição
.
(16)
Por último, o modelo de regressão permite introduzir a interação entre as variáveis idade e
escolaridade. Este tipo de análise é utilizado para separar o efeito conjunto da escolaridade e da
idade, do efeito puro destas variáveis sobre a mortalidade das mães. Além disso, a interação entre
variáveis dentro de um modelo de regressão permite observar como o comportamento de uma
variável muda em função da outra. Por exemplo, neste caso, podem ser analisadas taxas de
mortalidade em função da escolaridade dentro de cada grupo de idade, permitindo comparar se
este comportamento varia de um grupo de idade a outro. O modelo de regressão Poisson com a
interação seria:
log E mortes
1 2i idadeb b1 B1
3c escolaridadec c1 C1
3d idade
bX escolaridadec
d1 D( B C 1)
log exp
(17)
onde B é o número de categorias da variável idade, C é o número de categorias da variável
escolaridade, e D é o número de interações possíveis entre as categorias das duas variáveis.
Em todos os modelos de regressão Poisson, os coeficientes unicamente explicam o valor
diferencial em relação à categoria de referência. Porém, estes coeficientes de regressão estão
controlados pelo tempo de exposição ao risco de morte, e por tanto, se referem também a taxas
de mortalidade. A transformação é efetuada através do inverso do logaritmo dos coeficientes, ou
seja, através do seu exponencial. Tomando como exemplo o modelo (15), onde a única variável
analisada são os grupos de idade, suponha-se que esteja dividida em j=4 categorias, onde o grupo
1 é o de referência (omitido no modelo). Para calcular a taxa de mortalidade do grupo de idade 2,
por exemplo, é necessário calcular o exponencial da soma dos coeficientes da constante (
1) e do
coeficiente do grupo de idade número 2 (
22).
4.3.1. Coeficientes bootstrap das regressões Poisson
Um dos problemas que derivam do uso de números aleatórios é a falta de confiabilidade nos
resultados. Para incrementar esta confiabilidade, uma das estratégias é calcular estimadores
bootstrap dos coeficientes das regressões Poisson.
Para explicar o que é um estimador bootstrap, consideremos uma amostra S de observações
independentes, onde é um estimador consistente do parâmetro . A partir da amostra original
ˆo estimador
ˆ bdo parâmetro
b, aplicando o mesmo método de estimação aplicado na amostra
original S. Assim, ( ˆ
1,...,
B) seria o conjunto de estimadores obtidos por repetição do mesmo
método B vezes, em B subamostras. Uma vez tendo todos os B estimadores, o estimador
bootstrap de seria a média de todos os estimadores (Little e Rubin, 2002):
ˆ
boot
1
B
ˆ
b b1 B
(18)
e a variância estimada bootstrap de ˆ
booté:
ˆ V boot 1 B1 ˆ