Chapter 3 - Ideology
3.1 Metaphor, metonymy and analogy
3.1.1 Metaphor
Para fazer inferência sobre os parâmetros de regressão, tanto pela obtenção de intervalos de conança como pela realização de testes de hipóteses, é necessário conhecer a distribuição de amostragem do estimador de máxima verosimilhança parcial ˆβ. Nem sempre é possível obter a distribuição de amos- tragem exata para este estimador e por isso tem de se recorrer à teoria assintótica, pressupondo a vericação de certas condições de regularidade. Ficou provado matematicamente, recorrendo aos pro- cessos de contagem baseados na teoria das martingalas, que os estimadores obtidos a partir da função de verosimilhança parcial apresentam as mesmas propriedades distribucionais dos estimadores obtidos pela função de verosimilhança completa [Anderson, Borgan, Gill e Keiding (1993, Capítulo VII), e
Fleming e Harrington (1991, capítulo 4)]. Pode então dizer-se que:
1. ˆβ tem distribuição assintótica normal p-variada, ˆβ ∼a Np(β,I−1(β));
2. O estimador ˆβ é assintoticamente centrado já que E(ˆβ) ≈ β;
3. Sob a hipótese β = β0, a estatística de Wald satisfaz, (ˆβ − β0)0 I(β0) ( ˆβ − β0) ∼
a χ2p. Assim, conclui-se que ˆβk∼
a
N (βk,EP( ˆβk)).
2.5.1eeTestes de hipóteses
Considerando novamente um modelo com p covariáveis e portanto p parâmetros de regressão, é possível realizar testes de hipóteses sobre estes com o objetivo de testar se as covariáveis têm efeito signicativo no tempo de vida. Os mais comuns são:
1. Teste da hipótese do efeito nulo da covariável zj, no tempo de vida,
H0 : βj = 0 vs Ha: βj 6= 0. (13)
2. Teste da hipótese do efeito nulo de um subconjunto de covariáveis de dimensão r ≤ p, no tempo de vida,
H0: βr=0 vs Ha: βr6=0. (14)
Estes testes permitem comparar modelos aninhados, ou seja, comparar submodelos do modelo original. Em (13) compara-se um modelo com p covariáveis com um modelo com p − 1 covariáveis, no qual foi removida a covariável zj cujo parâmetro correspondente é βj. Em (14) compara-se o modelo original
com um submodelo com p − r covariáveis, com 1 ≤ r ≤ p. Quando r = p, testa-se a hipótese de que nenhuma das p covariáveis tem um efeito signicativo no tempo de vida.
A comparação de modelos aninhados está na base da seleção de variáveis a incluir no modelo de re- gressão nal. Esta temática será abordada mais tarde.
Os testes mais usuais para testar as hipóteses anteriores são: o teste de Wald, o teste razão de verosi- milhanças e o teste score.
Teste de Wald
Num modelo com p covariáveis, a estatística do teste de Wald a aplicar quando se pretende testar as hipóteses em (13) é dada por,
W = βˆ 2 j c var( ˆβj) . (15)
Como, sob H0, ˆβj ∼
a
N (0,EP( ˆβj)), então W ∼
a χ21.
Para comparar modelos aninhados em que um inclui p covariáveis e o outro inclui apenas p − r cova- riáveis, a que correspondem as hipóteses em (14), a estatística de teste de Wald é,
W = ˆβ0 I( ˆβ) ˆβ, (16)
onde ˆβ é um vetor de dimensão r e I(ˆβ) é a submatriz simétrica de dimensão r×r referente aos parâ- metros considerados em H0. De realçar que (13) é um caso particular de (14) quando r = 1.
Sob H0 : βr =0, W ∼
a
χ2r, com 1 ≤ r ≤ p. A hipótese nula é rejeitada ao nível de signicância α se o valor observado de W for superior ao quantil 1 − α de χ2
r.
Teste razão de verosimilhanças
Para aplicar o teste razão de verosimilhanças, é necessário determinar os estimadores de máxima verosimilhança parcial sob H0 e sob Ha. No primeiro caso, o estimador é um vetor com dimensão p − r
e representa-se por ˜β. No segundo caso, o estimador é um vetor de p componentes e representa-se por ˆ
β. A estatística de teste é dada por
G = −2nl( ˜β) − l( ˆβ)o. (17) Sob H0, a distribuição assintótica desta estatística é um χ2 com número de graus de liberdade igual à
diferença entre o número de parâmetros dos modelos considerados em Ha e H0.
Assim, a hipótese nula é rejeitada ao nível de signicância α, se o valor observado de G for superior ao quantil 1 − α de χ2
r, em que r = p − (p − r).
Teste score
Seja ˆβ o estimador de máxima verosimilhança parcial sob Ha. Seja ˜β um vetor que toma o valor zero
para os r parâmetros considerados em H0 e que para os restantes parâmetros é tal que ˜β = ˆβ. A
estatística do teste score é,
U = µ(˜β)0I−1( ˜β)µ( ˜β), (18)
onde µ(β) é o estimador da função score denida em (9). Também aqui a hipótese nula é rejeitada ao nível de signicância α, se o valor observado de U for superior ao quantil 1 − α de χ2
r.
É habitual usar-se o teste de Wald para testar individualmente se cada parâmetro é zero. Este procedi- mento torna-se bastante útil quando se está a construir o modelo, porque permite escolher as possíveis variáveis a serem eliminadas do modelo;
Os três testes costumam produzir resultados muito similares; no entanto, quando isso não acontece, deverá optar-se pelo teste de razão de verosimilhanças para tirar conclusões.
2.5.2eeIntervalos de conança
O intervalo de conança assintótico para cada um dos p parâmetros desconhecidos é obtido tendo em conta a distribuição assintótica de ˆβ. O intervalo de 100(1 − α)% de conança para βk (k = 1, · · · , p)
é dado por
ˆβ
k− z1−α/2EP( ˆc βk) ; ˆβk+ z1−α/2EP( ˆc βk)
, (19)
onde se( ˆb βk) é a estimativa do erro padrão de ˆβk e z1−α/2 é o quantil 1 − α/2 da distribuição N(0, 1). Por vezes existe interesse em determinar o intervalo de conança para cβk, c ∈ <. Como a distribuição
assintótica de c ˆβk é N(cβk, |c|σkk), o intervalo de conança para cβk (k = 1, · · · , p) é
c ˆβk− z1−α/2|c| cEP( ˆβk) ; c ˆβk+ z1−α/2|c| cEP( ˆβk)
. (20)
A partir de (19) pode obter-se o intervalo de 100(1 − α)% de conança para o risco relativo de morte para dois indivíduos i e j com vetores de covariáveis, zi = (zi1, · · · , zik, · · · , zip)0 e zj =
(zj1, · · · , zjk, · · · , zjp)0, que apenas diferem em relação à covariável zk numa unidade,
e ˆ βk−z1−α/2EPd( ˆβk) ; e ˆ βk+z1−α/2EPd( ˆβk) ! .
2.6eeEstimação de λ
0(t), Λ
0(t)
e S
0(t)
Após a estimação dos parâmetros de regressão, interessa por vezes estimar a função de risco subjacente não especicada, λ0(t).
Dados os tempos de vida t1 < · · · < tm com instante inicial de observação t0 = 0, assuma-se que a
distribuição do tempo de vida tem uma função de risco constante entre quaisquer dois instantes de morte consecutivos, tj−1 e tj, e que entre eles todos os tempos censurados se consideram ocorridos em
tj−1. Assim, a estimativa de λ0(t)no intervalo (tj−1, tj]é dada por
ˆ λj = dj (tj− tj−1) P i∈Rj eβˆ0z i , (21)
em que dj e Rj representam, respetivamente, o número de mortes ocorridas e o conjunto de indivíduos
em risco no instante tj. O valor de ˆλj representa o quociente entre o número de acontecimentos
ocorridos e o número ponderado de pessoas em risco por unidade de tempo. Cada indivíduo em Rj
contribui com um peso exp(ˆβ0zi)no intervalo de tempo considerado.
O estimador de Breslow para a função de risco cumulativa subjacente em cada instante t é dado por, ˆ Λ0(t) = X tj≤t dj P i∈Rj eβˆ0zi. (22)
Pela relação (2), em cada instante t, obtém-se então o estimador da função de sobrevivência subjacente, ˆ S0(t) = exp(− ˆΛ0(t)) = Y tj≤t exp − dj P i∈Rj eβˆ0zi . (23)
Tendo-se obtido o estimador anterior, pode-se então estimar a função de sobrevivência para um indi- víduo com vetor de covariáveis z a partir de (7),
ˆ S(t; z) =h ˆS0(t) iexp( ˆβ 0 z) .
2.7eeObservações empatadas
A função de verosimilhança parcial apresentada em (8) foi considerada sob a condição dos tempos de vida observados serem todos distintos. A unidade de tempo escolhida é uma das razões para o pouco rigor na determinação do tempo e consequentemente para o aparecimento de tempos empata- dos. Quando há observações empatadas é necessário modicar a função de verosimilhança parcial, Kalbeisch e Prentice (1980) propuseram uma função de verosimilhança para este caso, mas esta é muito exigente do ponto de vista computacional. Felizmente existem aproximações desta função que exigem menor esforço computacional e que foram propostas por, Cox (1972), Peto (1972), Breslow (1974) e Efron (1977).
Sejam m tempos de vida distintos, t1 < t2< · · · < tm, observados numa amostra de dimensão n ≥ m,
onde a cada indivíduo i (i = 1, · · · , n) corresponde um vetor de covariáveis zi. Sejam dj o número de
mortes no instante tj, aj a soma dos vetores de covariáveis correspondentes aos dj indivíduos e Rj o
verosimilhança parcial é, L(β) = m Y j=1 eβ0aj " P i∈Rj eβ0zi #dj. (24)
Com função log-verosimilhança parcial, l(β) = m X j=1 β0aj− djln X i∈Rj eβ0zi (25) e derivadas parciais em ordem a βk,
∂l(β) ∂βk = m X j=1 ajk− dj P i∈Rj zikeβ 0z i P i∈Rj eβ0zi ∂2l(β) ∂β2 k = − m X j=1 dj P i∈Rj zik2eβ0zi P i∈Rj eβ0zi − P i∈Rj zikeβ 0z i P i∈Rj eβ0zi 2
A partir das expressões anteriores é possível ajustar o modelo de Cox e fazer inferência sobre os seus parâmetros de forma análoga ao que foi exposto nas secções anteriores. Quando dj = 1, (24) coincide
com (8).