• No results found

4 Generelt om behovet for

4.8 Forholdet til enkelte andre

4.8.4 Statleg tilsyn overfor

O GLM funciona como uma extensão do modelo linear normal em que a re- lação entre a combinação linear das variáveis explicativas (preditor linear) e a variável resposta é especificada de uma forma mais geral, admitindo outras funções para além da função identidade, de forma a que se possam modelar dados cuja função densidade de probabilidade (f.d.p.) associada à variável resposta Y seja outra que não a distribuição normal. Dentro dessas possibi- lidades encontra-se qualquer distribuição pertencente à família exponencial, ou seja, cuja f.d.p. se escreva na forma (Amaral Turkman, 2000):

f (y|θ, φ) = e n yθ−b(θ) a(φ) +c(y,φ) o . (2.1)

2.2. Modelo Linear Generalizado

Os parâmetros θ e φ, são ambos escalares em que o primeiro representa a forma canónica do parâmetro de localização de que se falará adiante e o se- gundo o parâmetro de dispersão, habitualmente conhecido. As funções a(.), b(.) e c(.) são funções reais conhecidas. Entre as principais distribuições da família exponencial encontram-se a normal, a binomial, a Poisson, a Gama e a Gaussiana Inversa (Amaral Turkman, 2000).

Estrutura de um GLM

A estrutura de um GLM é constituída por duas componentes relacionadas através de uma função de ligação. Uma das componentes é designada por componente aleatória em que se considera a resposta Y como variável ale- atória com distribuição pertencente à família exponencial (ver eq. 2.1). Assim sendo, dado o vetor de covariáveis xi, as variáveis Yi são condicio-

nalmente independentes, com distribuição pertencente à família exponencial com E(Yi|xi) = µi, i = 1, ..n e com um parâmetro de dispersão que não

depende de i.

A outra componente, designada por estrutural ou sistemática assenta no preditor linear definido por:

η = Xβ, (2.2) em que X = 1 x11 . . . x1p 1 x21 . . . x2p . . . . . . . . . . . . 1 xn1 . . . xnp

corresponde a uma matriz de especificação, função dos vetores de covariáveis xi, i = 1, .., n, e β = (β0, β1, . . . , βp)T é um vetor de parâmetros de dimensão

p + 1.

O valor esperado da variável resposta E[Yi|xi] = µi relaciona-se com o

preditor linear através de uma função de ligação h(.), monótona e diferenciá- vel, de tal forma que, para o i-ésimo indivíduo:

µi = h(β0+ β1xi1+ β2xi2+ . . . + βpxip) = h(ηi), (2.3)

ou, inversamente,

em que g(.) = h−1(.) representa a inversa da função de ligação. No entanto, consoante a conveniência, também designaremos a função g(.) de função de ligação.

Sempre que o preditor linear coincidir com o parâmetro canónico, i.e., ηi = θi (θi = xTi β), a função de ligação correspondente designa-se por função

de ligação canónica.

A tabela 2.1 1 apresenta algumas distribuições pertencentes à família ex-

ponencial e respetivas funções de ligação canónicas.

Distribuição de Y Função de ligação canónica Domínio de Y V ar(Y )

Normal (N (µ, σ2)) identidade (µ) (−∞, +∞) σ2

Binomial/n (B(n, π)/n) logit (log(1−ππ )) {0,1

n, . . . , 1}

π(1−π) n

Poisson (P (λ)) logarítmica (log(λ)) {0,1,. . . } λ

Gama (Ga(ν,νµ)) recíproca (−1µ) (0, +∞) µν2 Gaussiana Inversa (IG(µ, σ2)) quadrática inversa (− 1

2) (0, +∞) µ

3σ2

Tabela 2.1: Principais distribuições da família exponencial e respetiva

função de ligação canónica.

Existem, porém, situações em que a opção pela função de ligação canó- nica não apresenta ser a melhor escolha, como por exemplo, no caso em que se tem Y ∈ ]0, +∞[. Neste caso, em particular, é apropriado utilizar-se uma função de ligação tal que os valores esperados sejam sempre positivos sem que haja necessidade de se impor restrições aos parâmetros do modelo.

GLM de variável resposta contínua Modelo normal

Para o caso da variável resposta ser contínua, pode-se aplicar o modelo de regressão normal em que a função de ligação a utilizar é a função identidade, correspondendo diretamente ao modelo linear normal. Neste caso,

1Importa referir que a notação utilizada para designar, ao longo deste estudo, o loga-

2.2. Modelo Linear Generalizado

g(µi) = µi ⇒ µi = ηi. (2.5)

Modelo gama

No caso específico da resposta estar contida em IR+, pode-se utilizar o modelo de regressão Gama. Neste caso, sendo µi > 0, a utilização do

modelo Gama com a função de ligação canónica respetiva (função recíproca) implicaria a imposição de restrições aos valores possíveis para os parâmetros

β do preditor linear (Amaral Turkman, 2000). Para evitar essa situação,

considera-se a seguinte função de ligação:

g(µi) = log(µi) ⇒ µi = eηi. (2.6)

Modelo gaussiano inverso

Relativamente ao modelo de regressão gaussiano inverso a utilização da função de ligação canónica implica que a relação entre o preditor linear e a variável resposta seja a seguinte:

g(µi) = 1 µ2 i ⇒ µi = h(ηi) = 1 √ ηi . (2.7)

À semelhança do que se passa com o modelo de regressão Gama, a escolha da função de ligação canónica implica, também neste caso, a imposição de restrições, nomeadamente ηi > 0. Neste caso, pode-se optar pela seguinte

função de ligação:

g(µi) = log(µi) ⇒ µi = h(ηi) = eηi. (2.8)

GLM de variável resposta discreta Modelo binomial

No caso do modelo Binomial, considera-se mY como tendo uma distri- buição binomial de forma a que Y ∼ B(m, π)/m. Assim, a função de massa probabilística (f.m.p.) é dada por (Amaral Turkman, 2000):

f (y|π) = m ym

!

πym(1 − π)m−ym = e(log(π)ym+m(1−y)log(1−π)+log(ymm)). (2.9) A partir da expressão anterior é deduzida a seguinte:

f (y|π) = e(m(yθ−log(1+eθ))+log(ymm)), (2.10) em que y ∈ (0,m1,m2, ..., 1) e θ = log(1−µµ ) = log(1−ππ ).

Por utilizar a função de ligação logit, este modelo é designado por modelo de regressão logística. A sua inversa corresponde à função sigmoidal em que a relação entre o valor esperado de Yi (a probabilidade de ”êxito”) e o preditor

linear é:

µi = πi =

1

1 + e−ηi. (2.11)

Figura 2.1: Função sigmoidal (logística).

Uma propriedade interessante da função sigmoidal (ver Fig. 2.1), é o facto de esta poder representar uma probabilidade, ou seja, para qualquer valor da componente sistemática, a resposta estimada irá tomar um valor entre 0 e 1. Também é interessante o facto de ηi descrever o logaritmo de

uma possibilidade, uma vez que inclui o quociente de probabilidade de even- tos com sucesso sobre a probabilidade de ocorrência de eventos sem sucesso. Como se pode verificar, estas características, entre outras, conferem inter- pretabilidade ao modelo, o que também contribui para a sua popularidade no âmbito clínico.

Este modelo poderá ser utilizado sempre que se pretenda associar a pro- babilidade de eventos de resposta binária ao preditor linear. No entanto,

2.2. Modelo Linear Generalizado

devido ao facto de se ter E(Yi) = µi ∈ [0, 1], a função de ligação g(.) pode

ser substituída por outras (não canónicas), cujo comportamento seja análogo à função logit. Um exemplo de função candidata é a função de ligação probit:

g(µi) = Φ−1(µi) = ηi ⇔ µi = h(ηi) = Φ(ηi), (2.12)

em que Φ representa a função de distribuição normal padronizada. Outro exemplo é a função de ligação de Gumbel,

g(µi) = log(−log(1 − µi)). (2.13)

Estas funções de ligação caracterizam, respetivamente, o modelo de re- gressão probit e o modelo de regressão complementar log-log.

Modelo de Poisson

Para o caso das respostas serem apresentadas sob a forma de contagens, pode-se utilizar o modelo de regressão de Poisson, em que a função de ligação é a função logarítmica:

g(µi) = log(µi) ⇒ µi = h(ηi) = eηi. (2.14)