Chapter 4: Castles in the air: Memories, dreams and utopia in
4.1 The changing promise
O que vamos ver vai seguir as seguintes etapas: para cada um dos factores começa por se identificar um grupo de referência, a que chamaremos "grupo de controlo", e for ver qual a incidência do fenómeno – consumo de bebidas alcoólicas – sobre esse grupo, isto é, de calcular o odds ou rácio de controlo, OR ou Oc, vai-se comparar este rácio do grupo "doente" com o odds do grupo de controlo. O passo seguinte consiste na estimação do rácio de produtos cruza- dos, RC ou odds ratio, OR, rácio que é geralmente entendido como uma boa estimativa do rácio de risco, RR, que está associado a uma determinada "doen- ça".
Faz-se em seguida a interpretação dos resultados através da realização de um teste estatístico cuja hipótese nula se enuncia das seguintes formas:
H0: os grupos são iguais, isto é, há uma pro- babilidade igual de surgir um indivíduo consumidor de bebidas alcoólicas no grupo de controlo e no grupo de doentes
hipótese que também pode ser formalizada assim:
H0: os dois grupos não estão associados ou são independentes.
A sua hipótese alternativa estipula que:
o que equivale a dizer que
H1: os dois grupos são dependentes ou que há uma associação entre os dois grupos
A regra de decisão do teste (decision rule) es- tipula que:
•Se o valor de RC observado toma um valor unitário admite-se como verdadeira a hipó- tese nula, o que significa que os dois grupos são independentes, ou que não rejeitamos a hipótese nula.
•Se rejeitarmos a hipótese nula e o valor obtido for inferior à unidade (mas superior a zero) diz-se que os dois grupos estão associados e que essa associação entre eles é negativa.
•Se rejeitarmos a mesma hipótese nula e o valor de RC for superior à unidade então diz- se que os dois grupos estão associados e que essa associação entre eles é positiva. Do que se disse se depreende que os rácio de controlo, Oc, e o "odds ratio", OR, ou rácio dos produtos cruzados, RC, têm nesta metodologia papéis cruciais.
Igualmente importante é o Intervalo de Confiança (IC) de RC ou Intervalo de Aceitação da hipótese nula, cuja probabilidade é previamente fixada; este intervalo está associado ao intervalo de rejeição pois que a reunião de ambos vem igual ao in- tervalo ]-∞ +∞[; este último intervalo corresponde à probabilidade que se quer correr de tomar uma decisão errada, isto é, de rejeitar uma hipótese que afinal é correcta. Para construir este intervalo fixa-se um nível de significância α, geralmente, 5% ou 1%, sendo esta a probabilidade que se quer correr de rejeitar uma hipótese válida ou verda- deira; dada a interligação entre os dois intervalos esta afirmação equivale a "aceitar" (não rejeitar) H0 com uma confiança de 100 (1—α) =95% ou 99%.
Nesse intervalo de confiança intervêm para além do "odds ratio", OR ou RC, que toma o papel de valor central do intervalo, um produto de dois factores: o erro padrão da estimativa e o valor que a tabela da t de student ou da normal reduzida – consoante o caso – dá para esse risco ou confiança. Esse produto vai depois deduzir-se e adicionar-se ao "odds ratio", OR, definindo assim a região de aceitação – assim chamada por permitir 'aceitar', ou preferivelmente, 'não rejeitar' a hipó- tese nula H0 – do teste. A região de rejeição, que tem probabilidade dada pelo nível de significân- cia α, fica assim quase automaticamente delimi- tada por esses mesmos pontos extremos. O que
se disse pode traduzir-se em linguagem estatís- tica quer por (1), se definido em termos de intervalo de rejeição,
(1) quer por (1'), se definido em termos de intervalo de aceitação,
(1') onde θ é o valor da taxa de risco, OR, observada na amostra, σθ é o erro padrão dessa estimativa ou taxa, zα/2 e z1-α/2 são os valores que se lêem da tabela uma vez fixado o nível de significância
α ou de confiança 1-α, e λ é a taxa de risco (desconhecida) a estudar.
Como nem sempre a estatística a utilizar para estimar o rácio de risco, RR, é simétrica – o que se explica, por exemplo, porque, as taxas nunca são negativas e o seu valor se distribui no in- tervalo [0 a +∞[, e ainda, como se pode ver facilmente, o intervalo [0 1[ concentra os valores de RR correspondentes a associações negativas –, torna-se necessário, nestes casos, introduzir algumas transformações sobre os dados iniciais de molde a controlar esses factores de assimetria (e também de não normalidade). A transforma- ção a introduzir no contexto que estamos a desenvolver é a operação de logaritmização, operação que, por razões que nos dispensamos de apresentar neste momento, ocupa, aqui, um lugar de destaque.
O que se disse faz com que as duas probabi- lidades tenham que ser escritas ou como (2), se em termos de região de aceitação do logaritmo do rácio de risco,
(2) ou como (2'), se em termos de região de rejeição do mesmo logaritmo
(2') o que é equivalente, em termos de rácio de risco,
λ, a ter (3), se em termos de região de rejeição, (3)
ou (3'), se em termos de região de aceitação,
(3')
A estimação do erro padrão da estimativa depende do facto de a taxa de risco λ referida ser uma razão de risco, uma razão de proporções ou um caso- controlo. No primeiro caso o erro padrão obtém- se recorrendo à expressão (4)
(4) onde a e b são, respectivamente, o número de doentes com o factor e o número de doentes sem o factor. No segundo caso o erro padrão obtém-se recorrendo à expressão (5)
(5) onde a, b, c, d, N0 e N1 são, respectivamente, o número de doentes com o factor, o número de doentes sem o factor, o número de indivíduos do grupo de controlo com o factor, o número de indivíduos do mesmo grupo sem o factor, o número total de elementos do grupo de controlo (N0=c+d), e o
número total de doentes (N1=a+b).
No terceiro e último caso, conhecido como casos- controlo, pode estimar-se recorrendo à expressão (6) (6) Em termos práticos o teste processa-se da seguinte forma: uma vez calculado o intervalo de confiança se esse intervalo contiver o valor unitário então admite-se como verdadeira a hipótese nula, isto é, que as duas amostras (a de controlo e a dos doentes) são iguais e independentes, ou que ambos os grupos têm as mesmas características. Se não contêm o valor unitário então rejeita-se H0 e diz-se que os dois grupos são dependentes e por isso que há associação; neste caso temos duas alternativas: quando o valor do "odds ratio", OR, é inferior à unidade e o intervalo de confiança do rácio de risco não contém o valor unitário, caso em que se diz que a associação entre
os dois grupos é do tipo negativo, e quando o valor
de OR é superior à unidade e o intervalo de con- fiança não engloba o valor um, caso em que se diz que se está em presença de uma associação positiva
entre ambos os grupos.
Por sua vez a metodologia clássica, aqui identi- ficada com a do Qui-quadrado, estipula na sua hipótese nula que
H0: Os dois atributos (consumo de bebidas
alcoólicas e o outro que com ele queremos analisar) são independentes, isto é, nada há entre um e outro,
e na alternativa que
H1: Há uma relação de dependência ou de
associação (ou não há independência) entre ambos.
Os dados da amostra dispõem-se habitualmente num quadro de dupla entrada onde o seu elemento genérico é representado por nij – onde i representa os atributos em linha, e j representa os atributos em coluna, neste caso os dois sexos.
Este teste passa pela estimação (V. Manso, 1993) de uma das duas medidas seguintes:
onde nij é o número de indivíduos que respon- deram ao atributo i (i=1,2,...,r) mas do sexo j (j=M,F), pi. é a probabilidade de encontrar um indivíduo com esse atributo, p.j é a probabilidade de encontrar um indivíduo do sexo j, e n é o número total de indivíduos.
Segundo esta teoria aquela medida tem distribui- ção do Qui-quadrado, donde a utilização do sím- bolo do alfabeto grego, com um número de graus de liberdade que depende do facto de as proba- bilidades pi. e p.j serem previamente conhecidas ou não; no primeiro caso aquele número de graus de liberdade vem dado por r.s-1 e no segundo, o caso mais frequente, por (r-1)(s-1). É ainda característico deste teste usar uma região crítica unilateral direita.