4 THE MULTINATIONAL FORCES IN LEBANON, 1982 – 8
4.3 Terrorism spill-over from the Lebanon conflict
Antes de adotarmos um modelo probabilístico, seria importante destacar algumas suposições adotadas: a) O esquema amostral não foi levado em consideração25; b) Todos os eleitores indecisos irão votar em algum candidato, ou seja, não existem votos nulos ou em branco; c) Aqueles indivíduos que não opinaram foram considerados como indecisos; d) Não há qualquer dependência entre os indivíduos amostrados, evitando-se viés de opinião; e) A proporção oficial de votos válidos apurados e divulgados pelo Tribunal Superior Eleitoral corresponderá, para todos os efeitos, aos verdadeiros parâmetros populacionais.
Nessa seção, optou-se por um nível de detalhamento mais aprofundado da modelagem estatística com o objetivo de permitir que o leitor, caso deseje aplicar o modelo em algum estudo, possa utilizar os recursos matemáticos aqui utilizados, pois se acredita que tal abordagem seja inédita na pesquisa eleitoral dentro do Município de São Paulo ou até no território brasileiro. Considerando essa possibilidade, todos os códigos de linhas de programação viabilizados através do pacote estatístico utilizado são fornecidos na forma de apêndice.
Uma classe de modelos log-lineares26, proposta por Fay (1986) e Baker e Laird (1988), pode assumir o mecanismo de censura aqui apresentados para os dados categorizados. Nesta seção usaremos este tipo de modelo, que é
25 Por se tratar de dados secundários, não se tem informações a respeito do esquema amostral adotado.
26
Os modelos log-lineares para dados categorizados foram desenvolvidos durante a década de 1960 objetivando criar uma metodologia que abordasse situações nas quais as variáveis são observadas simultaneamente tal como ocorrem nas tabelas de contingência. São modelos com estrutura linear no logaritmo das relações cruzadas de probabilidades ou médias das celas de uma tabela de contingência (Paulino e Singer, 2006).
ajustado a tabelas de dados aumentados nas quais uma variável dicotômica é incluída, indicando se a observação de determinada variável ocorreu ou não.
Devido à complexidade na aplicação do modelo log-linear para uma tabela de contingência de três entradas, quando mais do que uma variável apresenta dados ausentes, optou-se, neste trabalho, pela ilustração baseada em uma situação específica na qual apenas uma variável apresenta ausência de informação, entretanto, a modelagem proposta pode ser estendida para qualquer número de variáveis sendo a complexidade computacional envolvida o fator limitante. Vamos considerar aqui uma tabela tridimensional (Tabela 12) composta por uma variável resposta Y (k=1: Candidato A e k=2: Candidato B) indexada por k, que poderá conter informações omissas e pelas variáveis explicativas (i=1: Período 1 e i=2: Período 2), representando dois momentos da pesquisa eleitoral, e (j = 1: Estrato 1 e j = 2: Estrato 2), definindo duas categorias relacionadas uma variável de interesse na explicação dos votos. As variáveis e sempre são observadas e indexadas por i e j, respectivamente. Seja K o número de categorias de Y e I e J o número de categorias de e , respectivamente. Uma variável indicadora dicotômica R, indexada por l, será introduzida objetivando apontar se a variável Y está sendo informada ou não. Quando R = 1, Y foi observado e quando R = 2, a informação sobre Y foi omitida.
Tabela 12: Notação das frequências observadas na tabela de contingência. Y 1 2 Sem Resp 1 1 2 2 1 2
Fonte: Elaborada pelo autor.
Os índices na notação utilizada na Tabela 12 indicam o seguinte: os números subscritos indicam os níveis de , , Y e R, respectivamente. Por
exemplo, é o número de observações no nível 1 de , nível 2 de , nível 2 de Y e nível 1 de R. Quando a informação sobre Y é desconhecida, o índice correspondente a essa variável é substituído por “+” e temos o nível 2 de R.
Montando-se a tabela de contingência de maneira que todas as celas apresentem informações de X, Y e R então, um modelo de não-resposta será não-ignorável quando possuir um termo de interação27 entre as variáveis Y e R.
A Tabela 13 mostra essa situação, destacando-se o fato de serem adotadas as “pseudo-frequências observadas” , desdobradas a partir das frequências
observadas .
Para uma tabela genérica o modelo log-linear pode assumir a forma em que é o vetor de frequências médias em cada uma das celas é uma matriz de especificação de dimensão onde é o número de celas e o número de parâmetros do modelo de tal forma que ( ) é o vetor de parâmetros com . A notação indica o vetor de dimensão em que cada componente é o logaritmo natural do correspondente componente em .
Tabela 13: Frequências e "pseudo-frequências" observadas com a introdução da variável indicadora R. R Sim Não 1 1 1 2 2 1 2 2 1 1 2 2 1 2 Fonte: Elaborada pelo autor
27 Dizemos que existe interação entre variáveis quando o efeito isolado de qualquer uma delas difere quando outras variáveis estão presentes.
Com a introdução da variável indicadora , o modelo log-linear apresentando todos os parâmetros possíveis (modelo saturado) pode ser escrito com as restrições usuais de identificabilidade28.
(1)
Esse modelo servirá como base para a imposição dos dois mecanismos de censura aqui tratados.
Dentro do contexto de modelos hierárquicos29 e sob o mecanismo de censura ignorável (representado pelos modelos MAR), o modelo log-linear apropriado pode ser expresso como uma redução da equação (1):
(2)
Esse modelo pode ser escrito na notação log-linear como com as restrições usuais de identificabilidade. Nessa situação tem-se Y e R condicionalmente independentes, dados e . Há ausência da interação de primeira ordem YR, das interações de segunda ordem e e da interação de terceira ordem .
Um mecanismo de censura não-ignorável, também a partir de uma redução da equação (1), é representado por:
(3)
28
Essas restrições obrigam que a somatória dos parâmetros em determinados níveis seja zero (Agresti, 1990).
29
A hierarquia tratada aqui se refere a ordenação de um modelo a partir da sua forma complexa até a mais parcimoniosa, ou seja, a hierarquia define o número de parâmetros a serem estimados.
escrito como , também com as restrições usuais. Aqui, e R são condicionalmente independentes dado e Y. Nessa situação, ocorreria a ausência da interação de primeira ordem , das interações de segunda ordem e e da interação de terceira ordem . A proposta desse modelo está voltada para a interação entre as variáveis respostas Y e R, significando agora que a probabilidade de censura depende dos dados ausentes.