• No results found

CAPÍTULO 4 –AVALIAÇÃO DE INCERTEZAS EM ANÁLISES QUALITATIVAS

A análise qualitativa ou a examinação de uma propriedade nominal ou qualitativa1 é um processo de classificação de objetos ou materiais. Desta forma, a cada amostra analisada é atribuída uma determinada classe com base em análises realizadas de acordo com critérios previamente estabelecidos (Ellison e col., 1998). Como tal, os resultados obtidos neste tipo de análise são caracterizados pela sua natureza binária, isto é, sim/não, presente/ausente ou amostra positiva/amostra negativa. As análises qualitativas podem ser divididas em dois grupos, o primeiro envolve a produção de informação quantitativa prévia e o segundo só envolve a avaliação de propriedades nominais (Ríos e col., 2003). Habitualmente, numa examinação que envolve a produção de indicações2 quantitativas (por exemplo sinais instrumentais) são empregues técnicas analíticas poderosas como a espetrometria de massa ou a cromatografia, ou mesmo, ambas as técnicas hifenadas. Estas técnicas analíticas geram uma grande quantidade de sinais que requerem um tratamento adicional, normalmente, processados por programas informáticos dedicados que convertem esses dados numa resposta binária. Por outro lado, a análise qualitativa obtida através de sistemas de kits de testes rápidos onde o resultado envolve uma resposta binária que é obtida de forma direta. Esses resultados são tipicamente assentes em critérios previamente estabelecidos como, por exemplo, limites impostos na legislação.

Independentemente da técnica analítica utilizada na análise qualitativa, uma identificação é sempre uma classificação feita com base na observação de uma ou mais evidências e, como qualquer outro método analítico, também estes devem ser validados. A precisão e veracidade destas avaliações são sem dúvida mais importantes que as das análises quantitativas, uma vez que qualquer análise quantitativa é realizada partindo do pressuposto que a identidade do analito é verdadeira (Ellison e col., 1998). Contudo, a possibilidade de erro na identificação do analito deve ser sempre considerada, mesmo quando são respeitadas todas as regras e boas práticas de análise. Na realidade e, de uma forma geral, uma identificação qualitativa não pode ser garantida como correta. Assim, na análise qualitativa dois tipos de erro devem ser tidos em consideração. O primeiro, denominado de falso positivo, ocorre quando são observadas evidências específicas de um item pertencer a uma classe e, na realidade, não pertence a essa classe. O segundo tipo de erro é o falso negativo que ocorre quando não são observadas a(s) evidência(s) características da classe a que o item pertence. Por todas estas razões, é de extrema importância que na interpretação desses resultados sejam

1 De acordo com a definição existente no Vocabulário Internacional de Metrologia para propriedade

qualitativa – propriedade dum fenómeno, corpo ou substância a qual não pode ser expressa quantitativamente (IPQ, 2012).

2 De acordo com a definição existente no Vocabulário Internacional de Metrologia para indicação – valor

consideradas todas as fontes de incertezas relevantes. Porém, a incerteza do resultado de uma avaliação qualitativa não pode ser expressa do mesmo modo que na análise quantitativa, isto é, como um parâmetro que caracteriza a dispersão dos resultados atribuídos à resposta "verdadeira". Assim, surgiu a necessidade de encontrar uma forma de medir a qualidade dos resultados qualitativos obtidos. Estes são expressos sob a forma da probabilidade do resultado ser correto. Alguns dos parâmetros de desempenho do método mais relevantes para a interpretação dos resultados qualitativos são a seletividade ou especificidade, limite de deteção e a taxa de falsos positivos e de falsos negativos.

Existem várias metodologias estatísticas que podem ser utilizadas para avaliar a incerteza associada a um resultado qualitativo como, por exemplo, a teoria de Dempster-Shafer, a teoria dos fatores de certeza, a teoria de fuzzy-set, o teorema de Bayes, tabelas de contingência, intervalos estatísticos e curvas de desempenho. Todas estas soluções apresentam vantagens e desvantagens na sua aplicação (Ellison e col., 1998; Pulido e col., 2003). Apesar da falta de consenso sobre qual a melhor metodologia para este fim, é certo que, independentemente da solução adotada, esta deve produzir estimativas fiáveis da qualidade do resultado qualitativo, permitir a atualização com base em mais informação analítica e considerar a probabilidade dos dois tipos de erro atrás definidos. Outras características desejáveis são a facilidade de cálculo, a clareza dos princípios (especialmente na apresentação dos resultados) e a ampla aceitação (Ellison e col., 1998). Assim, com base nestes critérios, as métricas do teorema de Bayes são consideradas as mais adequadas para um uso generalizado, dado que são baseadas em estatística simples, combinam a informação dos dois tipos de erros da análise qualitativa (taxas de falsos positivos e de falsos negativos) num único parâmetro e podem ser usadas para estimar a melhoria da qualidade das examinações através da combinação de evidências independentes de cada ocorrência (Bettencourt da Silva e col., 2014). A todas estas razões, soma-se o facto de o teorema de Bayes ser amplamente utilizado na estimativa deste tipo de incertezas no domínio da análise forense (Evett, 1986; Ellison e col., 1998; Ellison, 2000; Aitken e Taroni, 2004).

Face ao exposto, neste trabalho apenas serão abordadas as métricas de Bayes. Para isso será empregue a nomenclatura descrita por Ellison e utilizada por Pulido e por Bettencourt da Silva (Ellison e col., 1998; Pulido e col., 2003; Bettencourt da Silva e col., 2014).

1. TEOREMA DE BAYES

O teorema de Bayes é o método mais antigo para expressar e atualizar a probabilidade de uma resposta dicotómica. A fórmula canónica do teorema de Bayes é dada pela Equação 4.1.

onde: representa a ocorrência da característica em estudo; a ausência da característica em estudo; representa a evidência da característica; é a probabilidade da ocorrência da característica, também denominada a probabilidade a priori; é probabilidade condicional da ocorrência da característica perante a evidência da mesma; é a probabilidade condicional da ocorrência da evidência na presença da característica.

Note-se que de todas as probabilidades descritas na Equação 4.1, a mais difícil de quantificar é a – probabilidade a priori. Esta dificuldade é menor quando existe algum historial de resultados que suporta o cálculo da mesma. No entanto, em muitas situações os dados recolhidos não têm a dimensão e o âmbito que permita a produção de estimativas fiáveis de . Porém, nessas situações o teorema de Bayes apresenta uma forma alternativa de cálculo da incerteza da examinação, baseada unicamente na ponderação das evidências analíticas que envolve o cálculo de razões de verosimilhança que será descrita de seguida (Equação 4.3).

A Equação 4.1 pode ser reescrita em termos da ausência da característica (ver Equação 4.2).

Dividindo a Equação 4.1 pela Equação 4.2, obtemos o teorema de Bayes na forma de distribuições (odds) (Equação 4.3).

O termo da equação anterior é conhecido como a distribuição a posteriori, geralmente representado por . De forma semelhante, o quociente representa a distribuição a priori, designada por . Por último, o quociente é, frequentemente, denominada por razão de verosimilhança, representada por .

Assim, a Equação 4.3 pode ser apresentada da seguinte forma (ver Equação 4.4).

A razão de verosimilhança tem sido aplicada com sucesso na área da análise forense para a avaliação da incerteza da examinação, centrando o debate no peso da evidência técnica e deixando para o tribunal a decisão de julgar as probabilidades a priori decorrentes das circunstâncias em que as provas foram adquiridas (Aitken e Taroni, 2004).

Note-se que as duas formas de expressar o teorema de Bayes (na forma de probabilidades ou de distribuições) podem ser relacionadas através da Equação 4.5.

No caso particular de existirem várias evidências da ocorrência da característica, a distribuição a posteriori, dada por evidências é dada através da Equação 4.6.

onde

e representa a razão de verosimilhança associada à evidência .

Um aspeto particularmente útil do teorema de Bayes (Equação 4.1) é a sua insensibilidade a múltiplas fontes de probabilidade a priori. Neste contexto, quando se combinam duas ou mais evidências da ocorrência da característica através de examinações independentes, a probabilidade a posteriori de uma examinação é utilizada como a probabilidade a priori da examinação seguinte. (IPQ, 2012)

De acordo com alguns autores a forma mais usual de expressar a qualidade de uma examinação é através da razão de verosimilhança, dado que este parâmetro não necessita do conhecimento da probabilidade a priori da ocorrência da característica (Ellison e col., 1998; AFSP, 2009; Martire e col., 2014). Contudo, esses autores sugerem que a expressão da seja realizada, não na forma numérica mas sim na forma de texto, propondo para isso uma tabela de conversão (ver Tabela 4.1).

Tabela 4.1. Correspondência entre os valores numéricos e nominais da razão de verosimilhança

(adaptado de Martire e col., 2014).

Expressão numérica da Expressão nominal da

Fraca ou limitada Moderada Moderadamente forte Forte Muito forte Extremamente forte

Neste trabalho todos os métodos quimiométricos estudados serão avaliados individualmente através da taxa de sucesso ( ) e razão de verosimilhança ( ). Também os dois modelos desenvolvidos serão avaliados através destes parâmetros, tendo sido definida uma mínima de que correspondente ao limite inferior de evidências designadas de extremamente forte de acordo com a classificação definida pela Association of Forensic Science Providers. Este valor alvo de pode ser convertido num valor mínimo de , de para probabilidades de ocorrência da característica ( ) de . Caso seja diferente será necessário realizar a devida correspondência; por exemplo, se o valor alvo de é .