• No results found

Dado um “vetor de caracter´ısticas” x e c “classes”, ω1,ω2, ...,ωc, formam-se c “probabilidades condicionais” P(ωi|x), i = 1,2,...,c, tamb´em conhecidas como “probabilidades a posteriori”. Cada uma delas representa a probabilidade de que o padr˜ao desconhecido pertenc¸a `a respectiva classe

ωi, considerando-se que o correspondente vetor de caracter´ısticas adquira o valor x. O objetivo do classificador Bayesiano ´e calcular o m´aximo desses c valores usando o teorema de Bayes (Box e Tiao, 1973; Duda et al., 2001; Theodoridis e Koutroumbas, 1998):

Pj|x) =

p(x|ωj)P(ωj)

p(x) . (4.1)

A f´ormula de Bayes mostra que com o valor observado de x ´e poss´ıvel se converter a proba- bilidade a priori P(ωj) em uma probabilidade a posteriori P(ωj|x). Denomina-se p(x|ωj) como a verossimilhanc¸a deωjem relac¸˜ao a x. O fator de evidˆencia, p(x), pode ser visto meramente como um fator de escala que garante que a soma das probabilidades a posteriori seja 1.

Para minimizar a taxa de erro, deve-se selecionar o i que maximiza a probabilidade a posteriori Pi|x). Em outras palavras, para se determinar a taxa m´ınima de erro:

4.2. CLASSIFICAC¸ ˜AO BAYESIANA 45 Uma dificuldade para o uso do classificador Bayesiano ´e definir o modelo a ser utilizado como func¸˜ao de densidade (verossimilhanc¸a). Uma soluc¸˜ao consiste no uso de m´ultiplos modelos (Gel- fand et al., 1992; Gelfand e Dey, 1994) o que implicaria calcular uma m´edia de modelos (Carlin e Louis, 1996) ou ranking de modelos (Madigan e Raftery, 1994). Em geral, o processo de selec¸˜ao do modelo ´e arbitr´ario na tentativa de eleger um modelo que fornec¸a uma explicac¸˜ao confi´avel dos da- dos. Entre as func¸˜oes de densidade, podemos citar a normal, Dirichlet, lognormal, gamma, Poisson, entre outras.

4.2.1

Classificac¸˜ao por densidade normal

Embora a regra de decis˜ao Bayesiana n˜ao seja uma func¸˜ao discriminante, ela equivale a parti- cionar o espac¸o de caracter´ısticas em c regi˜oes, para um problema de c classes. Se as regi˜oes Rie Rj s˜ao cont´ıguas, isso significa que elas est˜ao separadas por uma superf´ıcie de decis˜ao no espac¸o de caracter´ısticas multidimensional. Essas separac¸˜oes podem ser definidas em termos de func¸˜oes discriminantes gi(x), onde: gi(x) = P(ωi|x) = p(x|ωi)P(ωi) ∑c j=1p(x|ωj)P(ωj) , (4.3) gi(x) = ln p(x|ωi) + ln P(ωi). (4.4)

Uma das mais comuns func¸˜oes de verossimilhanc¸a encontradas na pr´atica ´e a Gaussiana, ou func¸˜ao de densidade normal. Uma das maiores raz˜oes da sua popularidade est´a relacionada ao seu f´acil tratamento computacional e ao fato de ela modelar adequadamente uma grande quantidade de casos, especialmente aqueles ligados a fenˆomenos naturais (Huxley, 1993). A densidade normal ´e completamente determinada pelos valores num´ericos de dois parˆametros, a m´edia µ e a variˆancia

σ2. Quando se trabalha com um alto n´umero de vari´aveis ela ´e denominada densidade normal

multivariada: p(x) = 1 (2π)d/2|Σ|1/2exp · −12(x −µ)tΣ−1(x −µ) ¸ , (4.5)

onde x ´e um vetor coluna d-dimensional, µ ´e o vetor m´edia d-dimensional, Σ ´e a matriz de co- variˆancia de dimens˜ao d×d, e |Σ| eΣ−1s˜ao sua determinante e inversa, respectivamente. Verifica-se que(x −µ)t corresponde `a transposta de xµ.

Finalmente, utilizando-se as normais multivariadas (Equac¸˜ao 4.5) dentro das func¸˜oes discrimi- nantes (Equac¸˜ao 4.4), isto ´e, se p(x |ωi) ∼ N(µii), as discriminantes multivariadas resultam na seguinte equac¸˜ao: gi(x) = −1 2(x −µi) tΣ−1 i (x −µi) − d 2ln 2π− 1 2ln|Σi| + lnP(ωi). (4.6) Esta equac¸˜ao ´e completamente definida somete por dois parˆametros: o vetor m´edia µie a matriz de covariˆanciaΣi.

Similaridade de imagens

Depois de o elemento x ter sido designado a uma classe ωi usando-se o classificador Bayesi- ano com func¸˜ao de verossimilhanc¸a normal, o passo seguinte consiste em se determinar o n´ıvel de similaridade entre a imagem de consulta e a esp´ecie designada. Nesse sentido, ´e preciso se calcu- lar o elemento prot´otipo de cada classe, o qual corresponde ao vetor m´ediaµ da densidade normal. Considerando-se um conjunto de treinamento constitu´ıdo pelos exemplos x1, ..., xn, o prot´otipo deste conjunto ser´a o vetor m´edia dos exemplos. Assim, adotou-se este prot´otipo como o elemento mais representativo para cada classe.

A distˆancia de Mahalanobis (Duda et al., 2001; Theodoridis e Koutroumbas, 1998) pode ser usada como medida de similaridade entre o elemento x, classificado na classeωi, e o seu prot´otipo

µi correspondente. Esta distˆancia ´e adequada para dados multivariados normais, que como carac- ter´ıstica est˜ao agrupados ao redor do vetor m´edia µ, formando uma nuvem de formato elipsoidal cujos eixos principais s˜ao os autovetores da matriz de covariˆancia Σ. Assim, a medida natural da distˆancia de x para a m´ediaµ ´e dada por:

r2= (x −µ)tΣ−1(x −µ). (4.7)

Por este motivo, o classificador Bayesiano que usa como func¸˜ao de verossimilhanc¸a a normal, foi denominado neste trabalho como classificador por similaridade.

4.2.2

Classificac¸˜ao por m´etodos n˜ao param´etricos

Algumas dificuldades podem se apresentar com os m´etodos parametricos como a distribuic¸˜ao normal. Por exemplo, se houver um acr´escimo no desvio padr˜ao da classeωi(σω2i) e um incremento

4.2. CLASSIFICAC¸ ˜AO BAYESIANA 47 no n´umero de classes (c), isso ir´a afetar sensivelmente a forma da func¸˜ao de densidade, o que implica que os parˆametros desse modelo n˜ao ser˜ao totalmente identificados a partir dos dados. Alguns desses problemas e poss´ıveis soluc¸˜oes s˜ao discutidos por West (1992) e Diebolt e Robert (1994).

A alternativa aos modelos param´etricos ´e o uso de procedimentos n˜ao param´etricos de an´alise de densidade. Isto implica que a distribuic¸˜ao a ser usada seja indicada a partir dos dados (Salinas-Torres et al., 2002; Carlin e Louis, 1996). Nesse sentido, Pereira e Stern (1999, 2001) introduziram o teste de significˆancia genuinamente Bayesiano (FBST - Full Bayesian Significance Test), o qual utiliza apenas a distribuic¸˜ao a posteriori na avaliac¸˜ao da evidˆencia em favor da hip´otese. Esse teste embute o popular processo a priori Dirichlet, introduzido por Ferguson (1973), o qual ´e uma generalizac¸˜ao multivariada da distribuic¸˜ao beta.

A func¸˜ao de densidade de probabilidade da distribuic¸˜ao Dirichlet de ordem K ´e um vetor K- dimensional com um conjunto de vetores x= (x1, ..., xK) e com xi≥ 0:

f(x;α) ∼ K

i=1 xα1−1 i δ Ã 1 K

i=1 xi ! (4.8)

ondeα = (α1, ...,αK) ´e um vetor parˆametro comαi≥ 0. O delta Diracδ assegura que a densidade n˜ao seja zero

K

i=1

xi= 1. (4.9)

A constante de normalizac¸˜ao ´e a func¸˜ao beta multinomial, a qual ´e expressa em termos da func¸˜ao gamma: ∏K i=1Γ(αi) Γ¡ ∑K i=1αi¢ = B( α). (4.10)

Ent˜ao, a densidade pode ser escrita como a func¸˜ao:

g(x;α) = 1 B(α) K

i=1 xαi−1 i (4.11)

tendo como dom´ınio o conjunto de vetores x com K-componentes reais n˜ao negativos com|x|1= 1. A classificac¸˜ao dos elementos ´e feita a partir da matriz de freq¨uˆencias amostrais de cada carac- ter´ıstica, onde as linhas representam as classes e as colunas representam os cortes de classificac¸˜ao

(definidas pelos percentis). Com a matriz de freq¨uˆencia, aplica-se a distribuic¸˜ao de Dirichlet de ordem C (n´umero de classes) com vetor da distribuic¸˜ao a priori (π1, ...,πC), onde ∑Ci=1πi= 2. O resultado dessa operac¸˜ao ´e uma matriz C×C que representa a distribuic¸˜ao conjunta de classificac¸˜ao e classe. Com esses dados, pode-se obter as probabilidades a posteriori de um elemento pertencer a uma classe tendo recebido uma determinada classificac¸˜ao (Pereira, 2006).