3. LOGISTICS OPERATIONS IN DIFFERENT CONTEXTS
3.2. The Russian Arctic fields
3.2.5. Case 9. Sakhalin-2 oil and gas project
expressam a acur´acia de uma classifica¸c˜ao (Liu et al., 2007; Stehman, 1997; Trodd, 1995) como, por exemplo, a acur´acia global da classifica¸c˜ao, conforme definido abaixo.
Defini¸c˜ao 2.10 (Acur´acia da Classifica¸c˜ao (Camps-Valls e Bruzzone, 2009)) O coeficiente de acur´acia (ACC) da classifica¸c˜ao representa a propor¸c˜ao de instˆancias que foram classificadas corretamente. Pode ser calculada pela soma das instˆancias contidas na diagonal principal da matriz de confus˜ao, dividida pelo n´umero total de instˆancias usadas para construir a matriz de confus˜ao.
A acur´acia ´e algumas vezes multiplicada por cem para produzir a porcentagem de instˆancias classificadas corretamente. A medida da acur´acia n˜ao trabalha bem quando os conjuntos de dados s˜ao altamente desbalanceados (Han et al., 2011).
2.3
Medidas de Similaridade
A ideia de distˆancia ´e natural e intuitiva, e desempenha papel fundamental na pro- je¸c˜ao e compara¸c˜ao de dados multidimensionais, portanto, os principais conceitos ser˜ao apresentados a seguir.
Defini¸c˜ao 2.11 (M´etrica (Lima, 1977)) Uma m´etrica num conjunto M ´e uma fun¸c˜ao d : M × M → R, que associa a cada par ordenado de elementos x, y ∈ M um n´umero real d(x, y), chamado a distˆancia de x a y, de modo que sejam satisfeitas as seguintes condi¸c˜oes para quaisquer x, y, z∈ M:
p1) d(x, y) > 0;
p2) d(x, y) = 0⇔ x = y; p3) d(x, y) = d(y, x);
p4) d(x, z) 6 d(x, y) + d(y, z).
Os postulados acima s˜ao conhecidos como postulados de espa¸co m´etrico. Os Postula- dos p1 e p2 afirmam que a distˆancia ´e um valor sempre positivo, ou nulo quando x = y. O Postulado p3 afirma que a distˆancia d(x, y) ´e uma fun¸c˜ao sim´etrica das vari´aveis x, y. O Postulado p4 chama-se desigualdade triangular e tem origem no fato de que, no espa¸co Euclidiano de dimens˜ao finita, o comprimento de um dos lados de um triˆangulo nunca excede a soma dos outros dois.
Defini¸c˜ao 2.12 (Espa¸co M´etrico (Lima, 1977)) Um espa¸co m´etrico ´e um par (M , d), no qual M 6= ∅ ´e um conjunto e d ´e uma m´etrica em M.
Cada elemento de um espa¸co m´etrico ´e referido como um ponto desse espa¸co, seja ele um ponto, um n´umero, um vetor ou uma fun¸c˜ao, situa¸c˜oes que se verificam comumente.
Tamb´em ´e comum, salvo quando houver possibilidade de d´uvida, nos referirmos ape- nas ao “espa¸co m´etrico M ”, ficando subentendida a m´etrica que est´a sendo considerada, usualmente, a Euclidiana.
Quanto `as m´etricas existentes, cada uma delas tem diferentes caracter´ısticas e apli- ca¸c˜oes. Sua escolha deve levar em considera¸c˜ao a natureza dos dados envolvidos e o tipo de an´alise a ser realizada (Zezula et al., 2005). Um t´ıpico exemplo ´e a fam´ılia de m´etricas de Minkowski, assim definida:
d(x, y) = n X i=1 |xi− yi|k !1 k , k = 1, ...,∞, (2.2)
onde k ´e um parˆametro que modifica a m´etrica, gerando uma fam´ılia de medidas de distˆancia. Quando k = 1, por exemplo, obt´em-se a m´etrica Manhattan ou m´etrica City block : d(x, y) = n X i=1 |xi− yi|. (2.3)
Quando k = 2, ela se torna a m´etrica Euclidiana cl´assica, a qual ´e tipicamente usada para descrever a distˆancia entre dois objetos no espa¸co Euclidiano:
d(x, y) = n X i=1 (xi− yi)2 !1 2 . (2.4)
Quando k =∞, obt´em-se a m´etrica do M´aximo: d(x, y) = maxn
i=1|xi− yi|. (2.5)
Dependendo da quantidade de valores retornados pela fun¸c˜ao de distˆancia, as m´etricas podem ser divididas em dois grupos (Zezula et al., 2005):
❼ Discretas - quando a fun¸c˜ao de distˆancia retorna somente alguns valores pr´e- definidos. Um representante desta categoria ´e a m´etrica “zero-um”, uma das mais simples existentes, definida como:
d : M × M → R, tal que d(x, x) = 0 e d(x, y) = 1 se x 6= y.
❼ Cont´ınuas - quando a cardinalidade do conjunto de valores retornado ´e muito alta ou infinita. Como ´e o caso da distˆancia Euclidiana sobre os pontos de uma reta, por exemplo.
Esta tese n˜ao pretende explorar os v´arios tipos de m´etricas existentes. Para este fim, os trabalhos de Lima (1977), Zezula et al. (2005) e Zhang (2008) podem ser consultados.
2.3 Medidas de Similaridade 21 No entanto, ´e importante destacar que, dependendo da natureza dos dados envolvidos, nem sempre uma m´etrica, satisfazendo os Postulados p1 a p4 da Defini¸c˜ao 2.11, ´e a melhor forma de expressar a semelhan¸ca ou a diferen¸ca entre objetos do dom´ınio em estudo.
Um exemplo t´ıpico ´e a distˆancia edit (Levenshtein, 1965), usada para medir a proxi- midade entre cadeias de caracteres, a qual n˜ao satisfaz a propriedade da simetria (Pos- tulado p3). Neste caso, a fun¸c˜ao de distˆancia ´e conhecida como uma quasi-m´etrica, ou seja:
Defini¸c˜ao 2.13 (Quasi-M´etrica (Lima, 1977)) Uma quasi-m´etrica num conjunto M ´e uma fun¸c˜ao real d : M× M → R que satisfaz as condi¸c˜oes de uma m´etrica, salvo o fato de que pode ocorrer d(x, y)6= d(y, x).
De modo similar, quando a fun¸c˜ao de distˆancia n˜ao satisfaz o Postulado p2, a fun¸c˜ao ´e conhecida como uma pseudo-m´etrica:
Defini¸c˜ao 2.14 (Pseudo-M´etrica (Lima, 1977)) Uma pseudo-m´etrica num conjunto M ´e uma fun¸c˜ao real d : M × M → R que satisfaz as condi¸c˜oes de uma m´etrica, exceto que pode ocorrer d(x, y) = 0 com x6= y.
Neste ´ultimo caso, M ´e conhecido como um espa¸co pseudo-m´etrico. Para mais detalhes sobre espa¸cos m´etricos, veja Domingues (1982) e Lima (1977).
Com base na discuss˜ao anterior, surge naturalmente um novo conceito, mais abrangente que o de distˆancia para comparar dois objetos, o de similaridade. Neste contexto, os objetos podem ser quaisquer tipos de dados: elementos de um espa¸co ve- torial, elementos de um espa¸co m´etrico, dados relativos a texto, dados de imagem, ou quaisquer dados abstratos, tais como:
(a) O n´umero de sintomas compartilhados por dois pacientes. (b) O grau de parentesco entre duas pessoas.
(c) O custo de transporte de mercadorias entre duas cidades.
(d) A frequˆencia relativa de palavras compartilhadas por dois documentos.
Defini¸c˜ao 2.15 (Medida de Similaridade (Zhang, 2008)) ´E um valor num´erico usado para indicar qu˜ao semelhantes ou similares s˜ao dois objetos, segundo algum crit´erio, normalmente uma fun¸c˜ao ou classe de compara¸c˜ao. Assim, quanto maior for a semelhan¸ca entre eles, maior ser´a seu grau de similaridade.
Em contraste `a medida de similaridade define-se a medida de dissimilaridade, usada para indicar qu˜ao diferentes s˜ao os objetos do dom´ınio em estudo. ´E comum referir-se `a medida de dissimilaridade simplesmente como distˆancia, ficando subentendido que um ou mais postulados da Defini¸c˜ao 2.11 podem n˜ao ser satisfeitos.
Defini¸c˜ao 2.16 (Busca por Similaridade (Zezula et al., 2005)) Busca por simila- ridade corresponde ao processo de obten¸c˜ao de objetos de dados ordenados pela distˆancia ou dissimilaridade de um dado objeto de consulta. ´E um tipo de ordena¸c˜ao de objetos com respeito ao objeto de consulta, onde o crit´erio de ordena¸c˜ao ´e a medida da distˆancia.
Vale lembrar ainda que, determinadas t´ecnicas requerem como entrada as dissimilari- dades entre os n objetos do conjunto de dados. Quando isto ocorre, os valores calculados s˜ao comumente armazenados em uma estrutura matricial, denominada matriz de dissimi- laridades.
Defini¸c˜ao 2.17 (Matriz de Dissimilaridades (Han et al., 2011)) Nome dado `a es- trutura que armazena a cole¸c˜ao de dissimilaridades avaliada para todos os pares de n objetos de um conjunto de dados. ´E frequentemente representada por uma matriz n× n.