3. LOGISTICS OPERATIONS IN DIFFERENT CONTEXTS
3.2. The Russian Arctic fields
3.2.4. Case 8. Sakhalin-1 oil and gas project
varia¸c˜ao (CV), tamb´em conhecido como variabilidade relativa ´e a medida que indica a dispers˜ao com respeito `a m´edia, definido como:
CV = σ µ,
onde σ ´e o desvio-padr˜ao e µ ´e a m´edia da distribui¸c˜ao.
O coeficiente de varia¸c˜ao ´e, essencialmente, uma compara¸c˜ao relativa do desvio-padr˜ao com a m´edia. ´E particularmente ´util ao comparar valores de desvio-padr˜ao calculados a partir de diferentes m´edias (Black, 2009). Al´em disso, o CV apresenta algumas carac- ter´ısticas favor´aveis que o tornam ideal para uso neste trabalho: ele ´e independente de unidade de medida e da escala dos dados (Lovie, 2005).
2.2
Classifica¸c˜ao e Detec¸c˜ao de Agrupamentos
A comunidade que estuda problemas relacionados `a aprendizagem de m´aquina divide os problemas de aprendizagem em v´arias categorias. Em an´alise de dados, duas categorias s˜ao particularmente importantes: os m´etodos baseados em aprendizagem supervisionada e os baseados em aprendizagem n˜ao supervisionada. Classifica¸c˜ao, normalmente, ´e uma tarefa supervisionada, enquanto que detec¸c˜ao de agrupamentos ´e, em geral, n˜ao supervi- sionada (Han et al., 2011; Maimon e Rokach, 2010). Tarefas de classifica¸c˜ao e detec¸c˜ao de agrupamentos fazem parte de algumas t´ecnicas apresentadas nesta tese, por este motivo, os conceitos ser˜ao apresentados abaixo.
M´etodos supervisionados tentam descobrir um relacionamento entre valores conheci- dos (por exemplo, um conjunto de dados com r´otulos de classe pr´e-definidos) e valores desconhecidos (instˆancias de dados onde os r´otulos de classe n˜ao s˜ao conhecidos). Os da- dos contendo os valores conhecidos s˜ao chamadas de dados de treinamento, e o relaciona- mento procurado ´e chamado de modelo. Usualmente os modelos descrevem ou explicam fenˆomenos, os quais est˜ao ocultos no conjunto de dados e, principalmente, s˜ao utilizados para predizer valores futuros nos dados (por exemplo, rotular futuras instˆancias de dados fornecidas, com base nas classes existentes).
O processo supervisionado descrito acima caracteriza um processo de classifica¸c˜ao e o modelo constitui um modelo de classifica¸c˜ao ou classificador. Depois que o modelo ´e treinado ou constru´ıdo a partir do conjunto de treinamento, ele deve ser avaliado usando um conjunto de testes para verificar sua acur´acia.
Defini¸c˜ao 2.5 (Classifica¸c˜ao (Han et al., 2011)) Classifica¸c˜ao ´e o processo de en- contrar um modelo (ou fun¸c˜ao) que descreve e distingue classes de objetos. Os modelos s˜ao baseados na an´alise de um conjunto de treinamento, onde os r´otulos de classe s˜ao conhecidos. O modelo ´e ent˜ao, usado para predizer o r´otulo de classe de novos objetos.
Defini¸c˜ao 2.6 (Classificador) O modelo (ou fun¸c˜ao) empregado na classifica¸c˜ao chama-se modelo de predi¸c˜ao, modelo de classifica¸c˜ao ou simplesmente um classificador.
Em m´etodos n˜ao supervisionados, os dados usados para aprendizagem n˜ao possuem valores conhecidos. Neste caso, o pr´oprio algoritmo de aprendizagem precisa encontrar estruturas ocultas ou regularidades nos dados. Caso t´ıpico de aprendizagem n˜ao super- visionada s˜ao os algoritmos de detec¸c˜ao de agrupamentos, os quais organizam instˆancias em grupos segundo suas similaridades (ou diferen¸cas).
Defini¸c˜ao 2.7 (Detec¸c˜ao de Agrupamentos (Tan et al., 2005)) ´E um m´etodo de aprendizagem n˜ao supervisionado que tenta encontrar grupos de objetos, tal que os objetos em um mesmo grupo sejam similares (ou relacionados) entre si e, diferentes de (ou n˜ao relacionados a) objetos de outros grupos.
A Figura 2.1 ilustra a ideia de agrupamento de dados do ponto de vista geom´etrico, enfatizando a proximidade entre objetos do mesmo grupo, bem como o afastamento entre objetos pertencentes a diferentes grupos. Note que as instˆancias s˜ao organizadas de modo a representar a popula¸c˜ao que est´a sendo amostrada, ou seja, se S ´e um conjunto de amostras organizado em k grupos, C1, ..., Ck, ent˜ao:
S = k [ i=1
Ci e Ci∩ Cj =∅, para i 6= j.
Como consequˆencia, qualquer instˆancia de S pertence a um e somente um grupo Ci.
Figura 2.1: Agrupamentos de dados, mostrando as distˆancias intra e intergrupos (Modificado de Tan et al. (2005)).
Al´em dos modelos de aprendizagem supervisionado e n˜ao supervisionado apresentados nesta se¸c˜ao, existe tamb´em o modelo que se apoia em um pequeno n´umero de instˆancias rotuladas e em um grande n´umero de instˆancias n˜ao rotuladas. Este modelo ´e conhecido como aprendizagem semissupervisionada (Liu, 2011).
2.2 Classifica¸c˜ao e Detec¸c˜ao de Agrupamentos 17 2.2.1 Qualidade dos Agrupamentos
Uma das medidas mais usadas para avaliar a qualidade dos agrupamentos obtidos ´e a medida da silhueta. A silhueta combina duas medidas conhecidas: coes˜ao e separa¸c˜ao. Defini¸c˜ao 2.8 (Medida da Silhueta (Rousseeuw, 1987)) Seja i um objeto contido no grupo A de um conjunto de dados, o valor da silhueta si pode ser calculado do seguinte modo:
1. Quando o grupo A cont´em outros objetos al´em do objeto i, calcula-se ai = dissimilaridade m´edia de i a todos os outros objetos de A (coes˜ao); 2. Para todo grupo C diferente de A, calcula-se
d(i, C) = dissimilaridade m´edia de i a todos os objetos de C (separa¸c˜ao), obtendo-se bi = min
A6=C d(i, C);
3. O n´umero si ´e obtido combinando-se ai e bi, conforme segue: si =
bi− ai max(ai, bi)
.
A Figura 2.2 ilustra o c´alculo da medida da silhueta para o objeto i ∈ A. Quando o grupo A cont´em somente um objeto, o c´alculo de ai´e incerto, logo, si deve ser considerado igual a zero. Nesta tese, os resultados da silhueta apresentados, indicados por Silh, correspondem `a m´edia das silhuetas para todos os objetos i do conjunto de dados, ou seja: Silh= 1 n n X i=1 si.
Esta medida ´e conhecida como largura m´edia de silhueta (Rousseeuw, 1987).
Figura 2.2: Elementos envolvidos no c´alculo da silhueta para o objeto i pertencente ao grupo A(Retirado de Rousseeuw (1987)).
O valor da silhueta pode variar entre [−1, 1]. Valores negativos s˜ao indesejados porque correspondem ao caso em que ai, a m´edia das dissimilaridades para objetos no grupo, ´e
maior do que bi, o m´ınimo das dissimilaridades m´edias para objetos em outros grupos. Em outras palavras, quanto maior o valor da silhueta, melhor ser´a a coes˜ao e a separa¸c˜ao, ou seja, instˆancias pertencentes ao mesmo grupo estar˜ao mais pr´oximas umas das outras, e ainda, grupos distintos estar˜ao mais afastados. ´E um coeficiente sens´ıvel a pequenas varia¸c˜oes, isto significa que um pequeno aumento em seu valor (mesmo na 3a ou 4a casa decimal) pode implicar em agrupamentos muito mais separados e coesos. Para mais informa¸c˜oes sobre a medida da silhueta veja Rousseeuw (1987) e Tan et al. (2005).
Outra medida de avalia¸c˜ao empregada neste trabalho ´e a matriz de confus˜ao, comu- mente utilizada para verificar a acur´acia em tarefas de classifica¸c˜ao de dados.
Defini¸c˜ao 2.9 (Matriz de Confus˜ao (Camps-Valls e Bruzzone, 2009))
Matriz de confus˜ao ´e uma simples tabula¸c˜ao que cruza os r´otulos das classes reais e preditas, observados para as instˆancias contidas em um conjunto de testes, tal que a diagonal principal da matriz indica o n´umero de instˆancias alocadas corretamente em cada classe, enquanto que as demais posi¸c˜oes indicam o n´umero de instˆancias alocadas incorretamente.
A Figura 2.3 ilustra o processo de c´alculo da matriz de confus˜ao a partir de instˆancias previamente classificadas.
Uma matriz de confus˜ao apropriadamente constru´ıda pode fornecer um simples sum´ario da acur´acia da classifica¸c˜ao e destacar dois tipos de erros de classifica¸c˜ao que po- dem ocorrer: omiss˜ao (instˆancias de uma classe incorretamente alocadas em outra classe, portanto, omitidas da classe de interesse) e concess˜ao (instˆancias de outra classe incorre- tamente alocadas na classe de interesse, portanto, concedidas para a classe de interesse) (Camps-Valls e Bruzzone, 2009).
(a) (b) (c)
Figura 2.3: Processo de c´alculo da matriz de confus˜ao: (a) Visualiza¸c˜ao de grupos e classi- fica¸c˜ao das instˆancias; (b) R´otulos das classes reais/preditas para as instˆancias do conjunto de dados; (c) Tabula¸c˜ao cruzando os r´otulos das classes reais e preditas para produzir uma matriz de confus˜ao (Modificado de Camps-Valls e Bruzzone (2009)).
2.3 Medidas de Similaridade 19