Data Simulation Method - Development of an improved solution

C. List of Abbreviations

6.2 Development of an improved solution

6.2.3 Data Simulation Method

Uma tarefa equivale a uma operação de descoberta de conhecimento estando ligada a etapa de mineração de dados. Conforme visto anteriormente essas tarefas podem ser divididas em diretas e indiretas.

Os métodos de mineração de dados podem ser classificados pela função que executam ou de acordo com a classe de aplicação em que podem ser usados [DILLY, (1995)]. Cada classe de aplicação tem como base um conjunto de algoritmos a serem utilizados na extração de relações relevantes de uma base de dados, diferindo uma das outras quanto aos tipos de problemas que o algoritmo é capaz de resolver.

Nessa sessão é apresentada uma breve introdução as principais tarefas de mineração de dados: Associação, Classificação, Clustering, Regressão e Sumarização. Assim sendo descreve-se abaixo as tarefas mais comuns na realização do processo de descoberta de conhecimento.

• Classificação

• Agrupamento por afinidade ou regras de associação

• Regressão

• Clustering

• Sumarização

Duas dessas tarefas (classificação, regressão) consistem em exemplos de mineração de dados direta. As outras três são exemplos de atividades da mineração de dados indireta.

A - Classificação

Consiste em descobrir a função que mapeie um conjunto de registros em um conjunto de rótulos categóricos predefinidos denominados classes que, uma vez descoberta, tal função pode ser aplicada a novos registros de forma a prever a classe em que tais registros se enquadram.

Essa modalidade é também conhecida como regras de classificação, decisão supervisionada, aprendizado supervisionado ou processo direto [GROTH, (1997)]. Para classificar é necessário selecionar um atributo alvo, chamado variável dependente ou classe, cujo valor é usado para elaborar regras de classificação e as variáveis independentes ou atributos preditores.

A classificação utiliza dados sobre o passado para encontrar padrões significantes de forma a induzir regras sobre o futuro, isto é, regras que predizem o valor do atributo alvo, pela combinação dos valores dos atributos preditores.

O processo inicia-se com um conjunto de treinamento e com os registros pré- classificados espera-se associar cada inclusão a um código de classe, fundamentado nos valores dos atributos preditores. O sistema deve inferir regras para classificar e encontrar a descrição da classe. Ao final do processo, tem-se um modelo da base de dados capaz de classificar um número maior de registros. A precisão do resultado da classificação é medida pela taxa de erro que é o percentual de registros classificados incorretamente [BERRY et al., (2000)].

B - Agrupamento Por Afinidade ou Regras de Associação

Abrange a busca por itens que frequentemente ocorram de forma simultânea em transações do banco de dados. Um exemplo clássico e didático da aplicação dessa tarefa é na área de marketing durante um processo de descoberta de associação em sua vasta base de dados. A associação ou afinidade de grupos visa combinar itens importantes, tal que, a presença de um item em uma determinada transação pressupõe a de outro na mesma transação. Isto foi inicialmente proposto por AGRAWAL em 1993.

A tecnologia possibilitou às organizações coletar e armazenar grandes quantidades de dados, como é o caso da tecnologia de código de barras sobre os dados de venda [AGRAWAL et al., (1992)]. Segundo a revista Business Miner (1997) as grandes redes varejistas estudam as compras dos clientes para descobrir quais as vendas são normalmente realizadas ao mesmo tempo, chamando isso de market basket analysis. Essa análise pode determinar, por exemplo, os produtos que devem estar expostos juntos, objetivando incrementar as vendas.

A regra de associação é uma expressão representada na forma X => Y (X implica em

Y), em que X e Y são conjuntos de itens da base de dados; X é o antecedente da regra (lado

esquerdo) e Y é o conseqüente da regra (lado direito) e pode envolver qualquer número de itens em cada lado da regra [DILLY, (1995)]. O significado dessa regra é que as transações da base que contêm X tendem a conter Y. Um exemplo prático é afirmar que "30% dos registros que contêm X também contêm Y; 2% dos registros contêm ambos" [AGRAWAL et al., (1992)].

A regra de associação possui dois parâmetros básicos: o suporte e a confiança. Esses parâmetros limitam a quantidade de regras que serão extraídas e descrevem a qualidade delas [Para GOLDSCHMIDT, (2005)]. Considerando que os conjuntos de itens X e Y estão sendo analisados, o suporte é definido como a fração de registros que satisfaz a união dos itens no conseqüente (Y) e no antecedente (X), correspondendo à significância estatística da regra [AGRAWAL et al., (1992)]. A confiança é expressa pelo percentual de registros que satisfaz o antecedente (X) e o conseqüente (Y), medindo a força da regra ou sua precisão [AGRAWAL et al., (1992)]. No exemplo anteriormente citado, 30% é o fator de confiança e 2% é o suporte da regra. BERRY & LINOFF, (2000) definem a confiança como a freqüência com que o

relacionamento mantém-se verdadeiro na amostra de treinamento e o suporte como a freqüência com que a combinação acontece. Assim, uma associação pode se manter 100% do tempo e ter a mais alta confiança, porém pode ser de pouca utilidade se a combinação ocorrer raramente.

O problema das regras de associação é encontrar todas as que possuem o suporte e a confiança acima de um determinado valor mínimo, pois, na prática os usuários normalmente estão interessados somente num subconjunto de associações [AGRAWAL et al., (1992)]. Um dos algoritmos mais referenciados para esse método é o Apriori, nas diversas variações, tais como, o AprioriTid, DHP e Partition.

C - Regressão

Essa tarefa compreende, fundamentalmente, a busca por funções lineares ou não, que mapeiam os registros de um banco de dados em valores reais. Essa tarefa é similar à tarefa de classificação, sendo restrita apenas a atributos numéricos [GOLDSCHMIDT, (2005)]. A regressão linear é a forma mais simples de regressão, em que a função a ser abstraída a partir dos dados é uma função linear. O número de variáveis, ou atributos, envolvidos no problema varia de um caso para outro. O caso mais simples é conhecido como regressão linear bivariada, na qual uma variável aleatória Y, denominada de variável dependente é função de uma outra variável denominada independente.

. X

β

α

+ = Y _(2.6)

Nesse caso a variância da variável Y é assumida como constante, e α e β são os coeficientes de regressão linear. Esses coeficientes podem ser obtidos a partir dos dados analisados pelo método dos mínimos quadráticos, que busca minimizar o erro entre os dados reais e os dados estimados pela função.

A regressão linear múltipla é uma extensão da regressão linear bivariada envolvendo mais de uma variável independente. Nesse tipo de regressão, a variável dependente Y deve ser modelada como função linear de um vetor de características multidimensional, conforme equação a seguir.

.

X

β

α

+

+Κ

=

Y

(2.7)

O método dos mínimos quadráticos pode ser estendido para obter os coeficientes para a regressão múltipla [HAN&KEMBER, (2001)].

Existem muitos problemas em que os dados não apresentam dependência linear entre si. Nesses casos, podem ser aplicadas técnicas de regressão não linear. Pode-se citar como exemplo a regressão polinomial na qual se adiciona termos polinomiais à expressão do modelo linear. Assim, aplicando transformações às variáveis, um modelo não linear pode ser convertido em um modelo linear, que pode então, ser resolvido pelo método dos mínimos quadráticos.

D – Clustering

Esse método é utilizado para separar os registros de uma base de dados em subconjuntos ou clusters, de tal forma que os elementos de um cluster compartilhem de propriedades comuns que os distingam de elementos em outros clusters [GOLDSCHMIDT, (2005)]. O objetivo nessa tarefa é maximizar similaridades intra-cluster e minimizar similaridades inter-cluster.

Diferente da tarefa de classificação, que tem rótulos pré-definidos, a clustering precisa automaticamente identificar os grupos de dados aos que o usuário deverá atribuir rótulos [FAYYAD et al., (1996)].

É um exemplo de aprendizado não supervisionado ou indireto, cujo objetivo é agrupar tipos similares de dados ou identificar exceções [GROTH, (1997)]. O sistema tem que descobrir suas próprias classes, isto é, agrupar os dados e descobrir subconjuntos de objetos relacionados ao conjunto de treinamento, encontrando descrições de cada um desses subconjuntos [DILLY, (1995)]. Um cluster pode ser definido como um conjunto de objetos agrupados pela similaridade ou proximidade e a clustering como “a tarefa de segmentar uma população heterogênea em um número de subgrupos (ou clusters) mais homogêneos possíveis, de acordo com alguma medida” [BERRY&LINOFF, (2000)].

Quando o processo é bem sucedido, os objetos do cluster têm alta homogeneidade interna e alta heterogeneidade externa. Um exemplo disso é a geração de clusters de sintomas

de pacientes, que podem indicar diferentes doenças baseadas nas suas características. Na

clustering, diferentemente da classificação, não há classes pré-definidas. Na classificação, a

população é subdivida e associa cada registro a uma classe pré-definida, com base no modelo desenvolvido por meio de treinamento e exemplos pré-classificados. A clustering é mais geral e freqüentemente realizada como primeira etapa de outros métodos de Mineração de Dados ou de modelagem. Assim, aplica-se o modo direto para reconhecer relações nos dados e o indireto para explicar essas relações [BERRY&LINOFF, (2000)].

É aplicada em atividades de marketing para identificar os segmentos de mercado, para encontrar estruturas significantes nos dados e na descoberta de fraudes ou dados incorretos [GROTH, (1997)].

E - Sumarização

A tarefa de sumarização, também é conhecida como descrição de conceitos, consiste em identificar e apresentar, de forma concisa e compreensível, as principais características dos dados contidos em um conjunto analisado. São exemplos de aplicações envolvendo a tarefa de sumarização:

• Identificar as características dos assinantes de uma revista que reside em uma região do país, identificando a faixa salarial, o nível de escolaridades dos clientes e se possui ou não residência própria;

• Descrever o perfil dos meninos de rua, a faixa etária, se eles usam ou não drogas, e se possuem ou não irmãos.

Um conceito normalmente se refere a uma coleção de dados com pelo menos uma característica em comum. Por exemplo, clientes inadimplentes, pacientes com cardiopatias, alunos de graduação dentre muitos. Sendo assim não se pode definir sumarização como uma simples enumeração dos dados. Busca-se gerar descrições para características resumidas dos dados e possível comparação entre eles. Tais descrições são denominadas descrições de classe, quando o conceito a ser descrito se refere a uma classe de objetos.

A descrição de conceitos pode ser interpretada como uma generalização dos dados a partir das características mais relevantes dentre os registros analisados. Um método muito utilizado na descrição de conceitos denomina-se decisão orientada a atributos. Esses método

consiste da análise de medidas da teoria da informação, faz parte do algoritmo tradicional C4.5.

In document Improving Human Reliability Assessment with the help of Digital Solutions (sider 85-89)