• No results found

Information Security focus within Board of Directors

Data Mining (DM), ou mineração de dados, é o processo de extração de conhecimento

proveniente de grandes bases de dados. Suas técnicas aplicam métodos de computação avançada para descobrir relações desconhecidas. Sumarizam resultados de análises ob- servadas em conjuntos de dados e mostram relações claras e entendíveis entre os dados [68].

A mineração de dados necessita de uma abordagem padrão que irá ajudar a traduzir problemas de negócios em tarefas de mineração de dados, sugerindo transformações de dados e técnicas apropriadas para fornecer os meios para avaliar a eficácia dos resultados e documentar a experiência [88].

O CRoss Industry Standard Process for Data Mining (CRISP-DM) é resultado de um estudo1 que define um modelo de processo que fornece uma estrutura para a realização de

projetos de mineração de dados que independe do setor da indústria e da tecnologia uti- lizada. Este modelo consiste em seis fases entendidas como um processo cíclico conforme figura 2.6.

A seguir uma descrição de cada fase do modelo CRISP-DM [60]:

• Entendimento do Negócio: inclui determinar os objetivos de negócio, avaliação da situação atual, o estabelecimento de metas de mineração de dados, e o desenvolvi- mento de um plano de projeto de mineração;

• Seleção dos dados: uma vez que os objetivos de negócio e o plano de projeto são es- tabelecidos, a compreensão dos dados é considerada como requisito na fase seguinte. Esta etapa pode incluir a coleta inicial de dados, descrição de dados, exploração de dados e a verificação da qualidade dos dados. A exploração de dados, tais como a visualização de estatísticas de resumo (que inclui a exibição visual de variáveis categóricas) pode ocorrer no final desta fase. Modelos como análise de agrupamen- tos podem também ser aplicados durante esta fase, com a intenção de identificar padrões nos dados;

1

O modelo de processo CRISP-DM está sendo desenvolvido por um consórcio que abrange as principais empresas usuárias e fornecedoras das técnicas de mineração de dados, a saber: DaimlerChrysler AG, SPSS, NCR, e OHRA. O projeto foi patrocinado em parte pela Comissão Europeia no âmbito do Programa ESPRIT (Projeto de número 24959)

Figura 2.6: Fases do CRoss Industry Standard Process for Data Mining (CRISP-DM) (adaptada [60]).

• Limpeza dos Dados: uma vez que os recursos de dados disponíveis são identificados, eles precisam ser selecionados, “limpos”, construídos na forma desejada e formatados adequadamente (transformados). A exploração dos dados com maior profundidade pode ser aplicada durante esta fase, e modelos adicionais utilizados, novamente proporcionando a oportunidade de observar padrões baseados na compreensão do negócio;

• Modelagem dos dados: ferramentas de software de mineração de dados, que per- mitem a visualização (plotagem de dados e estabelecimento de relações) e também análise de cluster (para identificar quais as variáveis estão agrupadas em classes comuns), são úteis para a análise inicial. Ferramentas de indução de regras gerais podem ser utilizadas para a detecção de variáveis que estão associadas. Adquirida uma maior compreensão dos dados (muitas vezes obtida com o reconhecimento de um padrão através de observações das informações), os modelos mais adequados para os tipos de dados podem ser aplicados. A divisão de dados em conjuntos de treinamento e teste também é necessária para a modelagem;

• Avaliação do Processo: os resultados do modelo devem ser avaliados no contexto dos objetivos de negócio estabelecidos na primeira fase (entendimento do negócio). Isso vai levar à identificação de outras necessidades (muitas vezes através de reconhe-

cimento de padrões), frequentemente remetendo à fases anteriores do CRISP-DM. Trata-se de um processo iterativo de mineração de dados, onde os resultados de várias visualizações, estatísticas e ferramentas de inteligência artificial mostram ao usuário novas relações que fornecem uma compreensão mais profunda das operações organizacionais;

• Execução: através da descoberta de conhecimentos obtidos nas fases anteriores do processo CRISP-DM, os modelos podem ser aplicados às operações comerciais para muitas finalidades, incluindo a identificação ou previsão de situações importantes. Os modelos de mineração testados com utilização do CRISP-DM precisam ser moni- torados para mudanças nas condições operacionais, pois o que pode ser verdade hoje pode não ser verdade depois de um ano. Se mudanças significativas ocorrerem, o modelo deve ser refeito. Também é sabido que registros de resultados de projetos de mineração de dados devem estar disponíveis para comprovações e também para a realização de estudos futuros [60].

Ao trabalhar com DM é necessário entender o que se deseja, ou seja, a tarefa e quais técnicas de Mineração serão utilizadas. Temos basicamente quatro técnicas, a saber [89]:

Classificação: técnica de aprendizagem que apresenta um conjunto de dados, amostra com exemplos, que devem subsidiar a classificação de um conjunto de dados desconhecidos. É também chamada de análise supervisionada porque opera sob a supervisão de dados reais como exemplos. A intenção é conseguir estabelecer uma capacidade de predição, criando um modelo através dos dados de exemplo (trei- namento), gerando um resultado de inferência sobre determinada classe de dados quando um conjunto de informações desconhecidas for utilizado com entrada; • Associação: técnica de aprendizagem que busca uma associação entre algumas

características em conjuntos de dados;

Agrupamento (clustering): técnica de aprendizagem que busca encontrar, num conjunto de dados, elementos que estão agrupados de alguma forma.

Predição numérica: técnica de aprendizagem para prever grandezas numéricas (não discretas).

Dentre os métodos de Mineração de Dados, capazes de fazer o reconhecimento de padrões (classificação), podem-se citar as populares árvores de decisão, as máquinas de suporte de vetores, Support Vector Machines (SVM), os métodos estatísticos, as redes neurais, os algoritmos genéticos e as meta-heurísticas de uma forma geral.