De início, foram designados vários nomes para o ato de se achar padrões úteis em dados não estruturados: Data Mining, Extração de Conhecimento, Descoberta de Informação, Mineração de Dados e Processamento do Padrão de Dados. No entanto, a partir de 1989, o termo "Descoberta de Conhecimento em Base de Dados" (KDD – Knowledge Discovery in Databases) foi utilizado para se referir ao processo total de procurar conhecimentos em dados com a aplicação de técnicas de Data Mining (FAYYAD; SMYTH , 1996).
O foco central de Data Mining – DM – ou Mineração de Dados é como transformar dados armazenados em conhecimento, expresso em termos de formalismos de representação, tal como regras e relações entre dados, existindo conhecimento que pode ser extraído diretamente de dados sem o uso de qualquer técnica e o implícito na Base de
Dados, sob forma de relações entre itens de dados que, para ser extraído, é necessário o desenvolvimento de técnicas especiais, como as ferramentas OLAP (BIGUS, 1996).
Neste contexto, DM foi conceituada por Dilly (1995) como um conjunto de técnicas para identificar informações valiosas que podem ser usadas em áreas de apoio à decisão, predição e estimativa. Os dados geralmente são volumosos, mas de baixo valor para uso direto, pois as informações implícitas nestes dados é que são úteis.
Berry & Linoff (1997) definem DM como a exploração e análise, por meio automático ou semi-automático, de grandes quantidades de dados para descobrir padrões e regras, envolvendo a transformação dos dados em informação, a informação em ação e a ação em valor.
Para Groth (1997), DM é o processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados, usando-as para efetuar decisões cruciais. O DM vai muito além da simples consulta a um banco de dados, já que permite aos usuários explorar e inferir informação útil a partir dos dados, descobrindo relacionamentos escondidos no banco de dados.
Não visão de Cabena & Hadjnian (1997), DM consiste no processo de extrair informação implícita, previamente desconhecida e potencialmente útil, desde as grandes bases de dados, usando-as para a tomada de decisão. O autor ainda afirma que um dos principais objetivos de DM é descobrir regras, relacionamentos e padrões globais inexplorados. Além de propor várias maneiras de resolver problemas de classificação ou previsão, combinando técnicas de área: Algoritmos, Inteligência Artificial, Aprendizagem Automática e Banco de Dados.
Na concepção de Witten & Frank (2000), DM é uma tecnologia com grande potencial para auxiliar as organizações a extrair as informações mais importantes
provenientes dos seus bancos de dados, predizendo padrões e comportamentos futuros, respondendo a questões que tomariam muito tempo para serem resolvidas, possibilitando as melhores decisões de negócio apoiadas em conhecimento.
Contudo, transformar os dados em informações, os quais possam auxiliar a tomada de decisão é um processo complexo IBM (2000) e, segundo Bigus (1996), consiste em três passos, ilustrados na figura 2:
Figura 3: Processo de Data Mining (BIGUS, 1996)
O primeiro passo do processo consiste no pré-processamento dos dados, onde existe uma seleção, limpeza e a retirada das informações de menor relevância. Esta fase ainda se preocupa com a estratégia de manuseio dos dados perdidos ou inconsistentes. No caso de persistência após este processo de dados erros ou inconsistentes, os resultados podem ser de baixa qualidade. O segundo passo da fase de Data Mining no núcleo do processo é quando
comportamento da base de dados. Para que esta fase seja realizada, é necessário aplicar uma ou mais técnicas para se extrair o tipo de informação desejada. Na terceira e última fase, é validado o conhecimento extraído da base de dados, que são identificados e interpretados os padrões, transformados em conhecimentos que possam apoiar as decisões da empresa (BIGUS, 1996).
Para que o processo de DM seja executado, existe a necessidade da elaboração de um modelo de DM, o qual envolve a escolha e aplicação de técnicas de DM sobre os dados selecionados. Técnicas diferentes podem ser aplicadas para o mesmo problema e, por vezes, exige formatos de dados diferentes, sugerindo prováveis retornos à fase de preparação. A avaliação do modelo é realizada para determinar se algum conhecimento adicional foi descoberto ou se as hipóteses foram confirmadas. Deve-se identificar as informações úteis, observando sua incorporação aos processos de negócio e, mais importante, quem usará essas informações Para conferir o desempenho do modelo, aplica- se uma estimativa à coleção final de registros pré-classificados. Após este passo, fecha-se o ciclo de DM e novas hipóteses podem ser formuladas, reiniciando o processo (BERRY; LINOFF, 1997).
Segundo Dilly (1995), existem vários modelos de DM, os quais podem ser classificados de acordo com a função que exercem ou com a classe de aplicação para qual são usados. Cada classe de aplicação tem como base um conjunto de algoritmos utilizados na extração de relações de uma base de dados. Os principais métodos de DM são Classificação, Associação, Agrupamento e Previsão de séries Seqüenciais - Temporais.
O método da Classificação consiste na localização de propriedades comuns entre um conjunto de objetos em um Banco de Dados e posteriormente os classifica em diferentes classes predefinidas, de acordo com o modelo de classificação, seguindo os exemplos de tarefas de classificação (WITTEN & FRANK, 2000):
• Atribuir palavras-chave a artigos jornalísticos;
• Classificar pedidos de créditos como baixo, médio e alto risco;
• Determinar o número correspondente ao fax;
• Esclarecer pedidos de seguro fraudulentos; e
• Atribuir códigos industriais e designações de trabalho com descrições livres.
Esta classificação pode ser feita, utilizando-se técnicas como árvore de decisão, redes neurais com aprendizado supervisionado, raciocínio baseado em casos ou geração de regras. Os algoritmos classificadores utilizam-se de exemplos para determinar um número de parâmetros codificados em um modelo, que será utilizado para a discriminação do restante dos dados. Uma vez que o algoritmo classificador foi desenvolvido de forma eficiente, será usado para classificar novos registros nas mesmas classes pré-definidas (WITTEN & FRANK, 2000).
Já o método da Associação extrai conhecimento a partir de exemplos, construindo representações compreensíveis ao ser humano. A representação utilizada é uma regra, indicando o quanto a presença de um conjunto de itens está relacionada com a presença de outro conjunto de itens distintos nos mesmos registros (AGRAWAL; SRIKANT, 1994).
Em um processo de mineração de dados, usando Associação, um elevado número de regras pode ser encontrado. As regras podem representar alguma particularidade de uma transação ou não serem relevantes diante do número total de exemplos fornecidos. Assim, para realizar a mineração de regras de associação, se faz necessário encontrar as combinações de itens que possuem suporte acima do suporte mínimo e usar essas combinações para gerar as regras (AGRAWAL; SRIKANT, 1994).
Segundo Willet (1998), o agrupamento separa automaticamente elementos em classes que serão identificadas durante o processo. Além disso, cria as classes por meio da organização dos elementos. Geralmente, a técnica de agrupamento vem associada a alguma técnica de descrição de conceitos, para identificar os atributos de cada classe. Esta posterior identificação das classes por meio de suas características é chamada de Cluster Analysis. Dada uma classe de documentos textuais e uma categoria associada a esta classe (por exemplo, tema ou assunto dos textos), procura-se encontrar as características principais destas classes, as quais possam identificá-las e distingui-las das demais. Esta abordagem segue geralmente as técnicas para construção do centróide de classes, diferente da abordagem por listas de conceitos-chave, porque descobre características comuns em vários textos e não em um único texto.
Por fim, os padrões seqüenciais temporais procuram eventos ou compras que ocorrem seqüencialmente em um período de tempo, determinando tendências (DILLY, 1995). Uma aplicação típica é a venda por mala direta, que agrega os dados sobre os produtos adquiridos em cada compra. A descoberta de seqüência analisará este conjunto e detectará padrões de produtos comprados durante um determinado tempo. Pode ser útil também para identificar os itens que precedem a compra de um determinado produto (IBM, 1996).