• No results found

Durante a execução das atividades, foram verificadas algumas limitações deste trabalho, as quais podem ser abordadas como sugestões para trabalhos futuros no tema de descoberta de conhecimento em fontes aberdas:

1) O trabalho teve foco em refinação de documentos e indexação completa de documentos. Apesar das vantagens de retornar apenas uma página do do- cumento, o texto que é relevante não é separado do resto do texto da página. Assim sendo, sugere-se que atividades de trimming sejam inclusas em traba- lhos futuros.

2) Ainda pensando na estrutura do DOU, a criação de um dicionário de termos poderá auxiliar na tarefa de indexação, substituindo o full-text por uma inde- xação mais precisa, por termos de busca.

3) O DOU não é a única fonte pública disponível para a averiguação e busca de irregularidades nas contratações no Governo Federal Brasileiro. A exploração de outras bases, como por exemplo o sítio ComprasNet (www.comprasnet.gov.br) pode ser relevante para o atendimento de casos de uso que não são atendidos pela busca no DOU.

4) Além da exploração outras fontes públicas de informações, um trabalho de cruzamento de informações em mais de uma base de dados é considerada uma evolução deste trabalho.

REFERÊNCIAS BIBLIOGRÁFICAS

Associação Brasileira dos Analistas de Inteligência Competitiva, Glossário de IC. Dis- ponível em: < http://www.abraic.org.br/v2/glossario.asp>. Acesso em: 20 ago. 2010. AIRES, R. V. X.; Uso de marcadores estilísticos para a busca na Web em portu- guês. 2005. 185f. Tese (doutorado em Ciência da Computação) Universidade de São Paulo, Instituto de Ciências Matemáticas e de Computação, 2005.

ALLEE, V., The Knowledge Evolution: Expanding Organizational Intelligence , But- terworth Heinemann, Burlington-MA, USA, 1997, 296p.

BELKIN, N. J.; CROFT, W. B.; Information filtering and information retrieval: two sides of the same coin? in Magazine Communications of the ACM v. 35, n. 12 p. 29- 38,1992.

BLAIR, D. C. The challenge of commercial document retrieval, Part I: Major issues, and a framework based on search exaustivity, determinancy of representation and docu- ment collection size. Information Processing and Management v. 38, p. 237-291, 2002.

BRASIL. Imprensa Nacional. Credibilidade e Confiabilidade há mais de 148 anos, Disponível em: <http://portal.in.gov.br/noticia_imprensa/diario-oficial-da-uniao-

credibilidade-e-confiabilidade-ha-148-anos>. Acesso em: 01 dez. 2010. BRASIL. Imprensa Nacional. A imprensa nacional. Disponível em: <

http://portal.in.gov.br/in/imprensa1/a-imprensa-nacional/>. Acesso em 10 maio. 2010.

CAMBRIDGE, Cambridge Advanced Learner’s Dictionary. Cambridge: Cambridge University Press, 2003.

CARAGEA, D.; et al. Algorithms and software for collaborative discovery from autono- mous, semantically heterogeneous, distributed information sources. in ALGORITHMIC LEARNING THEORY v. 3734, p. 13-44, 2005.

CEPIK, Marco A. C. Espionagem e democracia: Agilidade e transparência como di- lemas na instutucionalização de serviços de inteligência. Rio de Janeiro: FGV, 2003. CHAPMAN, P. et al. CRISP-DM 1.0 Step-by-step data mining guide Disponível em: <http://www.crisp-dm.org/CRISPWP-0800.pdf>. Acesso em 12 maio. 2010.

CHU,H.; CHEN, M.;CHEN, Y. A semantic-based approach to content abstraction and annotation for content management. Expert Systems with Applications v. 36 p. 2360- 2376, 2009.

Central Intelligence Agency, The Intelligence Cycle. Disponível em: <

https://www.cia.gov/kids-page/6-12th-grade/who-we-are-what-we-do/the-intelligence- cycle.html>. Acesso em: 10 jul. 2010.

DAVENPORT, T. H.; PRUSAK, L. Information Ecology: Mastering The Information and Knowledge Environment. Oxford: Oxford University Press, 1997, 256p.

EGOV 2010, International EGOV Conference. Disponível em: <http://www.egov- conference.org/glossary>. Acesso em: 15 maio. 2010.

FAYYAD, U. M.;PIATETSKY-SHAPIRO, G.; SMYTH, P. The KDD Process for Extract- ing Useful Knowledge from Volumes of Data Communications of the ACM, v. 39, n. 11, p. 27-34 ACM, 1996.

FIRESTONE, J. M.; MCELROY, M. W. Key Issues In The New Knowledge Manage- ment. Butterworth-Heinemann, 2003, 350p.

FREEMAN, R. T. Topological Tree Clustering of Web Search Results, Proceedings of the 7th International Conference on Intelligent Data Engeneering and Automated Learning. p. 789-797, 2006.

GOTTSCHALK, P.; DEAN, G. Stages of knowledge management systems in policing financial crime, International Journal of Law, Crime and Justice v. 38, p. 94-108, 2010.

HERMAN, Michael. Intelligence power in peace and war. Cambridge, Cambridge University Press, 1996.

HERRING, J. P. Measuring the Effectiveness of Competitive Intelligence: As- sessing and communicating CI´s value to you organization. Alexandria (USA): SCIP,1996.

JOHNSTON, R. Analytic Culture in the US Intelligence Community – An ethno- graphic study. Washington: Central Intelligence Agency, 2005, 161 p.

LALECI, G. B.; ALUC, G.; DOGAC, A.; SINACI, A.; KILIC, O.; TUNCER, F. A Semantic Backend for Content Management Systems, Knowledge-Based Systems. v. 23 p. 832-843, 2010.

LIMA, F. Modelagem Semântica de Aplicações na WWW. Rio de Janeiro, 2003, 128f. Tese (doutorado em informática) Pontífica Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2003.

LUDASCHER, B. et al Scientific workflow management and the Kepler system in Con- currency and Computation-Practice & Experience v. 18 n. 10 p. 1039-1065, 2006.

MEO, P. D.; QUATTRONE, G.; URSINO, D. Exploitation of semantic relationships and hierarchical data structures to support a user in his annotation and browsing activities in folksonomies in Information Systems v. 34 p.511-535, 2009.

MITKAS, P. Knowledge discovery for training intelligent agents: Methodology, tools and applications in AUTONOMOUS INTELLIGENT SYSTEMS: AGENTS AND DATA MINING, Computer Science. v. 3505 p. 2-18 2005.

NASUKAWA, T.; NAGANO, T. Text Analysis and Knowledge Mining System. IBM: IBM Systems Journal, v. 40 n. 4, 2001, 18p.

NONAKA, I.; Takeuchi, H. The Knowledge-Creating Company Oxford: Oxford Univer- sity Press, 1995, 304p.

NORTON, Robert A; WEAVER, Gregory S. Open Source Intelligence, Science and Technology – A natural Nexus for Academia and the Intelligence Community. Au- burn: Auburn University, 2008.

OTAN NATO OPEN SOURCE INTELLIGENCE READER. Disponível em:

<http://www.oss.net/dynamaster/file_archive/030201/254633082e785f8fe44f546bf5c9f1

ed/NATO%20OSINT%20Reader%20FINAL%2011OCT02.pdf>. Acesso em: 10 jun.

2010.

REZENDE, S. O. J. B; PUGLIESI, E. A; MELANDA, M. F. P. Mineração de dados. In: Sistemas Inteligentes: Fundamentos e aplicações. São Paulo: Manole, 2003.

SETZER, Valdemar S. Dado, Informação, Conhecimento e Competência. São Pau- lo, 1999. Disponível em: <http://www.ime.usp.br/~vwsetzer/dado-info.html>. Acesso em 15 jun. 2010.

SIMS, Jenifer. What is Intelligence? – Information for Decision Makers In: GODSON, Roy (ed.) U.S. Intelligence and the crossroads. Agendas for reform. Brassey´s, 1995, p. 4-5.

STEELE, Robert. On Intelligence – Spies and Secrecy in a Open World. OSS Inter- national Press, 2001.

TAN, Ah-Hwee. Text Mining: the state of the art and the challenges. In: Pacific-Asia Workshop on Knowledge Discovery from Advanced Databases – PAKDD’99, Bei- jing, Text Mining 1999.

TERRA, J. C. C.; SCHOUERI, R.; VOGEL, M. J. M.; FRANCO, C. Taxonomia: ele- mento fundamental para a Gestão do Conhecimento. Terra Fórum, 2004. Disponível em: <www.terraforum.com.br>. Acesso em 20 mai. 2011.

 

WIVES, L. K. Tecnologias de Descoberta de Conhecimento em Textos Aplicada à Inte‐ ligência Competitiva. 2000. 116f. Exame de Qualificação (mestrado em ciências da compu‐ tação). Universidade Federal do Rio Grande do Sul, Instituto de Informática, 2002.

ANEXOS

ANEXO A – DETALHAMENTO DO CRISP-DM

I. Entendendo o negócio

I.1. Determinar os objetivos do negócio Tarefa

Determinar os objetivos do negócio. O primeiro objetivo do analista de da- dos é entender completamente, de uma perspectiva empresarial, o que o clien- te realmente quer. Geralmente, o cliente tem muitos objetivos e limitações que devem ser balanceados corretamente. O objetivo do analista, a principio, é le- vantar requisitos importantes que podem influenciar no andamento do projeto. Caso se descuide deste passo um grande esforço poderá ser gasto produzindo respostas para as perguntas erradas.

Resultados

Plano de Fundo. Registre a informação que é conhecida sobre a situação do negócio da organização ao iniciar o projeto.

Objetivos do Negócio. Descreva o objetivo inicial do cliente a partir de uma perspectiva empresarial. Além deste objetivo, o cliente tem outras questões re- lacionadas ao negócio. Por exemplo, a meta empresarial primária poderia ser manter os clientes atuais, prevendo quando eles são propensos a irem para um concorrente.

Critério de Sucesso do Negócio. Descreve os critérios para um resultado bem sucedido ou útil ao projeto do ponto de vista empresarial. Isto poderia ser bastante específico e possível de ser medido objetivamente, como redução de clientes de certo nível, ou geral e subjetivamente como “fornecer dados úteis nos relacionamentos”. No último caso deve ser indicado alguém para fazer o julgamento subjetivo.

I.2. Avaliando a situação Tarefa

sobre tudo dos recursos, limitações, suposições e outros fatores que deveriam ser considerados quando determinando o objetivo da análise de dados e o pla- no de projeto. As tarefas anteriores devem ser rapidamente obtidas para que se chegue ao objetivo principal.

Resultados

Inventário de Recursos. Liste os recursos disponíveis para o projeto, incluin- do: pessoal (negócio peritos, peritos de dados, apoio técnico, pessoal do data

minning), dados (extratos fixos, tenha acesso livre ao depósito de dados ou da-

dos operacionais), recursos computacionais (plataformas de hardware) e sof- tware (ferramentas data minnig, outro software pertinente).

Exigências, suposições e limitações. Liste todas as exigências do projeto in- clusive tempo de conclusão, abrangências, qualidade dos resultados e segu- rança, como também assuntos legais. Liste as suposições feitas pelo projeto. Estas podem ser suposições sobre os dados que podem ser conferidas durante a mineração dos dados (data minning), mas também pode incluir suposições de não-checagem do negócio no qual o projeto está. É particularmente impor- tante listar isso se influir na validez dos resultados. Liste as limitações no proje- to. Estas podem ser limitações na disponibilidade de recursos, mas também podem incluir limitações tecnológicas como o tamanho dos dados para torná- los fáceis de modelar.

Riscos e contingências. Liste os riscos ou eventos que poderiam acontecer, fazendo com que o projeto demorasse ou causasse alguma falha. Liste os pla- nos de contingência correspondentes; que ação será tomada se os riscos acontecerem.

Terminologia. Compile um glossário de terminologia pertinente ao projeto. Isto pode incluir dois componentes:

• um glossário de terminologia relevante do negócio, do qual forma parte a compreensão empresarial disponível ao projeto. A constru- ção deste glossário será útil na “edificação do conhecimento” e exercício de educação;

• um glossário de terminologia data minning, ilustrada com exemplos, pertinente ao problema empresarial em questão.

Custos e Benefícios. Construa uma análise de custo-benefício para o projeto, que compare os custos do projeto com o benefício potencial para o negócio se tudo ocorrer como o esperado. A comparação deveria ser tão específica quanto possível.

I.3. Determinar objetivos do data minning Tarefa

Determinar objetivos do data minning. Uma meta empresarial declara objeti- vos na terminologia empresarial. Uma meta de mineração de dados declara ob- jetivos do projeto em termos técnicos. Por exemplo, a meta empresarial poderia ser “aumentar o catálogo da vendas a clientes existentes”. Uma meta do data

minning, poderia ser “prever quanto um cliente irá comprar ao informar dados

sobre suas compras durante os últimos três anos, informação demográfica (idade, salário, cidade, etc.) e o preço do produto.”

Resultados

Objetivos do data mining. Descreva os resultados do projeto desejados que permite a realização dos objetivos de negócio.

Critério do sucesso do data mining. Definir o critério para um resultado prós- pero para o projeto em temos técnicos, por exemplo um certo nível de exatidão na predição ou uma tendência de adquirir perfis com um determinado grau de detalhamento. Assim para o sucesso empresarial, pode ser necessário descre- ver estes em condições subjetivas, na qual caso a pessoa ou pessoas que fa- çam o julgamento subjetivo, devessem ser identificadas.

I.4. Produzindo um plano de projeto Tarefa

Produzindo um plano de projeto. Descreva o plano para alcançar os objeti- vos do data mining e assim alcançar os objetivos de negócio. O plano deveria especificar o conjunto de passos a serem executados durante o resto do proje- to desde a seleção inicial de ferramentas e técnicas.

Resultados

Plano de Projeto. Liste os estágios a serem executadas no projeto, juntamente com duração, recursos requeridos, entradas, resultados e dependências. Faça explicitamente várias iterações nos processos data mining como, por exemplo,

repetições da modelagem e fases de avaliação. Como parte do plano de proje- to, é também importante analisar dependências entre tempo e riscos. Como a parte do plano de projeto, é também importante analisar dependências entre o cronograma e os riscos. Insira os resultados destas análises explicitamente no plano do projeto com ações e recomendações caso os riscos apareçam. Nota: o plano de projeto contém planos detalhados para cada fase. Por exemplo, de- cida neste momento qual estratégia de avaliação será usada na fase de avalia- ção. O plano de projeto é um documento dinâmico, ou seja, ao fim de cada fa- se uma avaliação do progresso e das realizações é necessária e uma atualiza- ção do plano de projeto é adequadamente recomendada.

Avaliação inicial de ferramentas e técnicas. Ao término da primeira fase, o projeto executa também uma avaliação inicial de ferramentas e técnicas. Aqui, é selecionada, por exemplo, uma ferramenta de data mining que suporte vários métodos para os diferentes estágios do processo. É importante avaliar ferra- mentas e técnicas ao inicio do processo, pois a seleção de ferramentas e técni- cas influencia em todo o projeto.

II. Entendimento dos dados

II.1. Coleta inicial dos dados Tarefa

Coleta inicial dos Dados. Adquira no projeto os dados (ou acesso aos dados) listados nos recursos do projeto. Esta coleta inicial inclui computar os dados para compreendê-los. Por exemplo, aplica uma ferramenta específica para en- tendimento de dados, faz perfeito sentido carregar seus dados nesta ferramen- ta. Este esforço possivelmente conduz a passos de preparação de dados inici- ais. Nota: se adquirir fontes de dados múltiplas, a integração é um esforço adi- cional, aqui ou na e fase de preparação de dados mais à frente.

Resultados

Relatório da coleta inicial dos dados. Descreva a série de dados adquirida, juntamente com suas posições no projeto, os métodos usados adquiri-los e to- dos os problemas encontrados. Armazene os problemas e suas devidas solu- ções para ajudar com a execução futura de projetos similares.

Tarefa

Descrição dos dados. Examine as propriedades "bruta" e "superficial" dos da- dos adquiridos e relate os resultados.

Resultados

Relatório da descrição dos dados. Descreva os dados que adquiridos, inclu- indo seu formato, a quantidade, por exemplo, número de registros e campos nas tabelas, as identidades dos campos e qualquer outra característica superfi- cial dos dados que foram descobertos. Os dados adquiridos satisfazem as exi-

gências?

II.3. Exploração de dados Tarefa

Exploração de dados. Esta tarefa pega as questões data mining que podem ser manipuladas examinando, visualizando e relatando. Estas incluem: distri- buição de atributos chaves, relações entre pares ou números pequenos de atri- butos, resultados de agregações simples, propriedades de sub-populações sig- nificantes, simples análises estatísticas. Estas análises podem dirigir direta- mente os objetivos data mining.

Resultados

Relatos da exploração de dados. Descreva resultados desta tarefa incluindo primeiro achados ou hipóteses iniciais e o impacto delas no restante do projeto. Se apropriado, inclua gráficos e diagramas que indiquem características dos dados ou levem a subconjuntos de dados interessantes para um exame adicio- nal.

II.4. Verificando a qualidade dos dados Tarefa

Verificando a qualidade dos dados. Examine a qualidade dos dados e fazen- do perguntas como: o dado cobre todos os casos desejados? Ele é correto ou contém erros e se há erros como comumente eles são? Há perdas de valores nos dados? Nesse caso como são eles representados, onde eles acontecem e como comumente eles são?

Resultados

lidade dos dados; se existe problema de qualidade, liste possíveis soluções. Soluções para problemas de qualidade de dados geralmente dependem forte- mente dos dados e conhecimento do negócio.

III. Preparação dos dados

III.1. Selecionando os dados Tarefa

Selecionando os dados. Decida os dados a serem usados para a análise. Os critérios incluem a relevância dos objetivos da data mining, qualidades técnicas tais como limites no volume dos dados ou nos tipos dos dados. Note que a se- leção dos dados cobre a seleção dos atributos (colunas) como também a sele- ção dos registros (linhas) em uma tabela.

Resultados

Racionalização para inclusão/ exclusão. Liste os dados a serem incluí- dos/excluídos e as razões para tais decisões.

III.2. Limpe os dados Tarefa

Limpe os dados. Aumente a qualidade dos dados para o nível requerido pelas técnicas da análise selecionadas. Isto pode envolver a seleção de subconjun- tos limpos dos dados, a inserção de opções apropriadas ou de técnicas de mais âmbito tais como a estimativa de dados ausentes.

Resultados

Relatório da limpeza de dados. O relatório da limpeza de dados descreve que decisões e ações foram tomadas para se dirigir os problemas da qualidade dos dados relatados durante a tarefa de verificação da qualidade dos dados na fase de entendimento dos dados.

III.3. Construindo dados Tarefa

Construindo dados. Esta tarefa inclui a preparação de dados construtivos tais como a produção de atributos derivados, de registros inteiramente novos ou va- lores transformados para atributos existentes.

Atributos derivados. Atributos derivados são os atributos novos que são cons- truídos de um ou mais atributos existentes no mesmo registro.

Registros gerados. Descrevem a criação de registros completamente novos.

III.4. Integrar dados Tarefa

Integrar dados. Estes são métodos onde a informação é combinada de várias tabelas ou registros para criar novos valores ou registros.

Resultados

Dados combinados. Tabelas Combinadas consistem em juntar duas ou mais tabelas que têm informações diferentes a respeito dos mesmos objetos.

III.5. Formatar os dados Tarefa

Formatar os dados. Transformações de formatos se referem primeiramente a transformações sintáticas feitas nos os dados que não mudam seu signifi- cado, mas podem ser requisitadas pela ferramenta de modelagem.

Resultados

Dados reformatados. Algumas ferramentas têm requisitos na ordem dos atributos tais como o primeiro campo ser um único identificador para cada re- gistro ou o último campo ser o resultado que o modelo precisa.

IV. Modelagem

IV.1. Selecionando a técnica de modelagem Tarefa

Selecionando a técnica de modelagem. A primeira etapa para modelar é selecionar a técnica de modelagem que deve ser usada. Visto que você pos- sivelmente já selecionou uma ferramenta de modelagem, este tarefa consiste especificamente na técnica de modelagem.

Resultados

Técnica de modelagem. Documentar a técnica de modelagem que será usa- da.

IV.2. Gerar design de teste Tarefa

Gerar design de teste. Antes de realmente construir um modelo, precisamos gerar procedimentos ou mecanismos para testar a qualidade e validade do modelo.

Resultados

Design de teste. Descrever o plano pretendido para treinamento, teste e vali- dação do modelo. Um componente primário do plano é decidir como dividir o conjunto de dados disponível para o treino dos dados, teste dos dados e vali- dação dos conjuntos de dados.

IV.3. Construir o modelo Tarefa

Construir o modelo. Execute a ferramenta de modelagem no conjunto de dados preparados para criar um ou mais modelos.

Resultados

Ajustes de parâmetros. Com qualquer ferramenta de modelagem, geralmen- te tem-se um largo número de parâmetros que podem ser ajustados. Liste os parâmetros e os valores escolhidos, juntamente com a razão para a escolha dos ajustes de parâmetros.

Modelos. São os reais modelos produzidos pela ferramenta de modelagem, não um relatório.

Descrição dos modelos. Descrever o modelo resultante. Relatar a interpre- tação do modelo e documente qualquer dificuldade encontrada juntamente com seu significado.

IV.4. Avaliar o modelo Tarefa

Avaliar o modelo. O engenheiro da mineração de dados interpreta os mode- los de acordo com o domínio do seu conhecimento, o critério de sucesso da mineração de dados e o teste de design desejado. Esta tarefa interfere na fa- se de validação subseqüente. Onde o engenheiro da Mineração de Dados jul- ga o sucesso da aplicação de modelagem e descobrimento de técnicas, ele

contata o analista de negócios e especialista no domínio mais tarde para dis- cutir os resultados da mineração de dados no contexto do negócio. Esta tarefa somente considera modelos onde a fase de validação também leva em conta todos os outros resultados que foram produzidos no decorrer do processo. O