• No results found

Ulike forklaringer, ulike forklaringstyper

In document ”Vi lekker i alle retninger” (sider 59-65)

4 Frafallsprosesser: beskrivelse og fortolkning

4.2 Grunnlag for diagnoser om medlemsfrafall

4.2.2 Ulike forklaringer, ulike forklaringstyper

Existe na literatura um vasto conjunto de ferramentas desenvolvidas e empregues na LC. Desta feita apresentamos abaixo algumas ferramentas utilizadas no desenvolvimento ou utilização de Corpus.

2.2.3.1 WordSmith Tools

O programa WordSmith Tools é um artefacto eletrónico utilizado para realizar análise linguís- tica de Corpora. Desenvolvido por Mike Scott em 1996, WordSmith Tools não faz a seleção do material a ser trabalhado, cabe ao pesquisador ter o material organizado para a análise que deseja realizar. Sendo por isso todo o processo metodológico e documental da responsabilidade do pesquisador, incluindo a delimitação do material e a organização temática dos Subcorpora. Por este facto quando utilizado WordSmith Tools é necessário em um primeiro momento da pesquisa, utilizar um outro programa para seleção dos documentos [Cra16].

O referido artefacto consiste de três ferramentas principais: Concord (concordanciador), Wor- dList (gerador de lista de palavras) e Keywords (extrator de palavras-chave).

A ferramenta WordList permite, através da contagem de palavras, a criação de listas de pala- vras. Por sua vez as listas mostram a frequência com que cada palavra foi encontrada nos textos e em quantos textos foi encontrada. É possível ainda organizar as listas por ordem alfabética ou por ordem de frequência. Com a KeyWords, obtém-se listas de palavras-chave de textos através da comparação da lista de frequências de ocorrências de palavras dos textos em estudo com a lista de frequências de ocorrências de palavras em um conjunto de textos de referência. Já a ferramenta Concord permite a produção de concordâncias em que todas as ocorrências de uma palavra ou de um conjunto de palavras são listadas. Demonstrando-se possível produzir concor- dâncias diretamente a partir das ferramentas WordList e KeyWords, selecionando palavras das listagens geradas pelas duas ferramentas [Sil08].

Fazendo parte também outros utilitários como Collocates (apresenta os colocados da palavra de busca), Clusters (relaciona os agrupamentos em que aparece a palavra de busca); Aligner (alinha dois textos, dentre outros) [Cra16].

2.2.3.2 Unitex

Unitex é um sistema open-source de processamento de Corpus, desenvolvido inicialmente na

Universidade Paris-Est Marne-la-Vallée (França), e baseado na teoria dos autómatos. Sendo muito utilizado em aplicações de PLN. A ferramenta Unitex foi desenvolvida em Java, em conjunto com os programas em C permite que seja altamente portável, sem perdas significativas de desempenho durante o processamento do Corpus. Esta ferramenta oferece recursos que são agrupados em quatro funcionalidades principais [CJVS+15]:

2. Dicionários de Apoio: utilizados, entre outras tarefas, para flexionar palavras automatica- mente (alguns dos quais utilizados no Portal Min@s).

3. listagem de Frequências.

4. Concordanciador: baseado em dicionários e autómatos. 5. Gerenciador de gramáticas.

O Unitex oferece algumas limitações: Efetua buscas baseadas em lemas e classes gramaticais, porém sem a eliminação de ambiguidade. E apenas um texto ou Corpus pode ser aberto de cada vez [Pau15].

Entre os recursos linguísticos oferecidos estão dicionários e tabelas do léxico-gramática (matri- zes binárias nas quais as linhas são ocupadas por entradas do léxico e nas colunas são explicitadas as propriedades sintático-semânticas de cada entrada lexical).

2.2.3.3 Philologic

Philologic é um conjunto de ferramentas para processamento de Corpus, desenvolvida pelo

projeto ARTFL (American and French Research on the Treasury of the French Language) na universidade de Chicago. A ferramenta suporta anotações que são usadas em buscas por crité- rios bibliográficos, tais como: título, autor e data de publicação. O Philologic dispõe de uma interface Web que facilita sua utilização e a criação de Subcorpora. Requer a instalação de um servidor web e software adicionais em um ambiente Linux, requisitos, tornam a instalação complexa e de difícil execução para muitos usuários [Sil08] e [Alu].

A ferramenta Web ou o conjunto de ferramentas, tornam-no capaz de atender a diversos usuários simultaneamente. O Philologic contém algumas funcionalidades que podem ser agrupadas em três grandes grupos:

1. Concordâncias.

2. Frequências e Colocações. 3. Gerenciamento de Subcorpus.

A ferramenta oferece ainda recursos para Corpus multimodais. Textos obedecem ao padrão

Text Encoding Initiative Lite (TEI Lite), mas podem ser personalizados até um certo limite.

Empregando também um recurso para normalização ortográfica e utilizado em Corpus históricos ou em Corpus com erros de grafia através da ferramenta AGREP15 permitindo de igual modo que as concordâncias sejam refinadas por parâmetros bibliográficos, fornecidos pelo cabeçalho

TEI em cada texto. Sendo de difícil instalação por requerer um servidor Web e possuir diversas

dependências [CJVS+15].

2.2.3.4 Datumbox

Datumbox é uma plataforma de aprendizagem de máquinas, desenvolvida e mantida por Vasilis Vryniotis, que se concentra em PLN. A plataforma Datumbox possui uma variedade de funções

acessíveis através da API REST, incluindo análise de sentimentos, análise de sentimento de

Twitter, deteção de idioma, deteção Comercial e educacional, extração de palavras-chave,

similaridade documental [FMMG+16].

A parte central do projeto consiste em cerca de 30000 linhas de código. O código está licen- ciado sob a Licença Apache, Versão 2.0, facilitando a clonagem do repositório para testes. O

Datumbox Machine Learning Framework é uma estrutura de código aberto escrita em Java que

permite o rápido desenvolvimento das aplicações de Aprendizado de Máquinas e Estatísticas. O foco principal da estrutura é incluir uma grande quantidade de algoritmos de aprendizado de máquinas e testes estatísticos e ser capaz de lidar com conjuntos de dados de grande porte [Fra15]. Quanto aos detalhes técnicos, a Datumbox API é um serviço Web que permite usar suas ferramentas no site, software ou aplicativo móvel do utilizador. Fornecendo acesso a todas as funções suportadas pelo serviço. É disponibilizada na página Datumbox todas as informações necessárias para usar a API, amostras de código totalmente implementadas e a mais recente documentação da API. Sendo a versão atual da API a 1.0v. E para fazer uso da mesma o usuário deve registrar-se, criando uma conta Datumbox a fim de obter a chave API correspondente ao perfil criado [Fra15]. A API permite que o usuário crie aplicativos que façam uso de técnicas de Análise de Texto e Processamento de Linguagem Natural, como Ferramentas de Marketing On- line, Ferramentas de SEO, Serviços de Monitoramento de Mídia Social, Filtros Anti-Spam e outros aplicativos de Classificação de Texto. As funções da API atualmente suportadas são: Análise do Sentimento, Análise do Sentimento do Twitter, Análise de Subjetividade, Classificação de Tópi- cos, Deteção de Spam, Deteção de Conteúdo para Adultos, Avaliação de Legibilidade, Deteção de Idioma, Deteção Comercial, Deteção Educacional, Deteção de Género, Extração de Texto e Similaridade de Documentos [Fra15].

In document ”Vi lekker i alle retninger” (sider 59-65)