• No results found

Tilhørighet

In document Ålesund - liv laga? (sider 116-120)

5 Empiri og analyse

5.5 Kvaliteter ved Ålesund

5.5.6 Tilhørighet

De autoria de Mike Scott41e publicado pela Oxford University Press em 1999, a suíte WordSmith Tools 3.042 possui várias aplicações e, por isso, tem-se tornado, nas palavras de Berber Sardinha, ―uma referência para pesquisadores que utilizam programas computacionais para analisar textos‖. (2005, p. 184)

Trata-se de um conjunto de ferramentas e de utilitários desenvolvido para o sistema operacional Windows, dentre os quais destaco três programas por terem colaborado na análise dos dados desta pesquisa: lista de palavras (WordList), lista de palavras-chave (KeyWords) e concordanciador (Concord).

Com o primeiro, WordList, é possível obter dois tipos de listas: uma alfabética (A) e outra frequencial (F). Em adição, o programa exibe uma janela na qual são apresentadas as estatísticas dos dados usados na produção das listas (BERBER SARDINHA, 2004, p. 91).

A segunda ferramenta, KeyWords, permite contrastar a lista de frequência de palavras do corpus de estudo com a lista de frequência de palavras do corpus de referência (BERBER SARDINHA, 2004, pág. 96). O resultado é justamente a lista de palavras-chave do

corpus de estudo. Estas, por sua vez, são classificadas em positivas e negativas.

No primeiro caso, a frequência de ocorrência das palavras do corpus de estudo (frequência relativa) é maior que a do corpus de referência (frequência absoluta). As negativas correspondem ao processo inverso: a frequência absoluta é maior que a relativa.

O terceiro e último programa listado aqui, Concord, produz listas de ocorrências de um (ou mais) item(ns), chamado(s) de palavra(s) de busca ou nódulo, acompanhado de seu

______________ 41

Universidade de Liverpool, no Reino Unido.

42

respectivo cotexto (texto que vem à direita e à esquerda do nódulo). É possível determinar, no programa, o tamanho do horizonte (extensão) do cotexto (BERBER SARDINHA, 2004, p. 105). Portanto, o programa KeyWords é baseado em um método estatístico43.

Para efeito de didatismo, figuras ilustrando todos esses programas serão apresentadas adiante (figuras 52, 54 e 55), ainda neste capítulo, à medida que o passo a passo metodológico for sendo descrito. Por ora, a fim de expor todo o ferramental, utilitários e instrumentos disponíveis no WordSmith Tools 3.0, bem como suas funções, reproduzo, a seguir, um quadro adaptado por Berber Sardinha (1999) apud Perrotti-Garcia (2009, p. 48):

WORDSMTIH TOOLS 3.0

O WordSmith Tools é composto por (a) ferramentas, (b) utilitários, (c) instrumentos e (d) funções. Há três ferramentas e quatro utilitários, nomeadamente (entre parênteses está a designação em inglês, tal qual aparece na suíte):

(a) Ferramentas: WordList; KeyWords; Concord.

(b) Utilitários: Renamer; Text Converter; Splitter; Viewer.

(c) Instrumentos de análise disponíveis (com os nomes em inglês entre parênteses): WordList:

1. Lista de palavras individuais (wordlist).

2. Lista de multipalavras (wordlist, clusters activated).

3. Lista de palavras de consistência individuais (detailed consistency).

4. Lista de multipalavras de consistência (detailed consistency, clusters activated). 5. Lista de dimensões e densidade lexical (statistics).

Concord:

1. Concordância (concordance). 2. Lista de colocados (collocates).

―continua‖

______________

43 A metodologia estatística fundamenta seus resultados na frequência de ocorrência de um item, entre

outras medidas de natureza similar, como desvio-padrão, análise probabilística etc. (para mais detalhes, vide OLIVEIRA, 2009a).

WORDSMTIH TOOLS 3.0 3. Lista de agrupamentos lexicais (clusters).

4. Lista de padrões de colocados (patterns).

5. Gráfico de distribuição da palavra de busca (plot). KeyWords:

1.1. Lista de palavras-chave (keywords).

2. Banco de dados de listas de palavras-chave (database). 3. Lista de palavras-chave chave (key keywords).

4. Lista de palavras-chave associadas (associates). 5. Lista de agrupamentos textuais (clumps).

6. Gráfico de distribuição de palavras-chave (keyword plot). 7. Listagem de elos entre palavras-chave (keyword plot links). As principais funções (d) distribuídas nas três ferramentas são:

Lematização: agrupamento de duas ou mais formas diferentes em um mesmo item. Classificação: ordenação de listas e concordâncias.

Delimitação: escolha de quais partes do corpus serão lidas pelo programa.

Quadro 1: ferramentas, utilitários, instrumentos e funções da suíte WordSmith Tools 3.0 (SCOTT, 1999).

2.4.2 e-Termos: ambiente colaborativo web de gestão terminológica

Acrônimo de termos eletrônicos, o e-Termos44 é o produto da tese de doutorado de Leandro Henrique Mendonça de Oliveira (2009), da Universidade Federal de São Carlos (UFSCar), em parceria com o LabInfo (Laboratório de Organização e Tratamento da Núcleo Interinstitucional de Linguística Computacional (NILC), o Grupo de Estudos e Pesquisas em Terminologia (GETerm) e a Embrapa Informática Agropecuária (CNPTIA).

O projeto foi desenvolvido para atender às necessidades dos diferentes perfis de usuários que costumam participar da elaboração de produtos terminológicos, tais como ______________

44

Disponível em http://www.etermos.ufscar.br/index.php. Para ter acesso ao programa é preciso, primeiramente, fazer o cadastro.

idealizador (gerente), especialista da área sob estudo e terminólogo(s). É organizado em seis módulos independentes (etapas) que reúnem, no mesmo ambiente web, ferramentas que auxiliam a realização do trabalho:

Compilação automática de corpus, suporte e análise da qualidade do corpus, extração automática de candidatos a termos, edição do mapa conceitual e categorização de termos, gerenciamento da base de dados terminológicos, intercâmbio e difusão de termos (OLIVEIRA, 2009b).

Além disso, segundo seu idealizador, pretende ―viabilizar o ensino didático da prática terminológica.‖ (OLIVEIRA, 2009b)

Em resumo, as principais funcionalidades do e-Termos, em 2010, podem ser conferidas no quadro 2, a seguir (OLIVEIRA, 2009b).

E-TERMOS

• gestão colaborativa de projetos terminológicos, lexicográficos e de tradução; • controle integrado da estrutura de projetos, de equipes e etapas de trabalho;

• equipe multidisciplinar com perfis profissionais específicos; • ferramentas de comunicação síncronas e assíncronas; • compilação automática e semiautomática de corpus;

• ferramentas de análise da qualidade de corpus (contadores de frequência de palavras, contadores de frequência de uma única palavra ou expressão e concordanciadores); • identificação e recuperação de lexias simples e complexas;

• identificação e recuperação de termos;

• extração automática de termos com método estatístico;

E-TERMOS • gerência de listas de termos e stoplists45;

• editor de ontologias integrado;

• visualizações gráficas e dinâmicas de ontologias nos formatos folder-tree, hiperbólico e de grafos;

• categorização de termos em ontologias;

• criação e preenchimento de bases definicionais;

• criação flexível de fichas e bases terminológicas e lexicográficas;

• preenchimento das fichas e bases terminológicas com ferramentas de edição específicas e integradas;

• definição e formatação visual de vários modelos de verbetes; • disponibilização de resultados e produtos na web;

• exportação de produtos terminológicos do padrão TBX (Terminology Base Exchange); • ambiente de acesso livre e gratuito.

Quadro 2: funcionalidades disponíveis no ambiente e-Termos em 2010.

Saliento que o e-Termos usa o método estatístico para extração de candidatos a termos, isto é, baseia-se ―nas frequências [simples]46 de ocorrências das unidades lexicais de um corpus para selecionar o conjunto de termos candidatos‖. (OLIVEIRA, 2009a, p. 61).

2.4.3 Corpógrafo 4.0: plataforma web para pesquisa com corpora

Fruto de um projeto multidisciplinar, o Corpógrafo47, atualmente na versão 4.0, foi idealizado e executado em 2003 por pesquisadores48 da Linguateca, da Faculdade de ______________

45 Listas de palavras e expressões da língua geral que não costumam ter valor terminológico, como a avérbios,

artigos, algumas preposições e pronomes. O usuário pode acrescentar a própria lista ou fazer uso da sugerida pelo programa, que pode ser consultada previamente.

46

Acréscimo meu para indicar que se trata apenas do cálculo de frequência absoluta (quantas vezes o item ocorreu no corpus).

47

Disponível em <http://193.137.34.101/ferramentas/gc/>. Antes de usar o programa, é preciso cadastrar-se.

48 Belinda Maia, Luís Sarmento, Diana Santos, Ana Sofia Pinto, Débora Oliveira, Sérgio Matos e Luís Miguel

Letras da Universidade do Porto (FLUP), em Portugal.

Essa plataforma web de gestão e pesquisa de corpora agrega quatro grandes áreas de trabalho: Gestor, Pesquisa, Centro de Conhecimento e Centro de Comunicação.

No Gestor, encontram-se as ferramentas de pré-processamento, edição (―limpeza‖) e categorização (dados gerais do cabeçalho, como fonte e classificação em gênero e domínio) dos arquivos, que podem estar em formato HTML, PDF, PS, DOC, RTF ou TXT. É possível carregar arquivos em alemão, catalão, espanhol, francês, grego, inglês (não-nativo, britânico ou americano), italiano, norueguês, polaco, português (brasileiro, europeu ou genérico) e turco.

Em Pesquisa, é possível investigar o corpus, com a ajuda de dispositivos que fazem o estudo de expressões regulares ou de N-Gramas (inspeção de sequências de N palavras consecutivas, denominadas unigramas, bigramas, trigramas etc. de acordo com a quantidade de itens lexicais da expressão de busca). O resultado pode ser visualizado por ordem frequencial ou alfabética. É neste módulo ainda que pesquisas de concordâncias (palavra de busca ou nódulo + cotexto, isto é, palavras à direita e/ou à esquerda do nódulo) podem ser realizadas.

O Centro de Conhecimento agrupa utilitários que permitem a criação de uma base de dados terminológicos e, a partir dela, é possível proceder à extração de candidatos a termo efetivamente.

Para isso, faz uso também de filtros lexicais (advérbios, artigos, alguns preposições, pronomes etc.) além de outras regras de afinação linguística para excluir o que possivelmente não costuma ser termo.

Àqueles categorizados como tal, o Corpógrafo permite o armazenamento na base de dados, onde é possível também editá-los, como numa ficha terminológica (dados gerais da procedência do termo, informação morfológica, pesquisa de definição49 e de contexto de uso no corpus, investigação de relações semânticas: hiperonímia/hiponímia, holonímia/meronímia, produtor/produto, processo/objetivo, causa e efeito etc., anexação de objetos multimídia à documentação do termo, busca de equivalentes50 de tradução e consulta às estatísticas do termo no corpus. No menu Gestor de Relações, é possível incluir ainda ______________

49Expressões lexicais, tais como ―o (termo) é um‖/ ―o (termo) é definido como‖ e ―uma definição de (termo) é‖

indiciam, no programa, a presença de uma definição. (PINTO, 2006, p. 22).

50Embora concorde com Magalhães (2000, p. 88), para quem não há equivalências perfeitas entre línguas nem

mesmo na mesma língua, mantive o item ―equivalentes‖ para não alterar a nomenclatura usada no tutorial do programa.

etiquetas semânticas não previstas no programa.

No Centro de Comunicação, mensagens, tutorial, publicações e créditos sobre o Corpógrafo estão disponíveis ao usuário.

In document Ålesund - liv laga? (sider 116-120)