• No results found

Kirkeveien (beregnet av timemiddelverdier) Tåsen

In document OR-65-98.pdf (4.544Mb) (sider 56-86)

Uma vez apurados e interpretados os dados quantitativos sobre o corpus é a altura de passar à abordagem linguística do mesmo. Uma vez mais, o recurso às ferramentas informáticas é fundamental para a sistematização da análise. Com base numa abordagem semiautomática do corpus trabalhamos na identificação de formas linguísticas, simples ou combinadas, que remetam para conceitos especializados.

Usamos duas formas de abordagem complementares para levar a cabo esta análise: a primeira consiste na “descontextualização” das formas (N-Grams e Clusters) e a segunda consiste na análise das formas em contexto (concordâncias).

Quando à primeira abordagem, recorremos a duas funcionalidades do

concordancer que permitem identificar associações frequentes entre formas

linguísticas, pela via da estatística. De acordo com Antony (2014:2): “The Clusters Tool

shows clusters based on the search condition. In effect it summarizes the results generated in the Concordance Tool or Concordance Plot Tool. The N-Grams Tool, on the other hand, scans the entire corpus for 'N' (e.g. 1 word, 2 words, …) length clusters. This allows you to find common expressions in a corpus.” Procuramos, assim, identificar

combinatórias recorrentes, tanto ao nível do conjunto do corpus (N-Grams) como exclusivamente em torno que uma determinada forma (clusters), independentemente dos contextos associados.

A figura que se segue apresenta um extrato do resultado obtido para os N-

Grams, cuja pesquisa, neste caso, condicionamos a um tamanho de 5 formas associadas

e frequentes em todo o corpus. Verificamos, por exemplo, que a combinatória de 5 mais frequente é “presidente da assembleia da república” com 168 ocorrências, ou seja uma frequência muito elevada relativamente ao conjunto do corpus.

Esta informação é interpretada pelo terminólogo como um dado estatístico mas que atesta também a existência de uma forte coesão no plano morfossintático entre os

- 119 - elementos da combinatória em questão, em particular devido à sua estrutura composicional que começa por um N: [N+PREP+N+PREP+N].

Figura 10: N-Grams Size 5

Estes elementos de análise ajudam a guiar a reflexão do terminólogo e a fundamentar as suas intuições. O conhecimento linguístico conduz, neste caso, à dedução sobre a muito provável existência do termo “presidente da assembleia da

república”, uma vez que o primeiro constituinte da combinatória é um N e que o

resultante da soma dos componentes semânticos da combinatória produz uma unidade de sentido.

Nestas condições, pode o terminólogo reter esta combinatória e registá-la na sua lista de candidatos a termos de modo a, posteriormente, poder validar junto dos especialistas que se trata efetivamente de um conceito especializado veiculado pela designação [presidente da assembleia da república].

Ao contrário do que acontece com este primeiro exemplo, a segunda e a terceira combinatórias de 5 mais frequentes no corpus “n º do artigo º” e “do n º do artigo” não

- 120 - serão objetos de seleção por parte do terminólogo, por apenas se cumprir o critério da frequência elevada mas não existir argumentação linguística para poder considerar as combinatórias pertinentes de um ponto de vista terminológico e conceptual.

Por vezes, também, o critério da frequência elevada pode falhar uma vez que é bastante comum encontrarmos nos corpora combinatórias com muito baixas frequências mas que não deixam, porém, de serem termos ou combinatórias de especialidade. Por exemplo, encontramos no corpus constituído para este projeto algumas combinatórias de 5 tais como: “abono para despesas de representação” “adoção de processo de urgência” ou “advertência à suspensão do mandato” que ocorrem apenas uma única vez nos textos mas que não deixam, por isso, de merecer a atenção do terminólogo e consequentemente dos especialistas.

Assim, o critério da frequência deve, para se relevar efetivamente pertinente, ser conjugado com critérios linguísticos que ajudem a comprovar que a ocorrência efetiva de uma determinada forma ou combinatória no corpus é mesmo um termo.

Enquanto a funcionalidade N-Grams permite explorar o corpus por extensões de combinatórias frequentes de forma exaustiva, a funcionalidade clusters permite aplicar o mesmo tipo de abordagem, mas desta vez em torno de uma forma pré-selecionada, tal como podemos conferir na figura seguinte.

- 121 -

Figura 11: Clusters Size 3

Selecionamos a forma votação como elemento linguístico inicial da combinatória (um N) e determinamos um tamanho de até 3 elementos combinados. O resultado da pesquisa é extremamente rico em pertinência terminológica. As três primeiras combinatórias apresentadas com as frequências mais elevadas: votação na

especialidade (20), votação final global (17) e votação na generalidade (12) são

efetivamente três termos que devem constar na lista de candidatos a termos.

O recurso aos N-grams e clusters são uma boa forma de fazer uma primeira abordagem ao corpus de análise, uma vez que oferecem dados quantitativos objetivos mas que devem ser cuidadosamente observados e analisados para preparar o passo seguinte que é a abordagem das formas e combinatórias em contexto.

Para esta segunda abordagem, recorremos ao concordancer que possui a funcionalidade concordance para a pesquisa de uma forma simples ou de todo o tipo de combinatórias linguísticas em qualquer parte do corpus. O resultado da pesquisa é apresentado sob a forma de uma lista de segmentos em que ocorre a forma em

- 122 - questão, com a particularidade desta aparecer centrada, destacada (colorida) e acompanhada dos seus contextos imediatos, tanto do seu lado esquerdo como do seu lado direito.

Na figura que se segue podemos visualizar a concordância da forma voto nas suas realizações no singular e no plural (centrada e a azul). Os dados estatísticos mostram que voto(s) ocorre 81 vezes na totalidade do corpus e com maior incidência nos textos da Constituição e do Regimento, indicação que aparece do lado direito da imagem na caixa file e que é possível confirmar através da concordance plot tool.

Figura 12: Concordância de “voto(s)”

A concordância permite uma nova perceção do corpus. O interesse do terminólogo deixa por momentos de se situar ao nível das combinatórias linguísticas no eixo sintagmático da língua para se concentrar noutro ponto de vista, o do eixo paradigmático de observação da língua, uma vez que a representação visual da concordância aciona instantaneamente essa nova perspetiva sobre o corpus. De forma

- 123 - rápida, e com ajuda de funções técnicas para reorganizar a ordenação das formas no eixo paradigmático, é possível identificar associações frequentes entre formas e observar regularidades distribucionais ao nível morfossintático da língua.

Como podemos ver na figura seguinte, a partir da forma voto a concordância foi reordenada pelo critério da repetição de formas associadas do lado direito de voto.

Figura 13: Concordância de “voto(s)” com expansão à direita

O critério que leva à reorganização da concordância pela expansão à direita ou à esquerda da forma polo (voto) prende-se com a categoria gramatical da mesma. Se estivermos a trabalhar com base em nomes (N) como é o caso de voto iremos privilegiar a pesquisa de combinatórias regulares à direita de N, à procura de qualificadores ou especificadores de N. Assim, identificamos combinatórias bem formadas e regulares como: voto contra, voto de confiança, voto de congratulação,

voto de qualidade, voto direto e secreto, voto eletrónico, voto em branco, voto favorável, voto final, voto por maioria absoluta.

- 124 - Esta lista configura os diversos tipos de votos consagrados nos textos parlamentares e constitui, do ponto de vista do trabalho do terminólogo, a criação de uma lista de candidatos a termos que, tal como já dissemos anteriormente, deverá ser submetida à validação dos especialistas da instituição (cf. ponto III Processos de validação de termos e definições).

Se, no exemplo anterior, utilizamos um N como ponto de partida para obter a concordância podemos agora exemplificar com o adjetivo (ADJ) constitucional.

Figura 14: Concordância de “constitucional” com expansão à esquerda

Neste caso procuramos regularidades de combinatórias do lado esquerdo do ADJ para encontrar os N que são passíveis de serem qualificados no corpus como

constitucional. Desta forma, extraímos as seguintes combinatórias: garantia constitucional, lei constitucional, matéria constitucional, norma constitucional, ordem constitucional, revisão constitucional, tribunal constitucional, função político- constitucional, matéria jurídico-constitucional. Tanto no exemplo anterior de voto

- 125 - como no presente, procuramos reagrupar formas linguísticas em torno de um campo semântico comum.

Por vezes, também se revela interessante poder encontrar famílias morfológicas através da concordância, a partir de um constituinte morfológico ou parte de uma palavra. Utilizamos, para este fim critérios de análise morfossintática. Apresentamos a seguir, o resultado da pesquisa efetuada para encontrar ocorrências de termos que partilhem uma mesma base morfológica: constitucional,

inconstitucional, constitucionais, inconstitucionais, constitucionalidade,

inconstitucionalidade, constitucionalismo, constitucionalmente.

Figura 15: Concordância de “-constitucion-” (formante)

Através dos paradigmas criados nas concordâncias é possível ir para além da identificação de termos simples ou complexos. É possível observar padrões de combinatórias mais extensos como é o caso com: apreciação preventiva da

constitucionalidade, exercício do direito de voto, conversão de votos em mandatos, aprovação de um voto de confiança, etc. Todas estas combinatórias contêm pelo

- 126 - menos um termo que remete para um conceito na sua estrutura composicional o que nos leva a considerar a possibilidade de se tratar de colocações terminológicas ou, simplesmente, de fraseologias de especialidade no domínio jurídico parlamentar.

Cabe ao terminólogo prever a inserção dessas combinatórias nas respetivas fichas terminológicas, quer como entrada na ficha terminológica da base de dados, quer de forma associada ao termo (entrada). Esta segunda opção foi a que adotamos na BDTT-AR:

Ex.1 [entrada] direito de uso e porte de arma

[fraseologia] exercer o direito de uso e porte de arma [fraseologia] gozar do direito de uso e porte de arma Ex.2 [entrada] voto de confiança

[fraseologia] aprovar um voto de confiança [fraseologia] solicitar um voto de confiança Ex.3 [entrada] maioria absoluta

[fraseologia] aprovar por maioria absoluta [fraseologia] eleger por maioria absoluta Ex.4 [entrada] moção de censura

[fraseologia] apresentar a moção de censura [fraseologia] aprovar a moção de censura [fraseologia] rejeitar a moção de censura [fraseologia] votar a moção de censura

Este tipo de combinatórias deve também ser sujeito à validação dos especialistas, uma vez que só estes poderão garantir que estas expressões fazem de facto parte do discurso de especialidade dos profissionais do parlamento.

Na abordagem ao texto pela via das concordâncias, o terminólogo recorre ao seu conhecimento em linguística nas suas componentes semântica e morfossintática para analisar a ocorrência de formas em contextos de especialidade. Para isso, deve estabelecer critérios de análise para explorar as concordâncias com o maior grau de

- 127 - eficácia possível, sendo que o seu objetivo é identificar potenciais candidatos a termos cuja estrutura morfossintática pode ser muito variável.

Como acabamos de demonstrar, as ferramentas de tratamento semiautomático permitem maior rapidez e exaustividade, assim como contribuem também para elevar o grau de eficácia e de eficiência do tratamento do corpus, focando a atenção do terminólogo nas ocorrências textuais e nas suas frequências para chegar a uma lista de potenciais candidatos a termos. Consideramos serem candidatos os termos extraídos de um corpus de especialidade e que ainda não tenham sido validados por especialistas da respetiva área de especialidade.

Neste tipo de abordagem semasiológica, os critérios adotados são essencialmente de natureza linguística e não conceptuais, baseiam-se principalmente nas noções de campo lexicossemântico (exemplos de voto e constitucional) e de padrão morfossintático (exemplo de família morfológica com -constitucion-), corroborados pelos índices de frequência e de incidência das formas no corpus (explorados na tarefa A1) que, não sendo dados linguísticos, mas quantitativos, ajudam a justificar opções com vista à seleção dos termos.

In document OR-65-98.pdf (4.544Mb) (sider 56-86)