2.1 Top-hole Drilling Practice
2.1.1 Conductor Section
Inicialmente, faz-se necessário definir três conceitos fundamentais para este trabalho: Expressão Multipalavras (EM), Termo Técnico-Científico (TCC) e Termo Multipalavras (TM).
A definição de EM é ampla, pois engloba diversos fenômenos distintos como compostos nominais, expressões idiomáticas e termos compostos. As EM são necessariamente compostas por mais de uma palavra.
Os TCC e os TM são fenômenos linguísticos ligados ao texto técnico-científico definidos como locuções que possuem estatuto terminológico. Sendo que os TCC podem ser unidades lexicais únicas, aceitam pouca variabilidade (morfológica, raramente sintática) e representam um único conceito. Enquanto os TM não correspondem ao conceito de fraseologia do domínio, são altamente flexíveis e normalmente possuem uma estrutura complexa que associa mais de um conceito.
A seguir são apresentadas uma definição para cada um desses termos citados no trabalho de Ramisch (2009, p. 65):
• EM é um conjunto de duas ou mais palavras com semântica não-composicional, ou seja, o sentido do sintagma não pode ser compreendido totalmente através do sentido de suas componentes (Sag et al. 2002).
• TCC é uma unidade lexical ou multilexical com significado não ambíguo quando empregada em textos especializados, ou seja, a terminologia de um domínio é a representação linguística dos seus conceitos (Krieger and Finatto 2004)7.
• TM é um termo composto por mais de uma palavra. (SanJuan et al. 20058, Frantzi et al. 20009).
Feitas essas considerações iniciais, destaca-se que o foco desta tese está nas EM. A seguir são apresentadas definições encontradas na revisão da literatura sobre o tema, sendo que, ao fim dessa seção, como conclusão apresenta-se a definição de EM adotada neste trabalho.
7
Artigo intitulado “Introdução à Terminologia: teoria & Prática” publicado pela editora Contexto em 2004, citado por Ramisch (2009).
8
Artigo intitulado “A symbolic approach to automatic multiword term structuring” publicado em 2005 no 19°
volume, páginas 524 a 542, citado por Ramisch (2009).9
Artigo intitulado “Automatic recognition of multi-word terms: the C-value/NC-value method. Publicado em 2000 no International Journal on Digital Libraries, páginas 115 à 130, citado por Ramisch (2009).
N
a realidade, não existe uma definição formal consensual na literatura sobre EM. Em linhas gerais, considera-se que as EM são formações compostas de duas ou mais palavras que, quando associadas, possuem uma expressividade semântica mais forte do que quando cada um de seus termos são postos separadamente. Para Sag et al. (2002 p. 2) EM são: “interpretações idiossincráticas que cruzam os limites (ou espaços) entre as palavras”. Outra descrição para o uso do termo EM é:[...] expressão multipalavra vem sendo utilizado para descrever um grande número de construções distintas, mas fortemente relacionadas, tais como verbos de suporte (fazer uma demonstração, dar uma palestra), compostos nominais (quartel general), frases institucionalizadas (pão e manteiga), e muitos outros. [...] EM engloba um grande número de construções, tais como: expressões fixas, compostos nominais e construções verbo-partícula. (VILLAVICENCIO et al. 2010 p. 16)
Segundo Ranchhod (2003, p. 2), as expressões fixas são objetos linguísticos que apresentam divergências terminológicas e a ausência de critérios de análise que os levaram ser consideradas como objetos linguísticos excepcionais, não integráveis na gramática das línguas. Entretanto, tem ocorrido um crescente interesse, sobretudo na área de PLN, afinal essas formas fixas são tão numerosas em qualquer tipo de texto, que não podem ser ignoradas. Portanto, essas características das EM as tornam relevantes no tratamento dos recursos lexicais, os quais são importantes insumos informacionais para muitas aplicações relacionadas ao PLN, tais como: tradução automática, sumarização de texto, etc.
Para Sarmento (2006), o texto não é um simples amontoado aleatório de palavras. A ordem da colocação das palavras no texto é que produz o sentido. Portanto, o estudo da co- ocorrência das palavras traz consigo uma informação importante. Isso pode indicar que as palavras estão relacionadas, diretamente por composicionalidade ou afinidade, ou indiretamente por semelhança. Portanto, a base da linguística empírica consiste em encontrar a partir da frequência de co-ocorrências observada, as dependências significativas entre os termos. Evert (2005 citado por Sarmento) aponta como sendo quatro esses grupos de medidas:
– testes de significância estatística; – coeficientes de associação;
– baseadas em conceitos da teoria da informação; – baseadas em heurísticas diversas.
Conforme expresso por Zhang et al. (2009), a capacidade de expressar sentido de uma palavra depende das demais palavras que a acompanham. Quando uma palavra aparece acompanhada por um conjunto de termos, maiores são as chances desse conjunto possuir um significado relevante. Isso significa que não apenas a palavra, mas também a informação contextual é útil para o processamento de informações. É a partir dessa ideia
simples e direta que pesquisas sobre EM são motivadas. Espera-se capturar conceitos semânticos relevantes do texto expressos pelas EM. Nesse sentido, Villavicencio et al. (2010) destaca que muitas pesquisas têm buscado formas de automatização na aquisição lexical. Esses trabalhos buscam entender a formação dos recursos lexicais, uma área ainda carente de pesquisas.
Sag (2002, p. 4) apresenta a seguinte classificação das EM:
• Expressões Fixas – são aquelas que não apresentam flexões morfossintáticas e não permitem modificações internas. Elas desafiam as convenções da gramática e interpretação composicional, pois ao tratá-las na forma de palavra por palavra não teríamos a representação da expressão composta, que tem um sentido próprio dado pela composição.
• Expressões Semi-Fixas – são aquelas que possuem restrições na ordem das palavras e composição, mas admitem eventuais variações léxicas na flexão, na forma reflexiva e na escolha de determinantes. Esse tipo de EM é categorizada em três subgrupos: as expressões não-decomponíveis; os compostos nominais; e os nomes próprios. A primeira categoria, termo em inglês non-decomposable
idioms, ocorre quando se juntam duas ou mais palavras para formar uma
expressão que possui um novo significado, distinto daquele obtido pelas palavras de forma isolada. Exemplo “chutar o balde”, que tem como significado composto a ideia de “desistir”. Nesse caso há variabilidade da expressão idiomática. A segunda categoria os compostos nominais, do inglês compound nominals, são similares às expressões não-decomponíveis sendo unidades sintaticamente inalteráveis que na maioria dos casos podem ser flexionadas em número. Vejamos como exemplo as expressões “presidente da república” e “deputado federal”, na primeira expressão somente presidente pode ser flexionado, enquanto que, na segunda, ambas as palavras são passíveis de flexão. A terceira categoria os nomes próprios, do inglês proper names, são sintaticamente altamente idiossincráticos. Vejamos por exemplo o composto “Espírito Santo”, pode estar relacionado ao estado federativo do Brasil, pode ser um sobrenome, etc.
• Expressões Sintaticamente Flexíveis – são expressões que admitem variações sintáticas na posição de seus componentes. Os tipos de variação possíveis são: construções verbo-partícula que consistem de construções de um verbo e uma ou mais partículas que podem ser semanticamente idiossincráticos ou composicional; expressões idiomáticas decomponíveis. Um exemplo é “tirar o
cavalinho da chuva”. O termo decomponível é utilizado por que, nesse caso, o significado “desistir da ideia” pode ser decomposto em “tirar” (desistir de), “o cavalinho da chuva” (a ideia); construções verbo-leve, do inglês light-verbs, é um verbo considerado semanticamente fraco estando sujeito à variabilidade sintática completa, incluindo a passivação. Eles são altamente idiossincráticos, pois existe uma notória dificuldade em predizer qual verbo-leve combina com qual substantivo.
• Expressões Institucionalizadas – são expressões composicionais, do inglês
collocation, que podem variar morfológica ou sintaticamente e que normalmente
possuem alta ocorrência estatística.
Calzolari et al. (2002, p. 1934) corroboram com a classificação apresentada por Sag et al. (2002) e ainda incluem um “etc” no final. Ou seja, como os próprios autores definem EM é utilizada para descrever diferentes, mas relacionados fenômenos, que podem ser descritos como uma sequência de palavras que agem como uma unidade em algum nível de análise linguístico e que apresentam alguns ou todos dos seguintes comportamentos: reduzida transparência sintática e semântica; redução ou ausência de composicionalidade; mais ou menos estável; passível de violação de alguma regra geral sintática
;
elevado grau de lexicalização (dependendo de fatores pragmáticos); alto grau de convencionalidade. Ainda segundo esses mesmos autores, as EM estão situadas na interface entre a gramática e o léxico. Eles apresentam também algumas das causas das dificuldades ocorridas no âmbito teórico e computacional para o tratamento das EM, como sendo: a dificuldade de estabelecer limites claros para o domínio das EM; a falta de léxicos computacionais de tamanho razoável para auxiliar no PLN; perante a perspectiva multilingue, muitas vezes não é possível encontrar uma correspondência direta lexical equivalente; dificuldade generalização dos léxicos (geral e terminológico) para um contexto específico.Segundo Moon (1998 citada por VILLAVICENCIO et al.), as EM são unidades léxicas formadas por um amplo contínuo entre os grupos composicionais e os não-composicionais ou idiomáticos. Nesse contexto, entende-se por expressão composicional aquelas que, a partir das características de seus componentes, determinam as características do todo. E não-composicional ou expressões idiomáticas aquelas cujo significado do conjunto de palavras nada tem a ver com o significado de cada uma das partes. Dadas essas características, ao tratar as EM como palavras separadas por espaço, certamente trará anomalias para o processo de RI.
A ocorrência das EM nas línguas, de maneira geral, são muito frequentes conforme é apontado por Biber et al. (1999, citado por Wang e Liu 2011). Segundo esses autores, na
língua inglesa, as EM representam de 30% a 45% do idioma falado e cerca de 21% da escrita acadêmica. Entretanto, esses números podem estar ainda subestimados, se se considerar que o surgimento de novas EM ocorrem com frequência, como por exemplo: computação em nuvens, energia limpa, etc. Wang e Liu (2011) reafirmam ainda que as EM são uma questão ainda a ser melhor resolvida pelas aplicações que lidam com PLN.
Após revisar a literatura na busca de encontrar uma definição consensual para EM, percebe-se que o termo tem um uso genérico o qual engloba vários conceitos ou subtipos conforme descritos anteriormente. Desse modo, empregam-se diferentes métodos ora estatísticos, ora linguísticos, ora uma combinação de ambos para identificar as EM de forma mais estrita. Portanto, faz-se necessário apresentar a definição de EM a qual será utilizada neste trabalho. Tomando-se como base que o objetivo é apresentar um método que possa ser utilizado, independente do contexto e do idioma para identificar descritores (n-gramas) em um documento de referência fornecido pelo usuário e utilizá-los no processo de busca de documentos similares apresentar-se-á a seguir a definição que melhor cabe a este trabalho. EM são expressões fixas que co-ocorrem em um documento com uma frequência acima de um limite pré-definido, considerando-se as características da estrutura do documento.