Single pipe simulation - CFD Flow Simulation of Coolant Pressure Drop in a Marine Heat Exchange

2. Methods

2.8 Single pipe simulation

De acordo com Melamed (1996b), a maioria dos algoritmos estat´ısticos projetados para

produzir l´exicos bil´ıng¨ues para o par de l´ınguas S e T – por exemplo, (Gale & Church,

1991), (Fung, 1995), (Melamed, 1995) e (Wu & Xia, 1994) – s˜ao varia¸c˜oes do algoritmo guloso (do inglˆes, greedy) apresentado a seguir:

1. Escolhe-se a medida que ser´a usada para calcular a similaridade D entre as palavras de S e as palavras de T , ou seja, a pontua¸c˜ao de associa¸c˜ao. A medida de simila-

ridade geralmente especifica qu˜ao freq¨uentemente as palavras co-ocorrem em regi˜oes

correspondentes de um corpus de textos paralelos, embora medidas diferentes tamb´em tenham sido propostas, por exemplo por (Fung, 1995).

2. Calculam-se as pontua¸c˜oes de associa¸c˜ao D(wS_{, w}T_{) para cada par de palavras}

(wS_{, w}T₎_{∈ (S × T ).}

3. Ordenam-se os pares de palavras de acordo com a ordem decrescente de suas pontua¸c˜oes de associa¸c˜ao.

4. Escolhe-se um limite para o qual os pares de palavras com pontua¸c˜ao de associa¸c˜ao

maior do que tal limite se tornam as entradas do l´exico bil´ıng¨ue.

Esse algoritmo apresenta bom desempenho apesar de sua simplicidade, por´em ele possui um problema: geralmente os algoritmos calculam as pontua¸c˜oes de associa¸c˜ao (passo 2) independentemente umas das outras, o que n˜ao permite diferenciar uma associa¸c˜ao direta

(tradu¸c˜oes m´utuas de fato) de uma associa¸c˜ao indireta (palavras que sempre aparecem no

mesmo contexto, por´em n˜ao s˜ao tradu¸c˜oes m´utuas). N˜ao surpreendentemente, esses algorit-

mos produzem l´exicos bil´ıng¨ues cheios de associa¸c˜oes indiretas (e incorretas). A Figura 12

ilustra casos de associa¸c˜oes diretas e indiretas.

Figura 12: A associa¸c˜ao direta entre as palavras wS

k e wTh e entre as palavras wSk e wSk+1

d´a origem a uma associa¸c˜ao indireta entre wS

k+1 e wTh (Melamed, 1996b)

As irregularidades (ru´ıdo) no texto e na tradu¸c˜ao amenizam esse problema j´a que

esse ru´ıdo enfraquece uma associa¸c˜ao direta e, conseq¨uentemente, uma associa¸c˜ao indireta

baseada na associa¸c˜ao direta enfraquecida. Por outro lado, o ru´ıdo pode enfraquecer uma associa¸c˜ao indireta sem afetar nenhuma associa¸c˜ao direta. Sendo assim, em m´edia, as asso- cia¸c˜oes diretas s˜ao mais fortes do que as indiretas.

Gale & Church (1991) demonstram que, se todas as entradas em um l´exico bil´ıng¨ue

forem ordenadas por suas pontua¸c˜oes de associa¸c˜ao, mais de 98% das entradas no topo da lista est˜ao corretas. Esses autores apresentam um m´etodo estat´ıstico para encontrar as

correspondˆencias bil´ıng¨ues em um corpus inglˆes–francˆes. Nesse m´etodo ´e aplicada uma es-

trat´egia de profundidade progressiva (progressive deepening strategy): a busca pelos melhores pontos de correspondˆencia ´e feita, inicialmente, em uma parte pequena do corpus e o escopo

da busca ´e aumentado a cada passo subseq¨uente. A cada itera¸c˜ao, os pares de palavras j´a selecionados em itera¸c˜oes anteriores s˜ao removidos do corpus de treinamento para que outras alternativas possam ser identificadas.

Uma estrat´egia similar ´e adotada por Wu & Xia (1994) e por Fung (1995). O m´etodo

de Wu & Xia (1994) induz automaticamente um l´exico bil´ıng¨ue inglˆes–chinˆes por meio do

treinamento estat´ıstico realizado com um grande corpus paralelo (com mais de 3 milh˜oes de

palavras). O processo de treinamento bil´ıng¨ue emprega uma varia¸c˜ao do modelo de Brown et

alli (1993) e est´a baseado em um procedimento iterativo de expectation-maximization (EM) para maximizar a probabilidade de gera¸c˜ao de um corpus chinˆes dada a vers˜ao em inglˆes. A sa´ıda do processo de treinamento ´e um conjunto de poss´ıveis tradu¸c˜oes, em chinˆes, para cada palavra em inglˆes, juntamente com a probabilidade estimada para cada tradu¸c˜ao.

Fung (1995) prop˜oe um m´etodo para a indu¸c˜ao de entradas bil´ıng¨ues envolvendo

apenas substantivos, nomes pr´oprios e sintagmas nominais a partir de um corpus paralelo n˜ao alinhado inglˆes–chinˆes. A motiva¸c˜ao para a indu¸c˜ao de entradas dos tipos citados est´a no fato

de que termos de dom´ınios espec´ıficos s˜ao dif´ıceis de serem traduzidos j´a que, freq¨uentemente,

n˜ao aparecem nos dicion´arios bil´ıng¨ues de dom´ınio geral.

Fung (1995) considera o problema de compila¸c˜ao de l´exicos bil´ıng¨ues como um pro-

blema de casamento de padr˜ao: cada palavra compartilha algumas caracter´ısticas comuns com sua contra-parte no texto traduzido. O m´etodo tenta encontrar as melhores repre- senta¸c˜oes dessas caracter´ısticas e o melhor modo de cas´a-las. Para o autor, as caracter´ısticas compartilhadas entre as palavras fonte e alvo s˜ao: suas posi¸c˜oes no corpus, a tendˆencia de se agruparem na diagonal quando suas posi¸c˜oes s˜ao plotadas em um gr´afico (com as posi¸c˜oes fonte em um eixo e as posi¸c˜oes alvo em outro) e a tendˆencia de formarem segmentos alinha- dos. Com base nessas caracter´ısticas, um l´exico inicial ´e criado com os pares de palavras (pontos ˆancoras) que dividem o corpus em segmentos alinhados.

Em seguida, os substantivos e os nomes pr´oprios restantes em inglˆes e todas as pala- vras em chinˆes s˜ao representados na forma de vetores bin´arios de segmentos n˜ao-lineares a partir de suas posi¸c˜oes no texto. Por fim, os vetores bin´arios em inglˆes s˜ao casados com suas

contra-partes em chinˆes usando uma pontua¸c˜ao de informa¸c˜ao m´utua, e s˜ao filtrados com

base em um fator de confian¸ca. Os pontos resultantes ap´os o filtro d˜ao origem ao segundo l´exico bil´ıng¨ue.

Resnik & Melamed (1997) aplicam o sistema SABLE (Melamed, 1997b) em um cor- pus de dom´ınio t´ecnico com aproximadamente 400.000 palavras com o intuito de induzir

um l´exico bil´ıng¨ue de termos. O sistema SABLE (Scalable Architecture for Bilingual LExico-

graphy) produz l´exicos bil´ıng¨ues a partir de textos paralelos (bitextos) n˜ao-alinhados. Esse

sistema foi desenvolvido para trabalhar com qualquer gˆenero de texto em qualquer par de l´ınguas e n˜ao usa nenhum recurso espec´ıfico para as l´ınguas envolvidas, apenas os tokeni- zadores e algumas heur´ısticas para a identifica¸c˜ao de pares de palavras que s˜ao tradu¸c˜oes

m´utuas.

Depois de tokenizar as duas partes do bitexto, SABLE chama o algoritmo SIMR (Me- lamed, 1996a) e seus componentes relacionados para produzir o mapeamento do bitexto. Um mapeamento de bitexto ´e uma fun¸c˜ao injectiva parcial entre as posi¸c˜oes dos caracteres nas duas partes do bitexto – similar ao mapeamento realizado por Fung (1995) ao plotar as posi¸c˜oes das palavras fonte e alvo em eixos perpendiculares. Cada ponto de correspondˆencia (x, y) no mapeamento do bitexto indica que a palavra cujo caractere mediano est´a na posi¸c˜ao x do texto fonte ´e uma tradu¸c˜ao da palavra cujo caractere mediano est´a na posi¸c˜ao y do texto alvo.

O algoritmo SIMR possui duas fases – gera¸c˜ao e filtragem dos pontos de corres- pondˆencia – as quais s˜ao executadas alternadamente. Na fase de gera¸c˜ao, os pontos de correspondˆencia s˜ao gerados usando um subconjunto de heur´ısticas aplicadas a palavras –

baseadas em cognatos (Simard et al., 1992; Melamed, 1995, 1996a) ou l´exicos bil´ıng¨ues inici-

ais (Melamed, 1997a) – selecionado de acordo com a l´ıngua e os recursos dispon´ıveis. Na fase de filtragem, o SIMR filtra os pontos de correspondˆencia candidatos usando um algoritmo de reconhecimento de padr˜ao geom´etrico.

Ap´os a determina¸c˜ao dos pontos de correspondˆencia realizada por SIMR, o SABLE considera que dois tokens co-ocorrem se seus pontos de correspondˆencia est˜ao a uma distˆancia pequena d do mapeamento do bitexto interpolado no espa¸co do bitexto como apresentado na Figura 13.

SABLE usa a estat´ıstica de co-ocorrˆencia dos tokens para induzir um l´exico bil´ıng¨ue

inicial, usando o m´etodo proposto por (Melamed, 1995). O m´odulo de filtro iterativo alterna

entre a estimativa das tradu¸c˜oes mais prov´aveis entre tokens no bitexto e a estimativa das tradu¸c˜oes mais prov´aveis entre types. Por fim, SABLE constr´oi automaticamente um l´exico

bil´ıng¨ue composto de pares de palavras que n˜ao foram removidas durante o ciclo de filtro

iterativo (Melamed, 1996b).

A cobertura do l´exico bil´ıng¨ue pode ser computada automaticamente em rela¸c˜ao ao

Figura 13: Pares de palavras cujas coordenadas est˜ao entre as linhas pontilhadas s˜ao consi- derados co-ocorrentes (Resnik & Melamed, 1997)

ficar a cobertura que eles desejam na sa´ıda. Por padr˜ao, SABLE seleciona um limite que provavelmente produzir´a uma boa precis˜ao.

Al´em dos m´etodos que buscam correspondˆencias bil´ıng¨ues com base em estat´ısticas,

cognatos e outras m´etricas de similaridade em textos paralelos como os m´etodos apresen-

tados at´e o momento, existem outros que utilizam, por exemplo, corpora monol´ıng¨ues n˜ao-

relacionados (Koehn & Knight, 2002) ou uma l´ıngua ponte (bridge language) (Schafer &

Yarowsky, 2002) para induzir os l´exicos bil´ıng¨ues.

O m´etodo de Koehn & Knight (2002) constr´oi um l´exico bil´ıng¨ue alem˜ao–inglˆes

para substantivos a partir de corpora monol´ıng¨ues n˜ao-relacionados combinando v´arias

heur´ısticas. Para tanto, dois corpora monol´ıng¨ues com textos em dom´ınios compar´aveis

– textos jornal´ısticos, no caso dos experimentos apresentados pelos autores – s˜ao utilizados.

A partir desses corpora, os pares de palavras que s˜ao tradu¸c˜oes m´utuas s˜ao determinados

com base em 5 heur´ısticas: (1) palavras idˆenticas ou que diferem em apenas uma letra, (2) ortografia similar (calculada por meio da longest common subsequence ratio (LCSR)) (Mela-

med, 1995), (3) contexto de ocorrˆencia similar, (4) similaridade e (5) freq¨uˆencia de palavras

(medida como a raz˜ao da freq¨uˆencia da palavra normalizada pelo tamanho do corpus).

A heur´ıstica de contexto de ocorrˆencia similar assume que se os corpora monol´ıng¨ues

ocorrendo em um contexto similar. Assim, vetores de contexto s˜ao criados e traduzidos com base no conjunto inicial de correspondˆencias obtido aplicando-se a primeira heur´ıstica. O vetor de contexto que melhor casa ´e usado para construir um mapeamento de palavra.

A similaridade de palavras, por sua vez, parte do pressuposto de que pares de pa- lavras similares em uma l´ıngua provavelmente possuem tradu¸c˜oes similares na outra l´ıngua (como ocorre entre as palavras que designam dias da semana). Assim, para uma nova pala- vra, calcula-se sua pontua¸c˜ao de similaridade em rela¸c˜ao `as palavras no conjunto inicial de correspondˆencias (gerado com base na primeira heur´ıstica), criando um vetor de similarida- des. Essa pontua¸c˜ao de similaridade ´e calculada com base nos vetores de contexto gerados anteriormente (terceira heur´ıstica). O vetor de similaridade com melhor casamento adiciona

as palavras correspondentes ao l´exico bil´ıng¨ue.

Por fim, o m´etodo de Schafer & Yarowsky (2002), tamb´em usa algumas heur´ısticas

para induzir l´exicos bil´ıng¨ues por´em sem utilizar corpora bil´ıng¨ues paralelos nem um l´exico

bil´ıng¨ue inicial. Os autores prop˜oem um m´etodo cujo objetivo ´e aprender l´exicos bil´ıng¨ues

usando recursos dispon´ıveis na web por meio do uso de uma l´ıngua ponte, ou seja, esse

m´etodo n˜ao utiliza nenhum l´exico entre o inglˆes e a l´ıngua de interesse (s´ervio ou gujarati1_),

mas sim um entre o inglˆes e a l´ıngua ponte. Assim, os dicion´arios usados nos experimentos foram: checo–inglˆes (com 171K entradas) e hindi–inglˆes (com 74K entradas).

Os vocabul´arios de s´ervio e gujarati foram obtidos extraindo-se dos corpora as pala-

vras ´unicas (word types) e excluindo-se as palavras pouco freq¨uentes e as muito pequenas

(com menos de 5 caracteres). De maneira semelhante `a proposta de (Koehn & Knight, 2002), o m´etodo de Schafer & Yarowsky (2002) baseia-se na combina¸c˜ao de 4 modelos de si- milaridade – similaridade de string, similaridade de contexto, similaridade de distribui¸c˜ao de

datas e similaridade de freq¨uˆencia de palavras. Al´em disso, outras caracter´ısticas dos pares

de palavras candidatos s˜ao consideradas na gera¸c˜ao do l´exico bil´ıng¨ue como a consistˆencia

de PoS: se as palavras diferem na PoS uma penalidade ´e atribu´ıda a essa correspondˆencia para ranque´a-la abaixo das candidatas com PoS compat´ıveis, mas n˜ao exclu´ı-la.

Para cada medida de similaridade, as candidatas em inglˆes s˜ao ordenadas decrescen- temente pelo valor dessa medida. A pontua¸c˜ao de cada palavra em inglˆes ´e calculada com base na classifica¸c˜ao normalizada (obtida com base no valor da medida de similaridade e no peso do modelo de similaridade).

In document CFD Flow Simulation of Coolant Pressure Drop in a Marine Heat Exchanger (sider 53-57)