2. Methods
2.8 Single pipe simulation
De acordo com Melamed (1996b), a maioria dos algoritmos estat´ısticos projetados para
produzir l´exicos bil´ıng¨ues para o par de l´ınguas S e T – por exemplo, (Gale & Church,
1991), (Fung, 1995), (Melamed, 1995) e (Wu & Xia, 1994) – s˜ao varia¸c˜oes do algoritmo guloso (do inglˆes, greedy) apresentado a seguir:
1. Escolhe-se a medida que ser´a usada para calcular a similaridade D entre as palavras de S e as palavras de T , ou seja, a pontua¸c˜ao de associa¸c˜ao. A medida de simila-
ridade geralmente especifica qu˜ao freq¨uentemente as palavras co-ocorrem em regi˜oes
correspondentes de um corpus de textos paralelos, embora medidas diferentes tamb´em tenham sido propostas, por exemplo por (Fung, 1995).
2. Calculam-se as pontua¸c˜oes de associa¸c˜ao D(wS, wT) para cada par de palavras
(wS, wT)∈ (S × T ).
3. Ordenam-se os pares de palavras de acordo com a ordem decrescente de suas pontua¸c˜oes de associa¸c˜ao.
4. Escolhe-se um limite para o qual os pares de palavras com pontua¸c˜ao de associa¸c˜ao
maior do que tal limite se tornam as entradas do l´exico bil´ıng¨ue.
Esse algoritmo apresenta bom desempenho apesar de sua simplicidade, por´em ele possui um problema: geralmente os algoritmos calculam as pontua¸c˜oes de associa¸c˜ao (passo 2) independentemente umas das outras, o que n˜ao permite diferenciar uma associa¸c˜ao direta
(tradu¸c˜oes m´utuas de fato) de uma associa¸c˜ao indireta (palavras que sempre aparecem no
mesmo contexto, por´em n˜ao s˜ao tradu¸c˜oes m´utuas). N˜ao surpreendentemente, esses algorit-
mos produzem l´exicos bil´ıng¨ues cheios de associa¸c˜oes indiretas (e incorretas). A Figura 12
ilustra casos de associa¸c˜oes diretas e indiretas.
Figura 12: A associa¸c˜ao direta entre as palavras wS
k e wTh e entre as palavras wSk e wSk+1
d´a origem a uma associa¸c˜ao indireta entre wS
k+1 e wTh (Melamed, 1996b)
As irregularidades (ru´ıdo) no texto e na tradu¸c˜ao amenizam esse problema j´a que
esse ru´ıdo enfraquece uma associa¸c˜ao direta e, conseq¨uentemente, uma associa¸c˜ao indireta
baseada na associa¸c˜ao direta enfraquecida. Por outro lado, o ru´ıdo pode enfraquecer uma associa¸c˜ao indireta sem afetar nenhuma associa¸c˜ao direta. Sendo assim, em m´edia, as asso- cia¸c˜oes diretas s˜ao mais fortes do que as indiretas.
Gale & Church (1991) demonstram que, se todas as entradas em um l´exico bil´ıng¨ue
forem ordenadas por suas pontua¸c˜oes de associa¸c˜ao, mais de 98% das entradas no topo da lista est˜ao corretas. Esses autores apresentam um m´etodo estat´ıstico para encontrar as
correspondˆencias bil´ıng¨ues em um corpus inglˆes–francˆes. Nesse m´etodo ´e aplicada uma es-
trat´egia de profundidade progressiva (progressive deepening strategy): a busca pelos melhores pontos de correspondˆencia ´e feita, inicialmente, em uma parte pequena do corpus e o escopo
da busca ´e aumentado a cada passo subseq¨uente. A cada itera¸c˜ao, os pares de palavras j´a selecionados em itera¸c˜oes anteriores s˜ao removidos do corpus de treinamento para que outras alternativas possam ser identificadas.
Uma estrat´egia similar ´e adotada por Wu & Xia (1994) e por Fung (1995). O m´etodo
de Wu & Xia (1994) induz automaticamente um l´exico bil´ıng¨ue inglˆes–chinˆes por meio do
treinamento estat´ıstico realizado com um grande corpus paralelo (com mais de 3 milh˜oes de
palavras). O processo de treinamento bil´ıng¨ue emprega uma varia¸c˜ao do modelo de Brown et
alli (1993) e est´a baseado em um procedimento iterativo de expectation-maximization (EM) para maximizar a probabilidade de gera¸c˜ao de um corpus chinˆes dada a vers˜ao em inglˆes. A sa´ıda do processo de treinamento ´e um conjunto de poss´ıveis tradu¸c˜oes, em chinˆes, para cada palavra em inglˆes, juntamente com a probabilidade estimada para cada tradu¸c˜ao.
Fung (1995) prop˜oe um m´etodo para a indu¸c˜ao de entradas bil´ıng¨ues envolvendo
apenas substantivos, nomes pr´oprios e sintagmas nominais a partir de um corpus paralelo n˜ao alinhado inglˆes–chinˆes. A motiva¸c˜ao para a indu¸c˜ao de entradas dos tipos citados est´a no fato
de que termos de dom´ınios espec´ıficos s˜ao dif´ıceis de serem traduzidos j´a que, freq¨uentemente,
n˜ao aparecem nos dicion´arios bil´ıng¨ues de dom´ınio geral.
Fung (1995) considera o problema de compila¸c˜ao de l´exicos bil´ıng¨ues como um pro-
blema de casamento de padr˜ao: cada palavra compartilha algumas caracter´ısticas comuns com sua contra-parte no texto traduzido. O m´etodo tenta encontrar as melhores repre- senta¸c˜oes dessas caracter´ısticas e o melhor modo de cas´a-las. Para o autor, as caracter´ısticas compartilhadas entre as palavras fonte e alvo s˜ao: suas posi¸c˜oes no corpus, a tendˆencia de se agruparem na diagonal quando suas posi¸c˜oes s˜ao plotadas em um gr´afico (com as posi¸c˜oes fonte em um eixo e as posi¸c˜oes alvo em outro) e a tendˆencia de formarem segmentos alinha- dos. Com base nessas caracter´ısticas, um l´exico inicial ´e criado com os pares de palavras (pontos ˆancoras) que dividem o corpus em segmentos alinhados.
Em seguida, os substantivos e os nomes pr´oprios restantes em inglˆes e todas as pala- vras em chinˆes s˜ao representados na forma de vetores bin´arios de segmentos n˜ao-lineares a partir de suas posi¸c˜oes no texto. Por fim, os vetores bin´arios em inglˆes s˜ao casados com suas
contra-partes em chinˆes usando uma pontua¸c˜ao de informa¸c˜ao m´utua, e s˜ao filtrados com
base em um fator de confian¸ca. Os pontos resultantes ap´os o filtro d˜ao origem ao segundo l´exico bil´ıng¨ue.
Resnik & Melamed (1997) aplicam o sistema SABLE (Melamed, 1997b) em um cor- pus de dom´ınio t´ecnico com aproximadamente 400.000 palavras com o intuito de induzir
um l´exico bil´ıng¨ue de termos. O sistema SABLE (Scalable Architecture for Bilingual LExico-
graphy) produz l´exicos bil´ıng¨ues a partir de textos paralelos (bitextos) n˜ao-alinhados. Esse
sistema foi desenvolvido para trabalhar com qualquer gˆenero de texto em qualquer par de l´ınguas e n˜ao usa nenhum recurso espec´ıfico para as l´ınguas envolvidas, apenas os tokeni- zadores e algumas heur´ısticas para a identifica¸c˜ao de pares de palavras que s˜ao tradu¸c˜oes
m´utuas.
Depois de tokenizar as duas partes do bitexto, SABLE chama o algoritmo SIMR (Me- lamed, 1996a) e seus componentes relacionados para produzir o mapeamento do bitexto. Um mapeamento de bitexto ´e uma fun¸c˜ao injectiva parcial entre as posi¸c˜oes dos caracteres nas duas partes do bitexto – similar ao mapeamento realizado por Fung (1995) ao plotar as posi¸c˜oes das palavras fonte e alvo em eixos perpendiculares. Cada ponto de correspondˆencia (x, y) no mapeamento do bitexto indica que a palavra cujo caractere mediano est´a na posi¸c˜ao x do texto fonte ´e uma tradu¸c˜ao da palavra cujo caractere mediano est´a na posi¸c˜ao y do texto alvo.
O algoritmo SIMR possui duas fases – gera¸c˜ao e filtragem dos pontos de corres- pondˆencia – as quais s˜ao executadas alternadamente. Na fase de gera¸c˜ao, os pontos de correspondˆencia s˜ao gerados usando um subconjunto de heur´ısticas aplicadas a palavras –
baseadas em cognatos (Simard et al., 1992; Melamed, 1995, 1996a) ou l´exicos bil´ıng¨ues inici-
ais (Melamed, 1997a) – selecionado de acordo com a l´ıngua e os recursos dispon´ıveis. Na fase de filtragem, o SIMR filtra os pontos de correspondˆencia candidatos usando um algoritmo de reconhecimento de padr˜ao geom´etrico.
Ap´os a determina¸c˜ao dos pontos de correspondˆencia realizada por SIMR, o SABLE considera que dois tokens co-ocorrem se seus pontos de correspondˆencia est˜ao a uma distˆancia pequena d do mapeamento do bitexto interpolado no espa¸co do bitexto como apresentado na Figura 13.
SABLE usa a estat´ıstica de co-ocorrˆencia dos tokens para induzir um l´exico bil´ıng¨ue
inicial, usando o m´etodo proposto por (Melamed, 1995). O m´odulo de filtro iterativo alterna
entre a estimativa das tradu¸c˜oes mais prov´aveis entre tokens no bitexto e a estimativa das tradu¸c˜oes mais prov´aveis entre types. Por fim, SABLE constr´oi automaticamente um l´exico
bil´ıng¨ue composto de pares de palavras que n˜ao foram removidas durante o ciclo de filtro
iterativo (Melamed, 1996b).
A cobertura do l´exico bil´ıng¨ue pode ser computada automaticamente em rela¸c˜ao ao
Figura 13: Pares de palavras cujas coordenadas est˜ao entre as linhas pontilhadas s˜ao consi- derados co-ocorrentes (Resnik & Melamed, 1997)
ficar a cobertura que eles desejam na sa´ıda. Por padr˜ao, SABLE seleciona um limite que provavelmente produzir´a uma boa precis˜ao.
Al´em dos m´etodos que buscam correspondˆencias bil´ıng¨ues com base em estat´ısticas,
cognatos e outras m´etricas de similaridade em textos paralelos como os m´etodos apresen-
tados at´e o momento, existem outros que utilizam, por exemplo, corpora monol´ıng¨ues n˜ao-
relacionados (Koehn & Knight, 2002) ou uma l´ıngua ponte (bridge language) (Schafer &
Yarowsky, 2002) para induzir os l´exicos bil´ıng¨ues.
O m´etodo de Koehn & Knight (2002) constr´oi um l´exico bil´ıng¨ue alem˜ao–inglˆes
para substantivos a partir de corpora monol´ıng¨ues n˜ao-relacionados combinando v´arias
heur´ısticas. Para tanto, dois corpora monol´ıng¨ues com textos em dom´ınios compar´aveis
– textos jornal´ısticos, no caso dos experimentos apresentados pelos autores – s˜ao utilizados.
A partir desses corpora, os pares de palavras que s˜ao tradu¸c˜oes m´utuas s˜ao determinados
com base em 5 heur´ısticas: (1) palavras idˆenticas ou que diferem em apenas uma letra, (2) ortografia similar (calculada por meio da longest common subsequence ratio (LCSR)) (Mela-
med, 1995), (3) contexto de ocorrˆencia similar, (4) similaridade e (5) freq¨uˆencia de palavras
(medida como a raz˜ao da freq¨uˆencia da palavra normalizada pelo tamanho do corpus).
A heur´ıstica de contexto de ocorrˆencia similar assume que se os corpora monol´ıng¨ues
ocorrendo em um contexto similar. Assim, vetores de contexto s˜ao criados e traduzidos com base no conjunto inicial de correspondˆencias obtido aplicando-se a primeira heur´ıstica. O vetor de contexto que melhor casa ´e usado para construir um mapeamento de palavra.
A similaridade de palavras, por sua vez, parte do pressuposto de que pares de pa- lavras similares em uma l´ıngua provavelmente possuem tradu¸c˜oes similares na outra l´ıngua (como ocorre entre as palavras que designam dias da semana). Assim, para uma nova pala- vra, calcula-se sua pontua¸c˜ao de similaridade em rela¸c˜ao `as palavras no conjunto inicial de correspondˆencias (gerado com base na primeira heur´ıstica), criando um vetor de similarida- des. Essa pontua¸c˜ao de similaridade ´e calculada com base nos vetores de contexto gerados anteriormente (terceira heur´ıstica). O vetor de similaridade com melhor casamento adiciona
as palavras correspondentes ao l´exico bil´ıng¨ue.
Por fim, o m´etodo de Schafer & Yarowsky (2002), tamb´em usa algumas heur´ısticas
para induzir l´exicos bil´ıng¨ues por´em sem utilizar corpora bil´ıng¨ues paralelos nem um l´exico
bil´ıng¨ue inicial. Os autores prop˜oem um m´etodo cujo objetivo ´e aprender l´exicos bil´ıng¨ues
usando recursos dispon´ıveis na web por meio do uso de uma l´ıngua ponte, ou seja, esse
m´etodo n˜ao utiliza nenhum l´exico entre o inglˆes e a l´ıngua de interesse (s´ervio ou gujarati1),
mas sim um entre o inglˆes e a l´ıngua ponte. Assim, os dicion´arios usados nos experimentos foram: checo–inglˆes (com 171K entradas) e hindi–inglˆes (com 74K entradas).
Os vocabul´arios de s´ervio e gujarati foram obtidos extraindo-se dos corpora as pala-
vras ´unicas (word types) e excluindo-se as palavras pouco freq¨uentes e as muito pequenas
(com menos de 5 caracteres). De maneira semelhante `a proposta de (Koehn & Knight, 2002), o m´etodo de Schafer & Yarowsky (2002) baseia-se na combina¸c˜ao de 4 modelos de si- milaridade – similaridade de string, similaridade de contexto, similaridade de distribui¸c˜ao de
datas e similaridade de freq¨uˆencia de palavras. Al´em disso, outras caracter´ısticas dos pares
de palavras candidatos s˜ao consideradas na gera¸c˜ao do l´exico bil´ıng¨ue como a consistˆencia
de PoS: se as palavras diferem na PoS uma penalidade ´e atribu´ıda a essa correspondˆencia para ranque´a-la abaixo das candidatas com PoS compat´ıveis, mas n˜ao exclu´ı-la.
Para cada medida de similaridade, as candidatas em inglˆes s˜ao ordenadas decrescen- temente pelo valor dessa medida. A pontua¸c˜ao de cada palavra em inglˆes ´e calculada com base na classifica¸c˜ao normalizada (obtida com base no valor da medida de similaridade e no peso do modelo de similaridade).