SIACONF (Sistema de Apoio a Contagem de Freqüência em Corpus) (Giusti et al., 2007) é um sistema de tratamento de variação de grafia, desenvolvido no escopo do projeto DHPB, e baseado na metodologia do trabalho de Hirohashi (2004) e Menegatti (2002).
O sistema SIACONF aplica uma série de regras de transformação para uma lista de palavras extraídas de um corpus histórico, visando, principalmente, agrupar diferentes variações de grafia através dessa técnica que é capaz de estabelecer uma relação entre diferentes grafias. A expectativa é que essa relação seja capaz de mostrar as possíveis variações de grafia para qualquer palavra num determinado corpus.
O sistema SIACONF processa um corpus a partir de uma lista de regras iniciais que oferece três tipos de detalhamento: (a) agrupamentos que incluem variação de grafia da mesma palavra; (b) informações das regras aplicadas; (c) e uma lista das palavras não processadas.
97 O agrupamento utilizado no sistema SIACONF difere das técnicas de normalização de Hirohashi (2005). O SIACONF não tenta encontrar uma ortografia atual/moderna de uma variante no corpus, entretanto isso ocorre na maioria das vezes. Por exemplo, as palavras “chaõ” e “chaão” são agrupadas junto à variação “xam”, a qual não existe mais no português brasileiro contemporâneo. Por exemplo, usando as regras de transformação do SIACONF, as variantes de “chão” foram encontradas: chaõ, xão, cham, chaão, and xam.A Tabela 12 mostra exemplos de variantes detectadas para as palavras “apelido”, “mais”, “não” e “vila” acompanhadas de suas respectivas frequências no corpus. A primeira linha de cada exemplo contém a grafia obtida pelas regras de transformação e a soma das frequências de todas as suas variantes.
Tabela 11: Variantes detectadas para as palavras “apelido”, “mais”, “não” e “vila”
apelido (90) appellido (48) apelido (30) appelido (7) apellido (5) nam (37,100) não (33,684) naõ (2,652) nam (439) nao (325)" mais (23053) mais (22,918) majs (67) maes (38) mays (30) vila (5,218) villa (4,073) vila (1,113) vyla (13) vjlla (9) vylla (9) vjla (1)
O objetivo do SIACONF é que os agrupamentos reduzam o impacto da variação de grafia na contagem da frequência e que o agrupamento permita o estudo da variação de grafia no corpus compilado. Desse modo, todas as variantes são encontradas e agrupadas facilitando tanto situações de normalização para a obtenção de uma frequência correta das palavras, quanto fonte de pesquisa das diversidade de grafias de uma mesma palavra.
Regras de transformação adotadas nessa técnica usam expressões regulares. A regra de transformação é uma tripla (C1,C2,S), na qual C1 e C2 são expressões regulares e S é uma string. C1 determina o critério de cobertura da regra, i.e., das formas que serão processadas pela regra. C2 determina a substring em cada Wi, o qual será substituído por S. Por exemplo, a regra “(e[ao] e ei)” é aplicada como segue:
1. C1 é testada em todas as formas do corpus e restringe a aplicação da regra para aqueles que contêm a substring “ea” ou “eo”, por exemplo aldea. Ou seja, C1 armazena a
98 variação de grafia a ser encontrada na palavra, neste caso, todas as palavras que contenham as substrings ea e eo.
2. C2 determina a substring que será substituída, por exemplo, a letra e em aldea. 3. S determina a substituição ei, usada para generalizar a nova forma, por exemplo: aldeia.
Depois da aplicação de diferentes regras, várias grafias Gi produzem uma nova grafia H. Assim é possível inferir que grafias Gi são variantes da mesma palavra. Por exemplo, as regras (ll, ll, l) e (y y I) podem ser aplicadas para as grafias “vyla” e “villa”, respectivamente, resultando uma nova forma de grafar “vila”. Assim, eles são provavelmente variantes da mesma palavra. Além disso, podemos observar que mais de uma regra pode ser aplicada a uma forma dada, como é mostrado na Tabela 13.
Tabela 12: Agrupamento de “não” e “naõ” em torno da forma “nam”
Palavras Regras aplicadas Variantes geradas
NAÕ [óòöôõ] . o
[^r][aã]o$ [aã]o am
"nao" "nam" NÃO [^r][aã]o$ [aã]o am "nam"
Durante esse processo, todas as regras são aplicadas às formas únicas no corpus, gerando um conjunto de novas formas Hi. Cada nova forma representa um agrupamento de variações da mesma forma. Atualmente, são usadas 51 regras de transformações, as quais podem ser divididas em seis grupos:
• Regras para formas que caíram em desuso. Por exemplo: substituição de “y” por “i”. “Y” e “i” o som é o mesmo em português. Entretanto, “y” foi substituído por “i” em todas as palavras exceto nas palavras estrangeiras e nomes próprios. Outras regras são mostradas na Tabela 14.
99
Tabela 13: Regras do SIACONF para formas que caíram em desuso.
ee ee é ph ph f pt pt t th th t ſ ſ s g[ei] g j [áàäâ] . a [éèëê] . e [íìïî] . i [óòöô] . o [úùüû] . u [ýỳÿŷ] . y gu[ao] gu g dh dh d v$ v u [^r][aã]o$ [aã]o am ^ha ha a ^he he e ^hi hi i ^ho ho o ^hu hu u
• Regras para consoantes duplas. Por exemplo: substituição de “ff” por “f”. Outras regras são mostradas na Tabela 15.
Tabela 14: Regras SIACONF para consoantes duplas.
pp pp p tt tt t nn nn n mm mm m bb bb b dd dd d gg gg g vv vv v zz zz z ll ll l uu uu u cc cc c
• Regras geradas de acordo com a norma ortográfica. No português, o sons de “m” e “n” são os mesmos quando precedem uma consoante. Contudo, “m” precede somente antes de “b” e “p”, e “n” precede todas outras consoantes. Elas são mostradas na Tabela 16.
Tabela 15: Regras do SIACONF geradas de acordo com a norma ortográfica.
j[bcdfghklmnpqrstvwxz] j i m[cdfghjklqrstwxz] m n mn mn n mpt mp n mpt mpt nt n[pb] n m ct ct t
100 • Regras baseadas na frequência, formuladas para tratar padrões recorrentes de variação de grafia Por exemplo: substituição de “chr” por “cr”, como em Christo (Christ). Outras regras são mostradas na Tabela 17.
Tabela 16: Regras do SIACONF baseadas na frequência.
ch ch x
.acem$ c ss
aes$ aes ais
• Regras lexicalizadas: regras para especificas palavras. Por exemplo substituição de “o” por “u” em “Deos” .
• Regras automáticas, baseadas nos estudos de Hirohashi (2005) de técnicas de aprendizado automático no corpus Tycho-Brahe . Não é possível usar as mesmas técnicas no HDBP porque o corpus HDBP não tem o mesmo nível de anotação que o corpus Tycho- Brahe. Um exemplo é a substituição de “z” por “s” no sufixo “zente”, como em “presente”. Outras regras são mostradas na Tabela 18.
Tabela 17: Regras do SIACONF baseadas em aprendizado automático .
ozo$ z s serviss serviss service preciz preciz precis
Depois da aplicação dessas regras no corpus, foram identificadas 76.754 formas variantes em 31.069 agrupamentos de palavras. O relatório das palavras não processadas geradas pelo SIACONF é útil para desenvolver novas regras. Nesse relatório é possível encontrar palavras com alta frequência no corpus que não são agrupadas em nenhuma regra.
Após reportar todas as ferramentas e linguagens aqui utilizadas, procederemos ao relato do estudo piloto realizado com vistas a avaliar a dificuldade e alcançabilidade de construir o recurso computacional. Abaixo descrevemos todas as etapas pelas quais passamos até chegarmos à proposta final: o sistema EXTRADEV.