respectiva operação dourada. Então, este mapeamento gera uma amostra de treinamento para cada estado possível da sentença. Como exemplo, a Tabela 10descreve 3 amostras para uma sentença qualquer.
Tabela 10 Ű Exemplo de amostras de treinamento extraídas de uma sentença qualquer.
Nro. da amostra N-grama de atributos Operação dourada
1 𝑠1.𝑤; 𝑠1.𝑡; 𝑠1.𝑤𝑡; 𝑠2.𝑤; 𝑠2.𝑡; 𝑠2.𝑤𝑡; 𝑏1.𝑤; 𝑏1.𝑡; 𝑏1.𝑤𝑡 Shift
2 𝑠1.𝑤𝑡 ◇ 𝑠2.𝑤𝑡; 𝑠1.𝑤𝑡 ◇ 𝑠2.𝑤; 𝑠1.𝑤𝑡 ◇ 𝑠2.𝑡; ... Left-arc(aux)
3 𝑠2.𝑤𝑡 ◇ 𝑠1.𝑤𝑡; 𝑠1.𝑤𝑡 ◇ 𝑠2.𝑤; 𝑏1.𝑤𝑡 ◇ 𝑏2.𝑡; ... Right-arc(prop)
Fonte: próprio autor
O número total de amostras é descrito pelo somatório de todas as sentenças (𝑚) multiplicado pelo número de amostras extraídas pelo oracle (𝑛), que é descrito pela função:
𝑓(𝑥) =√︁sentencas
n=1 𝑛n× 𝑚n, onde 𝑥 é o córpus.
Uma vez extraídas todas as ações oracle, o NNParser alimenta o decisor neural. Como descrito na seção 4.1, janelas de embeddings são utilizadas para o mapeamento entre amostras de treinamento e vetores de representações distribuídas (COLLOBERT, 2011;TURIAN; RATINOV; BENGIO,2010).
Uma vez mapeadas as amostras do treinamento o aprendizado da análise sintática ocorre pelo método de gradiente estocástico, com o objetivo de maximizar a cross-entropy das operações douradas.
O processo de treinamento do NNParser é o mesmo descrito anteriormente, seja no modo monolíngue, seja no modo multilíngue. Uma vez que as diferenças entre eles está na forma como as representações distribuídas são induzidas, os processos de análise são feitos das seguintes formas: combinação de representações multilíngues (FARUQUI; DYER, 2014) através de similaridade linguísticas e concatenação de córpus universais.
O processo de representações multilíngue parte do princípio de que línguas irmãs compartilham similaridades. Através dessa similaridade, Tsarfaty et al. (2013) propõem um método de combinação de representações distribuídas através de similaridades mor- fossintáticas (dicionários bilíngues). O princípio utilizado é: seja 𝑦 a tradução da palavra
𝑥, muito possivelmente 𝑦 está no mesmo contexto de 𝑥 pois palavras em diferentes línguas
que são tradução uma da outra compartilham um contexto similar.
A indução de dicionários bilíngues foi feita com base no alinhamento de córpus comparáveis. Uma vez que exista uma relação entre as línguas combinam-se estas por meio da técnica de correlações canônicas (FARUQUI; DYER,2014). Esta técnica combina vetores multilíngues a Ąm de obter-se uma nova representação, onde ambas as palavras
78 Capítulo 4. O NNParser
correlatas transportam suas características para esta nova representação.
Após a obtenção das ŞnovasŤ representações, o NNParser extrai amostras de trei- namento para cada sentença do córpus da língua original e o teste é realizado na língua alvo (projetada) gerando, assim, um modelo capaz de analisar sintaticamente duas línguas, onde as amostras de treinamento são extraídas a partir de uma das línguas combinadas.
A Figura 42 representa o processo de análise sintática multilíngue, onde as re- presentações distribuídas são induzidas através do método de correlações canônicas. Já a Figura38representa o processo de análise multilíngue através da concatenação de córpus.
Figura 37 Ű Modelo utilizando o CCA.
PT ES
CCA NP-parser
Figura 38 Ű Modelo de concatenção de cór- pus.
PT ES ...
NP-parser
Fonte: próprio autor
Apesar do aumento de desempenho em diversas tarefas do PLN (FARUQUI; DYER, 2014; GUO et al., 2015), a indução automática de dicionários é uma tarefa cus- tosa, que demanda a construção e pré-processamento de dados. Uma solução interessante e lógica é aplicar a concatenação de córpus homogêneos. A homogeneidade desses recur- sos permite a fácil combinação deles em um modelo de análise sintática, isto é, sem a necessidade de mapeamentos. Desse modo, a construção de um modelo universal se torna viável. Então, por meio desta proposta de concatenação de recursos torna-se possível que várias línguas sejam treinadas conjuntamente e o teste seja realizado em qualquer língua desse conjunto, tendo assim um analisador sintático multilíngue.
Mais especiĄcadamente, a proposta da Figura 38especiĄca que uma vez extraídas todas as representações distribuídas das línguas envolvidas no treinamento, o processo de
oracle fará o mapeamento de todas as operações douradas com seus respectivos estados
de análise sintática para cada língua. Ao Ąnal existirá um conjunto de amostras de todas as línguas. Assim, permite-se ao modelo um maior ŞreĄnamentoŤ de suas crenças, isto é, uma maior quantidade de amostras para cada estado de análise sintática.
4.2. NNParser: Mono ou Multilíngue 79
Os modelos para análise sintática mono e multilíngue treinados para o NNParser foram testados quanto à taxa de acertos (veja seção 5.2), sendo seus resultados expostos e discutidos no Capítulo 5.
81
5 Experimentos
O presente capítulo explora e analisa diferentes conĄgurações para o sistema de análise sintática universal NNParser. As próximas seções descrevem os recursos (seção5.1) e as formas de avaliação (seção5.2) utilizados neste trabalho, seguidas pelos experimentos realizados e seus respectivos resultados em relação ao baseline (seção 5.3) e as versões monolíngue (seção 5.4) e multilíngue (seção 5.5) do NNParser. As diferentes línguas selecionadas para os experimentos foram português, inglês e espanhol.
Os experimentos descritos na seção5.3têm como objetivo demonstrar quais são os melhores parâmetros para o modelo apresentado e discutido nas seções4.1e4.2. Uma vez encontrada a melhor conĄguração de parâmetros, as seções5.4e5.5avaliam o desempenho do NNParser para as tarefas de análise mono e multilíngue.
Mais especiĄcamente, a seção5.5 apresenta os resultados selecionados para o cór- pus universal dependencies versão 1.2. Estes resultados multilíngues são comparados com o baseline individual de cada língua e o estado da arte atual para a tarefa. A apresentação dos resultados está dividida em: (i) transferência de linguagem com representações dis- tribuídas e (ii) concatenação de córpus. Para a tarefa monolíngue, foi utilizado o córpus
penn treebank convertido para a tarefa de análise sintática de dependência. Também,
fez-se um pequeno reĄnamento das diferentes entradas e saídas dos modelos multilíngue (seção 5.6).