Refleksjoner og videre forskning - Kunsten å være normal

Desde muito cedo que o Homem investiga formas de produzir sistemas que simulem a voz humana. Com o surgimento dos computadores, e a sua con- sequente evolu¸c˜ao, tornou-se poss´ıvel obter resultados com elevado grau de qualidade. Actualmente, existem sintetizadores de voz que geram resultados compreens´ıveis e quase idˆenticos `a voz natural de um ser humano, isto ´e, con- seguem elevado grau de inteligibilidade e de naturalidade. Na realidade exis- tem at´e muitos trabalhos de investiga¸c˜ao que se focam no desenvolvimento de sintetizadores capazes de gerar vozes artificiais que simulam at´e as emo¸c˜oes encontradas na voz humana [43], existindo tamb´em um interesse crescente na cria¸c˜ao de vozes sintetizadas que imitem as caracter´ısticas vocais de deter- minados indiv´ıduos, sendo poss´ıvel, por exemplo, gerar artificialmente uma voz idˆentica `a sua.

utilizadas para gerar voz sintetizada. O leitor, al´em de ficar com uma no¸c˜ao do funcionamento desses m´etodos, fica com uma perspectiva geral das van- tagens e desvantagens que lhes s˜ao inerentes.

S´ıntese articulat´oria. Este m´etodo utiliza algoritmos que simulam o sis- tema vocal humano, simulando a articula¸c˜ao das cordas vocais, da glote, da mand´ıbula, da l´ıngua e dos l´abios. Apesar desta t´ecnica ser extremamente interessante, visto que a cria¸c˜ao de modelos computa- cionais que simulem os diversos ´org˜aos do nosso sistema vocal abre imensas possibilidades, n˜ao ´e a mais utilizada. Pode-se dizer que a uti- liza¸c˜ao de outros m´etodos em detrimento deste est´a relacionada com o facto da s´ıntese articulat´oria requerer muitos recursos computacionais e, pelo menos na actualidade, n˜ao apresentar resultados satisfat´orios ao n´ıvel da naturalidade e de fluˆencia do discurso gerado [14].

Embora n˜ao exista nenhum sistema comercial que utilize esta t´ecnica, pelos motivos j´a referidos, os laborat´orios Haskins1 _{tˆem investido mui-}

tos recursos na sua investiga¸c˜ao. Salienta-se, a t´ıtulo de curiosidade, que o primeiro sintetizador de voz criado nestes laborat´orios, conhecido como ASY, foi elaborado por Philip Rubin, Tom Baer e Paul Mermels- tein em meados dos anos 70, tendo por base modelos das cordas vocais desenvolvidos nos laborat´orios Bell.

S´ıntese por formantes. Contrariamente `a s´ıntese articulat´oria, que apre- senta a desvantagem inerente a uma t´ecnica que tenta modelar o sis- tema de produ¸c˜ao de voz dos seres humanos (system-models), as t´ecnicas

que se baseiam na modela¸c˜ao dos sinais resultantes do processo de fala (signal-models) s˜ao bastante mais utilizadas na ´area de s´ıntese de voz. Uma das t´ecnicas que ´e amplamente utilizada nesta ´area ´e conhecida pela denomina¸c˜ao de s´ıntese por formantes. Este m´etodo baseia-se num conjunto de regras que determinam os parˆametros necess´arios para sin- tetizar uma dada express˜ao, nomeadamente os relacionados com as frequˆencias de formantes, anti-formantes, e com a amplitude [14, 17]. Os sintetizadores por formantes podem apresentar duas configura¸c˜oes, uma em forma paralela e outra em forma de cascata [35]. Na primeira, o est´ımulo de cada um dos formantes ´e realizado em paralelo e o re- sultado final ´e fornecido atrav´es da soma dos ganhos de cada uma das sa´ıdas. Nos sintetizadores em cascata, por sua vez, uma sa´ıda resul- tante da estimula¸c˜ao de um formante serve de entrada ao seguinte at´e que o resultado final seja obtido. Estes m´etodos podem ser vistos de forma esquematizada na figura 2.1, baseada nos esquemas encontra- dos no trabalho de Dennis Klatt [35]. Cada uma destas configura¸c˜oes apresenta as suas vantagens e desvantagens. Por exemplo, enquanto os sintetizadores em cascata s˜ao mais apropriados para a produ¸c˜ao de sons n˜ao nasais, a configura¸c˜ao em paralelo adequa-se mais `a produ¸c˜ao de sons fricativos e plosivos.

Os sintetizadores por formantes [35, 36] s˜ao especialmente utilizados em aplica¸c˜oes onde o output n˜ao ´e previs´ıvel, como sistemas TTS ou leitores de ecr˜a, gerando resultados de elevada inteligibilidade. Apesar do discurso gerado n˜ao ser completamente natural, notando-se que ´e

Figura 2.1: Esta figura, que ´e uma adapta¸c˜ao da encontrada no trabalho de Dennis Klatt [35], apresenta esquematicamente as duas configura¸c˜oes de s´ıntese por formantes.

gerado por uma m´aquina, os recursos computacionais exigidos por este processo de s´ıntese s˜ao aceit´aveis [14].

S´ıntese por concatena¸c˜ao. Este m´etodo de s´ıntese, amplamente estudado por Thierry Dutoit [18, 17], ´e mais adequado para ser implementado em aplica¸c˜oes onde se conhece previamente os inputs poss´ıveis, como nos sistemas de navega¸c˜ao, nos sistemas de atendimento autom´atico, nas caixas multibanco, e em sistemas semelhantes que desejem ter a naturalidade fornecida por registos vocais pr´e-gravados.

A t´ecnica de s´ıntese por concatena¸c˜ao, tamb´em conhecida por s´ıntese concatenativa, baseia-se na uni˜ao de segmentos de fala que se encon- tram armazenados numa base de dados. A qualidade resultante deste m´etodo de s´ıntese depende da forma como a jun¸c˜ao desses segmentos

(fonemas) ´e realizada, nomeadamente se ´e aplicada a estrat´egia de se- lec¸c˜ao de unidades, de difones, ou a do dom´ınio espec´ıfico. Claro que, aliados a este factor, tamb´em existem outros que tˆem impacto no re- sultado de um sintetizador baseado nesta t´ecnica, como a eficiˆencia do algoritmo implementado para efectuar a pesquisa na base de dados. A estrat´egia de selec¸c˜ao de unidades [30], ou s´ıntese concatenativa por selec¸c˜ao de unidades, ´e a que apresenta melhores resultados ao n´ıvel da inteligibilidade e naturalidade. Contudo, apesar de actualmente os estudiosos que trabalham em sistemas de s´ıntese por concatena¸c˜ao estarem a centrar as suas aten¸c˜oes nesta estrat´egia, existe a grande desvantagem de consumir muitos recursos computacionais por requerer a utiliza¸c˜ao de grandes bases de dados. Essas bases de dados s˜ao criadas com base em muitas horas de discurso pr´e-gravado, onde cada segmento de fala ´e tratado e armazenado na forma de fones, s´ılabas, palavras, e frases.

A s´ıntese por concatena¸c˜ao de difones, embora apresente resultados pio- res dos que s˜ao obtidos pela estrat´egia anterior, ´e uma forma de poupar nos recursos computacionais, visto que este m´etodo de concatena¸c˜ao requer bases de dados de muito menor dimens˜ao que armazenam ape- nas difones (transi¸c˜oes entre dois fones). Nesta estrat´egia, que mesmo assim consegue uma naturalidade de som melhor que os sistemas base- ados em s´ıntese por formantes, as caracter´ısticas de discurso (o ritmo, a entoa¸c˜ao, entre outros atributos) s˜ao sobrepostas aos difones atrav´es de t´ecnicas de processamento digital de sinal.

Por ´ultimo temos a s´ıntese por concatena¸c˜ao de um dom´ınio espec´ıfico (domain-specific synthesis), utilizada quando se pretende desenvolver uma aplica¸c˜ao para um dom´ınio em particular. Sabendo, `a partida, toda a variedade de resultados que um determinado sistema pode gerar, ´e poss´ıvel ter uma base de dados com as palavras e frases pr´e-gravadas para gerar o discurso completo. Salienta-se que este m´etodo apresenta resultados que quase n˜ao se distinguem da fala humana, apesar de apenas poderem apresentar como resultado da s´ıntese a combina¸c˜ao das palavras e frase pr´e-inseridas. Um exemplo de aplica¸c˜oes de dom´ınio espec´ıfico em que se pode utilizar esta t´ecnica de s´ıntese s˜ao os sistemas de navega¸c˜ao.

S´ıntese baseada nos modelos ocultos de Markov. A t´ecnica de s´ıntese baseada nos modelos ocultos de Markov (Hidden Markov Models) tem sido muito utilizada nos ´ultimo anos por apresentar bons resultados. Em linhas gerais, este m´etodo apresenta resultados de qualidade infe- rior `a t´ecnica de s´ıntese concatenativa por selec¸c˜ao de unidades, mas tem a vantagem de requerer bases de dados de menor dimens˜ao [4]. Um modelo oculto de Markov ´e um modelo estoc´astico em que se mo- dela um processo Markoviano cujos estados s˜ao desconhecidos.

As principais t´ecnicas de s´ıntese, acima abordadas, s˜ao os m´etodos mais utilizados no estudo e no desenvolvimento de sistemas de s´ıntese de voz. Contudo, uma forma de tirar partido das vantagens inerentes a cada t´ecnica ´e utilizar um h´ıbrido das v´arias t´ecnicas no desenvolvimento de futuros sis- temas de s´ıntese de voz [14].

Seguidamente, para proporcionar ao leitor um maior conhecimento de sistemas de s´ıntese de voz, apresenta-se um conjunto de sintetizadores e de sistemas TTS que est˜ao dispon´ıveis no mercado. Seguindo o princ´ıpio que a tecnologia deve estar acess´ıvel a todos, principalmente `as pessoas portadoras de limita¸c˜oes, apenas ser˜ao referidos produtos de utiliza¸c˜ao gratuita ou que sejam de c´odigo aberto.

In document Kunsten å være normal (sider 88-94)