O maior desafio da pesquisa em síntese de voz é obter maior aproximação possível com a voz humana enquanto se minimizam os custos, sejam de memória, computacionais, treinamento, etc. (SHAUGHNESSY, 2003).
O objetivo final de um sistema de síntese de voz é não apenas produzir fala facilmente compreensível, mas indistinguível da fala humana, com o mesmo desempenho. Assim, as duas qualidades que se esperam de um sistema TTS são a inteligibilidade e a naturalidade (TABET, 2011).
Entender as limitações das soluções de acessibilidade atuais é uma das chaves para se projetar melhores softwares para usuários portadores de necessidades especiais.
Apesar do investimento substancial em pesquisa de tecnologias de voz nos últimos 40 anos, as tecnologias de síntese de voz ainda apresentam limitações significativas, quase sempre não atingindo a expectativa dos usuários, apresentando pronúncias inadequadas, voz pouco natural, entonação incorreta e dificuldade de reconhecer contextos, como, por exemplo, o número 110 ser sintetizado como "um um zero" ao invés de "cento e dez" ou 1kg ser sintetizado como "um k g", ao invés de "um quilo", etc. Além disso, embora existam alguns sistemas de acessibilidade e síntese de voz, a maior parte deles apresentam vozes não naturais ou não são livres.
Palavras novas, como nomes próprios de pessoas, empresas e produtos podem gerar pronúncias ambíguas, embora os sintetizadores possam pronunciar centenas ou até milhares de palavras. Pronunciar corretamente uma frase ou sentença com a melodia correta requer um entendimento do significado de uma frase que o computador não é capaz de processar, como tom de raiva, dúvida e afins, o que resulta em respostas pouco naturais, artificiais e por vezes até mesmo robóticas, pouco agradáveis de ouvir por longos períodos de tempo, o que não é desejável.
O ouvido humano é muito sensível pra pequenas mudanças na qualidade da voz. Uma pessoa pode detectar mudanças que indiquem o estado emocional, sotaques, problemas de fala, entre outros. A qualidade da síntese de voz atual ainda permanece abaixo da de uma voz real, assim, ouvintes devem fazer um esforço maior do que o normal para compreender vozes sintetizadas e devem ignorar eventuais erros. Para novos usuários, escutar uma voz sintetizada por longos períodos de tempo podem se tornar uma tarefa insatisfatória.
Assim, o desenvolvedor deve considerar duas coisas a respeito da qualidade do som: clareza e compreensão - o quanto o usuário irá entender, e naturalidade - o quanto a voz se parece com a humana. A clareza e a compreensão estão relacionadas com todas as etapas descritas no processo de síntese, uma vez que qualquer erro em uma delas poderá afetar a compreensão de modo a não se fazer entender ou ser entendido erroneamente. A naturalidade está ligada mais pelos estágios finais do processo, mais especificamente
pelo processo de métrica e geração da forma de onda (PITT, 1996; SCHUMACHER, 1995; YANKELOVICH, 1995).
É possível se ter uma voz completamente artificial e completamente compreensível bem como ter uma voz natural, mas que nem sempre seja possível entender, embora isso seja menos comum (SUN MICROSYSTEMS 1998).
Abaixo são descritos algumas situações nas quais os sintetizadores podem gerar resultados insatisfatórios.
3.4.1 Erros quanto à normalização do texto
Mudança de pronúncia de uma mesma palavra em diferentes contextos. Para este caso a solução proposta é o uso de heurísticas, estatísticas de frequência de ocorrência, examinando os vizinhos a fim de realizar a desambiguação de homógrafos.
Recentemente tem sido usados técnicas com HMM, cuja taxa de erro tem sido inferior a 5%. Converter números é um problema também frequente, pois a forma como são lidas é dependente de contextos, podendo ser lidos um a um ou como um número único. Por exemplo: 123 pode ser lido como um dois três ou cento e vinte e três. Algarismos romanos também podem ser lidos de forma diferente: enquanto "Elizabeth II" é lido como ordinal ("Elizabeth segunda"), "Capítulo II" é lido como cardinal ("Capítulo dois"). Abreviações também podem ser ambíguas. Enquanto, por exemplo, "in" pode ser abreviação para polegadas, pode ser também a preposição em inglês. Vários erros podem ocorrer também dentro do contexto de normalização do texto, como, por exemplo, os pontos na sigla "E.U.A.", que podem ser interpretados de forma errônea como fins de sentença; 1988 pode ser lido como mil novecentos e oitenta e oito ou um nove oito oito; ou ainda, construções especiais como endereços de e-mail, que são particularmente difíceis de interpretar, por exemplo: [email protected], pode ser lido com "nicolas arroba lesc ponto u f c ponto b r" ou "nicolas arroba l e s c ponto u f c ponto b r", uma vez não ser possível para um sintetizador conhecer todas as abreviações e acrônimos em uma língua (SUN MICROSYSTEMS 1998).
3.4.1.1 Erros na etapa de pré-processamento
As principais dificuldades encontradas nesta etapa ocorrem em situações que lidam com os seguintes tipos: números, abreviaturas e siglas.
Números são elementos frequentemente dependentes de contextos, podendo ser lidos de diversas formas, como cardinais, ordinais, datas, etc. Por exemplo: 3/4 pode significar uma fração, sendo lido como “três quartos” ou "três de abril". Além de ambiguidades de gênero: 1 pode ser lido como um ou uma. Abreviaturas são geralmente
sequências de caracteres terminados por ponto e que necessitam ser substituídos por sua forma "por extenso". Entretanto, algumas abreviaturas não são seguidas por ponto. Além disso, o número que antecede a abreviatura deverá ser colocada no plural ou no singular. Outras vezes, uma abreviação pode ter mais de uma transcrição: "cap." pode ser capitão ou capítulo, de acordo com o contexto. Siglas são sequência de letras maiúsculas delimitadas ou não por ponto. Neste caso, a dificuldade se encontra em saber se a sigla deve ser lida ou soletrada. Ademais, certos casos fogem à regra a apresentam pronúncia própria, como IEEE ("i três e") (AZUIRSON, 2009).
3.4.1.2 Erros de transcrição fonética
As principais dificuldades encontradas nesta etapa são: a determinação se as vogais "e" e "o" não acentuadas são abertas ou fechadas e a transcrição fonética da letra X. A consoante X é uma das mais problemáticas durante o mapeamento, sendo que nem sempre é possível realizar a transcrição correta por meio de regras e nesse caso, novamente deve-se lançar mão do uso de um dicionário de exceções. Ainda assim, podemos aplicar a seguinte regra, válida para boa parte dos casos: o fonema /x/ ocorre em início de palavras, depois de "n", "ai", "ei" ou "ou", o fonema /z/ ocorre em palavras iniciadas com "ex" seguido de vogal e o fonema /s/ quando seguido de consoante (AZUIRSON, 2009).
3.4.2 Erros na conversão texto-para-fonema
A síntese de voz apresenta duas abordagens básicas para a pronúncia de uma palavra, em um processo denominado conversão texto-para-fonema ou grafema-para- fonema. A abordagem mais simples é a baseada em um dicionário contendo todas as palavras e suas respectivas pronúncias armazenadas. A outra abordagem é baseada em regras de pronúncia. Cada abordagem apresenta suas vantagens e desvantagens: a abordagem baseada em dicionário é rápida e precisa, porém falha quando a palavra não se encontra no dicionário. Além disso, à medida que o dicionário aumenta, os requisitos de espaço na memória aumentam. Quanto à baseada em regras, dependendo da língua, estas podem ser muito complexas e irregulares.
3.4.3 Erros de prosódia e conteúdo emocional
Um estudo da Universidade de Portsmouth, no Reino Unido, liderado por Amy Drahota e publicado na Speech Communication, mostrou que ouvintes podem determinar quando um determinado locutor estaria sorrindo. A identificação das características vocais que transmitem dados emocionais pode ser usada para tornar a fala mais natural. Uma destas características é o pitch, que auxilia a determinar se a
frase é afirmativa, interrogativa ou exclamatória. Uma das técnicas que modificam o
pitch envolve a transformada discreta cosseno.
3.5 Particularidades sobre a engenharia de software envolvendo aplicações faladas