• No results found

A Ciência da Fala ou Síntese de Fala é uma área de pesquisa que tem por objetivo desenvolvimento de máquinas falantes, é algo que fascina e que tem suas origens na mais remota história da humanidade. Desde a Grécia antiga, a reprodução da voz humana de forma artificial fora perseguida. Em sua maioria, eram estruturas formadas por tubos. Geralmente mais ligada ao mítico que a realidade como é o caso das estátuas “falantes” de deuses ou míticos gregos. Por exemplo, a estátua oca do Oráculo de Orfeu,na ilha de Lesbos (DUDLEY; RIESZ; WATKINS, 1939; FLANAGAN, 1972) que afirmavam simular vozes “divinas”. Mais tarde, a criação de cabeças falantes de diversos personagens entre eles Gerbert d'Aurillac (950-1003), que fora cientista e matemático, teria desenvolvido uma cabeça capaz de dar respostas com “Sim” e “Não” estudando feitiçaria. Já Albertus Magnus (1198-1280) também conhecido como “Alberto o Grande” no século XIII, e conhecido por uma respeitada cultura universal e alquimista, teria conseguido criar um autômato que falava. Roger Bacon (1214-1294) filósofo e professor, tornou-se clérigo e ficou conhecido por um estupendo intelecto e teria desenvolvido muito antes invenções como os óculos, telescópios, e até máquinas voadoras. Ele tinha a fama de ter construído uma cabeça capaz de responder qualquer pergunta (BEAUNE, 1980 Apud BARBOSA, 2001). Porém, só mais a diante fora possível encontrar artefatos que comprovam as primeiras tentativas de se reproduzir a voz humana por meio de uma máquina.

As primeiras tentativas para produzir a fala humana pela máquina foram feitas na segunda metade do século XVIII. Christian G. Kratzenstein, professor de fisiologia em Copenhague, anteriormente em Halle e Petersburgo, explicou as relações fisiológicas das cinco vogais e criou um aparelho mecânico semelhante ao trato vocal humano capaz de as produzi-las artificialmente usando tubos de ressonância ligados a tubos de órgão em 1773. Naquela época, o barão Wolfgang Von Kempelen desde 1769 já tinha começado com suas próprias tentativas que o levaram a construir uma máquina falante. Von Kempelen era uma pessoa engenhosa a serviço da imperatriz Maria Teresa em Viena. Ele nasceu em 1734 em Bratislava, capital da Hungria, e morreu em Viena em 1804. Enquanto ele se tornou conhecido por várias façanhas adicionais, a sua principal preocupação era o estudo da produção da fala humana, com aplicações terapêuticas em mente. Ele tem sido chamado de o primeiro foneticista experimental. Em seu livro

“Mechanismus der menschlichen Sprache, nebst der Beschreibung seiner sprechenden Maschine” (1791) - Mecanismo da linguagem humana, com a descrição de uma máquina falante -, ele incluiu uma descrição detalhada de sua máquina falante para que os outros pudessem reconstruí-la e torná-la mais perfeita. Os três desenhos, mostrados na Figura 9, são tomados a partir desse livro e disponibilizados pelo Deutsche Museum em Munique – Alemanha.

Figura 9 – Do livro Mecanismo da linguagem humana - A descrição de uma máquina de falar, 1791.

Fonte: Deutsche Museum, Munique – Alemanha

A máquina de Von Kempelen foi a primeira que permitiu produzir não apenas alguns sons da fala, mas também palavras inteiras e frases curtas. De acordo com von Kempelen, é possível adquirir uma facilidade admirável em utilizar a máquina dentro de três semanas, especialmente se a pessoa escolhe o idioma latim, francês ou italiano, já que o alemão é muito mais difícil por causa de suas muitas sílabas fechadas e encontros consonantais.

A máquina consistia de um fole que simula os pulmões e era utilizada com o antebraço direito - desenho superior. Um contrapeso fornecido para inalação. Os desenhos médio e inferior mostram a 'caixa de vento' que foi fornecida com algumas alavancas para ser acionadas com os dedos da mão direita, a ' boca ', feito de borracha, e

uma espécie de "nariz" da máquina. As duas narinas eram cobertas com dois dedos, quando um nasal tivesse que ser produzido. O mecanismo de produção de todo discurso foi fechado em uma caixa com furos para as mãos e os furos adicionais em sua capa.

O fluxo de ar foi conduzido para dentro da boca não só por meio de uma palheta oscilante, mas também através de um tubo de derivação estreita. Isso permitiu que a pressão do ar na cavidade bucal aumentasse quando a sua abertura fosse tampada firmemente a fim de produzir sons de fala não vocalizados.

Figura 10 – Fotos da Máquina de Von Kempelen

Fonte: Deutsche Museum, Munique – Alemanha

Os longos vinte anos para a construção da máquina foram reconhecidos por uma grande perfeição técnica: a máquina da foto é operacional até hoje e Traunmüller (2000) testemunha que a operou em 1997 e se surpreendeu por seu bom estado de conservação e pela voz feminina ou quase infantil que sai de sua boca de couro.

No século XIX, foram desenvolvidas outras criações semelhantes à de von Kempelen, porém sem nenhum avanço fundamental. Uma das criações mais conhecidas foi desenvolvida por Charles Wheatestone, um inventor inglês bastante habilidoso, criador de invenções tais como a concertina e o estereoscópio. Melhorando o projeto de Kempelen, desenvolveu uma máquina capaz de produzir um maior número de sons que a original. Outra grande invenção foi a máquina criada por Joseph Faber, que tinha como diferencial um modelo da língua humana e era manuseada por meio de pedais e um teclado. Diz-se que essa máquina, chamada Euphonia, não só produzia fala como também cantava o hino inglês “God save the Queen”.

Figura 11 - Foto da Euphonia de Joseph Faber, 1835

Fonte:http://irrationalgeographic.files.wordpress.com/2009/06/19-yfy4rra100.jpg?w=495

Já no século XX, com novas teorias e invenções documentadas, passou a ser viável imaginar um sintetizador de sons da fala a partir de meios elétricos, para substituir os mecânicos utilizados até então. No início dos anos trinta, nos laboratórios Bell, o inventor Homer Dudley cria o VOCODER do inglês “Voice Coder”. A intenção era diminuir a banda necessária para a transmissão de fala, para que um maior número de chamadas telefônicas pudesse ser transmitido em uma única linha. A invenção consistia em reduzir a quantidade de informação necessária codificando a voz em segmentos de números que

representavam os parâmetros acústicos da portadora - frequência fundamental - enquanto o sujeito falava. O inconveniente era armazenar e transmitir as modificações nas frequências. Para “remontar” a fala, era simples inverter o processo e a fala produzida era inteligível, no entanto longe da perfeição.

Em 1936, a Telephone Company do Reino Unido, atualmente umas das maiores empresas de telecomunicações do mundo, por nome BT – British Telecom, inaugurou o seu relógio falante, o Speaking Clock, também conhecido por TIM, que consistia num conjunto de discos de vidro, motores e válvulas que ocupavam toda uma sala. O seu funcionamento consistia, basicamente, em concatenar de forma correta palavras pré- gravadas. Logo no primeiro ano de funcionamento, registrou mais de 13 milhões de chamadas e ainda hoje recebe mais de 135 milhões de chamadas por ano.

O VOCODER marcou a utilização dos meios elétricos, e pesquisas com reconhecimento de fala, que foram financiados pelo Departamento de Defesa do governo dos Estados Unidos, através do projeto DARPA - Defense Advanced Research Projects Agency.

A ideia inicial era usar este tipo de tecnologia para espionagem e decodificação de mensagens. Alguns poucos resultados surgiram ainda na década de quarenta, mas só nos anos oitenta as tecnologias de reconhecimento de fala surgiram comercialmente.

Em 1937, Homer Dudley aperfeiçoou o VOCODER, criando o VODER (de Voice Demonstrator) que foi apresentado na exposição mundial de Nova Iorque em 1939. A figura seguinte ilustra a apresentação do VODER.

Figura 12 - O princípio da síntese da voz sendo demonstrado através do Voder em Nova York, no ano de 1939

Fonte:

http://120years.net/machines/vocoder/voder_fair.JPG

Fonte:

http://120years.net/machines/vocoder/voder.jpg

Uma menina tocou em suas teclas e ele emitiu um som inteligível. Sem utilização de cordas vocais humanas naquele momento; as teclas simplesmente combinaram algumas vibrações produzidas eletronicamente e eram passadas para um alto-falante. (Vannevar Bush, 1945. p.3).

A fidelidade da voz gerada pelo Voder era limitada, a máquina foi concebida com a

finalidade de pesquisa para sistemas de compressão para transmissão de voz através de linhas telefônicas de cobre. 2