O trato vocal humano, que adota características individuais apesar de os indivíduos serem semelhantes em termos anatómicos e fisiológicos, apresenta um elevado grau de flexibilidade, marcado pela capacidade que os articuladores demonstram em se adaptar para produzir os diferentes sons da fala.
A teoria acústica da produção da fala, também conhecida como “the linear source-filter theory of speech production”16 é utilizada, em grande escala, como suporte à compreensão
da acústica do trato vocal, particularmente no que diz respeito ao entendimento das relações existentes entre os aspetos articulatórios e acústicos dos sons da fala (Kent, 1993; Kent & Read, 2002).
O conceito fonte-filtro propõe que a energia gerada por uma fonte sonora17 é transmitida e
modulada por uma função de transferência (filtro) determinada pela forma das cavidades supraglotais (Clark & Yallop, 1990; Fant, 1960; Fulop, 2011; Johnson, 2012; Kent & Kim, 2008; Kent & Read, 2002; Kent, 1993; Lieberman & Blumstein, 1988; Stevens, 1998). Este modelo de produção de fala, amplamente descrito para a produção das vogais, é composto por um tubo uniforme (representativo do trato vocal e que opera como ressoador ou filtro), que contém numa das extremidades uma fonte vibratória (representativa das pregas vocais e que funciona como fonte da energia que irá percorrer o
16 O livro de Gunnar Fant (1960) “Acoustic Theory of Speech Production” é a referência clássica sobre este
assunto.
17 “There are three major sources to be considered: (a) laryngeal voicing source, typified in the phonation of
vowels; (b) turbulence noise source as in the case of the fricative consonants; and (c) transient source, which applies to the release burst of stop consonants. With appropriate modifications, these three sources account for the various classes of sounds that make up the phonetic system of English (and many other languages as well)” (Kent, 1993, p. 98)
26
tubo) e na outra extremidade é aberto para simular a abertura da cavidade. As ressonâncias determinadas pela forma e comprimento do trato vocal são designadas de formantes18 e correspondem a um modo natural de vibração do trato vocal (Kent & Read, 2002; Lieberman & Blumstein, 1988). No espectrograma os formantes correspondem às zonas mais escuras (ou com cores mais “quentes”) que forma bandas horizontais (Mateus et al., 2005).
Na Figura 5, expõe-se um diagrama representativo da teoria fonte-filtro para a produção de vogais, cuja fonte de energia acústica é proveniente da vibração das pregas vocais. Assim, o espectro da fonte laríngea (“source spectrum”) é filtrado pela função de transferência que modela o trato vocal (“transfer function”) e finalmente modificado pela característica da radiação (“radiation characteristic”), que representa os fenómenos acústicos resultantes do som a sair da boca e a se irradiar pelo espaço envolvente, o que tem o efeito de um filtro que reduz mais a energia nas baixas frequências do que nas altas. Neste sentido, assume-se que o trato vocal introduz um declive espectral de aproximadamente - 12 dB/oitava, a característica da radiação + 6 dB/oitava, resultando num espectro final (“output spectrum”) com um declive aproximando de – 6 dB/oitava (Kent & Read, 2002, pp. 24– 25; Stevens, 1998).
Figura 5: Diagrama representativo da teoria fonte-filtro para a produção de fala. Adaptado de Kent e Read, 2002 (p. 51).
18 “a resonance of the vocal tract. A formant is specified by its center frequency (commonly called formant
frequency) and bandwidth. Formants are denoted by integers that increase with relative frequency location of the formants. F1 is the lowest-frequency formant, F2 is the next highest, and so on” (Kent & Read, 2002, p. 302). Teoricamente existe um número infinito de formantes, mas na prática os três ou quatro primeiros formantes são os que apresentam maior interesse (Kent & Read, 2002, p. 24). Para o estudo das líquidas, os trabalhos incidem sobretudo no estudo das frequências de F1, F2 e F3 (cf. secções 2.2. e 2.5.).
27
Como já referido, o modelo da teoria fonte-filtro tem sido muito útil para o estudo da produção das vogais. No entanto, a produção de fala envolve aspetos acústicos e aerodinâmicos complexos, em que, por exemplo, o fluxo de ar proveniente dos pulmões exerce um papel importante, mas é ignorado pela visão simplista da teoria em causa. (Fant, 1960; Fulop, 2011; Kent & Read, 2002; Stevens, 1998).
1.3.2.1.1. Teoria fonte-filtro para a produção de consoantes
Como descrito na secção referente à Fonética Articulatória, a classificação articulatória tradicional das consoantes é de base orgânica e assenta nas suas características de produção, tipicamente: o ponto e modo articulatório, envolvimento das cavidades oral e nasal e do estado da glote.
De acordo com Kent (1993), a teoria acústica para a produção das consoantes pode ser resumida com base no modo de articulação das diferentes classes de segmentos.
Kent e Read (2002) propõem os modelos ilustrados pela Figura 6 para representar as vogais (A), as fricativas (B) e as nasais (C). No diagrama A, as vogais são produzidas com vibração das pregas vocais (fonte de energia), e a cavidade oral encontra-se relativamente aberta, sem obstruções, sendo responsável pela introdução de certos padrões de ressonância característicos de cada uma das vogais. Diagramas semelhantes a este, porém com algumas modificações, são utilizados para explicar o comportamento das líquidas e semivogais que apresentam propriedades acústicas idênticas às vogais.
Na produção das fricativas (B), em que ocorre uma constrição parcial ao longo da cavidade oral, quando o fluxo aéreo passa por essa constrição, gera ruído/turbulência que funciona como fonte de energia para a produção desta classe de segmentos (Kent, 1993; Kent & Read, 2002). Este modelo (B) é modificado para as oclusivas, visto que estas envolvem uma oclusão do trato vocal, o que também gera ruído (Kent & Read, 2002), embora de natureza diferente.
Relativamente às nasais (C), a fonte de energia é laríngea, tal como descrito para as vogais. Contudo, as primeiras diferem das segundas por apresentarem filtros distintos, isto é, para as nasais, o filtro é determinado não apenas pela passagem pela cavidade oral, mas também pela passagem pela cavidade nasal (Kent & Read, 2002).
28
Figura 6: Diagramas representativos de modelos do trato vocal para três classes de segmentos: (A) vogais; (B) fricativas e (C) nasais (Kent & Read, 2002, p. 18).
As semelhanças acústicas entre líquidas e nasais assentam no facto de ambas serem produzidas com uma bifurcação que introduz antiformantes19 na função de transferência.
No caso das nasais, a bifurcação ocorre entre a cavidade oral e a cavidade nasal. Nas laterais a bifurcação é o resultado da constrição da cavidade oral na linha média (a transmissão do som é feita a partir dos canais laterais formados ao longo da cavidade oral) (Clark & Yallop, 1990; Kent & Kim, 2008; Kent & Read, 2002; Kent, 1993). Já o rótico [ɹ]
20, do Inglês Americano, é um dos sons mais complexos e variáveis, que pode ser
produzido de diversas formas, incluindo uma articulação “retroflex” ou “bunched”. Em termos acústicos caracteriza-se, tipicamente, por apresentar valores baixos de frequência de F3 (Kent & Kim, 2008).
1.3.2.1.2. Teoria da perturbação
A teoria da perturbação (Stevens, 1998) permite prever as mudanças na frequência dos formantes que resultam das constrições que ocorrem ao nível do tubo ressoador. Nesta abordagem, a relação existente entre a pressão do ar e a velocidade do volume de ar utilizado por unidade de tempo desempenham um papel fundamental (Johnson, 2012; Kent & Read, 2002; Ladefoged & Johnson, 2011).
De acordo com os pressupostos da teoria da perturbação, existem locais no trato vocal em que a constrição provoca um aumento da frequência dos formantes e outros em que se observa o comportamento contrário, isto é, a diminuição dos valores de frequência. Na Figura 7, estão indicados os pontos máximos de pressão (“node”) e de velocidade (“antinode”) que ocorrem entre a glote e os lábios para os três primeiros formantes,
19
“A property of the vocal tract transfer function in which energy is not passed effectively through the system but is absorbed within it; opposite in effect to a formant. Antiformants, or zeros, arise because of divided passages or constrictions in the vocal tract.” (Kent & Read, 2002, p. 301)
29
durante a produção de uma vogal. Quando a constrição ocorre perto de um ponto máximo de pressão, existe um aumento da frequência do formante. Caso a constrição ocorra perto de um ponto máximo de velocidade, a frequência do formante diminuiu (Johnson, 2012; Kent & Read, 2002; Ladefoged & Johnson, 2011).
Johnson (2012, p. 140) refere o interesse da teoria da perturbação quanto à previsão dos baixos valores de frequência atribuídos ao terceiro formante do [ɹ] do Inglês Americano, que é produzido com três constrições simultâneas ao longo da cavidade oral. Neste caso particular, a postura da língua reduz o espaço ao nível da cavidade oral no ponto V’3; o
arredondamento dos lábios estreita a cavidade na região de V3 e a constrição faríngea
diminui o espaço no ponto V’’3. Assim, e de acordo com as predições desta teoria, uma vez
que as três constrições ocorrem perto de pontos de velocidade máxima, os valores de frequência de F3 do [ɹ] serão baixos (cf. Figura 7).
Figura 7: Pontos de pressão (“node”) e de velocidade (“antinode”) máximas dos quatro primeiros formantes. Os “antinode” estão legendados com Vn e os “node” correspondem às interseções das ondas sinusoidais ao
30