MindSphere’s socio-economic dimension - Manufacturing the platform economy

No que diz respeito às medidas acústicas utilizadas, estas são selecionadas em função dos objetivos de cada trabalho.

Para estudar acusticamente as consoantes líquidas, os estudos apresentados nos Quadro 18: Procedimentos de gravação e medidas acústicas obtidas.

Para estudar acusticamente as consoantes líquidas, os estudos apresentados nos Quadros 18a e 18b seguem, essencialmente, dois caminhos: descrição das frequências dos formantes e/ou descrição das transições entre as consoantes líquidas e os segmentos adjacentes. No entanto, e a partir de uma análise mais detalhada dos procedimentos de cada trabalho, é possível observar que, mesmo dentro de cada uma das abordagens acima referidas, existem diferenças metodológicas que podem comprometer a comparação entre dados referentes à mesma variável acústica.

A variabilidade encontrada para a descrição das frequências dos formantes é pautada por medições baseadas no “steady-state”/porção estável/ponto médio (Andrade, 1999; Carter & Local, 2007; Dalston, 1975; Hagiwara, 1995; Marques, 2010; Sproat & Fujimura, 1993); no “lowest point of F3” (Espy-Wilson et al., 2000) e “at the midpoint of the central closure period” (Recasens et al., 1995).

No estudo principal de Punnoose (2010), os valores das frequências dos três primeiros formantes, calculados a partir de um “script” automático desenhado para o efeito, foram obtidos em três pontos diferentes: início, ponto-médio e final. A localização destes pontos específicos dependia da duração do segmento alvo.

Ainda em relação às medidas das frequências dos formantes, no trabalho de Proctor (2009, p. 79) estas foram extraídas automaticamente a partir do espectrograma em cinco pontos: centro da vogal precedente; início do intervalo consonântico; centro da líquida; final do intervalo consonântico; centro da vogal seguinte.

Os dados relativos às frequências dos formantes podem ser obtidos a partir da extração automática, semiautomática ou manual. De referir que, na maioria dos casos em que os dados são obtidos a partir de “scripts” automáticos, posteriormente, são conferidos manualmente.

112

Quadro 18: Procedimentos de gravação e medidas acústicas obtidas.

Quadro 18a: Procedimentos de gravação e medidas acústicas obtidas.

Autores Procedimentos de gravação Medidas acústicas Tipo de

análise Lehiste (1964) As gravações foram realizadas numa sala anecóica e foi utilizado um microfone condensador de alta qualidade.

Frequência de F1, F2 e F3 da líquida e das vogais adjacentes Duração

Transições

Dalston (1975) As gravações foram realizadas numa sala insonorizada. _{Microfone: “Western Electric 640AA microfone”}

1) Frequência de F1, F2 e F3 das consoantes; 2) Frequência de F1, F2 e F3 das vogais;

3) Duração do steady-state de cada um dos três primeiros fornantes das consoantes;

4) Duração da transição de cada um dos três primeiros formantes das consoantes;

5) Taxa de transição de cada um dos 3 primeiros formantes das consoantes;

6) Relações F2/F1 e F3/F1.

Lindau (1980) Os dados foram gravados num estúdio de som, quando disponível, caso contrários as gravações eram feitas _{noutro local com um bom sistema de gravação.} Frequência de F1, F2, F3 NR

Recasens (1991b)*

Os dados articulatórios (EPG) e acústicos foram recolhidos simultaneamente.

Os dados acústicos foram digitalizadas com uma frequência de amostragem de 10 kHz. Frequência de F2 LPC

Espy-Wilson (1992)

As gravações foram realizadas numa sala silenciosa.

Foi solicitado aos participantes que produzissem as frases com um ritmo natural. As produções foram digitalizadas com uma frequência de amostragem de 16 kHz. Microfone: “Sennheiser HMD 224X”

- frequência dos formantes (F0, F1, F2, F3 e F4);

- diferença entre frequências dos formantes (F1-F0; F2-F1; F3-F2; F4-F3) em Hertz e em Bark;

- transições dos formantes (para F1, F2 e F3).

LPC Sproat &

Fujimura (1993)*

Dados articulatórios (X-ray microbeam) e acústicos foram recolhidos simultaneamente. Duração da rima silábica

Frequência de F1 e F2 Diferença entre F2 e F1 NR Recasens, Fontdevila & Pallarès (1995)*

Dados acústicos e articulatórios (EPG) foram recolhidos simultaneamente.

Frequência de F1 e F2 Diferença entre F2 e F1

MCD LPC

Hagiwara (1995)

As produções dos falantes foram digitalizadas a partir de uma fita de cassete áudio da sessão de gravação com uma frequência de amostragem de 10kHz.

Frequência de F1, F2 e F3 (em Hertz e Bark) das vibrantes e dos segmentos adjacentes

FFT LPC

Silva (1996)

O material linguístico foi apresentado sob a forma ortográfica e foi utilizada a acentuação gráfica para identificar a sílaba tónica. No caso especifico das vogais e e o, foi utilizado o acento agudo para que o falante as

identificasse como [] e [], respetivamente, em oposição a ê ([]) e ô ([]).

A gravação das 3 primeiras repetições ocorreu numa sala sem tratamento acústico e as 2 últimas foram gravadas numa cabine com tratamento acústico.

Frequência de amostragem de 10 kHz.

- Duração e frequência de F1, F2 e F3 das líquidas e das vogais adjacentes; - Duração da transição entre segmentos

- Transições associadas ao fonema //

FFT

Andrade (1999) Leitura do material linguístico de forma natural e clara Duração

113

Quadro 18b: Procedimentos de gravação e medidas acústicas obtidas.

Espy-Wilson et

al, (2000)*

Devido ao barulho típico do procedimento da RMI, não foi possível gravar as produções acústicas dos participantes em simultâneo à recolha dos dados articulatórios.

Os dados de fala foram gravados numa sala com isolamento acústico Frequência de amostragem de 11.025 kHz.

Utilizou-se um microfone omnidirecional com uma frequência de resposta entre 40-20000 Hz, colocado a cerca de 22 cm da boca dos informantes, e com um ângulo de aproximadamente 15° fora da linha média.

Microfone: “omnidirectional microphone (Beyerdynamic M101)”

Frequência de F1. F2, F3 e F4 NR

Recasens & Espinosa

(2005)*

Os dados acústicos foram digitalizados a 10 kHz, e processados com um sistema de análise Kay CSL, utilizando

a mesma resolução temporal que para os dados de EPG. Frequência de F1, F2 e F3 LPC

Carter & Local (2007)

Os dados foram gravados num estúdio e com uma frequência de amostragem de 16 KHz. Microfone: “Sennheiser MD46”

Frequência de F1. F2, F3 e F4

Trajetória de F2 (transições) LPC

Zhou (2009)*

- Os procedimentos de gravação foram continuamente monitorizados por foneticista de modo a garantir que a produção do som alvo foi consistente ao longo da experiência.

- As gravações das produções sustentadas foram realizadas nas posições de pé e em decúbito dorsal. - As gravações das palavras e pseudopalavras foram efetuadas na posição de pé.

- Devido ao ruído emitido pelo aparelho de MRI, as únicas parcelas das produções dos indivíduos que podem ser analisadas com confiança, são as que ocorrem 500 ms após o início da fonação, e antes do aparelho iniciar o exame, e a 500 ms após terminar o barulho do aparelho, enquanto os sujeitos continuavam a falar.

- Também foram realizadas gravações separadamente, numa sala com tratamento acústico, utilizando um microfone de cabeça e um computador portátil.

Microfone: “Sennheiser headset microfone”

Frequência de F1, F2, F3, F4 e F5 F5-F4

FFT LPC

Proctor (2009)*

- Microfone posicionado a 5 cm dos lábios - Frequência de amostragem 22 KHz, a 16 bits Microfone: “headset-mounted Sennheiser microfone”

Frequência de F1, F2, F3 e F4 F1-F2

Duração

LPC

Marques (2010)

A gravação dos dados foi realizada numa câmara insonorizada, utilizando um microfone de condensador unidirecional (colocado a cerca de 10 cm dos lábios do falante, num ângulo de 45-90o_{) conectado a uma placa de}

som externa, de 24 bits e ligada a um computador pessoal. Foi utilizada uma frequência de amostragem de 22.050 KHz.

Todos os equipamentos que pudessem constituir uma potencial fonte de ruído foram colocados no exterior da câmara, como por exemplo o computador onde foram apresentados os estímulos.

Microfone externo de condensador unidireccional (AKG C535EB II)

Frequência de F1 e F2 Diferença entre F2 e F1 Duração NR Punnoose (2010) Frequência de amostragem de 22.050 KHz.

Os estímulos foram apresentados em powerpoint (num slide não eram apresentados mais do que estímulos) Microfone: “SONY MS907 microphone”

Frequência de F1, F2 e F3 das líquidas e dos segmentos adjacentes

Duração NR

*Dadosacústicos e articulatórios NR: não referido

114

Para além disso, e delineado pelos objetivos/questões de investigação de cada trabalho, nem todos os estudos dispõem de informação para as mesmas variáveis acústicas. Por exemplo, seis dos 17 estudos apresentam dados da frequência de F1, F2 e F3 (Dalston, 1975; Hagiwara, 1995; Lehiste, 1964; Lindau, 1980; Punnoose, 2010; Recasens & Espinosa, 2005; Silva, 1996); Carter e Local (2007), Espy-Wilson et al., (2000), Espy-Wilson (1992) e Proctor (2009) retiram valores da frequência de F1, F2, F3 e F4. Num trabalho de Zhou (2009) é feita referência a dados da frequência de F1, F2, F3, F4 e F5; Recasens (1991) e Andrade (1999) relatam apenas valores de frequência de F2. Marques (2010), Recasens et

al., (1995) e Sproat e Fujimura (1993) apresentam informações relativas a F1 e F2. Importa

referir que as investigações que contemplam medidas apenas para F1 e F2 ocupam-se, na sua maioria, do estudo dos fenómenos de coarticulação e de alofonia.

Deve ainda ser feita referência ao facto de Espy-Wilson (1992) ter utilizado a escala de Bark, para além das medições em Hertz, com o objetivo de reduzir a variabilidade acústica associada a fatores contextuais e a características próprias dos falantes, bem como para otimização das medidas acústicas extraídas. Contudo, o trabalho de Hagiwara (1995) revelou que a conversão dos valores para a escala de Bark não apresenta vantagens significativas relativamente aos valores em Hertz, optando pela escala tradicionalmente utilizada pelos diferentes trabalhos neste âmbito – a escala de Hertz133.

Quanto à descrição das transições dos formantes é possível atestar, para além do facto de ser uma abordagem menos frequente ao longo dos estudos analisados, que existe não só uma inconsistência ao nível da terminologia utilizada, mas também uma dispersão relativamente às informações obtidas. Estão disponíveis dados sobre duração da transição (Dalston, 1975; Silva, 1996), declive da transição em Hz/ms (Dalston, 1975) e “the onset and the offset of F2 transition” (Carter & Local, 2007; Sproat & Fujimura, 1993). No caso particular do trabalho de Espy-Wilson (1992), foi determinada a direção e a extensão do movimento dos formantes, a partir da média dos valores dos formantes da semivogal/líquida subtraída ao valor médio dos formantes das vogais adjacentes.

Silva (1996) estudou os valores das transições (em Hertz) apenas para a lateral palatal, uma vez que considerou a realização deste segmento em três momentos distintos: transição da

133_{A utilização de transformações para a escala de Bark foi, provavelmente, motivada pelo facto de que o}

sistema auditivo humano pode ser mais sensível às relações entre as frequências dos formantes, especialmente às diferenças na escala de Bark, do que aos valores absolutos das frequências dos formantes (Syrdal & Gopal, 1986).

115

vogal átona para o []; estado estacionário/porção estável do []; transição do [] para a vogal tónica. Para cada um dos momentos, os valores de frequência dos formantes foram obtidos no ponto médio.

Com a finalidade de estimar as transições acústicas da vogal anterior para a líquida e desta para a vogal, Proctor (2009) calculou a média da frequência de F1-F2 para cada consoante líquida.

Embora não tenha sido contemplado o estudo de Pagan-Neves (2008) nesta revisão dos vários aspetos metodológicos, por se tratar de um trabalho com uma amostra exclusivamente infantil, é interessante olhar não só para as medidas acústicas selecionadas pela autora, mas também para os critérios definidos para obtenção dessas mesmas medidas, em especial para os valores das transições (em Hz) dos três primeiros formantes. Assim, para alcançar os valores das transições, consideraram-se dois valores em Hertz (um inicial e outro final). O primeiro valor refere-se ao início da transição, obtido manualmente, colocando o curso sobre o último ponto de energia indicativo do final da porção estável do segmento antecedente. O segundo valor refere-se ao final da transição, obtido manualmente, colocando o cursor sobre o primeiro ponto de energia que indica o início da porção estável do segmento seguinte.

Retomando os estudos considerados nesta revisão da literatura, alguns deles apresentam de forma mais pormenorizadas os procedimentos adotados para a segmentação e anotação do sinal acústico, bem como o tipo de análise efetuada, pelo que serão descritos de seguida. Carter e Local (2007, p. 187) fazem referência ao facto de que a utilização da análise LPC nem sempre ser fiável, uma vez que o sinal acústico das líquidas origina zeros, e por isso foram detetados erros grosseiros na extração dos formantes que tiveram que ser corrigidos manualmente através de espectrogramas de banda larga, espectros DFT e ressíntese do sinal original utilizando as trajetórias dos formantes corrigidos. Neste trabalho, as líquidas (inicial, medial e final) foram anotadas manualmente. Assim, anotou-se: o início de qualquer vogal precedente à líquida (definido pelo início da vocalização ou outra descontinuidade espectral); o início da transição de F2 para a líquida; o final da transição de F2 para a líquida (ou seja, o início de um estado aproximadamente estável de F2 na líquida); o início da transição de F2 para fora da líquida (ou seja, o final de um estado aproximadamente estável na líquida); o final da transição de F2 para fora da líquida e o final que qualquer vogal seguinte à líquida (como definido pelo final do vozeamento ou outra

116

descontinuidade espectral). Quanto aos parâmetros temporais, e com o objetivo de comparar diferentes produções, Carter e Local (2007) utilizaram ainda normalização do eixo das abscissas134_.

Andrade (1999, p. 544) também recorreu à segmentação do sinal a partir de pontos previamente estabelecidos, tais como: início da oclusão e no início do vozeamento das sequências C(V)L; inicio e fim da lateral (região semelhante à região da vogal) – Lo e Le respetivamente; fim da região semelhante à consoante (Lr); ponto médio da lateral (Lm); vogal anterior ou seguinte (Vm); alguns “pontos fixos” na lateral e nas vogais, nomeadamente Vo+15ms, Lr-20ms e Lo+25ms. Todavia, a definição destes “pontos fixos” tornou-se problemático em inúmeras situações.

No trabalho de Recasens (1991), embora tenham sido recolhidas dez repetições dos alvos, apenas foram consideradas três delas para a análise acústica. Recorreu-se à análise LPC e os dados referentes à média das frequências de F2 foram extraídos no ponto médio de V1 e V2, no ponto médio do fechamento para o [] (“at he closure midpoint for the tap”), e em cinco pontos ao longo do []. Estes cinco pontos foram colocados nos três períodos de encerramento/fechamento (“closure periods”) e nos dois períodos de abertura intermédios (“intermediate opening periods”).

Os procedimentos utilizados por Silva (1996), para medir os valores das frequências dos formantes, variaram de acordo com as características de cada uma das líquidas em estudo. Deste modo, os formantes da lateral alveolar foram extraídos no ponto médio (obtido a partir do valor total da duração do segmento a dividir por dois). Para a palatal [] as frequências dos formantes foram retiradas no ponto médio da transição da vogal precedente para a palatal, no seu estado estacionário e na transição da palatal para a vogal seguinte, tal como descrito anteriormente. No caso do “tap”, os formantes foram medidos no início e no final do fechamento135_{. Já no caso do [], os formantes foram extraídos}

apenas nas aberturas orais, visto que para esta vibrante não se identificaram formantes nos fechamentos.

134_{Para mais detalhes consulte-se Carter e Local (2007, pp. 187–188)}

135_{O “início do fechamento” corresponde ao período de “quase silêncio” e o “final do fechamento” é}

associado à “batida” (Silva, 1996, p. 40). Estes momentos foram identificados aquando da análise visual. Segundo a autora, esta terminologia é utilizada de acordo com a nomenclatura e procedimentos adotados por Recasens (1991) no estudo das vibrantes do Catalão.

117

Silva (1996) recorreu à utilização do FFT para extrair os valores dos formantes das consoantes líquidas, pois a tentativa de análise pelo LPC revelou-se inviável, na medida em que a existência de antirressonâncias faz com que esta última análise retire picos de frequência onde elas não existem, introduz erros nas medidas extraídas. Para a análise das vogais utilizou a análise LPC.

Para além das medidas acústicas referidas anteriormente, nos trabalhos de Recasens e Espinosa (2005) e de Recasens et al., (1995) foi utilizado o MCD para estudar o fenómeno de coarticulação em sequência simétricas. A utilização desta medida no estudo da coarticulação é também recomendada no trabalho desenvolvido por Marques (2010), apesar de não ter sido utilizada no seu estudo.

118

II PARTE – METODOLOGIA

CAPÍTULO 3 - Critérios para a conceção do corpus, caracterização da

amostra, procedimentos para recolha, análise e tratamentos dos dados

3.1. Introdução

Neste capítulo, o método e os procedimentos utilizados no estudo acústico das consoantes líquidas do PE são descritos detalhadamente.

São inicialmente enunciadas as questões de investigação que norteiam este estudo (secção 3.2.) e na secção 3.3., prossegue-se com a apresentação dos critérios linguísticos considerados para a construção do instrumento de recolha de dados. A descrição do perfil dos participantes e a apresentação dos critérios adotados para segmentação e anotação do

corpus, bem como as medidas acústicas selecionadas como alvo de estudo encontram-se,

respetivamente, nas secções 3.4., 3.5. e 3.6.. Na última secção do capítulo (secção 3.7.), são descritos os procedimentos utilizados na análise estatísticas dos resultados.

In document Manufacturing the platform economy (sider 81-98)