• No results found

Os dados foram digitalizados na freqüência de amostragem45 de 22,05KHZ e analisados no programa Praat46 (versão 4.1.3), conforme referências de estudos e pesquisas realizadas no Laboratório Integrado de Análise Acústica e Cognição da PUC-SP (LIAAC). A análise fonético-acústica dos dados consistiu na obtenção e inspeção da forma da onda, do espectrograma de banda larga e do contorno da freqüência fundamental (f0), e na medição dos parâmetros de duração (em ms) e de f0 (em Hz).

As medidas de duração das emissões foram feitas na forma da onda, sincronizadas ao respectivo espectrograma de banda larga. Como critério para as medidas de duração, foi estabelecido que a duração de cada segmento acústico teria como referência o último pulso regular de uma vogal até o primeiro pulso regular da vogal seguinte. Os segmentos de fala assumem características visuais (forma da onda e espectrograma) diferentes em função de seus modos e pontos de articulação e de serem ou não vozeados47. Assim, por exemplo, fricativas aparecem como

ruídos; oclusivas não-vozeadas como um espaço vazio (tempo de oclusão), seguido de uma espícula (estouro da oclusiva), sem barra de vozeamento; vogais aparecem como uma seqüência de linhas verticais, cada uma correspondendo a um ciclo de

45 Amostragem ocorre quando o sinal analógico é convertido em uma série de amostras , ou seja, em uma série de

números que podem ser armazenados em um computador. Esta conversão pode ser expressa com a seguinte notação: x (n) = x (NT), onde x (n) é uma seqüência de amostras e T é o intervalo de amostra (Kent e Read, 1992).

46 O manual para iniciantes do Praat encontra-se disponível na Internet por Sidney Wood, no site

http://WWW.ling.lu.se/persons/Sidney/praate.frames.html. Para este trabalho, utilizei também uma apostila em português sobre os pontos básicos para a utilização do PRAAT , a qual foi preparada por Ingrid Samczuk, sob orientação da Profa. Dra. Aglael Gama Rossi.

abertura e fechamento das pregas vocais, e linhas horizontais mais escuras que se referem às freqüências de ressonância do trato vocal48, conhecidas como formantes.

FIGURA 1: Forma da onda e espectrograma de banda larga para a frase didn’t think about that, na fala de NA, com a etiquetação de cada segmento, em transcrição ortográfica, e, na segunda camada, valores correspondentes de duração em ms. As freqüências formânticas das vogais estão rastreadas pelas linhas vermelhas pontilhadas

Os valores da freqüência fundamental (f0 ou contorno entoacional) das vogais foram extraídos, a princípio, em três pontos: início, meio e fim, com o objetivo de observar a variação de f0, dentro da vogal mais detalhadamente na fala de cada sujeito. Contudo, devido ao volume de medidas, optei por manter apenas o valor extraído no meio de cada vogal. Além disso, em vários momentos, a medida de f0 não pôde ser extraída em trechos de início ou fim da vogal.

48 Na Teoria Acústica (Fant, 1973), o trato vocal é entendido como um tubo reto, o qual apresenta em uma

extremidade os lábios e, na outra, uma fonte sonora. Na medida em que constrições se formam dentro do trato vocal, algumas freqüências de ressonância deste tubo são realçadas em detrimento de outras. Essas freqüências são designadas por formantes .

FIGURA 2: Forma da onda e espectrograma de banda larga para a frase didn’t think about that, na fala de NA, com o contorno da freqüência fundamental (f0), em linha azul

Para dar uma idéia da quantidade de medidas, podemos tomar como exemplo a análise das seis repetições da sentença It’s the number of times we zero out our

bank account each year, para o sujeito NA, um total de 25 segmentos x seis

repetições da sentença.

Em primeiro lugar, foram etiquetados os valores dos segmentos nas seis repetições da mesma sentença para ambos os sujeitos. Em segundo lugar, os valores absolutos das medidas obtidas no Praat em segundos, foram transportados para uma planilha no Excel, e transformados em valores percentuais, por meio da divisão da duração de cada segmento pelo valor total da sentença, multiplicado por cem. Em seguida, foram realizados os cálculos de média, desvio-padrão, e coeficiente de variação, para o mesmo segmento, entre as repetições da sentença, além de gráficos para as primeiras inspeções da produção da sentença pelos sujeitos. Abaixo segue um exemplo da montagem da planilha no Excel.

TABELA 1: Valores percentuais de duração, média, desvio -padrão e coeficiente de variação das seis repetições da sentença It’s the number of times we zero out our bank account each year, na fala de NA

NA R1 R2 R3 R4 R5 R6 média desvpad coefvar

i 1,01 1,23 1,40 1,42 1,47 1,29 1,30 0,17 0,13 t'sth 5,31 5,07 5,88 6,06 5,05 4,91 5,38 0,48 0,09 e 1,56 2,04 1,92 1,43 1,70 1,91 1,76 0,23 0,13 n 1,93 1,95 1,85 2,34 1,93 1,86 1,98 0,18 0,09 u 2,62 2,96 2,96 2,69 2,89 3,29 2,90 0,24 0,08 mb 2,02 2,43 2,65 2,38 2,57 2,73 2,46 0,25 0,10 ero 4,95 5,46 5,74 4,58 5,25 5,21 5,20 0,40 0,08 f 1,32 1,35 1,04 1,88 1,85 1,73 1,53 0,34 0,22 t 3,98 4,27 4,21 4,28 3,69 3,79 4,04 0,25 0,06 i 4,35 5,26 3,92 5,42 4,56 4,90 4,74 0,57 0,12 m 2,71 2,38 2,88 1,49 2,27 2,86 2,43 0,53 0,22 s 3,49 3,11 4,34 3,53 4,07 3,53 3,68 0,45 0,12 we 3,85 4,53 2,82 3,65 3,15 4,05 3,67 0,62 0,17 z 4,04 3,51 2,98 3,98 3,79 3,28 3,60 0,42 0,12 eroou 17,15 14,02 14,69 14,22 12,92 13,62 14,44 1,46 0,10 our 4,19 4,52 4,80 4,49 4,29 4,58 4,48 0,22 0,05 b 2,71 2,58 2,53 3,15 3,09 2,29 2,72 0,34 0,12 a 3,32 3,24 3,59 3,38 3,55 2,89 3,33 0,25 0,08 nk 2,62 3,43 3,23 3,29 3,69 4,08 3,39 0,49 0,14 a 1,85 1,76 1,80 1,36 1,53 1,13 1,57 0,29 0,18 cc 3,48 4,01 4,06 3,76 3,70 3,82 3,81 0,21 0,06 ount 4,83 5,72 5,43 5,21 7,93 4,91 5,67 1,16 0,20 ea 4,27 3,65 3,40 3,69 2,13 4,07 3,54 0,76 0,21 ch 5,26 5,40 5,57 5,37 5,84 5,54 5,50 0,20 0,04 year 7,18 6,09 6,32 6,93 7,08 7,74 6,89 0,60 0,09

O mesmo foi realizado para as medidas de f0, as quais foram obtidas, sempre que possível, em três pontos da vogal, início, meio e fim. As medidas de f0 não têm sido, nos estudos acústicos, submetidas à processos de normalização como as medidas de duração, e, por isso, permanecem em Hz, que correspondem aos seus valores absolutos. f0 NA R1 R2 R3 R4 R5 R6 i 191 202 185 197 197 190 i 186 202 187 197 197 188 i 184 198 189 199 204 184 e 198 229 203 207 206 207 e 193 226 203 209 205 199 e 191 221 202 208 204 199 u 200 221 207 211 204 201 u 200 221 209 213 205 205 u 210 226 213 220 210 216 ero 242 245 240 244 231 234 ero 241 236 244 246 230 240 ero 230 228 231 236 227 234 i 225 226 216 208 221 202 i 200 207 202 204 205 186 i 207 214 204 207 201 182 we 187 194 194 187 186 174 we 189 205 202 195 193 177 we 184 186 188 188 186 170 eroout 189 188 189 184 180 176 eroout 195 188 192 192 185 193

eroout 187 182 183 181 180 180 our 188 185 183 182 180 181 our 181 179 185 177 176 176 our 178 176 184 176 176 173 a 177 178 178 167 172 171 a 171 175 172 161 164 160 a 169 179 173 159 164 158 a 187 187 177 180 166 167 a 179 181 172 177 159 158 a 172 176 164 171 156 156 ount 171 178 175 178 178 154 ount 152 154 152 151 144 ount 154 206 ea 147 232 ea 157 146 148 154 ea 161 143 161 165 154 155 year 172 161 167 150 157 year 150 141 137 year 151 151 149 151 157

TABELA 2: Valores de f0, medidos nas porções inicial, medial e final, das vogais das seis repetições da sentença It’s the number of times we zero out our bank account each year, na fala de NA. As células em branco correspondem aos locais nos quais não puderam ser extraídos os valores de f0

Segundo Eysenck e Keane (1994), a leitura é aparentemente uma atividade simples e fácil para a maioria dos adultos. Alguns dos aspectos envolvidos na leitura dizem respeito à identificação e à extração de significado de palavras individuais. Outros processos operam no nível da frase ou da sentença. Os movimentos dos olhos fornecem informações úteis sobre alguns dos processos básicos envolvidos na leitura.

A fixação no texto é alternada por movimentos rápidos dos olhos conhecidos por sacadelas. A informação é extraída do texto apenas durante os períodos de fixação e, em geral, é obtida não somente da palavra que está sendo fixada, mas de uma ou duas palavras à direita do ponto de fixação.

A amplitude da percepção (= campo de visão efetivo) é afetada até certo ponto pela dificuldade do texto, pelo tamanho da impressão. Tal informação parece se relacionar bastante com as letras da palavra ou palavras não-fixadas. A maior parte do processamento de cada palavra ocorre durante o tempo em que ela é inicialmente fixada. O reconhecimento da palavra ocorre depois que a identificação das letras que a constituem esteja completa.

Uma vez que a leitura se dá mediante estes processos, será levado em conta, na análise dos dados o fato de o sujeito não-nativo utilizar estratégias diferentes de modo a manter sua fluência na língua estrangeira. Uma das estratégias utilizadas por NON parece ser a de divisão da sentença em um número maior de frases entoacionais, em comparação a NA. Isto será mostrado e discutido na análise de dados.

Este capítulo tem como objetivo caracterizar os aspectos segmentais e prosódicos de um corpus de sentenças em inglês lidas por um sujeito nativo do inglês americano e por um falante do português brasileiro, proficiente em língua inglesa. Esta caracterização será feita com o apoio da análise acústica. Desta forma, os dados receberão tanto um tratamento qualitativo, por meio de espectrogramas, seguidos da discussão de diferenças e semelhanças observadas entre a produção dos falantes, como também uma interpretação quantitativa, por meio de tabelas e gráficos.

As sentenças analisadas neste capítulo foram escolhidas com base nos processos fonético-fonológicos descritos por Levelt (1998), apresentados no capítulo 1, com vistas a tratar a relação entre a produção de sons e a prosódia. Em alguns momentos, foram analisados trechos de algumas sentenças, e, nestes casos, as repetições foram escolhidas aleatoriamente para análise e a mesma repetição para cada um dos sujeitos contemplados neste estudo. Devido à extensão do corpus e ao tempo para a realização do mestrado, foi necessário fazer um recorte dos dados colhidos para análise. Novos estudos poderão ser feitos, visto que, os dados passaram a fazer parte do Banco de Dados do LIACC.

Na inspeção espectrográfica do falante nativo (NA), para a sentença But we didn’t think about that, notamos que, ocorre o desaparecimento da oclusiva alveolar não-vozeada /t/49 que, por sua vez, propicia a juntura externa entre but e we [? wi]50,

49 A consoante /t/ é classificada como oclusiva, porque, durante sua produção, ocorre oclusão ou obstrução completa

da passagem da corrente de ar pelo trato vocal, a partir do contato entre a ponta da língua e os alvéolos (que se localizam na parte imediatamente atrás dos dentes superiores). A oclusiva alveolar /t/ é desvozeada (as pregas vocais se encontram separadas e não ocorre vibração delas), e é produzida, em inglês, com aspiração, (fluxo mais forte da corrente de ar, que sai dos pulmões após a soltura da obstrução e antes do início da vogal), em início de palavra e em posição acentuada, o que não ocorre em português.

50 São usados colchetes para a transcrição de sons que foram produzidos, e barras quando nos referimos a fonemas,

ou seja, a uma forma abstrata do som, antes de ele cair na cadeia da fala. Em muitos momentos, foi adotada transcrição ortográfica, em itálico, como forma de simplificação.

formando um grande ditongo51.

FIGURA 1: Repetição 1 de But we por NA

Ao contrário do que foi mostrado para o falante NA (figura 1), o falante não- nativo (NON), em sua primeira repetição da sentença (figura 2), produz a consoante oclusiva alveolar [t], o que impede o aparecimento da juntura externa entre but e we. A duração da oclusiva alveolar [t] de but, na fala de NON, na

primeira e na segunda repetições, apresenta o mesmo valor (70ms), apesar de a duração entre o estouro do [t] e o início do ditongo [we], diminuir respectivamente, de 29ms para 18ms52. Na terceira repetição de NON, ocorre o desaparecimento da

51

Devido ao fato de a consoante oclusiva bilabial vozeada /b/ aparecer no início da sentença, não é possível extrair sua duração, uma vez que não há uma vogal anterior a ela que sirva como referência.

52 O “vozeamento é o som ‘zumb ido’, que pode ser ouvido quando as pregas vocais na laringe vibram” (Laver, 1995) Voice Onset Time (VOT) é o tempo de início de sonorização. Costuma-se dividir a medida de VOT em três domínios

(Lisker e Abramson, 1964 apud Laver, 1994), que correspondem às categorias fonéticas e fonológicas das oclusivas sonoras, oclusivas surdas sem aspiração e oclusivas surdas com aspiração: (1) oclusivas sonoras, caracterizadas por barra de sonoridade em que o vozeamento é anterior à liberação da oclusão (VOT de -125 a -75ms); (2) oclusivas surdas sem aspiração, caracterizadas por intervalo curto ou simultâneo, em que o vozeamento é simultâneo ou dá-se logo após a liberação da oclusão (VOT de 0 a +25ms); (3) oclusivas surdas com aspiração, caracterizadas por intervalo longo, em que o espaço de tempo entre a liberação da oclusão e o início da vogal é superior a 60 ms (VOT de +60 a + 100ms).

oclusiva alveolar não-vozeada [t], e, por conseguinte, a juntura externa entre but e we [?wi].

FIGURA 2: Repetição 1 de But we por NON

Um aspecto importante da produção da oclusiva alveolar não-vozeada, por NON, desde o início, refere-se à visualização de uma barra de voz durante o tempo de oclusão desta consoante, além do fato de que esta barra de voz tem uma amplitude muito alta em relação àquela de uma oclusiva vozeada. Talvez esta seja uma estratégia de NON para chegar, na terceira repetição, ao desaparecimento de [t] e à juntura externa [b? wi]53. Isto mostra que há um conhecimento subjacente,

por parte de NON, com relação à aplicação de processos fonético-fonológicos da fala corrente em inglês. Contudo, parece ser necessário um tempo para que esse conhecimento seja atualizado e acomodado. Vale lembrar ainda que cada repetição

53 Na fala de NON é possível observar a barra de voz da oclusiva [b], mesmo quando esta se encontra em início da

da sentença ocorre numa ordem aleatória em relação às demais, isto porque as sentenças foram digitadas individualmente em fichas que eram embaralhadas antes de cada repetição (leitura do corpus). Considerando a ordem aleatória e o fato de que o corpus é formado por 40 sentenças, não é possível explicar a produção de NON nas três primeiras repetições apenas por fatores de aprendizagem e memória. Este desempenho só pode ser atribuído a um conhecimento implícito da língua inglesa.

FIGURA 4: Repetição 3 de But we por NON

FIGURA 5: Repetição 1 de times por NON

Comparando-se as produções de NON para a oclusiva alveolar não-vozeada [t], na figura 2, referente à produção em but, na sentença But we didn’t think about

that, com a palavra times, na figura 5, da sentença It’s the number of times we zero out our bank account each year, podemos observar o que foi dito em relação ao fato de que não há barra de vozeamento ou atividade laríngea no tempo de oclusão de [t], conforme visto desde a repetição 1 de NON, em but we (figura 2).

Na produção da sentença It’s the number of times we zero out our bank account each year, pelo sujeito NA, na figura 6, correspondente à primeira repetição, é possível observar um outro processo fonético-fonológico, que se refere à juntura externa entre (zero) out + our (bank). Ocorre a implementação da regra de transformação dos segmentos /t/ e /d/ no flap [r], pelo fato de estarem entre vogais (out our? ou[r]our). Este processo geralmente é denominado de flapping ou tapping, e ocorre não apenas na juntura entre palavras, mas também dentro de palavras (letter? le[r]er ou ladder? la[r]er).

FIGURA 6: Repetição 1 de zero out por NA

Segundo Cristófaro-Silva (2005), isto acontece no contexto fonético em que a vogal anterior ao [t] ou [d] é tônica (ou acentuada) e a vogal seguinte é átona (ou

não-acentuada). Em relação à produção de NA, o contexto que desencadeou o processo de flapping ou tapping foi a sequência entre uma palavra de conteúdo (zero out), acentuada, seguida de uma palavra gramatical (our), não-acentuada, o que deu origem a uma única palavra fonológica [zI?.r?w.awt.awr?

zI?.r?w.aw.rawr]. Segundo Levelt (1998), o processo desencadeado pela

cliticização (a juntura da palavra gramatical à palavra de conteúdo à esquerda), gera a ressilabificação [awt.awr? . aw.rawr].

FIGURA 7: Repetição 1 de zero out our por NON

Em contrapartida, nas seis repetições da mesma sentença pelo sujeito NON, o processo de flapping não é observado, como exemplificado na figura 7, na qual permanece o /t/ de out, produzido como a africada [?], com duração de 147ms. Na

segunda, terceira e quarta repetições, os valores obtidos para a africada [?] foram,

respectivamente, 155ms, 150ms e 219ms. Entretanto, nas repetições 4 (219ms), 5 (270ms) e 6 (273ms) foram introduzidas pausas entre [?] e [our] com os seguintes valores: 54ms, 61ms e 45ms. Vale notar que [our] tem sempre a mesma duração, 150ms, com exceção da primeira repetição, 226ms.

FIGURA 8: Repetição 5 de ero out our por NON

A inserção da pausa extrínseca,54 nas três últimas repetições, sugere que o sujeito NON tenha tratado zero out e our bank account como frases entoacionais diferentes. Analisando os gráficos 1 e 2, que mostram a evolução do contorno da freqüência fundamental (f0), medida nos pontos inicial, medial e final de cada vogal da sentença It’s the number of times we zero out our bank account each year, podemos perceber que o contorno apresenta pouco movimento na fala de NA entre

54 Laver (1994) define a pausa extrínseca (silenciosa) como um período de inatividade vocal, de uma certa duração,

as seis repetições, com um pico em number of, caindo lentamente até o final. Ao contrário, para NON, observa-se um maior movimento do contorno de freqüência fundamental, com a formação de três picos: em number of, zero out e bank account. A diferença entre os contornos de f0 de ambos os sujeitos sugere que NA provavelmente dividiu a sentença em duas frases entoacionais: //It’s the number of times //we zero out our bank account each year//, enquanto NON parece ter dividido-a em três: //It’s the number of times // we zero out// our bank account each year//. A inserção da pausa por NON pode ter determinado a diferença de divisão em frases entoacionais por ambos os sujeitos

É interessante notar que a variação do contorno de f0 é muito semelhante entre as diferentes sentenças do corpus, produzidas por NA, quando se observa um pico no início do contorno (pitch accent ou acento de pitch) e uma queda leve e constante até o final. Isto parece constituir um padrão que NA impõe à leitura das sentenças declarativas/afirmativas (as quais, nas fichas em que foram apresentadas para a tarefa, terminam com uma seta para baixo, sugerindo ao sujeito que deve haver o decaimento da entoação ou do f0). Em relação a NON, observa-se que as sentenças são divididas em mais frases entoacionais. Na sentença acima, a introdução de uma pausa ocasionou a divisão entre zero out e our bank account each year. Não se pode afirmar até que ponto isto tenha sido o efeito de uma estratégia empregada por NON, na tarefa de lidar com a leitura de sentenças mais longas.

Outra diferença que pode ser observada no contorno de f0 (gráficos 1 e 2), na produção da mesma sentença, refere-se à juntura externa entre bank e account (ban. ka.'count). Na fala de NON, percebe-se, auditivamente, o deslocamento do acento

lexical de account (?'kawnt) para a esquerda [bæ?.'k?.kawnt]. No gráfico 2, a

seqüência de vogais de account aparecem como um platô, com os mesmos valores de f0, ao passo que a vogal de bank situa-se num valor mais baixo que as de account. Assim, a vogal pré-tônica de account que se juntou ao [k] do monossílabo bank, formando uma nova sílaba, tem valor de f0 tão alto quanto a tônica ount. O mesmo não foi observado na fala de NA [bæ?.k?.'kawnt], na qual se observa uma linha leve e continuamente descendente no trecho we zero out our bank account (ver gráfico 1). Podemos observar, conforme tabelas 1 e 2, que os valores de f0 de our bank account são menores na fala de NA que na fala de NON.

FIGURA 10: Repetição 6 de bank account por NON

Gráfico 1 - valores de f0 (Hz) medidos em três pontos das vogais da sentença "It's the number of times we zero out

our bank account each year" para NA

0 50 100 150 200 250 300 350 400 450

i e um ero i w e eroou our a a oun ea year

R1 R2

R3 R4

f0 NA R1 R2 R3 R4 R5 R6 our 188 185 183 182 180 181 our 181 179 185 177 176 176 our 178 176 184 176 176 173 a 177 178 178 167 172 171 a 171 175 172 161 164 160 a 169 179 173 159 164 158 a 187 187 177 180 166 167 a 179 181 172 177 159 158 a 172 176 164 171 156 156 ount 171 178 175 178 178 154 ount 152 154 152 151 144 ount 154 206

TABELA 1: Valores de f0 nas porções inicial, media l e final das seis repetições de our bank

account da sentença It’s the number of times we zero out our bank account each year na fala

de NA

Gráfico 2 - valores de f0 (Hz) medidos em três pontos das vogais da sentença "It's the number of times we zero out

our bank account each year" para NON

0 50 100 150 200 250 300 350 400 450

i e um ero i e w e eroou our a a oun ea year

R1 R2

R3 R4

f0 NON R1 R2 R3 R4 R5 R6 our 264 263 245 237 245 our 244 227 225 216 233 our 245 223 222 217 a 251 219 237 215 225 227 a 232 220 237 217 225 216 a 235 247 239 229 232 234 a 313 308 297 270 286 304 a 301 305 295 267 285 307 a 294 296 282 266 283 302 oun 300 257 250 255 267 oun 249 230 227 211 224 228 oun 245 248 243 228 238 241

TABELA 2: Valores de f0 nas porções inicial, media l e final das seis repetições de our bank

account da sentença It’s the number of times we zero out our bank account each year na fala

de NON

Os gráficos da produção das vogais (3 e 4) e das consoantes (5, 6), por NA e NON, contêm como informação a média entre as seis repetições das durações dos segmentos em valores percentuais55, ao invés de valores absolutos (ms), como forma de reduzir os fatores que podem interferir nas medidas de duração: acento

6 Os valores percentuais referem-se a uma forma de normalizar os valores absolutos da duração medida em

miléssimos de segundos ou segundos. A percentagem de cada segmento é calculada em relação à duração total da frase.

lexical, taxa de elocução56, entre outros. Os valores das médias aparecem no eixo à esquerda (do leitor).

Foram também calculados os valores de desvios-padrão, a partir dos valores percentuais, para obter um índice da variabilidade dos segmentos, uma vez que esta medida se refere a quanto o valor de cada segmento variou em relação à média das seis repetições. Valores percentuais mais altos indicam uma maior distensão do segmento no tempo, originalmente medido em segundos no Praat. Por outro lado, valores baixos indicam um “encolhimento” do segmento no tempo. Assim, valores altos são observados em posição de acento, ao passo que valores baixos são observados em posições átonas, ou não-acentuadas, sujeitas aos processos que afetam palavras contíguas, tais como: juntura externa, cliticização e ressilabificação (Levelt, 1998).

Gráfico 3 - média e desvio-padrão para as vogais da