5. Analyse og diskusjon
5.3. Om selve oppstarten
Analogamente ao experimento da Se¸c˜ao 2.6.3, que utilizou um sinal regular por trechos, esta se¸c˜ao avalia os m´etodos de threshold Soft e SoftSoft aplicados a sinais de voz corrompidos por AWGN. Considera-se um trecho de voz voc´alico e outro trecho n˜ao voc´alico. Note que o trecho voc´alico assemelha-se a uma combina¸c˜ao de v´arias harmˆonicas senoidais e, adversamente, o trecho n˜ao voc´alico se parece com um ru´ıdo n˜ao estacion´ario. Ao fim dos experimentos, ficou claro que o m´etodo Soft ´e incapaz de representar adequadamente o sinal de voz e que o m´etodo SoftSoft preserva as caracter´ısticas importantes da voz ao mesmo tempo que remove um pouco do ru´ıdo de fundo.
4.2.1
Trecho Voc´alico — Fonema /a/
Neste experimento, consideramos um trecho curto de voz exclusivamente voc´alico afetado por uma quantidade razo´avel de ru´ıdo. A Tabela 4.1 apresenta de maneira resumida os detalhes deste experimento. Como se pode observar, parte-se do sinal original representado na Figura 4.1a, na qual se pode constatar a semelhan¸ca do mesmo com a forma de onda de um sinal peri´odico “quase estacion´ario”.
Sinal original: aa 8k.wav, duas vogais “a” obtidas editando uma frase. ⊲
Entrada: SN R = 3.05dB, SegSN R = 1.62dB, LSD = 6.8dB, N = 2048, L = 128 amostras. ⊲
M´etodo SoftSoft: DCT, limiares ˇt1 = 0.3 e ¯t2 = 0.13.
Sa´ıda: SN R = 5.58dB, SegSN R = 3.86dB, LSD = 5.6dB, M SEE= -27.9 dB.
Ru´ıdo de fundo semelhante ao original, n˜ao h´a ru´ıdo musical. ⊲
M´etodo Soft: DCT, limiares ˇt1 = 0 e ¯t2 = 0.13.
Sa´ıda: SN R = 5.08dB, SegSN R = 3.26dB, LSD = 16.3dB, M SEE= -27.3 dB.
Elevado ru´ıdo musical. ⊲
Tabela 4.1: Detalhes da simula¸c˜ao computacional.
Inicialmente, soma-se AWGN ao sinal original, obtendo o sinal de entrada da Figura 4.1b, com uma rela¸c˜ao sinal-ru´ıdo de 3 dB. Indicamos, ainda, nesta figura, a potˆencia de ru´ıdo medida no trecho inicial, desprovido de atividade de voz.
Em seguida, calcula-se a DCT a cada bloco da entrada, obtendo os coeficientes da Figura 4.1c. Por meio da opera¸c˜ao de threshold Soft com o limiar superior indicado na figura, obt´em-se os coeficientes da Figura 4.1d.
Por fim, calcula-se a DCT inversa de cada bloco e se reconstr´oi o sinal, apresentado na Figura 4.1e. Nesta figura, a forma de onda do sinal reconstru´ıdo sugere uma grande elimina¸c˜ao do ru´ıdo, por´em quando avaliado pelo ouvinte, nota-se que esta elimina¸c˜ao se deu `as custas de uma elavada distor¸c˜ao da voz e introdu¸c˜ao de ru´ıdo musical. Estes problemas s˜ao freq¨uentemente encontrados na redu¸c˜ao de ru´ıdo em sinais de voz usando threshold Soft.
Tais problemas podem ser solucionados pela introdu¸c˜ao do limiar inferior. A Figura 4.1f apresenta o gr´afico do sinal reconstru´ıdo pelo m´etodo SoftSoft e sugere que houve uma certa redu¸c˜ao do ru´ıdo. De fato, as medidas de desempenho da Tabela 4.1 indicam que o m´etodo SoftSoft ´e superior ao m´etodo Soft. Al´em do mais, o ouvinte percebe uma menor distor¸c˜ao no m´etodo SoftSoft em rela¸c˜ao ao ´ultimo.
Figura 4.1: a) Sinal original, fonema /a/. b) Sinal ruidoso. c) Coeficientes ruidosos; em pontilhado o valor do limiar superior (Soft). d) Coeficientes ap´os a aplica¸c˜ao do limiar Soft. Linhas verticais pontilhadas indicam a divis˜ao dos blocos. e) Sinal recons- tru´ıdo apenas com limiar Soft. f) Sinal reconstru´ıdo com os dois limiares (SoftSoft). (Detalhes da simula¸c˜ao cf. Tabela 4.1.)
4.2.2
Trecho N˜ao-Voc´alico — Fonema /sh/
Agora repetimos o experimento anterior, por´em empregando um trecho de voz exclusivamente n˜ao voc´alico. Na Tabela 4.2, apresentamos um resumo com os detalhes da simula¸c˜ao computacional.
Observe que o sinal original, representado na Figura 4.2a, possui uma forma de onda semelhante a um trecho de ru´ıdo n˜ao estacion´ario.
Somando-se AWGN a este ´ultimo, obt´em-se o sinal ruidoso da Figura 4.2b. Note que parte do sinal submerge em meio ao ru´ıdo, n˜ao sendo poss´ıvel distingui-lo por inspe¸c˜ao visual.
Sinal original: shsh 8k.wav, “shsh” obtido editando uma frase. ⊲
Entrada: SN R = 3.06dB, SegSN R =−15.2dB, LSD = 12.3dB, N = 2048, L = 128. ⊲
M´etodo SoftSoft: DCT, limiares ˇt1 = 0.19 e ¯t2 = 0.15.
Sa´ıda: SN R = 5.94dB, SegSN R =−11.8dB, LSD= 10.6 dB, M SEE= -26.7 dB.
Ru´ıdo de fundo semelhante ao original, n˜ao h´a ru´ıdo musical. ⊲
M´etodo Soft: DCT, limiares ˇt1 = 0 e ¯t2 = 0.15.
Sa´ıda: SN R = 5.14dB, SegSN R =−0.30dB, LSD= 18.2 dB, M SEE= -25.9 dB.
Elevado ru´ıdo musical. ⊲
Tabela 4.2: Detalhes da simula¸c˜ao computacional.
de todos os blocos. Alguns poucos coeficientes se destacam e sobrevivem ao limiar, conforme representado na Figura 4.2d.
A Figura 4.2e apresenta o sinal reconstru´ıdo utilizando um ´unico limiar (Soft). A forma de onda sugere uma boa elimina¸c˜ao do ru´ıdo, contudo o ouvinte percebe a presen¸ca de um elevado ru´ıdo musical e distor¸c˜ao da voz.
Uma estimativa melhor, quando avaliada pelo sistema auditivo humano, ´e apresen- tada na Figura 4.2f, sendo o sinal reconstru´ıdo pelo uso dos dois limiares (SoftSoft). Novamente, a forma de onda da figura sugere uma certa redu¸c˜ao do ru´ıdo e o ouvinte avalia que o sinal reconstru´ıdo possui menos ru´ıdo que a entrada, al´em de uma menor distor¸c˜ao em rela¸c˜ao ao m´etodo tradicional.
Figura 4.2: a) Sinal original, fonema /sh/. b) Sinal ruidoso. c) Coeficientes ruidosos; em pontilhado o valor do limiar superior (Soft). d) Coeficientes ap´os a aplica¸c˜ao do limiar Soft. Linhas verticais pontilhadas indicam a divis˜ao dos blocos. e) Sinal recons- tru´ıdo apenas com limiar Soft. f) Sinal reconstru´ıdo com os dois limiares (SoftSoft). (Detalhes da simula¸c˜ao cf. Tabela 4.2.)