Em ambas as análises é empregada a metodologia estatística A estatística serve para descrever, explicar e interpretar um conjunto de dados com base em hipóteses59 previamente estabelecidas que devem ser falseáveis e testáveis (GRIES, 2013 : 3;10). Dentre alguns conceitos importantes estão:
A variável dependente (VD) – neste estudo é a variação da realização consonantal (realizada, lenizada e apagada) e que deve ter sua distribuição e variação explicada.
A variável independente (VI) – nesse estudo, são as variáveis linguísticas que serão descritas adiante. A relação entre as VIs e a VD, pode dar sinais que corroborem as hipóteses sobre a variação.
59 Dentro de um estudo estatístico são elaborados dois tipos de hipótese, a chamada hipótese alternativa,
aquela que se quer testar, por exemplo: A lenição consonantal é mais comum em segmentos em posição de coda do que em posição de ataque silábico. E a hipótese nula, que é a situação em que a hipótese alternativa seria falseada: A lenição consonantal não é mais comum em segmentos em posição de coda do que em posição de ataque.
- 69 -
A variável moderadora (VM) – são variáveis que influenciam a relação entre a VD e a VI (GRIES, 2013 : 12).
Todas as variáveis deste trabalho, dependentes e independentes, são categóricas, ou seja, variáveis com pouco valor informacional que categorizam os objetos em seus diferentes níveis (GRIES, 2013 : 16), por exemplo, a variável posição silábica, que possui três níveis: ataque, núcleo e coda.
Existem alguns testes que verificam a distribuição dos dados, dentre os quais está o teste qui-quadrado (χ2), que avalia o grau de conformidade entre a distribuição
observada e a distribuição esperada. Para verificar se uma distribuição observada é de fato significativa, averígua-se se o valor de significância está sendo respeitado. Valor de
significância ou nível de significância (α) é o valor de tolerância, estipulado
previamente, para a probabilidade de uma dada distribuição ser observada ao acaso. Normalmente, o valor atribuído a α é 5%. Já o valor de p é a probabilidade de uma dada distribuição ser observada em caso de a hipótese nula ser verdadeira (GRIES, 2013 : 165). Sendo assim, se a correlação entre duas variáveis obtiver, através de um teste estatístico (como o teste qui-quadrado), um valor de p < 0,05, estipulado como nível de significância, ela é considerada significativa. Por fim, é estabelecido, para uma distribuição dados, o
intervalo de confiança, que é uma estimativa de valores dentre os quais, a partir de um
dado nível de significância, se encontra o valor do parâmetro populacional.
Além da verificação de distribuições de VDs, são observadas as correlações entre VDs e VIs, e os efeitos que a segunda têm sobre a primeira. Também é possível observar que duas ou mais variáveis independentes podem ter seus efeitos sobre a variável dependente somados (GRIES, 2013 : 250), ou a junção dos seus efeitos pode descortinar situações em que um dos níveis de uma das variáveis independentes passa a não ter efeito sobre a variável dependente, como é o caso da tonicidade em interação com a frequência, no estudo de Pharao (2009) sobre a monotongação de (ɑj) na variedade do dinamarquês de Copenhague (ver capítulo 3, seção 3.6. – IV desta dissertação). A caracterização formal da relação entre as variáveis independentes, e suas interações, e uma ou mais variáveis dependentes é chamada de modelo estatístico (GRIES 2013 : 253).
- 70 -
Existem diferentes tipos de análises estatística e para este estudo será adotada a
análise de regressão logística que pertence à classe de modelos estatísticos lineares
generalizados. Esses modelos que se caracterizam pela sua distribuição, nesse caso binomial, e uma função de ligação, logit p = log[p/(1− p)], que transfere o valor médio para uma escala na qual a relação com as variáveis do background é descrita como linear e aditiva (Dalgaard 2008 : 228). Esse tipo de análise estima a probabilidade de um dado resultado a partir de variáveis preditoras (VIs) e é a forma de análise utilizada pelo programa de análises sociolinguísticas, Varbrul (Baayen 2008 : 195). Embora a VD que será testada tenha 3 níveis, como foi dito anteriormente, os apagamentos serão analisados separadamente.
Um outro tipo de teste estatístico, além do teste χ2, é o ANOVA. Este é um teste paramétrico que computa um valor de p para as variáveis preditoras (GRIES 2013 : 267). É utilizado quando se deseja verificar se existem diferenças entre as médias de uma determinada variável em relação a um tratamento com dois ou mais níveis categóricos. Requer a assunção de igualdade de variância para todos os grupos (Dalgaard: 2008 : 144).
Um segundo tipo de modelo de regressão também foi levado em conta neste estudo sobre lenição, o chamado modelo de efeitos mistos. Esse modelo contém variáveis de efeitos fixos, ou seja, variáveis das quais os fatores podem ser replicáveis em outros estudos, e variáveis de efeitos aleatórios, ou seja, variáveis que são consideradas específicas de uma dada amostra e cujos fatores dificilmente seriam novamente selecionados num novo estudo (Baayen, 2008 : 241). Variáveis de efeitos fixos são, normalmente, variáveis sociais e linguísticas e variáveis de efeitos aleatórios são informante e item lexical. Esse tipo de modelo permite a verificação do real efeito das variáveis independentes na variável dependente, uma vez que relativizam o peso que um falante ou um item lexical distinto teriam sobre a variação (Oushiro 2014 : 56).
Desvio padrão é uma medida de dispersão em torno de um valor esperado, ou
média. Quanto menor o desvio padrão, mais próximas da média estão as observações. Seu cálculo é feito a partir da raiz quadrada da variância. Já o coeficiente de variação é o valor obtido na divisão do desvio padrão de uma distribuição pela sua média. Diferente do desvio padrão, esse coeficiente pode ser usado na comparação entre duas distribuições de médias diferentes (GRIES 2013 : 125)
- 71 -
Por fim, são listadas a seguir algumas medidas que indicam a qualidade de um modelo e o quanto ele pode ser preditivo.