Differential evolution - Improving differential evolution using inductive programming

A análise estatística poderia ser dividida, a grosso modo, em dois métodos: os univariados e os multivariados. O primeiro preocupa-se unicamente com a análise da variação em uma única variável. O segundo, aplicado nesta pesquisa, considera, simultaneamente, muitas variáveis relacionadas e que cada uma delas é igualmente importante – ao menos inicialmente.

Para se compreender como as análises multivariadas, empregadas nesta pesquisa, funcionam e porquê são usadas, espera-se que o pesquisador tenha conhecimento de estatística básica, o que inclui medidas estatísticas, testes de significância e testes estatísticos (MANLY, 2005). Inicia-se uma breve explicação a partir do primeiro item.

Na estatística básica, Farias, Soares e César (2008) destacam dois tipos essenciais de medidas: as de locação, que “mostram o valor representativo em torno do qual os dados tendem a agrupar-se, com maior ou menor frequência” (op. cit., p.21), e as de dispersão, que “mostram o grau de afastamento dos valores observados em relação àquele valor representativo” (op.cit., p.21). Ambos os tipos são usados em pesquisas que aplicam análises multivariadas de dados.

As medidas de locação subdividem-se em: ‘média aritmética simples’, isto é, “o quociente da divisão por n de uma soma” (FARIAS, SOARES e CÉSAR, 2008, p.21); ‘média aritmética ponderada’, um cálculo semelhante ao anterior, porém que considera que os números possuem graus de importância diferentes (pesos); ‘mediana’, isto é, o valor do ‘meio’ de um conjunto de dados colocados em ordem crescente; ‘percentis’, “a generalização do conceito de mediana” (op.cit., p. 23); ‘média aparada’, obtida a partir da eliminação dos valores muito altos e muito baixos; e ‘moda’, isto é, “o valor que apresenta maior frequência em um conjunto de observações individuais” (op.cit., p.27).

Já as medidas de dispersão subdividem-se em quatro grupos interdependentes: (1) ‘amplitude’, “a diferença entre o maior e o menor valor do conjunto” (op. cit., p.28), relacionada ao ‘desvio médio’, que é a média aritmética do valor absoluto da diferença entre cada valor da amostra e a média; (2) ‘variância’ - uma medida de variabilidade a partir da “soma dos quadrados dos desvios em relação à média” (op.cit., p.28) - e a raiz quadrada da variância, conhecida como ‘desvio padrão’; (3) ‘desvio padrão para dados agrupados’, que relaciona os conceitos de variância e desvio padrão a um conjunto de dados agrupados com o objetivo de calcular o

‘escore padronizado’ de um determinado agrupamento; e (4) ‘coeficiente de variação’, em há a comparação entre o desvio padrão e a média com o objetivo de comparar a variabilidade de diferentes conjuntos de dados.

Também de relevância para a compreensão da pesquisa em que se aplica métodos estatísticos multivariados, os testes de significância ou testes de hipótese permitem “decidir se uma conjectura sobre determinada característica de uma ou mais populações é, ou não, apoiada pela evidência obtida dos dados amostrais” e “verificar se estamos diante de uma diferença real (significativa) ou de uma diferença devida simplesmente à flutuação aleatória ao processo” (FARIAS, SOARES e CÉSAR, 2008, p.156). É bastante comum condensar o resultado de um teste de significância por meio do valor p, como se poderá observar nas tabelas apresentadas no capítulo Análise.

De relevância para a pesquisa, também há o teste f. Esse tipo de teste costuma ser usado na comparação entre dois grupos de dados, “para testar o ajustamento global de um modelo de regressão a um conjunto de dados” (FIELD, 2009, p.303) e aparece como resultado da Análise de Variância (ANOVA). Esse tipo de análise, que combina uma série de modelos estatísticos, necessariamente produz uma estatística

f e oferece ao pesquisador a possibilidade de “comparar a variância sistemática nos

dados com a variância não-sistemática” (FIELD, 2009, p. 299). Lattin et al. (2011, p.12) destacam que “o objetivo da ANOVA é testar o efeito de um ou mais fatores experimentais na variável dependente” e que “esses testes são baseados em uma comparação relativa entre da média da variável dependente através de níveis de tratamento de grupos diferentes”. Nesta pesquisa, por exemplo, é através da

ANOVA que se observa se há variação estatisticamente relevantes entre matérias de capa publicadas na revista TIME nas diferentes décadas e quantos por cento dessa variação pode ser justificada por meio dessa variável dependente (década).

Análises com métodos estatísticos multivariados são comumente usadas em pesquisas nas áreas de Biologia, Arqueologia, Paleontologia e Ciências Sociais e podem ser subdivididas em seis tipos: (1) análise do componente principal; (2) análise fatorial; (3) análise de função discriminante; (4) análise de aglomerados; (5) análise das coordenadas principais; e (6) análise de correspondências (MANLY, 2005).

O primeiro tipo, a análise do componente principal, tem como objetivo a redução do número de variáveis que devem ser consideradas para um número pequeno de índices, denominados ‘componentes principais’ e se caracterizam por serem combinações não-lineares das variáveis originais. Esse tipo de análise é uma maneira objetiva de encontrar e ordenar os componentes principais considerando a variação de dados de um modo conciso e pode ser a parte inicial da análise fatorial.

Assim como a análise do componente principal, a análise fatorial “tenta explicar a variação em um número de variáveis originais utilizando um número menor de variáveis indexadas ou fatores”47 (MANLY, 2005, p. 12). Devido ao fato de ser de grande importância para este trabalho, esse tipo de análise multivariada será aprofundada na subseção seguinte.

“[factor analysis] attempts to account for the variation in a number of original variables using a smaller number of index variables or factors.

Um terceiro tipo de análise, a análise de função discriminante, atém-se à separação de grupos diferentes com base em medidas disponíveis. Assim como a análise do componente principal, há a busca por combinações lineares das variáveis originais para atingir o objetivo da análise.

Já a análise de aglomerados ou conglomerados (clusters) ocupa-se da identificação de grupos de objetos similares com correlações canônicas. Os objetos são transformados em variáveis que são então divididas em dois grupo - o interesse da análise reside na relação entre eles. Esse tipo de análise também é aplicada na presente pesquisa com o objetivo de se observar se fatores externos, tais como a mudança de um editor ou a eleição de um político de direita, geram variações na escrita de uma matéria de capa.

Um quinto tipo de análise, a análise das coordenadas principais, assemelha-se à análise do componente principal ao mesmo tempo em que se diferencia dela pelo fato de iniciar com informações sobre as diferenças entre pares de objetos em um conjunto ao invés de considerar os valores para as mediações. Por essa razão, pode-se afirmar que a análise das coordenadas principais também se assemelha ao escalonamento multidimensional, o qual permite a construção de um mapa que mostra como os objetos de estudo se relacionam, mas se difere quanto aos métodos numéricos.

Por fim, há a análise de correspondência, a qual faz uso de grandes quantidades de dados referentes a características diferentes de grupos distintos. Esse tipo de

análise possibilita o estudo de semelhanças nos dados e permite visualizar com clareza as relações entre conjuntos de dois grupos.

Nesta pesquisa, aplicam-se as análises do componente principal, das coordenadas principais, de aglomerados e fatorial a partir da utilização das funcionalidades do pacote estatístico SPSS 20.0, conforme será apresentado no capítulo Metodologia.

In document Improving differential evolution using inductive programming (sider 28-36)