O travejamento algo difuso da metodologia, que se referia anteriormente, apresenta-se agora conclusivo nas suas bases metodológicas: designadamente o uso da grounded theory para interpretação dos dados e o benchmarking para a sua comparação. É neste contexto que se passará à fase de recolha e preparação da informação para análise, assente em dois polos: a recolha dos GA e o tratamento da RL.
a) Criação e tratamento dos GA
Os motores de pesquisa são concebidos para apresentar os resultados de um determinado termo ou conceito pesquisado, de acordo com um algoritmo estabelecido pelo proprietário e designado page ranking, que pretende espelhar as expectativas do “utilizador-tipo” (Enge, 2015).
Esta abordagem coloca dois problemas: a) para certas pesquisas, como seja o caso da EaD, não há um utilizador-tipo, logo não há um padrão para o tipo ideal de resposta; b) ordem cronológica: como o ranking order devolve os resultados organizados por importância e não por data, é possível duas pesquisas diferidas significativamente no tempo apresentarem os mesmos resultados.
Os GA são uma funcionalidade disponibilizada pela Google que colmata estas duas limitações da pesquisa: a) devolve resultados específicos para critérios de pesquisa definidos pelo utilizador; b) devolve resultados incrementados no tempo, isto é, só apresenta resultados correspondentes a nova informação por cada período que o utilizador define.
O Google Alerts apresenta-se, pois, como um recurso valioso, de forma gratuita, já que envia diariamente para o e-mail todos os documentos indexados no Google com as especificações escolhidas pelo utilizador.
A solução, além das mencionadas, apresenta diversas vantagens, pois cobre todos os recursos disponíveis (blogues, redes sociais, páginas institucionais, etc…) e ela própria recolhe automaticamente essa informação, sem haver a possibilidade de intervenção por parte da investigadora. Apesar de ser legítimo colocar a questão da representatividade da informação, já que o método (algoritmo) de criação dos alertas não é conhecido, esta é uma limitação que se assume. Contudo, o seu potencial já foi testado, e o volume e a diversidade de informação recolhida permitem atestar a sua pertinência.
Os GA criam-se a partir das contas e-mail Google, e as tecnicalidades da sua criação são elementares e profusamente documentadas; no caso, criou-se um GA com a configuração apresentada na figura que se segue.
140
Figura 10 – Características dos Google Alerts criados.
Para além deste GA também se criou um outro com as mesmas especificações, mas com os critérios Distance Learning; no entanto, após analisar o conjunto de resultados de ambos os GA, optou-se por trabalhar com Distance Education pois os resultados devolvidos cobriam diferentes aspetos mais abrangentes e, acima de tudo, mais consentâneos com o que foi tratado na RL. Com efeito, só Distance Education devolvia resultados sobre as tecnologias, as ofertas de curso ou emprego, entre outras temáticas, enquanto Distance Learning tinha, essencialmente, a ver com o processo de aprendizagem. Dessa forma, o número de resultados devolvidos no caso de Distance Education era significativamente superior e diversificado.
Foram também criados GA para os termos em português, tendo sido posteriormente abandonados, pois os resultados obtidos eram muito enviesados, já que incidiam essencialmente sobre publicações com origem no Brasil. Os resultados referentes a Portugal ou a outros países de língua portuguesa eram residuais.
Outra alternativa seria optar por não definir um idioma específico, tendo sido abandonada esta hipótese, pois retornavam resultados em alemão, russo, mandarim, entre outras línguas, afigurando-se impossível fazer o tratamento destes dados.
Figura 11 – Exemplo de e-mail resposta ao alert e respetivos links.
Apresenta-se em seguida um resumo da caracterização do universo de GA em análise.
Tabela 12 – Caracterização dos GA - objeto de investigação
Data de início da recolha 01/07/2014
Data de término da recolha 30/06/2017
Total de dias 1096
Número médio de links por dia 29
Universo de links 31 784
Amostra 380
Técnica de amostragem aleatória
142
Dada a impraticabilidade de tratar exaustivamente o elevado número de referências recebidas, resultante dos e-mails recebidos, multiplicados pelas hiperligações (publicações online), no total 31 748 (1096*29), optou-se por trabalhar com uma amostra.
O uso de amostras revela-se em duas dimensões; o cálculo da dimensão da amostra e a técnica de amostragem (Roscoe, 1975).
Para o cálculo da dimensão da amostra optou-se por usar a aplicação Raosoft, disponível online no endereço: http://www.raosoft.com/samplesize.html, e com os típicos níveis de confiança 95% e margem de erro 5%, tal como apresentado na figura que se segue.
Figura 12 - Cálculo efetuado no Raosoft
Para 31 784 hiperligações, com uma margem de erro de 5% e um intervalo de confiança de 95%, o tamanho adequado da amostra seria 380 hiperligações.
O segundo aspeto a considerar é a técnica de amostragem. Como selecionar os 380 links do total da população?
Segundo Bacelar (1999), para se obter uma amostra representativa da população é necessário selecionar técnicas de amostragem adequadas.
As técnicas de amostragem podem ser aleatórias ou não aleatórias, havendo para cada uma delas diferentes categorias com as respetivas vantagens e desvantagens para cada situação.
Como se pretendia garantir que todos os indivíduos da população teriam igual probabilidade de ser escolhidos e que cada subconjunto de indivíduos teria a mesma probabilidade de ser escolhido do que qualquer outro subconjunto de indivíduos, em vez de se optar pela amostragem aleatória sistemática, optou-se por recorrer ao programa SPSS Statistics para gerar uma amostra aleatória.
Para o fazer criou-se um documento SPSS com 31784 entradas, correspondente a 1096 dias, em que cada dia era repetido 29 vezes e numerado de 1 a 29 (número médio de links por e-mail ou dia).
Depois aplicou-se o comando Select Cases com a parametrização apresentada na figura seguinte.
Figura 13 - Seleção aleatória de “indivíduos” SPSS
O comando gerou uma lista aleatória de 380 valores com a informação: data e número de ordem do link. Assim: 29-Nov-2015 - #6, corresponde à seleção para tratamento do sexto link 6 no mail 29-Nov-2015.
144
O segundo problema estava relacionado com o facto de haver algumas hiperligações que já não estavam ativas (links quebrados devido ao tempo que mediou entre a sua recolha e a sua utilização), nesse caso manteve-se o mesmo GA e analisou-se o próximo link ativo. Desta forma, garantiu-se a análise aleatória das 380 instâncias da amostra.
b) Tratamento de texto da RL
A estratégia de análise pressupõe a comparação RL/GA. O método comparativo adotado trouxe consigo um problema metodológico de fundo, enquanto os GA, como foi atrás referido e em virtude da parametrização, resultam em textos em inglês, a RL, embora contenha muita terminologia e citações em inglês, é substancialmente escrita em português.
Esta circunstância impede a comparação, pois, além de ser difícil e contranatura, era impossível comparar, pois existem tecnicalidades a que o tratamento text mining sujeita o texto, como por exemplo a lematização, que tornam técnica e metodologicamente impossível a comparação de texto em línguas diferentes.
A tradução de qualidade metodologicamente inatacável implicaria um estipêndio financeiro muito para além do orçamento de investigação disponível, sem aparente ganho de qualidade. Nestas circunstâncias optou-se por traduzir automaticamente o texto no Google Translate.
Esteve-se consciente da controvérsia da decisão, já que uma breve pesquisa bibliográfica apontava para 60% de exatidão nas traduções no Google Translate, conforme Patil e Davies (2014, p. 1) e Chen, Acosta e Barry (2016). No entanto, a circunstância de haver uma quantidade substancial de texto em citações em inglês, de a RL ter sido escrita numa linguagem denotativa, destituída de ambiguidade semântica (terminologia científica), com um reduzido volume de jargão, permitiram empiricamente consentir a tradução no Google Translate como um risco aceitável.
A qualidade da tradução foi aferida estatisticamente pela metodologia de back- translation.
Os passos que nortearam o processo de tradução foram os seguintes:
- tradução para inglês no Google Translate; - revisão da tradução por um professor de inglês; - retroversão para português no Google Translate; - reavaliação da retroversão pela autora.
Para fazer a reavaliação da retroversão, no sentido de evitar uma leitura exaustiva e desnecessária do documento, optou-se por analisar apenas uma amostra. Para determinar o tamanho da amostra recorreu-se novamente à aplicação Raosoft, (http://www.raosoft.com/samplesize.html), de acordo com a figura seguinte.
Figura 14 – Cálculo do tamanho da amostra recorrendo à ferramenta Raosoft.
Assim, as 3 130 linhas, como uma margem de erro de 5% e um intervalo de confiança de 95%, apontam para que o tamanho adequado da amostra seria de 343 linhas
Neste caso, optou-se especificamente por uma amostragem aleatória sistemática, uma vez que os elementos da população se encontravam organizados de forma sequencial, ou seja, linha a linha.
Amostragem aleatória sistemática: os dados a incluir na amostra são selecionados recorrendo a um intervalo específico. Neste tipo de amostragem aleatória é importante definir o intervalo de amostragem e o ponto de início da contagem.
O intervalo de amostragem é calculado dividindo a população pela amostra (3130/343=9).
O ponto de início da contagem foi a primeira linha.
146
Assim sendo, a primeira linha a ser comparada foi a número um, posteriormente a número dez (1+9), depois a dezanove (10+9), a vinte e oito (19+9) e assim sucessivamente até ao final do documento, chegando-se à conclusão de que as pequenas diferenças existentes não eram significativas para invalidar a qualidade da tradução, uma vez que o que interessa para a análise são as palavras e a proximidade entre elas.
b) Tratamento de texto dos GA
Visto que a aplicação usada para o tratamento do texto só trabalha com documentos txt, foi usado o formato texto simples (*.txt), para converter o ficheiro.
Nesta fase, foi ainda feita uma leitura de todos os documentos que foram selecionados para o estudo, para averiguar quais os que, apesar de conterem as palavras distance education, não contribuíam para o estudo, porque o assunto não estava diretamente relacionado com EaD. A título exemplificativo: foram excluídos os documentos que, apesar de mencionarem dirigentes de EaD, o conteúdo da notícia nada tinha a ver com o EaD, ou documentos associados a percursos/distância entre determinados locais e as universidades de EaD, e outras situações idênticas.
Desta forma, dos 380 documentos selecionados para a nossa amostra, apenas 39 foram rejeitados, o que nos dá uma precisão de 0,9. Este valor é bastante elevado para uma base de dados, uma vez que neste contexto a precisão nos dá a fração de documentos recuperados que são relevantes para a pesquisa efetuada. A fórmula usada para fazer o cálculo foi a seguinte:
Descrita a preparação dos documentos, no próximo subcapítulo abordar-se-á a sua análise.