5. Examining the Northern Sea Route
5.2 The historical development of shipping via the NSR
O corpus de análise para esta pesquisa foi obtido a partir da produção científica de Psicologia extraída de BDLTCs disponíveis no Portal de Periódicos da CAPES (2010). A
busca foi realizada nas 29 BDLTCs em Psicologia contidas no portal, mas somente quinze delas apresentaram conteúdos relacionados à estratégia de busca efetuada.
A estratégia de busca padrão para todas as bases envolveu os termos-chave “social
skills”, “social competence” e “assertivity” presentes nos campos de título (title) e assunto
(subject). As estratégias de busca específicas para cada base foram customizadas, devido às diferentes nuances nos mecanismos de buscas de cada base. Os totais para cada base não correspondem ao total efetivo, pois são totais dinâmicos com muitas duplicações, mas foram obtidos aproximadamente 104.000 registros a partir da coleta inicial.
As pesquisas para extração dos metadados foram realizadas em três etapas. Entre maio e junho de 2012 (etapa 1), foram coletados 90.770 registros usando os termos “social skills”, “social competence”, sendo que nesta estratégia também foi incluída a busca no campo resumo (abstract) e qualquer tipo de publicação, artigos, livros, capítulos, manuais, obras de referência, entre outras. Em dezembro de 2013 (etapa 2), foram coletados cerca de 3.900 registros usando os termos “social skills”, “social competence” e mais cerca de 14.000 registros com “assertivity” (etapa 3). Para obter os metadados das bases, foi realizada uma estratégia de busca adequada para cada base, com todas as suas especificidades de operadores booleanos, de proximidade e de truncamento e limites, utilizando as expressões adequadas para a ferramenta de busca. Para ver a estratégia geral utilizada para cada base e o total aproximado de registros recuperados, veja APÊNDICE A - Estratégias de Busca usadas nas BDLTCs. Após a busca, configurou-se a exibição dos resultados para facilitar a exportação dos registros: de acordo com a quantidade de resultados, configurou-se a paginação para baixar o máximo de registros possível por página.
Na primeira etapa, todos os registros foram exportados para o Zotero no formato "mods", que é o padrão para comunicação de dados em XML. Os registros no formato "mods" foram exportados para o software ExultMySQL, que transforma registros XML para formato de banco de dados relacional (vide GLOSSÁRIO), segundo a estrutura XML apresentada nos documentos (Figura 8). Sendo o ExultMySQL um software pago e um dos lemas desta pesquisa é uso de software livre, continuou-se buscando soluções em software livre para substitui-lo.
Figura 8 - Processo de Extração de Metadados das BDLTCs (Etapa 1) usando ExultMySQL. Fonte: autoria própria, 2014.
Os arquivos "mods" foram exportados para uma única base de dados relacional em MySQL com tabelas padronizadas para as bases com estrutura XML similar, mas com tabelas diferenciadas para as BDLTCs com outras estruturas XML. Todo o conjunto de registros exportados formou uma primeira versão do corpus que incluíam duplicações de registros, já que uma mesma publicação pode estar contida em duas ou mais BDLTCs ao mesmo tempo com metadados idênticos ou semelhantes.
Na segunda e terceira etapas, finalmente foi localizado o software livre RefBase, que é um gerenciador de referências bibliográficas que utiliza linguagem PHP e banco de dados MySQL. Este software oferece opção de importação a partir de diversos formatos de referência bibliográfica diretamente para uma base MySQL. Assim, foi possível realizar o mesmo trabalho da etapa 1 de forma mais consistente e ágil. Todos os registros foram então exportados para o RefBase para tratamento (Figura 9).
Figura 9 - Processo de Extração de Metadados das BDLTCs usando RefBase (Etapa 2). Fonte: autoria própria, 2014.
Após a inclusão de todos os registros no banco MySQL, em ambas as etapas, iniciou-se o tratamento dos registros e dos metadados para padronização e exclusão de registros duplicados. Diversos processos foram realizados nos dados do corpus para padronização que possibilitasse a análise dos dados: (1) transformação de atributos migrados na forma registros
de tabelas (linhas) para outro atributo (coluna separada); (2) transformação de tabelas relacionais com relacionamento 1-1 em atributos da tabela principal; (3) normalização de campos, tais como título da publicação (campo title), título do periódico (campo titlesource), nomes de autores (tabela namepart), assuntos (tabela subject); (4) exclusão de duplicações de registros entre outros. Os detalhes dos processos de tratamento de dados podem ser vistos no APÊNDICE B - Tratamento de Dados.
Uma das principais razões do tratamento de dados foi a exclusão de registros duplicados, pois observou-se que algumas bases contêm muitos registros repetidos de outras, embora não necessariamente catalogados de forma padronizada. Assim, o tratamento levou à padronização necessária para se excluir tais duplicações. Alguns registros duplicados foram excluídos manualmente, devido a: nomes de periódicos divergentes devido ao uso de & comercial ou AND; falta do subtítulo do nome do periódico; divergência na data de publicação; falta de volume ou fascículo; falta de paginação do artigo; entre outros. Foram mantidos os registros com mais informações e com informações corretas, obtidas quando possível da própria publicação.
Após o tratamento do corpus obtido na etapa 1, os metadados foram analisados junto aos especialistas do CHS, concluindo-se que muitas publicações eram de outras áreas, ainda que utilizassem os termos “social skills” e “social competence” como termos-chave ou termos do título ou resumo. Por isso, foi feito o refinamento com uma estratégia de busca mais específica (veja APÊNDICE C - Estratégia para Refinamento do Corpus HS).
Para a segunda etapa, já foi considerado o refinamento proposto pelos especialistas, por isso a estratégia de busca foi limitada ao tipo de documento “artigo científico” (article) e aos termos-chave “social skills”, “social competence” presentes nos campos de título (title) e assunto (subject), excluindo-se o campo resumo (subject), que resultava em muitas publicações fora do escopo do CHS. Por outro lado, a busca foi ampliada com o termo-chave (vide GLOSSÁRIO) “assertivity”, também nos campos de título (title) e assunto (subject).
Da primeira etapa, obteve-se 16.978 artigos sem duplicações. Da segunda, obteve-se 8.431 artigos sem duplicações, totalizando 25.409 artigos sem duplicações das duas etapas. O Corpus HS, tratado e refinado em um sistema de banco de dados relacional foi armazenado em MySQL para ser disponibilizado on-line, utilizando-se o framework Joomla, que possibilita a inclusão, exclusão, pesquisa e visualização dos metadados de forma dinâmica.
Para armazenamento e manipulação do Corpus HS e do Tesauro HS, foram utilizados bancos de dados relacionais. O ciclo de vida de um banco de dados relacional envolve três etapas: (1) projeto lógico, no qual ocorre a análise de requisitos e a modelagem de entidades e relacionamentos (E-R); (2) implantação, no qual ocorre, com base no modelo logico E-R, a construção de objetos e relações normalizadas entre estes em um sistema de banco de dados
relacional, tal como o MySQL e (3) manutenção, na qual ocorre a correção e a otimização da estrutura da base (Teorey, 1999, Capítulo 1).
A modelagem de banco de dados relacional, baseada em projeto conceitual e lógico adequados, possibilita: (1) desenvolver sistemas mais íntegros reduzindo a duplicidade de registros, (2) melhor processamento das operações, especialmente de consultas SQL, (3) menor quantidade de objetos e relacionamentos, 4) simplificar o uso de consultas complexas que envolvem junção (join) entre tabelas, por meio do uso de chaves primárias e estrangeiras. Isto agiliza o processamento das operações e fornece resultados mais consistentes. Nesta pesquisa, a modelagem foi realizada tanto para tratamento e refinamento do Corpus HS quanto para o desenvolvimento do Tesauro HS.
Para desenvolvimento do sistema do Corpus HS foi utilizada a linguagem de programação PHP orientada ao objeto, contando com o auxílio de um analista de sistemas para programação mais pesada. O PHP é uma linguagem em código aberto utilizada em todo o mundo para desenvolvimento de softwares livres e frameworks e o Joomla é um sistema de software livre de módulos integrados para desenvolvimento de sites em código aberto na internet. Foram desenvolvidos diversos componentes em Joomla, assim como soluções para busca avançada na interface de busca do sistema. Este sistema encontra-se nos servidores da UFSCar para garantir a continuidade de acesso e manutenção.