4.3 Kvinnesaken – en fare for kvinneligheten?
4.3.2 En fullkommen kvinne, eller et fullkomment menneske?
Como proposto na metodologia de desenvolvimento da pesquisa, as atividades de coleta, armazenamento, organização, processamento e análise dos dados contaram com suporte tecnológico de um mini-laboratório de Processamento da Linguagem Natural (PLN) composto por um microcomputador e alguns softwares com as seguintes especificações básicas:
I. Microcomputador: notebook HP Pavilion Entertainment PC, com microprocessador Intel Core 2 Duo T 6600, barramento de 2,2 GHz, 4 GB (gigabytes) de memória RAM e 500 GB de capacidade de armazenamento de dados no disco rígido.
II. Sistema Operacional: Microsoft Windows 7 Home Premium, de 64 bits.
III. Rede de Acesso à Internet: no cabo, da última milha externa até o hub local, e wireless, do hub até a estação de trabalho (microcomputador pessoal).
IV. Editor de Textos: Microsoft Word 2003. V. Planilha Eletrônica: Microsoft Excel 2003. VI. Aplicativos de PLN:
Etiquetador: TreeTagger, desenvolvido por Helmut Schmid no Institute for
Computational Linguistics of the University of Stuttgart (Alemanha), com
parametrização para o idioma inglês desenvolvida na University of Pennsylvannia (EUA) e interface gráfica para Sistema Operacional Microsoft Windows XP desenvolvida por Ciarán Ó Duibhín; é um software livre disponível em
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/.
Analisador Sintático Estatístico e Aplicativo de Mineração de Textos: WordSmith, desenvolvido por Mike Scott e comercializado69 na Web em: http://www.lexically.net/wordsmith/.
Reticulador para Análise de Conceito Formal: ToscanaJ, desenvolvido em parceria na University of Queensland (Austrália) e na Technical University of Darmstadt (Alemanha), software livre disponível no endereço: http://toscanaj.sourceforge.net/.
110 Editor de Gráficos Conceituais: CharGer, desenvolvido na University of Alabama at
Huntsville (EUA), software livre disponível no endereço:
http://sourceforge.net/projects/charger/.
VII. Impressora: HP Laser Jet 1020.
O ambiente computacional assim composto atendeu, em geral, às expectativas tanto em termos de requisitos funcionais como não-funcionais, executando as tarefas de PLN com precisão aceitável e tempos de resposta bastante satisfatórios. O TreeTagger e o WordSmith se revelaram bastante velozes para o volume de textos utilizado, com tempos de resposta de no máximo poucos segundos a cada transação, ainda que suas interfaces gráficas não estejam no nível de usabilidade dos melhores softwares aplicativos comerciais – o TreeTagger, em particular, desenvolvido originalmente para Sistema Operacional Linux e interface de linha de comando, tem uma interface gráfica bastante limitada em termos de recursos.
O autor do manual do usuário do WordSmith apresenta o produto como “um conjunto integrado de programas de computador para observação de como as palavras se comportam em textos” (SCOTT, 2008, p. 2). Esse aplicativo tem capacidade de processamento de textos em linguagem natural (plain texts) para produção de listas e estatísticas de frequência de palavras, busca textual com palavra-chave, busca de segmentos de textos com base em padrões sintáticos predefinidos (implementando a função concordance) ou com base em horizontes de posicionamento de termos contíguos ou não nas sentenças (função collocation), descoberta de agrupamentos (clusters) mais frequentes de palavras, descoberta de padrões de combinação de conjuntos de palavras predefinidas (concgram) e outros recursos de PLN. Os dados processados resultantes podem ser obtidos tanto com a interface gráfica do aplicativo como em formato de planilha eletrônica.
O ToscanaJ representa uma evolução, em linguagem de programação Java, de uma conhecida plataforma computacional para Análise de Conceito Formal originalmente desenvolvida em linguagem C utilizada na academia. As interfaces de entrada de dados são, também, bastante limitadas, com pouca usabilidade, mas permitem a elaboração de contextos com milhares de objetos de entrada e atributos. Contudo, os reticulados (lattice) produzidos se tornam pouco úteis quando os contextos apresentam um número relativamente elevado de atributos: os experimentos de laboratório mostraram que para mais de uma dezena de atributos, em contextos com centenas de objetos, o número de conexões de conceitos pode ser elevado o bastante para tornar sua leitura e interpretação bastante penosas para o analista usuário numa tela de computador. A experiência de Lindig e Snelting (1997) corrobora esta percepção, mostrando um reticulado resultante que se parece com um feixe de espaguete, com análise visual praticamente impossível. O CharGer é um aplicativo útil para edição de Gráficos Conceituais de Sowa (1983), com base nos estudos de Peirce sobre Gráficos Existenciais, e suas limitações são as comuns em editores de textos, com pouca inteligência associada.
111
5.4 Coleta de dados
As estruturas textuais de Web Portais Corporativos apresentam, geralmente, uma composição de documentos que se complementam de modo a cobrir todos os conteúdos da “mensagem para o mundo‖ que as organizações pretendem propagar. Com os primeiros contatos com as fontes selecionadas, observou-se que os textos da primeira página geralmente servem de chamada para textos mais aprofundados nos respectivos temas nas páginas posteriores, os da segunda página muitas vezes remetem o leitor internauta para as páginas seguintes, e assim por diante, sugerindo-se assim uma estrutura de encapsulamento de hipertexto que pode ser modelada como uma cebola (Figura 5.5).
Os textos das camadas mais externas são mais curtos e menos densos, mas apresentam mensagens mais objetivas e “agressivas” para os leitores, com notícias e chamadas para produtos e vantagens oferecidas pela empresa. Outra característica mais atual dessas páginas frontais é a nuvem de tags (etiquetas) com palavras-chave para indexação de conteúdos mais recentes (geralmente notícias) do Web Portal. Esses textos também apresentam mais sinais de marcação gráfica da própria linguagem (Hypertext Markup Language, HTML e suas derivações evolutivas), que constituem “ruídos” nos sinais semânticos das mensagens necessitando ser eliminados na mineração de conceitos.
As camadas mais profundas de um Web Portal apresentam textos mais longos, alguns parecidos com pequenos artigos, apresentando detalhes sobre produtos e sobre a organização em si, no sentido de convencimento do leitor (atual ou potencial cliente) sobre as vantagens de um futuro relacionamento com a mesma. E nas camadas centrais, as mais profundas possíveis, tende-se a encontrar formulários para cadastro de clientes, aplicações de software com serviços úteis para os usuários (para cotação de produtos, por exemplo) e textos mais longos, com conteúdos apresentados em formatos mais próximos de textos em papel (tais como relatórios sobre produtos, balanços de negócios e outros, geralmente em formato PDF).
112 … N … 1 2 3 1 – Camada Estruturante 2 – Camada Temática 3 – Camada Informativa ... – Camadas Intermediárias N – Camada de Serviços Escopo Conceitual Camada Estruturante Camada Temática Camada Informativa Camada de Serviços Pr o fu n d id ad e A n al íti ca
Figura 5.5 Camadas de Conteúdos em Web Portais Corporativos (Fonte: do autor da tese)
Em suma, observam-se as seguintes composições de tipos de conteúdos de textos e sinais gráficos nessas camadas de um Web Portal Corporativo do porte pesquisado:
I. Camada de 1ª Página:
sinais de linguagem de marcação para controle de acesso ao sítio; informações e botões de navegação no sítio;
lemas (frases) de visão empresarial; notícias corporativas;
nuvem de tags. II. Camada de 2ª Página:
informações e botões de navegação no sítio; lemas de visão empresarial;
notícias corporativas;
informações organizacionais;
detalhes sobre os temas da 1ª página;
conexões de hipertexto para baixar documentos (download); blogs corporativos;
outros.
III. Camada de 3ª Página:
informações e botões de navegação no sítio; lemas (frases) de visão empresarial;
113 textos com desenvolvimento dos temas da 1ª e da 2ª páginas;
conexões de hipertexto para baixar documentos (download); outros.
Os textos da 1ª camada são úteis para a presente pesquisa porque apresentam sintagmas abstratos, com alto poder semântico, para definição de conceitos (antigos e novos) sobre o negócio e a organização, tais como: credit card, investment services, Bayer Healthcare, creditor‘s rights, Heineken Experience, business solutions, etc. Observam-se poucos verbos nesta camada,
que é mais caracterizada por substantivos indicando conceitos. Assim, denominamos esta camada dos portais corporativos, para os fins desta tese, de “camada estruturante‖ de conteúdos.
Os conteúdos da 2ª camada são úteis, por sua vez, porque utilizam sintagmas para chamada de temas e serviços de informação a serem desenvolvidos nas páginas mais profundas do portal, tais como: Video Podcast: Bayer‘s Perspective on Innovation, Use Mobile Banking, Bankrupticy Discharge, Research Areas, etc. É nessa camada dos portais que começam a
aparecer verbos nos textos, sendo mais caracterizada, no entanto, pela apresentação dos temas do Web Portal, motivo pelo qual a denominamos “camada temática‖.
Com a 3ª camada e além obtêm-se textos explorando mais profundamente conceitos (ou temas) do negócio com uso de sintagmas complexos de alto poder semântico, muito específicos do negócio (geralmente endereçados a públicos mais especializados), tais como: Protein Hunters
in the Brain, Full Faith and Credit Clause, Operations Strategy, UEFA Champions League, Computational linguistics, etc. Esta camada de conteúdos, que pode se estender por mais alguns
níveis de produndidade no Web Portal, é caracterizada pela disponibilização de informação nos formatos clássicos da era do papel, a qual denominamos de “camada informativa‖.
Os dados paramétricos das coletâneas extraídas dos Web Portais das organizações selecionadas são apresentados no quadro do “APENSO I – Densidade Sintagmática Plurinominal: Amostra de Textos da World Wide Web‖. Coletou-se páginas dos portais em pelo menos três
camadas, desde a camada estruturante até a camada informativa, para constituição de arquivos consolidados com todos os conteúdos de cada organização. A operação de acesso aos Web Portais e cópia dos conteúdos se deu com uso do portal de buscas Google, montando-se arquivos de textos sem formatação, codificados no padrão Unicode, para redução dos sinais de marcação HTML e outros indesejados (de navegação, figuras, etc), operação realizada com o software de edição de textos Microsoft Word.
Esta abordagem de coleta de dados brutos dos Web Portais Corporativos, sem nenhum tipo de filtragem prévia, teve como objetivo aproximar o experimento o máximo possível das condições de trabalho do mundo real, com informações e ruídos coexistindo nas fontes. Com isso, pretende- se alcançar maior robustez para operação nas “trincheiras” da Inteligência Competitiva, evitando- se custosas e tediosas operações de preparação (geralmente, seleção e reformatação) de textos para mineração encontradas em outras metodologias.
114 O primeiro bloco de dados à esquerda do quadro, no APENSO I, denominado “Texto”, apresenta uma coluna com uma numeração das organizações com portais pesquisados, em ordem alfabética; outra coluna, com o título da coletânea, se refere ao nome da organização mais conhecido; e uma terceira coluna informa o tamanho de cada coletânea em bytes (coluna “A”). A maior coletânea digital resultante é a da empresa Sun Microsystems, com 559,5 MB (megabytes), e a menor a do Bank of America, com 16,1 MB.
O bloco seguinte mais à direita, denominado “Palavras”, contém dados sobre: (coluna “B”) a quantidade de palavras encontradas em cada coletânea, considerando-se inclusive as repetições de palavras, (coluna “C”) a quantidade de palavras distintas encontradas (ou “tipos” sem repetição) e (coluna “D”) a relação de proporção entre a quantidade de palavras distintas e a quantidade total de palavras encontradas em cada coletânea (em percentual) – parâmetro denominado, em PLN, relação “tipo/palavra” (type/token).
As colunas do bloco de dados “Substantivos” mostram a quantidade de substantivos (ou nomes) com repetição em cada coletânea (coluna “E”), a quantidade de substantivos distintos (coluna “F”), a quantidade de substantivos distintos que aparecem na composição de sintagmas plurinominais (coluna “G”), a relação entre o número de substantivos distintos e o número de palavras distintas (coluna “H”), e a relação entre o número de substantivos distintos compondo sintagmas e o número de substantivos distintos.
O último bloco de dados à direita, nesse quadro, mostra a quantidade de sintagmas plurinominais distintos (coluna “J”) e a relação entre esse número e a quantidade de substantivos distintos (coluna “K”). O quadro ainda mostra, nas quatro últimas linhas, a soma total das quantidades de cada coluna, as médias, os desvios-padrões e as relações entre os desvios- padrões e as médias.
Os procedimentos para obtenção dos dados e cálculos dos parâmetros estatísticos de Processamento da Linguagem Natural – PLN das coletâneas do APENSO I são apresentados e discutidos, metodologicamente, a seguir.