NEW TOP-LEVEL DOMAINS AND LEGAL RISKS
5. Legal risk assessment
Para o KNIME, o dicionário teve que ser estruturado de maneira diferente. Como o KNIME no “Dictionary Tagger” não faz reconhecimento de grupos de palavras como um só tema, por isso o dicionário não continha temas, mas sim termos, o que torna o dicionário com mais palavras para analisar, e que poderá dificultar a análise do texto em certos casos.
Na Figura 8 fica um extrato do dicionário estruturado para o KNIME:
74
6. Criação de Modelos de Análise de Texto
utilizando o KH Coder
Esta componente do projeto é focada na análise do texto não estruturado com vista à identificação de padrões de doentes que faleceram após a realização do raio-x. Este estudo foi realizado com base na ferramenta KH Coder.
Apesar do KH Coder ser uma ferramenta boa para fazer análises quantitativas de Texto, esta não permite criar modelos de previsão, como por exemplo, prever se o doente que fez o raio- x faleceu. Essa função é atribuída ao KNIME como está descrito mais à frente neste documento. Este capítulo começa com a seleção dos dados, onde são selecionados os dados que irão ser analisados, a seleção dos tipos de análises, onde são escolhidas as análises que foram efetuadas aos dados, e por fim, a demonstração das análises e a discussão dos resultados.
6.1. Seleção dos Dados
Os dados selecionados para análise no KH Coder eram provenientes do ficheiro ReportsObitosInicial.xls, pois, o objetivo da utilização do KH Coder era fazer uma análise quantitativa do texto de modo a descobrir se existem padrões nos raio-x dos doentes que morreram.
Para fazer uma análise quantitativa dos relatórios de raio-x, algumas colunas foram eliminadas no Excel. O Resultado final foi o uma folha de calculo com as colunas NUMEXAME, PROCESSO, DATA, HORA, DESCRICAO. As tabelas eliminadas foram excluídas pois durante as análises preliminares com o KH Coder, apareciam resultados que se misturavam com o texto na coluna DESCRICAO (que é a coluna que contém as informações do raio-x), e para não afetar a análise essas colunas foram eliminadas. Uma das características do KH Coder é que esta ferramenta só consegue ler os dados armazenados num documento de texto(.txt), logo a folha de cálculo foi convertida para um documento de texto, para o KH Coder o conseguir interpretar.
75 6.2. Selecionar as Técnicas de Análise
Depois de um estudo mais aprofundado da ferramenta foi decidido fazer diferentes tipos de análises ao documento, com o objetivo de retirar informações relevantes do mesmo, e também, posteriormente, fazer comparações com a utilização do dicionário, se este é importante para a recolha de informação e torna esta mais fácil de compreender, ou pelo contrário. Assim sendo, abaixo encontram-se as análises escolhidas assim como uma breve descrição das mesmas:
Frequência de Palavras (com dicionário e sem dicionário) – Que consiste numa lista de palavras extraídas pelo KH Coder com a frequência de vezes que aparece no documento;
Análise Hierárquica de Clusters (com dicionário e sem dicionário); – Esta análise permitiu procurar, e analisar quais combinações ou grupos de palavras têm padrões de aparência semelhante usando análise de agrupamento hierárquico;
Mapa Auto Organizacional (com dicionário e sem dicionário) – Este comando explorou as associações entre as palavras, criando um mapa auto organizacional;
Coocorrência de Rede (com dicionário e sem dicionário); – Esta análise criou um diagrama de rede que mostra as palavras com padrões de aparência similar, ou seja, com alto grau de coocorrência, ligada por linhas. Ao contrário da escala multidimensional, a coocorrência de rede pode ser mais fácil de analisar dado que as palavras estão conectadas com linhas;
Análise de Correspondência (com dicionário e sem dicionário) – Este comando realizou uma análise de correspondência de palavras extraídas e produziu um diagrama de dispersão bidimensional (X e Y) para ajudar a visualizar os resultados; Escala Multidimensional (com dicionário e sem dicionário) – Este comando permite a
realização da escala multidimensional sobre as palavras extraídas e desenhar os resultados num diagrama que pode ter até três dimensões (X, Y e Z).
As análises foram realizadas com a utilização de stopwords e sem utilização das mesmas. As stopwords são palavras que estão presentes nos textos, mas que não contém qualquer conteúdo e informação para a análise dos textos. Quando são aplicadas as stopwords nos documentos, as palavras que se encontram presentes na lista de stopwords são removidas do documento com o objetivo de facilitar e de agilizar o processo de análise dos textos. Abaixo está exemplificado um excerto das stopwords utilizadas:
76 Tabela 15 – Exemplo de stopwords utilizadas
deveria disto deveriam dito devia diz deviam dizem disse do disso dos
A seguir é demonstrado um exemplo de frase onde se demonstra a utilização dos stopwords:
Frase Original: O doente não medicado para nenhum destes medicamentos. Frase com stopwords: doente medicado medicamento.
6.3. Resultados da Análise
Os resultados das análises efetuadas estão divididos em dois grupos. As análises com a utilização do dicionário e as análises sem a utilização do dicionário. Esta divisão acontece, pois, os resultados das análises com a utilização do dicionário restringem-se aos termos que o dicionário contém, e as análises sem dicionário utilizam todos os termos existentes nos documentos. Dentro de cada grupo de análises, as mesmas estão separadas por tipo de análise efetuada bem como os requisitos utilizados (número de palavras), se for o caso.
As análises descritas nas secções seguintes são as análises que foram realizadas com a ajuda de stopwords, pois, como os resultados eram bastante semelhantes às análises efetuadas sem as stopwords, foi dispensada uma análise das mesmas, estando estas em anexo.
6.3.1. Análise sem Dicionário
Nesta secção serão apresentados os resultados das análises efetuados sem a utilização do dicionário.