Câmara Júnior (2007) propôs um modelo de indexação automática de acórdãos baseado em PLN, tendo em vista a quantidade de processos judiciais nos Tribunais, buscando oferecer uma ferramenta que pudesse acelerar os trâmites processuais.
O sistema de indexação automática de acórdãos proposto por Câmara Júnior (2007) foi aplicado a acórdãos de Direito Penal. Para que fosse viável, esse sistema necessitou de um conjunto de ferramentas que se integram para formar um sistema de indexação automática de documentos de acórdãos.
Entre essas, está uma ferramenta para construção de corpus de língua portuguesa baseado no jargão jurídico, elaborada a partir da análise do inteiro teor dos acórdãos para aplicação em ferramentas de PLN. Essa ferramenta permite carregar um documento de acórdão em arquivo TXT, sem formatação, para ser analisado. A partir de então, o sistema realiza uma análise e a classificação morfológica, recuperando cada uma das unidades léxicas do texto, selecionadas na parte que interessa para indexação automática — “relatório”, “voto do relator” e “voto do revisor”. Em seguida, o usuário da ferramenta classifica as unidades léxicas de acordo com uma tabela que apresenta as classes morfológicas.
O próximo passo é o processo de finalização, em que, a partir da análise morfológica completa, o resultado é armazenado em memória, permitindo que o corpus possa ser construído incrementalmente em cada análise de acórdão selecionado.
Por fim, ocorre a consolidação do corpus, mediante a gravação dos resultados de cada um dos acórdãos da base, sendo convertido em um esquema utilizado pelo processador de linguagem natural do banco de dados de dicionário.
Esse dicionário é constituído pelas unidades léxicas e por suas respectivas classificações morfológicas, assim como pelas probabilidades para inferências de
ambiguidade e não ocorrência. Esse banco de dados forma o corpus em língua portuguesa utilizado pelo Qtag.
O Qtag é um analisador que realiza o PLN dos textos e, para tanto, necessita de um
corpus da língua portuguesa que será utilizado para realizar as inferências. Ao ler um texto,
esse analisador tokeniza as palavras e lhes atribui uma classe morfológica. No entanto, quando essa classe não existe, ou existe em mais de uma classe, o sistema invoca seu módulo probabilístico e é capaz de analisar quais são as outras estruturas próximas a essa palavra, tais como artigo ou adjetivo, o que pode indicar, por exemplo, que, nesse caso, a palavra é um verbo.
O Qtag foi utilizado para esse fim juntamente com uma ferramenta desenvolvida para analisar o texto e permitir a extração de diversas estruturas e sintagmas candidatas a índices dos documentos.
Essa ferramenta é constituída de duas áreas, uma para seleção dos parâmetros e outra que diz respeito à execução dos procedimentos. A primeira é formada por uma caixa de seleção com todas as classes morfológicas selecionadas para a pesquisa, assim como comandos para selecionar ou remover a seleção. Escolhendo e selecionando tal classe gramatical, é possível montar uma sequência de classes para busca no texto, da mesma forma que existem duas caixas que definem como será realizada a busca, a primeira a partir do uso do tesauro (“Utilizar Tesauro”) que determina que qualquer padrão reconhecido deverá existir no tesauro, sob pena de ser desconsiderado, havendo também uma segunda opção — “Termos Relacionados” —, que indica que, caso um termo seja selecionado, todos os termos relacionados serão exibidos nos resultados (CÂMARA JUNIOR, 2007).
Após essa configuração, o procedimento seguinte é a seleção dos acórdãos para indexação, sendo necessário que estejam em formato TXT, sem formatação, permitindo, dessa forma, que o sistema analise, aplique etiquetas (parser) no texto e busque os padrões definidos pelo sistema.
Como explica Câmara Júnior (2007), após a seleção e a análise, o procedimento seguinte é a utilização do vocabulário controlado baseado em um tesauro para a atribuição dos índices. Nesse processo ocorre o reconhecimento dos candidatos a descritores, em que, no momento da análise dos sintagmas, as unidades lexicais que são reconhecidas pelo tesauro, ou remetidas a outras estruturas do tesauro — por exemplo, os termos equivalentes, gerais, ou mais específicos —, se tornam descritores dos documentos.
Para a avaliação da viabilidade dessas ferramentas e da própria metodologia de indexação automática proposta foram utilizados os acórdãos de Direito Penal do Tribunal do Distrito Federal e Territórios, formando uma base controlada de documentos. Esses documentos foram analisados e indexados automaticamente por meio de ferramentas construídas para PLN. A avaliação da metodologia e das ferramentas utilizadas na indexação foi efetuada por meio da comparação dos resultados dessa indexação com a indexação manual realizada tradicionalmente. No contexto desse estudo, Câmara Junior (2007) verificou que a indexação automática revelou-se equivalente à indexação manual.
O sistema de indexação automática de acórdãos apresenta, assim como o SMART e o SIRILiCO, recursos mais complexos de análise automática dos documentos, aplicando ferramentas baseadas em PLN. Esse sistema atua principalmente sobre as estruturas lexicais, associado à ferramenta de análise morfológica, segundo métodos probabilísticos, permitindo que o sistema atue por meio de inferências e permitindo, ainda, a aplicação do tesauro. Daí se verifica uma preocupação maior com os aspectos linguísticos e terminológicos no processamento automático, buscando preservar a semântica dos documentos.
Em seguida, apresentamos uma proposta interessante por integrar o aperfeiçoamento da indexação dos documentos segundo os indícios que são oferecidos pelos usuários durante as buscas de informação.