• No results found

4.3 Antonov Aircrafts

4.3.3 Transport Aircrafts

O processo seletivo de filtrar os documentos relevantes dos irrelevantes ´e classifica- t´orio, no sentido que existe um crit´erio de classifica¸c˜ao para separar dois conjuntos mu- tuamente exclusivos de documentos. N˜ao importa, nesse momento, se esse crit´erio usa o conte´udo (texto) do documento ou quaisquer outros de seus atributos para a classifica¸c˜ao. Poder´ıamos supor, por exemplo, que documentos relevantes, para um certo contexto, s˜ao aqueles cuja data de ´ultima atualiza¸c˜ao perten¸ca ao ano corrente.

27

Indu¸c˜ao autom´atica de filtros

Geralmente os documentos carregam consigo dados ou metadados, como sua fonte de edi¸c˜ao, t´ıtulo, data, autor, palavras-chave que melhor os qualificam, etc. Essas infor- ma¸c˜oes, denominadas ex´ogenas, podem servir para classificar28 os documentos, em fun¸c˜ao

de algum crit´erio estabelecido entre elas. Todavia, estaremos voltados para as t´ecnicas de categoriza¸c˜ao29 de documentos baseado em seu conte´udo, ou seja, nas informa¸c˜oes end´oge-

nas contidas no texto, compreendendo estruturas sint´aticas, relacionamento entre termos, semˆantica, estilo e outros tantos componentes que influenciam a desambigua¸c˜ao de sua identidade. Na Figura 330, ´e ilustrada uma vis˜ao geral sobre o processo de classifica¸c˜ao de

documentos, onde d1 a dn s˜ao os documentos e C1 a Ck s˜ao as categorias.

Figura 3: Classifica¸c˜ao de documentos

Torna-se evidente que o filtro cognitivo pode ser descrito como um categorizador bin´ario, pelo fato de que os documentos resultantes do processo de categoriza¸c˜ao ou s˜ao relevantes ou irrelevantes em rela¸c˜ao ao classificador. As duas ´unicas categorias existentes s˜ao mutualmente exclusivas ou disjuntas.

A classifica¸c˜ao autom´atica de textos come¸cou a ser estudada na d´ecada de 60, mas somente tornou-se vi´avel com o avan¸co de hardware e software. Durante a d´ecada de 80, esse processo era realizado atrav´es da cria¸c˜ao manual de regras de composi¸c˜ao de textos, processo que envolvia o conhecimento de especialistas na ´area de discurso que abrange os conceitos a serem descritos nas categorias. Ent˜ao, os primeiros m´etodos para a au- tomatiza¸c˜ao da classifica¸c˜ao de textos eram baseados na manufatura de regras atrav´es de conhecimento especializado sobre um determinado dom´ınio. Essas regras servem para com- por o crit´erio de categoriza¸c˜ao fundamentado no reconhecimento de padr˜oes entre cadeias de caracteres, geralmente atrav´es de m´aquinas de estados finitos e parsers poderosos, como aqueles que permitem encontrar simultaneamente m´ultiplos padr˜oes de textos por simila-

28

termo que abrange qualquer tipo de associa¸c˜ao entre documentos e classes 29

termo mais restrito usado para associar documentos apenas em fun¸c˜ao do seu conte´udo 30

Indu¸c˜ao autom´atica de filtros

ridade (Navarro et al., 2003). A precis˜ao e a revoca¸c˜ao de tal processo s˜ao extremamente dependentes do dom´ınio da aplica¸c˜ao e da efic´acia na elicita¸c˜ao do conhecimento do espe- cialista e no seu respectivo processo de representa¸c˜ao no ambiente computacional. Essa representa¸c˜ao estruturada do conhecimento especializado servir´a como fun¸c˜ao de classifi- ca¸c˜ao para o categorizador, nesse caso um autˆomato de estados finitos. ´E um processo custoso e que envolve muito esfor¸co humano durante a fase de elicita¸c˜ao do conhecimento e sua representa¸c˜ao, al´em de ser pouco flex´ıvel em rela¸c˜ao `as mudan¸cas a que esses padr˜oes est˜ao sujeitos.

Somente a partir dos anos 90 come¸cou a ser utilizado o paradigma de aprendizagem computacional para categoriza¸c˜ao de textos. Esses m´etodos tˆem tido evidˆencia no meio acadˆemico e mais recentemente na ind´ustria. A nova abordagem est´a fundamentada no campo do Aprendizado de M´aquina (AM), que constitui uma sub-´area da IA que estuda m´etodos computacionais relacionados `a aquisi¸c˜ao de novos conhecimentos (Mitchell, 1997). Atrav´es do AM, um processo indutivo contr´oi automaticamente um classificador de textos, por meio do aprendizado por exemplos previamente classificados. Quando isso acontece, ´e dito que o aprendizado ´e supervisionado, porque s˜ao fornecidos exemplos positivos e negativos para o treinamento do classificador para cada categoria envolvida no processo.

Formalmente, Categoriza¸c˜ao de Textos (CT) ´e a atividade de relacionar um valor Booleano para cada par hdj, cii ∈ D × C, onde D ´e o dom´ınio de documentos, e C =

{c1, ..., c|C|} ´e o conjunto de categorias predefinidas. O valor V associado a hdj, cii indica

que o documento dj ∈ ci, enquanto que o valor F associado a hdj, cii indica que dj ∈ c/ i.

Sendo assim, um categorizador ´e uma fun¸c˜ao Φ : D × C → {V, F }, denominada hip´otese ou modelo, que descreve como os documentos deveriam ser classificados. A Figura 431

exemplifica esta fun¸c˜ao de mapeamento.

Figura 4: Fun¸c˜ao de mapeamento entre documentos e categorias

31

Indu¸c˜ao autom´atica de filtros

Segundo Sebastiani (2002), as vantagens dessa abordagem s˜ao a acur´acia comparada `aquelas conquistada por especialistas humanos, e o consider´avel ganho em termos de poder de trabalho especializado, uma vez que n˜ao h´a a interven¸c˜ao de engenheiros do conheci- mento ou de especialistas no dom´ınio para a constru¸c˜ao do classificador. Outras vantagens como a portabilidade para diferentes tipos de categorias ou aplica¸c˜oes e a flexibilidade do processo de aprendizado para adaptar-se a novas situa¸c˜oes fazem com que essa abordagem sobrevale¸ca `as outras.

A capacidade de aprender e adaptar-se a novas situa¸c˜oes s˜ao essenciais para um comportamento inteligente, e um dos principais objetivos da IA ´e a automatiza¸c˜ao de processos nos quais, at´e o momento, o ser humano ainda tem um melhor desempenho (Rich, 1983). Assim ´e o processo de filtragem cognitiva, uma aplica¸c˜ao da categoriza¸c˜ao de textos.