• No results found

DEL 2 KONTEKSTER I DET OFFENTLIGE ROM

7 DEN STATLIGE KONTEKSTEN - KUNSTENS AVHENGIGHET

8.2. P UBLIKUMS KUNSTINTERESSE SOM FUNKSJON AV MEDIAS KUNSTINTERESSE

2.10.1 Conceitos

A construção de RNA tem inspiração nos neurônios biológicos e nos sistemas nervosos. Entretanto, é importante compreender que, atualmente, as RNA estão muito distantes das RNN (Redes Neurais Naturais) e, as semelhanças são mínimas (AZEVEDO et al., 2000).

Uma RNA pode ser composta de um determinado número de nós, ou unidades, conectados por links. Cada link tem um peso numérico associado a ele. Os pesos são formas primárias de armazenamento de longo prazo em RNA, e o aprendizado acontece através da atualização desses pesos. Algumas unidades são conectadas ao ambiente externo e podem ser designadas como unidades de entrada ou de saída. Os pesos são modificados de acordo com as tentativas de tornar o comportamento de entrada ou de saída da rede mais de acordo com as entradas fornecidas pelo ambiente (RUSSELL; NORVIG, 2009).

Cada unidade pode ser composta por um conjunto de links de entrada vindos de outras unidades, um conjunto de links de saída para outras unidades, um nível de ativação momentâneo e formas de realizar um tratamento computacional no nível de ativação para o próximo passo em um tempo determinado, dadas determinadas entradas e pesos. Cada unidade executa uma computação local baseada nas informações de entradas vindas dos vizinhos, porém sem a necessidade de qualquer controle global sobre o conjunto de unidades como um todo. Na prática, a maioria das implementações de RNA deve ser feita através de software e é utilizado um controle síncrono para atualizar todas as unidades seguindo uma seqüência pré- fixada (RUSSELL; NORVIG, 2009).

Para construir uma RNA que realize uma determinada tarefa, deve-se decidir primeiramente quantas unidades devem ser usadas, que tipos de unidades são apropriadas e como estarão conectadas de modo a formar uma rede. Em seguida, deve-se inicializar os pesos da RNA e treinar os pesos utilizando um algoritmo de aprendizado aplicado ao conjunto de exemplos de treinamento para a tarefa. O uso de exemplos também implica na decisão de como codificar os exemplos em termos de dados de entrada e saída da rede (AZEVEDO et al., 2000).

A Figura 3 mostra uma unidade típica, que recebe sinais de entrada e computa um novo nível de ativação, que é enviado para o link de saída yk. A

computação do nível de ativação pode ser baseada nos valores de cada sinal de entrada recebido de um nó vizinho e dos pesos de cada link de entrada. A computação é dividida em dois componentes, isto é, o primeiro é um componente linear chamado de junção aditiva, , que computa a soma ponderada dos valores de entrada das unidades. O segundo é um componente não linear chamado de função de ativação, , que transforma a soma ponderada no valor final, e que serve como o valor de ativação da unidade, . A Equação 1 mostra que a entrada ponderada total é a soma das ativações de entrada vezes os seus respectivos pesos (RUSSELL; NORVIG, 2009). Modelos diferentes são obtidos pelo uso de diferentes funções matemáticas para . As três escolhas mais comuns são as funções sigmoidal, sinal e passo (AZEVEDO et al., 2000; HAYKIN, 2001).

(1)

Para caracterizar uma RNA, é importante especificar os seguintes pontos (AZEVEDO et al., 2000):

 Os componentes da rede: os neurônios;  A resposta de cada neurônio;

 O estado global de ativação da rede;

 A conectividade da rede dada pelos valores de conexões sinápticas;  Como se propaga a atividade da rede;

 Como se estabelece a conectividade da rede;  O ambiente externo a rede;

 Como o conhecimento é representado na rede.

2.10.2 Redes MLP (multilayer perceptron)

Uma rede MLP com uma camada intermediária de neurônios é suficiente para aproximar qualquer função contínua e uma rede MLP com duas camadas intermediárias é suficiente para aproximar quaisquer funções matemáticas, contínuas ou não (AZEVEDO et al., 2000).

Em uma rede MLP, o número de camadas intermediárias é determinado pela natureza do problema a ser aproximado. Em geral este número é definido de maneira empírica, dependendo da distribuição dos dados a serem utilizados e de validação subseqüente. Entretanto, Eberhart e Dobbins (1990 apud AZEVEDO et al., 2000) apresentam uma heurística onde Qni (número de neurônios da camada

intermediária) é igual à raiz quadrada de Qne (quantidade de neurônios da camada

de entrada), somada com Qns (número de neurônios da camada de saída),

conforme Equação 2.

√ (2)

Uma grande dificuldade no treinamento de redes MLP é a ocorrência de convergência para um mínimo local em função da distribuição dos dados. Para minimizar este problema, Rumelhart, Hinton e Williams (1986 apud AZEVEDO et al., 2000) apresentam um método de treinamento chamado algoritmo backpropagation

ou retropropagação. O algoritmo ajusta repetidamente os pesos das conexões entre os neurônios de maneira a minimizar as diferenças entre as saídas reais e as observadas. O método é baseado em um gradiente descendente, onde a função de ativação precisa ser contínua, derivável e de preferência não decrescente, para que o gradiente possa ser calculado e o ajuste dos pesos seja direcionado. O algoritmo de retropropagação é composto de duas fases: a forward, que define a saída em função de um padrão de entrada e a backward, que a partir da saída desejada e dos valores obtidos pela rede, busca atualizar os pesos das conexões sinápticas.

Os algoritmos para treinamento de uma rede MLP não são eficientes e não garantem a convergência para um mínimo global. A utilização de uma taxa de aprendizado e de um momento , otimizam o processo de aprendizado nas épocas de treinamento e facilitam a convergência para um mínimo global (RUSSELL; NORVIG, 2009).

2.10.3 Validação cruzada (método de resistência)

A essência do aprendizado em backpropagation é codificar um mapeamento de entrada para a saída, representado por um conjunto de exemplos, em pesos sinápticos e limiares de ativação de uma rede MLP. O objetivo é que a rede esteja bem treinada e que seu processo de aprendizagem possa ser suficiente para uma futura generalização (HAYKIN, 2001). Após um ciclo de treinamento, uma rede MLP pode piorar sua taxa de acertos para entradas diferentes daquelas utilizadas para a aprendizagem, esse fenômeno é chamado de overfitting ou ajuste demasiado aos dados. Para reduzir a sua ocorrência, uma das alternativas é a utilização do método de validação cruzada, onde o conjunto de dados é dividido aleatoriamente em um conjunto de treinamento e em um conjunto de testes. O conjunto de treinamento é então dividido em dois outros subconjuntos disjuntos: (i) estimação, para seleção do modelo e (ii) validação, para testar ou validar o modelo. Segundo Kearns (1996 apud HAYKIN, 2001) 80% do conjunto de treinamento devem ser atribuído ao conjunto de estimação e 20% deve ser atribuído ao conjunto de validação (HAYKIN, 2001).

A motivação da divisão em três conjuntos é validar o modelo com um conjunto de dados diferentes dos utilizados para a estimação dos parâmetros da rede. Como existe a possibilidade de que o modelo com os parâmetros que resultem em melhor

desempenho possa tornar a MLP direcionada para o conjunto de validação, o desempenho de generalização é realizada no conjunto de testes, que é diferente do conjunto de validação (HAYKIN, 2001).

2.10.4 Aprendizagem

Aprendizagem consiste em um processo pelo qual os parâmetros de uma RNA são ajustados, de forma continuada, pelo estímulo do ambiente no qual a rede está operando. O tipo de aprendizagem é definido pela maneira como ocorrem os ajustes realizados nos parâmetros, ou seja, como são alteradas as intensidades das conexões entre os neurônios (RUSSELL; NORVIG, 2009).

A aprendizagem supervisionada busca extrair de um professor ou supervisor, o conhecimento de que o mesmo dispõe sobre o ambiente, permitindo um mapeamento entrada-saída. Durante a sessão de treinamento de uma RNA, pares de entradas e saídas são apresentadas a ela. A rede toma cada entrada e produz uma resposta na saída. Esta resposta é comparada com o sinal de saída desejado. Se a resposta real difere da resposta desejada, a RNA gera um sinal de erro, o qual é, então, usado para calcular o ajuste que deve ser feito para os pesos sinápticos da rede. Assim a saída real se aproxima da saída desejada e o erro é reduzido. O processo de minimização de erro requer um circuito especial conhecido como professor ou supervisor (AZEVEDO et al., 2000). O desempenho do sistema pode ser medido através do erro médio quadrático ou da soma de erros quadrados sobre a amostra de treinamento, definida como uma função dos parâmetros livres do sistema. Esta função pode ser visualizada como uma superfície multidimensional de desempenho de erro, obtida pela média de todos os exemplos possíveis de entrada- saída (HAYKIN, 2001).

O aprendizado não-supervisionado não requer um supervisor, isto é, não há saída desejada. Durante a sessão de treinamento, a RNA recebe em sua entrada excitações muito diferentes e organiza, arbitrariamente, em categorias. Quando uma entrada é aplicada na rede, a RNA fornece uma resposta de saída indicando a classe a qual a entrada pertence. Se uma classe não pode ser encontrada para o padrão de entrada, uma nova classe é gerada (HAYKIN, 2001).