5. RESEARCH QUESTION AND HYPOTHESES
5.1 D EVELOPMENT OF COSTS
3.5 Modelos Locais como Redes de Especialistas
Nesta seção, busca-se uma interpretação dos modelos introduzidos neste capítulo e no anterior como membros de uma classe de arquiteturas de redes neurais que utiliza mecanismos dinâmicos de cooperação ou de competição entre neurônios.
Inicialmente, no Capítulo 2 foram descritas topologias de redes com múltiplos elemen- tos processadores (neurônios) que eram treinados de uma forma cooperativa, isto é, todos os neurônios eram treinados ao mesmo tempo com o objetivo em comum de solucionar o problema. Como exemplos, têm-se as redes MLP e RBF em que os pesos de todos os neurônios são atualizados ao mesmo tempo.
Neste capítulo, foram apresentadas outras topologias de redes cujos neurônios imple- mentam um processo competitivo entre eles, no qual um determinado grupo se especializa em modelar (codicar ou representar) uma porção do espaço de dados de entrada e que, no processo de atualização dos pesos, nem todos os neurônios participam de uma forma igualitária, tornando o processo de aprendizagem da rede algo centralizado naqueles ele- mentos pertencentes ao grupo dominante, em torno do neurônio vencedor. Ainda há um certo grau de cooperação, mas extremamente localizado dentro do pequeno grupo de neurônios vizinhos ao neurônio vencedor.
Dá-se o sugestivo nome de neurônios especialistas àqueles responsáveis pela mode- lagem de uma pequena porção do espaço de entrada e que, para estimar a saída do modelo, usam apenas seus próprios parâmetros (pesos) ou de um pequeno grupo de neurô- nios (PRINCIPE et al., 2000; HAYKIN, 1994). Como exemplos de redes que se utilizam de
especialistas, doravante chamadas simplesmente de Redes de Especialistas, tem-se a rede SOM e todas as redes que se baseiam na sua arquitetura apresentadas por este trabalho, tais como LLM, VQTAM, GRBF, KRBF e KSOM.
De modo mais formal, Redes de Especialistas (expert networks) (JACOBS et al., 1991) são construídas a partir de elementos altamente especializados, tal que quando um vetor de entrada é apresentado a todos os neurônios, apenas alguns deles vão permanecer ativados graças a uma seleção coordenada por uma rede competitiva, chamado disparador. Uma arquitetura geral de uma Rede de Especialistas é mostrada na Figura 3.6. Nesta gura pode-se perceber que a saída de uma Rede de Especialistas genérica pode ser calculada como ˆ y(t) = K X k=1 gk(t)ˆyk(t), (3.34)
em que gk é um fator de ponderação que assume valor Um (1) ou Zero (0), indicando se
o k-ésimo especialista vai ou não contribuir com sua parcela (ˆyk) para a saída da Rede de
3.5 Modelos Locais como Redes de Especialistas 60
Em geral, a Rede de Seleção (ou Rede gate) é implementada de duas maneiras, a m de escolher os elementos especialistas. Na primeira ela escolhe um só elemento es- pecialista (ou vencedor) que ca responsável sozinho pela geração da saída. A este tipo de procedimento dá-se o nome de mecanismo de seleção (Winner-Take-All - WTA). A segunda abordagem lança mão de procedimentos que permitem a seleção de mais de um especialista (talvez até todos eles!) para estimar a saída da rede. A este procedimento dá-se o nome de mecanismo de seleção (K-Winners-Take-All - KWTA).
O objetivo do restante desta seção é descrever cada um dos algoritmos descritos nas seções anteriores em função da arquitetura geral de Redes de Especialistas mostrada na Figura 3.6. Acredita-se que esta iniciativa permitirá aumentar a compreensão da forma particular com que cada um dos modelos apresentados calcula a sua saída.
Rede LLM - A rede LLM é uma rede de especialistas que utiliza o procedimento de seleção WTA. Analisando a Equação (3.34), isto corresponde à seguinte escolha de valores para gk(t):
gk(t) =
(
1, se k = i∗(t)
0, se k 6= i∗(t) (3.35)
em que i∗(t) é encontrado de acordo com a Equação (3.4). Isto equivale a dizer
que a rede gate escolhe o especialista como sendo o neurônio vencedor atual. Final- mente, a saída do especialista selecionado é, no caso da rede LLM, calculada pela Equação (3.5).
Rede VQTAM - Este algoritmo funciona também segundo o mecanismo WTA de se- leção de especialistas WTA. Neste caso, o índice do especialista i∗(t), usado na
Equação (3.35), é encontrado segundo a Equação (3.15) e a sua saída segundo a Equação (3.18).
Rede GRBF - No modelo GRBF, a rede gate habilita todas as saídas dos especialistas, permitindo uma participação de todos os elementos no cálculo da saída estimada, conforme mostrado na Equação (3.19). Contudo, as funções de base gaussiana restringem automaticamente o grau de participação de cada especialista na Equa- ção (3.34).
Rede KRBF - Neste modelo o grau de participação dos especialistas ca ainda mais restrito através da seleção, por parte da rede gate, de apenas K funções de base (especialistas) cujos centros estejam mais próximos do vetor de dados de entrada atual (ver Equação (3.22)). Isto equivale a fazer gk(t) ≡ gi∗
k(t) = w
out i∗
k , k = 1, . . . , K,
na Equação (3.34). As saídas gi∗
k(t) correspondentes são dadas por:
ˆ yk(t) ≡ ˆyi∗ k(t) = Gi∗ k(w in i , xin(t)) PK k=1Gi∗ k(w in i , xin(t)) , k = 1, . . . , K. (3.36)
3.6 Conclusão 61 Especialista 1 k
g
2 1g
y
^ 2y
^ 1y
^y
^kΣ
x(t)
Disparador k Especialista Especialista 2g
Figura 3.6 Uma rede de especialistas.
Rede KSOM - Por m, o algoritmo KSOM tem seus K especialistas selecionados se- gundo o mesmo mecanismo de seleção (KWTA) do algoritmo KRBF. Com os vetores- protótipos destes K especialistas, o vetor de coecientes a(t) é calculado de acordo com a Equação (3.32). A saída da rede de especialistas é então dada pela Equa- ção (3.33).
3.6 Conclusão
Neste capítulo, pôde-se estudar os modelos neurais citados anteriormente que são baseados na rede de Kohonen e que serão utilizados nos problemas propostos por este trabalho nos últimos capítulos. Cada um dos algoritmos vistos adotaram a forma de treinamento da rede SOM.
Em primeiro lugar, foi estudado o algoritmo LLM onde foi utilizado um vetor de coecientes, escolhido a partir do índice do neurônio vencedor, para poder aproximar a saída através de um processo de interpolação linear. O algoritmo VQTAM foi apresentado em seguida, cuja arquitetura tornou possível a aplicação da rede SOM como aproximador de funções em mapeamentos dinâmicos e o uso desta no problema de ltragem adaptativa. E continuando com os demais algoritmos, a rede RBF utilizou a mesma técnica VQTAM para poder gerar mais dois modelos em que usam informação global e local mapeados pelos protótipos da rede. As redes GRBF e KRBF são arquiteturas que rea- lizam aproximação de funções também, e que utilizam funções de base gaussianas para estimar a saída, diferente do VQTAM que adota uma quantização do espaço de saída para poder denir o valor estimado. Mostrou-se que os algoritmos VQTAM e GRBF podem ser entendidos como casos particulares do algoritmo KRBF.
3.6 Conclusão 62
Por último, o algoritmo VQTAM é aplicado ao problema de ltragem adaptativa denindo modelos locais lineares (ltros FIR locais) através dos protótipos dos pesos gerados pela quantização vetorial simultânea dos espaços de dados de entrada e de saída. Outro fato importante foi a interpretação de todas as redes competitivas usadas neste capítulo como sendo modelos de redes de especialistas.
No próximo capítulo, será abordado o uso das redes neurais vistas neste capítulo, assim como os demais algoritmos vistos nos capítulos anteriores, aplicados ao problema de identicação de canais não-lineares.
63
4 IDENTIFICAÇÃO DE CANAIS
USANDO REDES NEURAIS
4.1 Introdução
Após a introdução teórica feita em capítulos anteriores para os modelos de ltros transversais lineares e para ltros baseados em redes neurais articiais, este capítulo se detém na apresentação dos resultados obtidos pela aplicação desses ltros no problema de identicação de canais de comunicação.
O desempenho de cada ltro estudado será avaliado principalmente segundo sua capa- cidade de aproximar a relação (mapeamento) entrada-saída de um canal de comunicação não-linear, cujo modelo simulado é apresentado na próxima seção. Além disso, todos os ltros em questão serão comparados conforme a sua velocidade de convergência e a sua sensibilidade (ou dependência) em relação a variações de alguns parâmetros de treina- mento, tais como o número de neurônios utilizados e capacidade de generalização.
Ao longo da apresentação dos resultados, diversos pontos de discussão serão abordados com respeito aos modelos propostos, para então se chegar às conclusões nais sobre o emprego dos mesmos.