6. Forholdet til utvalgte sentrale bestemmelser i luftfartsloven
6.3 Kapittel. 5 Bemanning
Quanto ao desempenho de classificação da rede SOM pode-se observar uma regi- ão de fronteira separando dois planos principais com alta densidade de dados, sugerindo a existência de dois grandes clusters, visualizados como planos azul-intensos à direita e à es- querda da matriz-U 3D da rede SOM (Figura 33A, topo). Numa inspeção mais detalhada da matriz-U tridimensional, além da região de fronteira principal que estabelece os dois agrupa- mentos maiores, a presença de mais duas regiões com baixa densidade de dados (picos) pode indicar outras regiões de fronteira, sugerindo de uma classificação em três clusters, ou uma divisão de um cluster maior em subclusters. Observa-se ainda que a distribuição dos objetos sobre o mapa SOM foi bastante uniforme, com poucos neurônios inativos, significando que a dimensão do mapa foi apropriada à representação do conjunto de dados de entrada.
Figura 35: Matriz-U 2D para as representações do algoritmo SOM. Os números dentro do neurônio correspondem aos rótulos dos dados que foram associados por esse neurônio.
Fonte: Dados do trabalho
Em relação aos agrupamentos, a classificação feita pela rede SOM pode ser consi- derada boa quando comparada às estratégias puramente competitivas porquanto a maioria dos objetos, associados à lactose e celulose, foi corretamente agrupada nos dois clusters maiores. Pode-se ainda observar através da matriz-U 2D (Figura 35) que dentro dos agrupamentos principais há uma tendência de formação de subgrupos (subclusters), representados pelos componentes EMG, adjacente ao grupamento CEL, e TLC juntamente com ATP, adjacente ao grupo LAC.
Entretanto ao assumir que a rede SOM teve sensibilidade para agrupar correta- mente os conjuntos majoritários e reconhecer subgrupos adjacentes aos agrupamento maiores, observa-se que a rede SOM apresentou um erro de classificação dos objetos das entradas 5, 8 e 9, uma vez que havia a expectativa da delimitação dos excipientes TLC, ATP e EMG (obje- tos 5, 8 e 9, respectivamente) em clusters específicos ou em subclusters dentro dos clusters maiores, em função da diferença de propriedades de fluxo naturalmente esperada entre eles.
Mais especificamente, ao inspecionar a matriz-U 2D, percebe-se uma separação inesperada entre os atributos do EMG (rótulo 8) que deveriam ser alocados num mesmo neu- rônio ou em neurônios adjacentes. Ainda mais anômala foi a separação entre os atributos do TLC, onde parte dos dados foi associada a um neurônio que foi deslocado para formar outro cluster menor, totalmente separado do conjunto ao qual naturalmente pertenceria, cluster esse que foi formado a partir de uma dissociação também inesperada de alguns componentes do grupo LAC.
Figura 36: Gráfico do plano de componentes do índice de Carr para a rede SOM. Vermelho: Excelen- te; Verde: Bom; Azul, Aceitável; Rosa: Pobre; Amarelo: Muito pobre. Abaixo, à direita, a matriz-U
2D da rede.
Fonte: Dados do trabalho
Analisando o gráfico do plano de componentes IC da rede SOM (Figura 36) nota- se que embora não tenha ocorrido o erro grosseiro caracterizado pela alocação de entradas com propriedades conflitantes num mesmo neurônio, como ocorreu nas classificações feitas por WTA, FSCL e RPCL, a alocação das entradas de MGS, TLC e ATP não seguiu estrita- mente o critério de classificação baseado em IC e FH, que foi o critério semântico adotado pelas redes SOM e NG.
O cluster menor da rede SOM compreende os neurônios 3, 4 e 5, aos quais estão relacionadas, respectivamente, as entradas {5}, {27}, {26, 33 e 34}. Se considerar-se que um neurônio associado à ATP, apresentando valores de IC e FH classificados na categoria de “pobre”, foi alocado num agrupamento de neurônios associados aos dados do grupo LAC, cujos valores de IC pertencem às categorias “excelente” e “bom”, houve uma falha na classi- ficação. É interessante notar ainda que neste cluster a rede SOM foi “cega” quanto à classifi- cação no neurônio 4, tanto no atributo IC como FH.
ATP é um mineral cujos estudos para aplicação como excipiente farmacêutico é relativamente recente e ainda não é empregado rotineiramente para esse fim. A origem, com- posição e e propriedades da ATP, são similares às do TLC e tanto a rede NG como SOM clas- sificaram os dois conjuntos de dados como pertencentes a um mesmo subcluster. Entretanto, conforme já apontado, na rede SOM um dos neurônios associado a ATP ficou bastante deslo- cado, denotando a dificuldade de a rede reconhecer a fronteira que distingue os objetos desse subcluster dos demais objetos.
Semelhantemente, o posicionamento do objeto 8 (EMG) também sugere a exis- tência de um subcluster, mas dessa vez adjacente ao grande cluster associado a CEL. Essa alocação seguiu um critério de aproximação plausível, já que as redes SOM e NG associaram nesse agrupamento neurônios cujos valores de IC estavam na faixa do “aceitável” ao “po-
bre”, que são numericamente próximos da classificação “muito pobre”, onde os neurônios
associados ao EMG estão classificados. Entretanto também há uma separação entre os neurô- nios desse subcluster no SOM, que não seguiu a expectativa de justapor esses neurônios.
Uma análise detalhada indica que os erros de posicionamento dos neurônios de EMG, TLC e ATP não estão relacionados à alocação errônea de dados com propriedades con- flitantes, como no caso das classificações feitas pelas estratégias puramente competitivas. O problema, nesse caso, está relacionado com a dificuldade de estabelecimento das regiões de fronteira entre os subclusters e não no seu reconhecimento propriamente dito. Em parte esses
erros de classificação podem ser atribuídos à rigidez na predeterminação das vizinhanças dos neurônios que definem a atualização dos pesos sinápticos, especialmente nas vizinhanças em torno do neurônio BMU na rede SOM (VILLMANN e CLAUSSEN, 2006).
O algoritmo SOM é talvez o mais bem sucedido algoritmo na quantização de ve- tores, que é o principio básico da clusterização. O SOM projeta o espaço de dados M sobre a estrutura de um mapa topográfico cujas unidades neurais estão definidas num arranjo fixo, cuja topologia é definida a partir de certas relações previamente estabelecidas entre as vizi- nhanças dos neurônios. O ajuste dos pesos do neurônio vencedor feito de forma concertada com seus neurônios vizinhos dentro dos parâmetros de abrangência de vizinhança permite que o mapa gerado (mapa de Kohonen) conserve a topologia desse espaço de entrada, M. Para que essa redução dimensional alcance seu ótimo em termos de preservação das características do espaço de entrada, é necessário que a topologia da rede seja ajustada com a topologia de M, o que requer um conhecimento apriorístico dessa topologia. A fonte do erro de classificação mostrado para as entradas 5 e 8 resultou da dificuldade da rede em obter a estrutura topológi- ca correta de M possivelmente em função de características não explícitas desses subconjun- tos, uma vez que é reconhecido o erro de classificação pelas redes SOM em algumas situações em que os dados são composto por subconjuntos de dimensões efetivas diferentes ou disjuntos e fraturados (MARTINETZ e SCHULTEN, 1991).
Uma análise detalhada dos dados numéricos aponta que os erros de classificação do SOM também podem ser associados à dificuldade em reconhecer as fronteiras que distin- guem os subclusters aos quais pertencem ATP e TLC, e entre EMG e os neurônios associados ao grupo da celulose. Considerando a proximidade entre os pontos pertencentes a dois conjun- tos de dados diferentes entre si, em relação a uma região de fronteira, se a métrica Euclidiana produzir uma relação do tipo dBA = dBC, não é possível o algoritmo decidir com precisão se A
e C são mais semelhantes entre si do que B e C quando a relação de vizinhança é estabelecida de forma rígida, como no caso da rede SOM (Figura 37).
A aplicação da métrica Euclidiana típica do SOM, associada a predeterminação rígida das vizinhanças, acentuou a dificuldade de resolução dos subclusters associados à EMG, TLC e ATP. A resolução desse defeito de classificação é claramente observada na uti- lização da rede NG.
Figura 37: Separação de dados de agrupamento próximos a uma linha de fronteira.