6.2 Cross section results for 64,67 Cu
6.2.1 Discussion on 64,67 Cu production
Como medida de não normalidade para a estimação de um modelo ACI, utiliza-se frequentemente a informação do cumulante de quarta ordem, ou seja, a curtose (Apêndice C.4).
Definição 3.5.1 Para uma variável aleatória (v. a.) X com média zero, a curtose é dada por curt(x) = E(x4) − 3 E(x2) 2,
onde, E(xk) são os designados momentos não centrados de ordem k.
Nota 3.5.2 Para uma v. a. X com E(x) = 0, no caso da variância ser unitária, vem apenas curt(x) = E(x4) − 3.
3.5. MÉTODOS DE ESTIMAÇÃO 61 Para uma v. a. com distribuição Normal a curtose é zero, enquanto que em geral para as variáveis aleatórias com outras distribuições a curtose não é zero. As variáveis aleatórias que possuem valores negativos da curtose são designadas por sub-Gaussianas (ou platicúrticas) e as que possuem valores positivos da curtose são designadas por super-Gaussianas (ou leptocúrticas). A Figura 3.7 apresenta a comparação entre um exemplo de uma distribuição super-Gaussiana ilustrado pela distribuição de Laplace (ou Exponencial Dupla) com um pico e caudas pesadas, a distribuição Normal standard (ou Gaussiana) e uma distribuição sub-Gaussiana dada pela distribuição Uniforme. As três distribuições estão centradas e possuem variâncias unitárias.
Figura 3.7: Funções densidade de probabilidade da distribuição de Laplace, da distribuição Normal (a ponteado) e da distribuição Uniforme (a negrito) com médias nulas e variâncias unitárias
Propriedade 3.5.3 Sejam x1 e x2 duas variáveis aleatórias independentes e α uma constante. A curtose, pelo facto de ser um cumulante, é dotada das seguintes propriedades (Hyvärinen et al., 2001b):
curt(x1+ x2) = curt(x1) + curt(x2) (3.8) e,
Considere-se o caso do modelo ACI (3.1) a duas dimensões, tendo como objetivo efetuar uma análise no que diz respeito à otimização para a curtose e à forma de obter as CIs.
Sejam s1 e s2duas CIs de variâncias unitárias com valores não nulos curt(s1) e curt(s2) para a curtose e seja y = bTx considerada como uma das CIs a encontrar. Portanto, como visto anteriormente em (3.7), y = bTx= qTs. Neste caso concreto tem-se
y = q1s1+ q2s2, pelo que de (3.8) e de (3.9) vem
curt(y) = curt(q1s1) + curt(q2s2) = q41curt(s1) + q42curt(s2). Se a variância de y é igual à unidade, consequentemente restringe-se q, ou seja
V ar(y) = V ar(q1s1+ q2s2) = q21V ar(s1) + q22V ar(s2) = q21+ q22 = 1
pois s1 e s2 são duas componentes independentes e centradas. Assim, o vetor q fica restringido ao círculo unitário no plano bidimensional.
Para maximização da não normalidade procura-se o máximo do módulo da função curt(y) no círculo unitário.
Admita-se por simplicidade que curt(s1) = curt(s2) = 1, e considere-se a função
F (q) = q14+ q24. (3.10)
Na Figura 3.8 ilustramos o que acontece em termos de otimização ao representarmos a projeção no plano de algumas curvas de nível da função, assim como a restrição do círculo unitário.
Aplicando o Método dos Multiplicadores de Lagrange, obtém-se a função L(q1, q2, λ) = q14+ q24− λ(q12+ q22− 1)
onde λ é o multiplicador de Lagrange.
Os pontos críticos desta função Lagrangeana determinam-se a partir do sistema de equações ∂L ∂q1 = 0 ∂L ∂q2 = 0 ∂L ∂λ = 0 ⇔ 4q3 1 − 2λq1 = 0 4q23− 2λq2 = 0 q2 1+ q22− 1 = 0 .
3.5. MÉTODOS DE ESTIMAÇÃO 63 -1 1 1 q 1 q 2 -1
Figura 3.8: Cenário de otimização para a curtose: as linhas finas representam algumas curvas de nível da função descrita em (3.10) e a linha a grosso representa o círculo unitário
Uma vez que as suas soluções são da forma q1 = 0 ∨ q21 = λ2 q2 = 0 ∨ q22 = λ2 q2 1+ q22 = 1 então os oito pontos críticos são os seguintes:
(1, 0), (0, 1), (−1, 0), (0, −1), $√22, √ 2 2 % , $√2 2 , − √ 2 2 % , $−√2 2 , √ 2 2 % e $−√2 2 , − √ 2 2 % . De entre os pontos críticos mencionados, aqueles em que a função F restringida ao círculo unitário atinge máximos são (1, 0), (0, 1), (−1, 0) e (0, −1). Estes são exatamente os quatro pontos obtidos em que y = s1; y = s2; y = −s1 e y = −s2 respetivamente.
Para o caso em que curt(s1) = curt(s2) = −1, a situação é análoga à anterior, uma vez que em módulo a função a maximizar é a mesma. No caso de curt(s1) e curt(s2) serem completamente arbitrárias e não nulas, o valor absoluto da curtose também é maximizado quando y = bTx é novamente igual a uma das CIs (Hyvärinen et al., 2001b).
Para o vetor dos dados branqueados, designado anteriormente por z, procura-se uma com- binação linear wTz que maximize a não normalidade.
Dado que z = VAs e logo wTz = wTVAs, ocorre assim uma simplificação, desde que q= (VA)Tw, e consequentemente
De acordo com a expressão obtida, restringir q é o mesmo que restringir w na esfera unitária, e desta forma maximiza-se o valor absoluto da curtose de wTzsob a condição w = 1. Depois do branqueamento, as combinações lineares wTz podem ser encaradas como projeções na reta gerada pelo vetor w, e cada ponto da esfera unitária corresponde a uma projeção.
Como exemplo, no caso de duas misturas branqueadas de componentes independentes uni- formemente distribuídas, podem parametrizar-se os pontos da esfera unitária através do ângulo que o vetor w faz com o eixo horizontal e pode efetuar-se o gráfico da curtose de wTzcomo uma função desse ângulo. As direções são aquelas em que o valor absoluto da curtose é maximizado, as quais correspondem aos lados do quadrado, que por sua vez fornecem as CIs (Hyvärinen et al., 2001b).
Generalizando, os valores absolutos da curtose são maximizados pelas CIs (Delfosse e Louba- ton, 1995) e as direções das CIs são ortogonais devido ao branqueamento.
Algoritmos para CIs com Base na Curtose
Um dos algoritmos para maximizar o valor absoluto da curtose é o algoritmo do gradiente. Este algoritmo inicia com um vetor w arbitrariamente escolhido, e procura a direção na qual o valor absoluto da curtose de y = wTzcresce mais rapidamente, baseado numa amostra do vetor das misturas z, e depois desloca o vetor w nessa direção. Esta implementação é efetuada com base em métodos do gradiente assim como noutras suas extensões.
Outro algoritmo é o do ponto fixo, que pode ser aplicado como alternativa ao algoritmo do gradiente para casos em que este apresenta baixo nível de convergência ou a sua inexistência. Hyvärinen e Oja (1997) introduziram um algoritmo do ponto fixo denominado de FastICA que converge rapidamente, o qual apresenta certas propriedades que fazem dele um algoritmo mais eficiente em relação a outros baseados no gradiente. Este algoritmo iterativo permite encontrar os extremos locais da curtose de uma combinação linear das variáveis observadas, o que equivale a estimar as CIs que não sigam uma distribuição Normal, e não precisa de ajustar parâmetros como nos algoritmos do gradiente, tornando-o assim mais simples de usar.
Na Secção 3.7 serão descritos com detalhe alguns dos algoritmos mais utilizados em ACI, em particular o FastICA.
3.5. MÉTODOS DE ESTIMAÇÃO 65