Discussion on 64,67 Cu production - Cross section results for 64,67 Cu

6.2 Cross section results for 64,67 Cu

6.2.1 Discussion on 64,67 Cu production

Como medida de não normalidade para a estimação de um modelo ACI, utiliza-se frequentemente a informação do cumulante de quarta ordem, ou seja, a curtose (Apêndice C.4).

Deﬁnição 3.5.1 Para uma variável aleatória (v. a.) X com média zero, a curtose é dada por curt(x) = E(x4) − 3 E(x2) 2,

onde, E(xk_{) são os designados momentos não centrados de ordem k.}

Nota 3.5.2 Para uma v. a. X com E(x) = 0, no caso da variância ser unitária, vem apenas curt(x) = E(x4) − 3.

3.5. MÉTODOS DE ESTIMAÇÃO 61 Para uma v. a. com distribuição Normal a curtose é zero, enquanto que em geral para as variáveis aleatórias com outras distribuições a curtose não é zero. As variáveis aleatórias que possuem valores negativos da curtose são designadas por sub-Gaussianas (ou platicúrticas) e as que possuem valores positivos da curtose são designadas por super-Gaussianas (ou leptocúrticas). A Figura 3.7 apresenta a comparação entre um exemplo de uma distribuição super-Gaussiana ilustrado pela distribuição de Laplace (ou Exponencial Dupla) com um pico e caudas pesadas, a distribuição Normal standard (ou Gaussiana) e uma distribuição sub-Gaussiana dada pela distribuição Uniforme. As três distribuições estão centradas e possuem variâncias unitárias.

Figura 3.7: Funções densidade de probabilidade da distribuição de Laplace, da distribuição Normal (a ponteado) e da distribuição Uniforme (a negrito) com médias nulas e variâncias unitárias

Propriedade 3.5.3 Sejam x1 e x2 duas variáveis aleatórias independentes e α uma constante. A curtose, pelo facto de ser um cumulante, é dotada das seguintes propriedades (Hyvärinen et al., 2001b):

curt(x1+ x2) = curt(x1) + curt(x2) (3.8) e,

Considere-se o caso do modelo ACI (3.1) a duas dimensões, tendo como objetivo efetuar uma análise no que diz respeito à otimização para a curtose e à forma de obter as CIs.

Sejam s1 e s2duas CIs de variâncias unitárias com valores não nulos curt(s1) e curt(s2) para a curtose e seja y = bT_x _{considerada como uma das CIs a encontrar. Portanto, como visto} anteriormente em (3.7), y = bT_x_{= q}T_{s. Neste caso concreto tem-se}

y = q1s1+ q2s2, pelo que de (3.8) e de (3.9) vem

curt(y) = curt(q1s1) + curt(q2s2) = q41curt(s1) + q42curt(s2). Se a variância de y é igual à unidade, consequentemente restringe-se q, ou seja

V ar(y) = V ar(q1s1+ q2s2) = q21V ar(s1) + q22V ar(s2) = q21+ q22 = 1

pois s1 e s2 são duas componentes independentes e centradas. Assim, o vetor q ﬁca restringido ao círculo unitário no plano bidimensional.

Para maximização da não normalidade procura-se o máximo do módulo da função curt(y) no círculo unitário.

Admita-se por simplicidade que curt(s1) = curt(s2) = 1, e considere-se a função

F (q) = q14+ q24. (3.10)

Na Figura 3.8 ilustramos o que acontece em termos de otimização ao representarmos a projeção no plano de algumas curvas de nível da função, assim como a restrição do círculo unitário.

Aplicando o Método dos Multiplicadores de Lagrange, obtém-se a função L(q1, q2, λ) = q14+ q24− λ(q12+ q22− 1)

onde λ é o multiplicador de Lagrange.

Os pontos críticos desta função Lagrangeana determinam-se a partir do sistema de equações          ∂L ∂q1 = 0 ∂L ∂q2 = 0 ∂L ∂λ = 0 ⇔          4q3 1 − 2λq1 = 0 4q₂3− 2λq2 = 0 q2 1+ q22− 1 = 0 .

3.5. MÉTODOS DE ESTIMAÇÃO 63 -1 1 1 q 1 q 2 -1

Figura 3.8: Cenário de otimização para a curtose: as linhas ﬁnas representam algumas curvas de nível da função descrita em (3.10) e a linha a grosso representa o círculo unitário

Uma vez que as suas soluções são da forma          q1 = 0 ∨ q21 = λ2 q2 = 0 ∨ q22 = λ2 q2 1+ q22 = 1 então os oito pontos críticos são os seguintes:

(1, 0), (0, 1), (−1, 0), (0, −1), $√22, √ 2 2 % , $√2 2 , − √ 2 2 % , $₋√2 2 , √ 2 2 % e $₋√2 2 , − √ 2 2 % . De entre os pontos críticos mencionados, aqueles em que a função F restringida ao círculo unitário atinge máximos são (1, 0), (0, 1), (−1, 0) e (0, −1). Estes são exatamente os quatro pontos obtidos em que y = s1; y = s2; y = −s1 e y = −s2 respetivamente.

Para o caso em que curt(s1) = curt(s2) = −1, a situação é análoga à anterior, uma vez que em módulo a função a maximizar é a mesma. No caso de curt(s1) e curt(s2) serem completamente arbitrárias e não nulas, o valor absoluto da curtose também é maximizado quando y = bT_x _é novamente igual a uma das CIs (Hyvärinen et al., 2001b).

Para o vetor dos dados branqueados, designado anteriormente por z, procura-se uma com- binação linear wT_z _{que maximize a não normalidade.}

Dado que z = VAs e logo wT_z _{= w}T_{VAs, ocorre assim uma simpliﬁcação, desde que} q= (VA)Tw, e consequentemente

De acordo com a expressão obtida, restringir q é o mesmo que restringir w na esfera unitária, e desta forma maximiza-se o valor absoluto da curtose de wT_z_{sob a condição w = 1. Depois} do branqueamento, as combinações lineares wT_z _{podem ser encaradas como projeções na reta} gerada pelo vetor w, e cada ponto da esfera unitária corresponde a uma projeção.

Como exemplo, no caso de duas misturas branqueadas de componentes independentes uni- formemente distribuídas, podem parametrizar-se os pontos da esfera unitária através do ângulo que o vetor w faz com o eixo horizontal e pode efetuar-se o gráﬁco da curtose de wT_z_{como uma} função desse ângulo. As direções são aquelas em que o valor absoluto da curtose é maximizado, as quais correspondem aos lados do quadrado, que por sua vez fornecem as CIs (Hyvärinen et al., 2001b).

Generalizando, os valores absolutos da curtose são maximizados pelas CIs (Delfosse e Louba- ton, 1995) e as direções das CIs são ortogonais devido ao branqueamento.

Algoritmos para CIs com Base na Curtose

Um dos algoritmos para maximizar o valor absoluto da curtose é o algoritmo do gradiente. Este algoritmo inicia com um vetor w arbitrariamente escolhido, e procura a direção na qual o valor absoluto da curtose de y = wT_z_{cresce mais rapidamente, baseado numa amostra do vetor} das misturas z, e depois desloca o vetor w nessa direção. Esta implementação é efetuada com base em métodos do gradiente assim como noutras suas extensões.

Outro algoritmo é o do ponto ﬁxo, que pode ser aplicado como alternativa ao algoritmo do gradiente para casos em que este apresenta baixo nível de convergência ou a sua inexistência. Hyvärinen e Oja (1997) introduziram um algoritmo do ponto ﬁxo denominado de FastICA que converge rapidamente, o qual apresenta certas propriedades que fazem dele um algoritmo mais eﬁciente em relação a outros baseados no gradiente. Este algoritmo iterativo permite encontrar os extremos locais da curtose de uma combinação linear das variáveis observadas, o que equivale a estimar as CIs que não sigam uma distribuição Normal, e não precisa de ajustar parâmetros como nos algoritmos do gradiente, tornando-o assim mais simples de usar.

Na Secção 3.7 serão descritos com detalhe alguns dos algoritmos mais utilizados em ACI, em particular o FastICA.

3.5. MÉTODOS DE ESTIMAÇÃO 65

In document Cross section measurements for the (sider 82-86)