• No results found

2 UTDANNING OG ARBEIDS-

2.3. l Innledning

2.3.4 Etatsutdanninger

A representação das wavelets de Gabor de uma imagem é a convolução da mesma com a família descrita em (4.24). Seja I (x, y) uma dada imagem, a convolução da imagem I com a wavelet ψu,v é definida como

4.3. Wavelets de Gabor imersas em um Modelo Tensorial 31

em que ∗ é o operador de convolução e ϕu,v(x, y) é o resultado da convolução da

imagem I (x, y) com a wavelet de Gabor ψu,v(x, y) em uma escala u e uma dada

rotação v. Assim o conjunto G = {ϕu,v(x, y) : u = 0, 1, . . . , 4; v = 0, 1, . . . , 7} forma

a representação das wavelets de Gabor da imagem I (x, y) [57]. Aplicando o teorema da convolução [58], podemos obter via transformada de Fourier o resultado desejado:

Fu,v(x, y)} = F{I(x, y)}F{ψu,v(x, y)}, (4.27)

implicando em

ϕu,v(x, y) = F−1{F{I(x, y)}F{ψu,v(x, y)}} (4.28)

em que F e F−1 são a transformada de Fourier e sua inversa, respectivamente.

Note que fmax é a maior frequência que as wavelets de Gabor podem

assumir. Os parâmetros de ψ(fu,θv)(x, y) devem ser escolhidos de forma que a extração de características forneça a maior quantidade de informação possível, assim fmax deve assumir valores de baixa frequência, devido imagens

faciais possuírem sua informação concentrada em baixas frequências. Os valores comumente usados [54] são fmax= 0, 25, ξ = κ =

2, mantendo a razão entre a frequência e o formato da gaussiana constante.

Com o intuito de agregar todos os resultados das convoluções de uma única imagem, são realizadas a vetorização e concatenação das respostas, gerando um vetor de características aumentado. Esse vetor torna-se rapidamente muito grande. Por exemplo, se tomarmos uma imagem 64 × 64, seu vetor aumentado teria dimensão 64.64.40 = 163840, o que é computacionalmente intratável. Assim, antes de realizarmos a vetorização de ϕu,v(x, y) é aplicado

um fator de downsampling para diminuirmos a dimensão gerando ϕ̺

u,v(x, y)

como mostrado na Equação (4.29). Em seguida, então normalizamos para média zero com variância unitária [57].

gu,v = vec(ϕ̺u,v(x, y)) (4.29)

Assim, geramos o conjunto

Gvec = {vec[ϕ̺u,v(x, y)] : u = 0, 1, . . . , 4; v = 0, 1, . . . , 7} (4.30)

de vetores intermediários para formar o vetor de características aumentado

g= (g0,0⊤ g0,1⊤ . . . g4,7⊤ )⊤. (4.31) Os modelos tensoriais aqui tratados levam em consideração aspectos

4.3. Wavelets de Gabor imersas em um Modelo Tensorial 32

relativos à formação da imagem, ou seja, fatores multimodais. Um dado vetor de características aumentado g proveniente do processo de extração de características descrito acima, ainda tem sua origem em uma dada imagem, à qual foi afetada, em sua formação, por um conjunto de fatores.

De uma forma mais geral podemos ver o vetor g como g(i1, i2, i3, i4), ou seja,

o resultado da aplicação da família das wavelets de Gabor em uma imagem facial do individuo i1, na posição facial i2, em uma condição de iluminação

i3 com uma certa expressão facial i4. Dessa maneira, podemos construir um

modelo tensorial fundamentado no fato da natureza multimodal do conjunto de imagens faciais não ter sido afetada pelas transformações a elas aplicadas, logo o modelo consiste em

G ∈ RNpe× Nv× Ni× Ne× Nf

formado pela permutação ou organização de todas as g(i1, i2, i3, i4), em que

i1 = 1, 2, . . . , Npe, i2 = 1, 2, . . . , Nv, i3 = 1, 2, . . . , Ni e i4 = 1, 2, . . . , Ne. Observe que,

Nf = 40(Np) 2

̺2 é a dimensão do espaço de características das wavelets. Para separar os espaços vetoriais relacionados a cada fator multimodal imerso no tensor G realizaremos aHOSVD deste tensor:

G = Z ×1 Upe ×2 Uv ×3 Ui ×4 Ue ×5 Uf (4.32) Como Uf é a base do espaço de parâmetros e estamos particularmente

interessados na decomposição nos espaços de fatores, então podemos modificar aHOSVD na Equação (4.32) para sua forma reduzida:

G = V ×1 Upe ×2 Uv ×3 Ui ×4 Ue (4.33) em que V = Z ×5 Uf.

Através desse método híbrido de extração de características, estamos obtendo através das wavelets de Gabor a maior quantidade de informação possível [10], separando seus fatores multilineares constituintes através da

HOSVD, tais como posição facial, iluminação e expressão facial. Como

no TensorFaces, assumimos uma mistura probabilística do PCA, que é análogo a métodos de separação de subespaços baseados em posição facial [59,60]. Logo, para cada posição no modelo tensorial existe uma gaussiana multidimensional [7].

4.3. Wavelets de Gabor imersas em um Modelo Tensorial 33

Algoritmo 4.1 Classificação com o TenWav

1: procedure TENWAV(Imgs,gtest) ⊲Conjunto de imagens.

2: for I ∈ Imgs do

3: Filtrar a imagen I com as wavelets Gabor

4: downsample todos gu,v do fator δ

5: gI ← (g0,0g0,1 . . . g4,7)⊤ 6: end for

7: Construa G(5) com todos gI

8: RemodelarG(5) para um tensor G 9: A← {5}

10: V, Upe,Up,Ui,Ue ← reducedHOSVD(G, A) 11: W ← V ×2 Up ×3 Ui ×4 Ue

12: gˆpe(i2, i3, i4) ← [W⊤(pe)(i2, i3, i4)]†gtest

13: i∗1 ← arg min{i1,i2,i3,i4} k ˆgpe(i2, i3, i4) − g(i1) k2 14: return i

1 15: end procedure

Múltiplas Projeções Lineares no Espaço das Wavelets de Gabor

Cada indivíduo no conjunto de imagens pode ser representado por um vetor de coeficientes na matriz de autovetores do espaço de pessoas Upe. Este

vetor de coeficientes é relativo ao espaço gerado pelas projeções das wavelets de Gabor em cada fator multimodal (posição, iluminação e expressão). Da mesma forma que podemos pensar em uma assinatura do individuo no modelo TensorFaces, para o modelo tensorial com wavelets de Gabor podemos pensar em uma assinatura multiescala da pessoa no modelo tensorial. Ou seja,

W = V ×2 Up ×3 Ui ×4 Ue (4.34) implica em

ˆ

gpe(i2, i3, i4) = [W(pe)⊤ (i2, i3, i4)]†gtest (4.35)

em que a operação de classificação é realizada através da distância euclideana para cada base relativa aos fatores multimodais:

i∗1 = arg min

i1,i2,i3,i4 k ˆgpe

(i2, i3, i4) − g(i1) k2 (4.36)

Uma vez que a dimensão do vetor de características tenha sido reduzida e a habilidade de discriminação tenha sido aumentada por algum método de análise de subespaços, podemos usar simplesmente o classificador naive bayes com a distância euclidiana como medida usada na classificação. Classificadores mais complexos podem ser usados, tais como Support Vector Machine e Nearest Feature Space. Entretanto o esforço computacional não valeria o ganho na taxa de acerto [46].

Capítulo

5

Validação Cruzada Modo-n

5.1 Validação Cruzada

A Validação Cruzada (VC) ou estimação rotacionada tornou-se um método padrão na análise de desempenho de algoritmos e modelos em machine learning e reconhecimento de padrões. Seja S = {(xi, yi)}ni=1 um conjunto

de dados, um dataset, em que X = {xi}ni=1 são amostras aleatórias de certos

padrões rotulados Y = {yi}ni=1 de um conjunto finito de classes, ou seja, os

rótulos tomam valores de Ω = {ωi}ci=1. O procedimento na realização da

VC consiste em particionar aleatoriamente o dataset S em k folds (partes) mutuamente exclusivas de tamanhos aproximadamente iguais, em outras palavras:

S=

k

[

i=1

Siem que Si∩ Sj = ∅ para todo i 6= j. (5.1)

Assim um classificador η(., .) baseado em um modelo classificação é treinado no conjunto S\Si e testado em Si, k vezes [61], também denominada

k-fold VC. Para um dado padrão (x, y), o erro de classificação da amostra x como sendo da classe y de uma dada parte Si é definida como em [62],

δ[y, η(S\Si,x)] =

(

1 y6= η(S\Si, x)

0 caso contrário. (5.2)

Como não sabemos a distribuição da taxa de erro ε do classificador η(., .), é necessário estimarmos a mesma ˆε:

ˆ ε = 1 n k X i=1 X (x,y)∈Si δ[y, η(S\Si, x)] (5.3)

A estimativa ˆε de ε possui alguns problemas causados devido aos dados que são usados mais de uma vez em treinamento e/ou pequenas quantidades

5.2. Validação Cruzada Modo-n 35

de amostras para treino. É possível ver esse efeito na alta variância da distribuição de ˆε. Uma maneira de diminuirmos esse tipo de problema é através da k-foldVC estratificada, no qual definimos [61],

Definição 17 (VC estratificada) Quando cada fold é construído com a mesma proporção de padrões para cada classe do conjunto de dados original, dizemos que a validação cruzada é estratificada.

Outro problema que surge na k-fold VC devido essa alta variância na taxa de erro é sua baixa replicabilidade, ou seja, se realizarmos dois experimentos idênticos, isto é, mesmos dados e teste de hipótese, mas com diferentes particionamentos do conjunto de dados, iremos obter resultados muito diferentes [63]. Para aumentarmos a replicabilidade e melhorarmos a estimativa da taxa de erro ε devemos repetir a k-fold VC em diferentes particionamentos do conjunto de dados. A nova estimativa ˆεr em que a VC

é repetida r vezes é obtida como

ˆ εr = 1 r r X j=1 ˆ εj (5.4)

Para cada repetição daVC é necessário um novo particionamento aleatório do dataset. Para o conjunto de dados S sua cardinalidade é dada por o(S) = n. Da mesma forma que o(Si) = ni(i = 1, . . . , k) representa a cardinalidade de cada

parte em um dado particionamento de S. É claro que Pk

i=1

ni = n, de forma que

o número de partições ρ possíveis é

ρ= n! n1!n2! . . . nk!

(5.5)

Cada partição Pi do conjunto de todas as partições Φ = {Pi}ρi=1 corresponde

à uma validação cruzada específica com k folds. Observe que a estimativa da taxa de erro ˆεP resultante da VC na partição Pi é uma estimativa de ˆεr.

Ao realizarmos a repetição para todos os particionamentos no conjunto Φ teremos uma boa estimativa do erro verdadeiro ε. Mas devido a aspectos computacionais geralmente repetimos a validação 100 vezes, ou ainda de uma forma mais sistemática através de algoritmos como Fixed Confidence Interval (FCI) ou Two Step Estimation (TSE) para avaliarmos a quantidade de repetições necessárias [64].

5.2 Validação Cruzada Modo-n

Dados multimodais modelados como tensores de ordem superior devem obedecer um ordenamento, uma lei de formação para os tensores. Modelos

5.2. Validação Cruzada Modo-n 36

como TenWav e TensorFaces não são exceção, os mesmos devem seguir uma ordem baseada nos fatores multimodais. Neste caso, as imagens vetorizadas devem ter uma ordem pré-definida em sua forma matriciada no modo em que os padrões estão localizados. Para fins de ilustração considere um tensor de dados com ordem 4, a saber A ∈ R3×3×3×3. Se considerarmos o

modo-4 como sendo o espaço de parâmetros, ou seja, as colunas de A(4)

são os padrões, teríamos de organizar os dados conforme é ilustrado na Figura (3.2). Essa organização está diretamente relacionada com a maneira utilizada para matriciar o tensor. Assim, vemos que modelos tensoriais em que os dados são organizados como um único tensor possuem um alto grau de dependência em sua estrutura interna, não sendo possível dividir os dados para teste e treinamento de uma forma totalmente aleatória. Faz-se necessária uma maneira sistemática seguida de um estágio de aleatoriedade para assegurarmos os resultados da estimação do erro.

No contexto de regressão para algoritmos em modelos Tucker3, D.J.Louwerse et al. [65] propuseram dois métodos para validação cruzada: VC EM-Tucker3 e VC Leave-bar-out (LBO) Tucker3. Essas duas abordagens não são apropriadas para um problema de classificação em que o padrão desejado está localizado em um modo, também não sendo aplicáveis no contexto de classificação em modelos baseados em HOSVD. De fato, o primeiro método combina os algoritmos Tucker3 e EM fazendo uso da natureza iterativa dos mesmos, impossibilitando seu uso comHOSVD. Com o métodoLBO, o mesmo padrão aparece mais de uma vez no conjunto de treinamento, o que induz dependência entre as estimativas da taxa de erro de cada rodada na validação cruzada, fazendo com que sua estimação não seja válida [66].

A validação cruzada tradicional toma partições aleatórias do conjunto de padrões S = {(xi, yi)}ni=1 com seus respectivos rótulos. Uma maneira

equivalente consiste em tomar partições aleatórias do conjunto de dados X = {xi}ni=1 e depois seus rótulos do conjunto Y = {yi}ni=1. Para os modelos

tensoriais considerados, iremos realizar a validação cruzada no conjunto X que está organizado como as colunas do espaço de medidas (imagens vetorizadas) D(p), em que o tensor D contém a totalidade dos dados.

Propomos uma nova abordagem para a validação cruzada baseada nessa nova estrutura do dataset. Para isso, vamos definir alguns conceitos importantes para o desenvolvimento do trabalho.

Definição 18 (modelo tensorial) Um modelo tensorial D sobre um conjunto multimodal X é uma permutação dos elementos de X.

5.2. Validação Cruzada Modo-n 37

matriciação modo-p, onde cada coluna de D(p) é um padrão, é denominado

espaço de padrões.

Definição 20 (espaço das classes) O espaço gerado por D(ω)ou analogamente

Uω onde estão os vetores que discriminam as classes ωi ∈ Ω é denominado

espaço das classes ou categorias do modelo tensorial.

Para o nosso caso, estamos permutando os elementos de X para formar D(p), a matriz de padrões resultante da matriciação do tensor D no modo-p.

Por sua vez, podemos denotar a matriz Up como sendo análogo ao espaço

D(p), pois a mesma gera o mesmo espaço. Em reconhecimento facial usamos

a notação Upe para Uω, como a referência as classes serem diretamente

relacionadas as pessoas do banco de imagens faciais.

Definição 21 (modo interno) Seja D um modelo tensorial de um conjunto multimodal X. Os espaços ou modos relacionados aos fatores multimodais diferentes de D(p) e D(ω) denominamos modos internos ao modelo tensorial D.

Essa definição deixa claro que o posicionamento do espaço de padrões D(p)

e do espaço de classes D(ω) não estão fixados. De fato, D(p) já foi utilizado

no TensorFaces como modo-5 e modo-1 [7,9]. Essa propriedade é inerente da álgebra multilinear onde cada espaço linear associado ao espaço tensorial é independente dos demais. Agora consideramos a concatenação de dois ou mais tensores em um dado modo-n.

Definição 22 (soma direta modo-n) A soma direta modo-n dos tensores A ∈ RI1× ... × In−1× J1× In+1× ... × IN e B ∈ RI1× ... × In−1× J2× In+1× ... × IN denotada por A⊕

nB

é um tensor C ∈ RI1× ... × In−1× (J1+J2) × In+1× ... × IN em que as colunas c

j de C(n)são

iguais a soma direta aj ⊕ bj dos vetores colunas aj ∈ A(n) e bj ∈ B(n).

Pelo Teorema (1) a nova dimensão do modo-n é J1 + J2. Estimadores

com resampling, caso em que a validação cruzada se enquadra, sofrem de um problema: o desempenho do classificador é estimado por classificadores substitutos que são obtidos a partir dos dados de treinamento S\Si(i = 1, . . . , k)

retirados do conjunto S. Se S\Si for muito diferente de S o classificador η(S\Si, .)

pode ser muito diferente de η(S, .) resultando em uma estimativa ˆε distante de ε [67]. Esse problema também foi notado em [61] no contexto da estabilidade dos classificadores η(., .), que propôs a validação cruzada estratificada como solução. Assim, somos motivados a distribuir as amostras nos folds de uma forma estratificada, ou seja, além de folds com tamanhos aproximados estes devem possuir uma mesma proporção de amostras de cada classe ou indivíduo.

5.2. Validação Cruzada Modo-n 38

O método da validação cruzada com k-folds no modo-n ou simplesmente k-VC modo-n consiste em selecionar os folds dos modos internos IN\{Iω, Ip}

através de uma função escolha

In= π( IN\{Iω, Ip}), (5.6)

em que π(.) seleciona um determinado modo de acordo com a necessidade, por exemplo, π(.) = max(.), min(.) dentre outros. O modo-n escolhido tem dimensão In, assim, existem dois casos que devemos considerar: k | In e k ∤ In.

Caso em que k divide In

Quando k | In dividimos o tensor D em k subtensores Di ∈

RI1× ... × Ii−1×Ink × Ii+1× ... × IN, que serão nossos folds no k-VC modo-n. Como foi dito anteriormente o tensor é o próprio dataset, então o conjunto de treinamento D\Di ∈ RI1× ... × In−1× In(1−

1

k) × In+1× ... × IN é construído de acordo com a Equação (5.7), e testamos em Di ∈ RI1× ... × In−1×

In

k × In+1× ... × IN.

D\Di = D1n. . .nDi−1⊕nDi+1⊕n. . .⊕nDk, (5.7)

A Figura 5.1 ilustra um particionamento hipotético de um tensor em um dado modo, cada Di pode ser utilizado para teste e os demais para

treinamento. Observe que com a Equação (5.8) a seguir, podemos reconstruir o modelo tensorial original a partir dos subtensores.

D= D1n. . .nDi−1nDinDi+1n. . .nDk. (5.8) O método k-VCmodo-n fornece uma validação cruzada estratificada. É bem verdade que exceto pelo modo-n que agora possui dimensão In

k, todos os modos

mantiveram a mesma dimensão do tensor original após o particionamento. Para o cálculo da taxa de erro considere A = {D1, D2, . . . , Dk} e seus

respectivos rótulos Y = {Y1, Y2, . . . , Yk}. Seja Di ∈ A e Wi = {(x, y); x ∈ Di,y ∈ Yi},

assim a estimativa ˆε é calculada de forma análoga à Equação (5.3):

ˆ ε= 1 m k X i=1 X (x,y)∈Wi δ[y, η(D\Di,x)], (5.9) em que, m= N Y j=1 j6=p Ij. (5.10)

5.2. Validação Cruzada Modo-n 39

D

Di−2 Di−1

Usado para Teste

Di

Di+1 Di+2

Figura 5.1: O tensor total é particionado no modo-n para formar os folds.

cada Di, (i = 1, . . . , k) pode ser visto como a soma direta modo-n de Ikn =

λ ∈ N subtensores Ej ∈ RI1× ... × In−1× 1 × In+1× ... × IN, (j = 1, . . . , λ) escolhidos do

conjunto El ∈ RI1× ... × In−1× 1 × In+1× ... × IN, (l = 1, . . . , In) dos In subtensores de D

obtidos fixando-se o índice in de 1 até In. Assim,

D = E1nE2n. . .nEl⊕n. . .⊕nEIn.

O fato de extrairmos λ elementos do conjunto E = {Ei}Ii=1n para formar uma

parte Di de um particionamento P do tensor D induz um conjunto de partições

em que cada uma de suas partes tem exatamente o mesmo tamanho. Dessa forma o número de partições ρ é

ρ= In! (λ!)k =

In(In− 1) . . . (λ + 1)

(λ!)k−1 . (5.11)

A possibilidade do particionamento do conjunto de dados em um modelo tensorial proporciona a repetição do k-VCmodo-n, possibilitando uma melhor estimativa ˆε da taxa de erro ε.

Exemplo 1 Considere um tensor de dados D ∈ R12 × 20 × 15 × 180, no qual iremos

aplicar a validação cruzada com 10 folds. Nesse exemplo o modo-1 e modo-4 são reservados para o espaço das classes e espaço dos padrões, respectivamente. Dentre os modos internos 2 e 3 usaremos o modo-2 para a construção dos folds. Assim, In

k = 20

10 = 2, os subtensores Di de mesma ordem que D terá dimensão 2 no modo-2. A formação dos tensores Di é realizada de uma maneira aleatória:

5.2. Validação Cruzada Modo-n 40

dividimos o tensor original D em 20 subtensores Ei ∈ R12 × 1 × 15 × 180, então,

escolhemos dois subtensores Er e Es para formar o i-ésimo fold Di = Er ⊕n Es.

A cada repetição da validação cruzada o processo é repetido. O Algoritmo 5.1

lista a sequência de passos principais para extração de folds nos dois casos: k| In e k ∤ In.

Caso em que k não divide In

Quando k ∤ In dividimos o tensor D em k + 1 subtensores, sendo

k tensores Di ∈ RI1× ... × Ii−1× ⌊ In

k⌋ × Ii+1× ... × IN (i = 1, ..., k), e um Dk+1 ∈ RI1× ... × In−1× In−⌊Ink ⌋k × In+1× ... × IN, para manter a simplicidade define-se γ = In− ⌊Ikn⌋k, em que 1 ≤ γ ≤ k − 1.

Para formamos folds com tamanhos aproximados e estratificados vamos dividir o tensor Dk+1 em γ subtensores Ei ∈ RI1× ... × In−1× 1 × In+1× ... × IN, e

adicioná-los aos tensores Di para i ≤ γ, como mostrado na equação a seguir

Fi = EinDi(i = 1, . . . , γ), (5.12) em que Fi ∈ RI1× ... × In−1× ⌊

In

k⌋+1 × In+1× ... × IN,.A equação seguir permite a reconstrução do dataset, i.e.:

D = F1n. . .nFγ⊕nDγ+1⊕n. . .⊕nDk. (5.13)

Para o cálculo da taxa de erro, considere A = {F1, . . . , Fγ, Dγ+1, . . . , Dk} como

sendo o conjunto dos folds extraídos do modelo tensorial D. Para cada fold Ai ∈ A existe um conjunto de rótulos associados, a saber Yi, de tal forma que Y=Ski=1Yi. Ora, seja Ai ∈ A e Wi = {(x, y); x ∈ Ai, y∈ Yi} então a nova estimativa

da taxa de erro pode ser calculada como,

ˆ ε= 1 m k X i=1 X (x,y)∈Wi δ[y, η(D\Ai, x)], (5.14)

em que m é calculado conforme a Equação (5.10).

Da mesma forma que foi possível repetirmos o k-VC modo-n no caso em que k | In, podemos fazer uma análise similar para o caso k ∤ In. Existem dois

conjuntos de subtensores a serem considerados, F = {Fi}γi=1 onde γ = In−⌊Ikn⌋k

e D = {Dj}k−γj=1. O tensor Fi é formado escolhendo α = ⌊Ikn⌋ + 1 subtensores de E,

enquanto Dj é formado escolhendo β = ⌊Ikn⌋ subtensores de E. Assim o número

de partições ρ do modelo tensorial D é dado por

ρ= In!

(α!)γ(β!)k−γ =

In(In− 1) . . . (α + 1)

5.3. Validação cruzada com fusão de modos 41

Algoritmo 5.1 Validação cruzada com k folds no modo-n

1: procedure EXTRAIFOLDS(D, k) ⊲ Tensor de dados e número de folds.

2: Escolhe o modo n que será realizado a validação

3: Divide D em In subtensores Ei no modo-n 4: if k | In then

5: λ In

k

6: for i ∈ {1, 2, . . . , k} do

7: Escolhe λ tensores dos Ei’s aleatoriamente. 8: Di ← E1nE2 n. . .nEλ 9: end for 10: return D1, D2, . . . , Dk 11: else 12: λ← ⌊In k ⌋ 13: for i ∈ {1, 2, . . . , k} do

14: Escolhe λ tensores dos Ei’s aleatoriamente. 15: Di ← E1 nE2n. . .nEλ

16: end for

17: for i ∈ {1, 2, . . . , In− ⌊

In

k ⌋k} do

18: Escolhe um tensor Ei não utilizado, aleatoriamente.

19: Fi ← DinEi

20: end for

21: return F1, F2, . . . , Fλ, Dλ+1, Dλ+2, . . . , Dk 22: end if

23: end procedure

5.3 Validação cruzada com fusão de modos

Já é de conhecimento que a validação cruzada com 5 ou 10 folds nos fornece uma boa estimativa da taxa de erro e do quanto nosso modelo pode ser generalizado [61]. Para k-VC modo-n também podemos assumir que os valores 5 e 10 para k são satisfatórios , pois estamos realizando uma validação cruzada estratificada. Mas em muitos casos os modos internos relativos aos fatores multimodais possuem dimensão In <5, ou seja, no conjunto de dados

o fator multimodal possui baixa variabilidade, assim, a aplicação do método torna-se inviável. Propomos a seguir uma fusão nos modos internos do modelo tensorial, mais especificamente nos modos vizinhos internos ao tensor, o que nos leva às seguintes definições:

Definição 23 (modos aninhados) Seja A ∈ RI1×I2×...×IN, dizemos que o modo-(n + 1) está aninhado ao modo-n no modelo A se A(p) ∈ RIp× Ip−1...InI(n+1)...IN,

onde Ip × Ip−1. . . InI(n+1). . . IN não representa apenas o número de colunas

de A(p), mas também sua organização na matriciação. Quando A(p) ∈

RIp× I(p−1)...In...I(n+k)...I(n+l)...IN dizemos que tanto o modo-(n+k) quanto o modo-(n+l) estão aninhados ao modo modo-n.

5.3. Validação cruzada com fusão de modos 42

modo-i

modo-j

modo-ij

Fus˜ao

Figura 5.2: Fusão do modo-i com o modo-j formando um novo modo-ij.

Definição 24 (modos vizinhos) Quando o modo-m está aninhado ao modo-n de um dado tensor A e ao mesmo tempo o modo-m não é aninhado a nenhum dos modos aninhados do modo-n, então dizemos que modo-m é vizinho do modo-n, da mesma forma o modo-n é vizinho do modo-m.

Essas duas definições estão diretamente conectadas à maneira em que os índices do tensor A foram organizados. Por exemplo, se A ∈ RI1×I2...× In× I(n+1)× ... × × I(n+k)×... × IN,então os modos n+1 e n+k estão aninhados ao modo-n, mas apenas o modo-(n + 1) é vizinho do modo-n. Agora denotaremos a fusão do modo-n com o modo-m simplesmente por modo-nm. Definição 25 (modo-nm) Sejam o modo-n e modo-m vizinhos em um tensor A ∈ RI1× I2× ... × In× Im× ... × IN. A fusão do modo-m no modo-n consiste em uma soma direta modo-m dos In subtensores Bi ∈ RI1× I2× ... × 1 × Im× ... × IN obtidos

fixando-se o índice i = inde 1 até In. O novo tensor H é dado por:

H= B1⊕mB2⊕m. . .⊕m Bi⊕m. . .⊕mBIn, (5.16) em que H ∈ RI1× I2× ... × 1 × InIm× ... × IN.

Observe que o tensor H ∈ RI1× I2× ... × 1 × InIm× ... × IN realmente não é de interesse devido o modo-n ter dimensão 1, o que nos conduz à seguinte proposição:

Proposição 2 O tensor A RI1× I2× ... × I(n−1)× 1 × I(n+1)× ... × IN pode ser identificado como o tensor B ∈ RI1× I2× ... × I(n−1)× I(n+1)× ... × IN.

5.3. Validação cruzada com fusão de modos 43

Prova 5 Basta definirmos a bijeção

ϕ : RI1× I2× ... × I(n−1)× 1 × I(n+1)× ... × IN −→ RI1× I2× ... × I(n−1)× I(n+1)× ... × IN tal que, ϕ(xi1i2...in−11in+1...iN) = xi1i2...in−1in+1...iN.

Em outras palavras, se o modo-n e modo-m tem dimensões In e Im

respectivamente, o novo modo que substituirá os dois tem dimensão InIm (veja

Figura5.2). Essa abordagem nos fornece um fator multimodal híbrido em um dado modelo tensorial e ao mesmo tempo diminui a complexidade do modelo, no sentido de que a ordem do tensor é decrescida, fazendo com que seja eliminado o cálculo de umaSVDem um dos estágios da HOSVD. No contexto de reconhecimento facial em um conjunto de imagens faciais multimodais, podemos construir novos modos híbridos combinando fatores como condições de iluminação, posição facial e expressões faciais, por exemplo:

pos-ilum Combinando posição facial com condição de iluminação, pos-exp Combinando posição facial com expressão facial e

Capítulo

6

Avaliação de Desempenho

Um dos problemas recorrentes na análise do desempenho de um estimador é o dilema viés-variância. Existem alguns aspectos a serem considerados relativos a variância de nossa estimativa. Primeiramente ˆε é uma função do conjunto de treinamento (que é escolhido aleatoriamente). Segundo, a aleatoriedade na escolha dos k folds no particionamento do nosso dataset usado na validação cruzada é outro fator integrante na formulação de ˆε como uma variável aleatória. É desejável que nosso estimador possua bias zero e uma variância baixa. É um fato conhecido que a estimativa do erro ˆε na Eq.5.3

baseado em validação cruzada, é um estimador baseado em contagens de erros, onde a função erro δ(., .) na Eq. 5.2conta o número de erros. É contado o número de erros em n classificações das amostras do conjunto de dados e dividido por n para estimarmos a taxa de erro para aquele particionamento. Logo, a estimativa muda em incrementos 1

n, caracterizando uma unidade de

variância irredutível [67].

A validação cruzada repetida é menos afetada por essa variação irredutível,