CG-copula - Copulas and Local Gaussian Correlation

A ﬁm de encontrar um procedimento padrão para a blocagem, algumas investigações foram realizadas usando características baseadas em termos. A ideia é veriﬁcar se alguns tipos de características de termos podem ser utilizados no processo de blocagem e obter resultados signiﬁcativos. Foram realizados experimentos com as seguintes características relacionadas aos termos: (1) frequência do termo na coleção de dados, (2) quantidade de caracteres do termo e (3) cálculo da entropia designando quantidade de informação do termo.

Como dito anteriormente, a entropia dos termos é a característica utilizada para a técnica de blocagem do PBBRT, pois, dentre os experimentos, foi a característica que obteve os melhores resultados. A título de demonstração, primeiro serão apresentados os experimentos realizados para as características de frequência dos termos e tamanho dos termos, bem como os resultados obtidos com as mesmas. Essas duas primeiras análises de características são comparadas aos resultados para blocagem em (PAPADAKIS et al., 2016a) com as técnicas Token Blocking + Block Purging. Por último, serão apresentados os resultados com a aplicação da entropia dos termos para construção dos blocos, comparados aos resultados para blocagem em (PAPADAKIS et al., 2016a) com as técnicas Token

Blocking + Block Purging + Block Filtering, que reﬁnam ainda mais a técnica de blocagem

Capítulo 5. Avaliação Experimental 48 5.4.1.1 Experimentos Analisando a Frequência dos Termos

Para veriﬁcar a relação que os termos nas coleções de dados possam ter para a blocagem, a primeira característica analisada foi a frequência desses termos. A frequência é contabilizada considerando o número de vezes que cada termo aparece na coleção de dados, ou seja, cada termo (palavra) diferente encontrado é armazenado em uma lista, e toda vez que algum termo já encontrado aparece em alguma instância da coleção de dados, uma variável que representa a frequência daquele termo é incrementada. Vale ressaltar, que termos com frequência igual a 1 são descartados, pois, como visto na Subseção 4.1.2 os termos com essa frequência não são interessantes para a blocagem.

Dado que todos os diferentes termos encontrados e suas respectivas frequências na coleção de dados foram armazenadas, algumas análises foram realizadas com o propósito de descobrir características relevantes sobre a frequência dos termos que impactariam positivamente para o processo de criação dos blocos. Para este ﬁm, vários limiares de frequência foram testados para realização da blocagem.

Para entender o que seriam esses “limiares de frequência”, considere o exemplo a seguir: para criação de blocos com a técnica Token Blocking, todos termos diferentes na coleção de dados geram blocos. Considere agora que blocos serão gerados somente com os termos que sua frequência na coleção de dados é igual a 100. Considere também que somente os termos com frequência entre 2 e 1000 geram blocos. Esses valores deﬁnidos para frequência que são chamados de limiares. Para cada conjunto de blocos gerados a partir dos limiares a serem considerados nos testes, será aplicado a métrica de avaliação discutida na Seção 5.2, que possibilitará a análise da qualidade dos blocos criados e averiguar o comportamento dos resultados em relação a frequência dos termos.

Dado que cada coleção de dados contém uma frequência máxima F M, ou seja, termos com a maior frequência na coleção, são considerados os blocos com mais de 2 instâncias (limite inferior) e com no máximo F M instâncias (limite superior). Vários limiares de frequência dentro desse intervalo foram testados, como aumentar o limite inferior de frequência de 1 em 1 unidade e diminuir o limite superior de 1 em 1 unidade. Apresentar os experimentos de blocagem para todos os limiares de frequência seria inviável, devido ao tamanho extenso que a tabela de resultados teria. Portanto, é apresentado somente os experimentos de blocagem com os limiares que apresentaram resultados mais relevantes para realização das análises.

A Tabela 3 mostra os resultados encontrados para as coleções de dados C1, C2 e C3 com a análise de frequência dos termos (representado por F ), comparados com os resultados encontrados no trabalho de referência (PAPADAKIS et al., 2016a) com a técnica de blocagem (representado por T ).

Capítul o 5. A val iaç ão E xp erimental 49

Tabela 3 – Comparação entre a análise de frequência dos termos e o método de referência para a blocagem.

C1 C2 C3

T F T F T F

PC 0,997 0,997 0,981 0,981 0,999 0,999

PQ 2,43E-05 2,71E-05 4,46E-05 4,54E-05 1,12E-05 1,12E-05

||B|| 9,49E+07 8,50E+07 5,03E+08 4,94E+08 8,00E+10 7,98E+10

Tempo 4,8 s ∓ 0,3 s 3,5 s ∓ 0,2 s 10,5 s ∓ 0,4 s 6,5 s ∓ 0,5 s 12,2 min ∓ 12,3 s 7,3 min ∓ 6,6 s

Tabela 4 – Comparação entre a análise de quantidade de caracteres dos termos e o método de referência para a blocagem.

C1 C2 C3

T C T C T C

PC 0,997 0,997 0,981 0,981 0,999 0,999

PQ 2,43E-05 2,64E-05 4,46E-05 4,46E-05 1,12E-05 1,12E-05

||B|| 9,49E+07 8,72E+07 5,03E+08 5,03E+08 8,00E+10 8,00E+10

Tempo 4,8 s ∓ 0,3 s 3,6 s ∓ 0,3 s 10,5 s ∓ 0,4 s 5,4 s ∓ 0,3 s 12,2 min ∓ 12,3 s 6,5 min ∓ 4,8 s

Tabela 5 – Comparação entre as análises de características baseadas em termos.

C1 C2 C3

F C E F C E F C E

PC 0,997 0,997 0,983 0,981 0,981 0,951 0,999 0,999 0,982

PQ 2,71E-05 2,64E-05 3,42E-04 4,54E-05 4,46E-05 1,08E-03 1,12E-05 1,12E-05 7,29E-05

||B|| 8,50E+07 8,72E+07 6,64E+06 4,94E+08 5,03E+08 2,02E+07 7,98E+10 8,00E+10 1,20E+10

Capítulo 5. Avaliação Experimental 50 Para a coleção de dados C1 os melhores resultados encontrados para blocagem foram com os limiares de frequência de termos entre 2 e 1584, dado que a maior frequência para C1 é 27508. Já para a coleção de dados C2 os melhores resultados encontrados para blocagem foram com os limiares de frequência de termos entre 2 e 3977, dado que a maior frequência para C2 é 23206. Por ﬁm, para a coleção de dados C3 os melhores resultados encontrados para blocagem foram com os limiares de frequência de termos entre 2 e 17159, dado que a maior frequência para C3 é 2288148.

Nota-se que os valores para P C se manteve em todas as coleções de dados. No entanto, aumenta os valores para P Q, diminui o número de comparações e reduz o tempo de processamento. Dado que melhores resultados foram encontrados diminuindo o valor do maior limiar de frequência, pode-se concluir, através das análises realizadas, que descartar termos com frequências maiores se mostrou adequado para o processo de blocagem. Outro ponto a ressaltar, é que em todas as coleções de dados o limiar mínimo de frequência (2) é incluído na blocagem, levando a entender que termos com baixa frequência são relevantes para se obter resultados mais satisfatórios.

Porém, os valores dos limiares ideais variaram muito de uma coleção de dados para a outra, diﬁcultando a deﬁnição de uma forma padrão para se encontrar o melhor procedimento para blocagem utilizando somente a frequência dos termos. No entanto, visto que analisar uma determinada característica relacionada aos termos apresentou indícios de que melhores resultados podem ser encontrados para o processo de blocagem, outra característica foi investigada e detalhada a seguir.

5.4.1.2 Experimentos Analisando a Quantidade de Caracteres dos Termos

A segunda característica analisada foi a quantidade de caracteres nos termos. Cada termo diferente encontrado na coleção de dados é armazenado em uma lista, juntamente com uma variável que armazena o tamanho do termo, ou seja, a quantidade de caracteres desse termo. Da mesma forma como foram investigados os limiares de frequência para a análise anterior, limiares de tamanho também foram testados para realização da blocagem.

Uma vez que os termos de menor e maior tamanho foram identiﬁcados em cada coleção de dados, os experimentos realizam o processo de aumentar o menor limiar e diminuir o maior limiar de tamanho dos termos para criação dos blocos, ambos de 1 em 1 unidade, considerando os termos onde o número de instâncias que contém cada termo seja maior ou igual a 2.

Capítulo 5. Avaliação Experimental 51 A Tabela 4 apresenta os resultados encontrados para as coleções de dados C1, C2 e C3 com a análise da quantidade de caracteres dos termos (representado por C), comparados com os resultados encontrados no trabalho de referência (PAPADAKIS et al., 2016a) com a técnica de blocagem (representado por T ).

Para a coleção de dados C1 os resultados apresentados para blocagem foram com os limiares de tamanho dos termos entre 2 e 12, dado que o maior tamanho para C1 é 70. Já para a coleção de dados C2 os melhores resultados encontrados para blocagem foram com os limiares de tamanho dos termos entre 1 e 14, dado que o maior tamanho para C2 é 60. Para a coleção de dados C3 os melhores resultados encontrados para blocagem foram com os limiares de tamanho dos termos entre 1 e 45, dado que o maior tamanho para C3 é 259.

Com a aplicação da análise da quantidade de caracteres dos termos para C1,

P C novamente se manteve em relação ao trabalho de referência, enquanto as outras

métricas de avaliação obtiveram melhores resultados. Já para C2 e C3, somente o tempo de processamento apresentou melhorias signiﬁcativas. A redução do tempo de processamento se deve ao fato de que, utilizar características baseadas em termos para construção de blocos, exige um menor esforço do que utilizar a técnica de Block Purging aplicada ao

Token Blocking para descartar blocos, reduzindo assim o tempo de processamento da

blocagem.

O que se pode extrair de informação da análise de quantidade de caracteres dos termos, é que os resultados mais satisfatórios para a blocagem foram encontrados considerando os termos com menores tamanhos. A análise de frequência apresentou melhores resultados em relação a análise de quantidade de caracteres dos termos. No entanto, em ambas as análises, não foi possível deﬁnir uma forma padrão de utilizar essas características para a blocagem.

5.4.1.3 Experimentos Analisando a Entropia dos Termos

A análise de entropia dos termos levou a deﬁnir a entropia como a característica usada para a técnica de blocagem do PBBRT. Na Subseção 4.1.2 foram apresentados os procedimentos que utilizam a entropia para selecionar os termos relevantes para blocagem de uma forma padrão para todas as coleções de dados.

A Tabela 5 apresenta os resultados encontrados com a análise da entropia dos termos (representado por E) comparados aos resultados encontrados com a análise de frequência dos termos (representado por F ) e a análise da quantidade de caracteres dos termos (representado por C).

Os resultados encontrados com os experimentos mostraram que a blocagem com a entropia dos termos foi a escolhida para técnica de blocagem do PBBRT, pois se sobressaiu

Capítulo 5. Avaliação Experimental 52 em relação aos resultados encontrados com a análise da frequência dos termos e a análise da quantidade de caracteres dos termos. Além de possibilitar uma forma padrão para a blocagem, há melhorias expressivas, para todas as coleções de dados, em relação a P Q e a quantidade de comparações, perdendo ligeiramente em P C.

In document Copulas and Local Gaussian Correlation (sider 87-96)