2 Bitcoins historie, teknologi og plass i økonomien
2.1 Hva er kryptovalutaer?
A motiva¸c˜ao para a apresenta¸c˜ao dos novos problemas de fatora¸c˜ao de matrizes (OvNMTF e BinOvNMTF ) era a possibilidade de superar algumas das dificuldades apresentas nas fatora¸c˜oes da literatura (ONMTF e FNMTF ), no que diz respeito `a solu¸c˜ao do problema de coagrupamento.
Do ponto de vista de quantiza¸c˜ao do espa¸co dos dados, a quantidade de informa¸c˜ao armazenada nas novas fatora¸c˜oes tem o potencial de superar as fatora¸c˜oes da literatura. Isso ocorre porque, nas fatora¸c˜oes propostas, o n´umero de colunas l necess´arios para explicar a matriz de dados original deve ser mais pr´oxima daquele necess´ario para obter o n´umero de grupos de colunas desejado, mesmo para os casos em que h´a sobreposi¸c˜ao de colunas entre as diferentes bases dos grupos de linhas. Entretanto, as fatora¸c˜oes propostas necessitam criar k matrizes para a abstra¸c˜ao dos grupos de colunas, o que incorre em um
custo maior de armazenamento dos prot´otipos dos grupos de colunas, e portanto, menor capacidade de compacta¸c˜ao.
Do ponto de vista de gera¸c˜ao de informa¸c˜ao sobre os dados, as fatora¸c˜oes propostas s˜ao capazes de fornecer o mesmo tipo de informa¸c˜ao: como as linhas da matriz de entrada se organizam em grupos e como as colunas da matriz de entrada se organizam em grupos. Por´em, desde que se tem k organiza¸c˜oes de grupos de colunas, sabe-se que h´a v´arias possibilidades dessa organiza¸c˜ao ocorrer para cada um dos grupos de linhas. Transferindo essa informa¸c˜ao para um contexto de aplica¸c˜ao, entende-se que h´a um conjunto de organiza¸c˜oes de atributos que est˜ao associados `a organiza¸c˜ao assumida no espa¸co dos dados. Intuitivamente, pode-se dizer que h´a diferentes maneiras de justificar o agrupamento de dados descoberto, com base nas similaridades parciais dos atributos que os descrevem.
Do ponto de vista do processo de descoberta dos cogrupos, as fatora¸c˜oes propostas seguem a mesma ideia das fatora¸c˜oes na literatura, qual seja, considerar a informa¸c˜ao de similaridade de dados e de atributos simultaneamente para resolver o problema de minimiza¸c˜ao do erro de quantiza¸c˜ao da matriz original, e consequentemente apresentar prot´otipos que expliquem os cogrupos. Por´em, as fatora¸c˜oes propostas liberam os algoritmos de minimiza¸c˜ao da necessidade de considerar todos os grupos de linhas na otimiza¸c˜ao dos grupos de colunas. Desta forma, implementa-se um processo no qual n˜ao existe mais a interdependˆencia entre grupos de linhas. Esse fato ´e que, na realidade, possibilita aproximar a quantidade de cogrupos utilizada para explicar os dados daquela que ´e a desejada, ainda que a sobreposi¸c˜ao de colunas ocorra nos dados.
Em termos de complexidade de tempo, assim como esperado, os algoritmos para solu¸c˜ao das fatora¸c˜oes propostas tem maior complexidade que os algoritmos da literatura. No entanto, o grau polinomial com maior diferen¸ca ´e em k, o que torna os algoritmos poss´ıveis de serem utilizados em um problema real, j´a que normalmente utiliza-se valores de k de forma que k ≪ n.
Essas considera¸c˜oes, assim como aquelas delineadas no cap´ıtulo3, s˜ao ilustradas no pr´oximo cap´ıtulo, no qual resultados experimentais s˜ao apresentados.
5 Experimentos e Resultados
Para fins de valida¸c˜ao dos algoritmos propostos foram realizados experimentos utilizando bases de dados sint´eticas e bases de dados textuais reais, sendo que sobre as bases de dados reais, foram criadas vers˜oes simplificadas para permitir an´alises mais detalhadas.
Esses experimentos foram projetados e executados com o fim de ilustrar as capaci- dades e limita¸c˜oes dos algoritmos de coagrupamento baseados em fatora¸c˜ao de matrizes presentes na literatura e dos algoritmos propostos neste trabalho, todos j´a apresentados nos cap´ıtulos 3 e4, respectivamente. Tais capacidades e limita¸c˜oes s˜ao discutidas neste cap´ıtulo em termos de resultados obtidos sobre ambientes controlados (bases de dados sint´eticas), ambientes semi-controlados (bases de dados textuais simplificadas) e ambientes aqui denominados n˜ao controlados (bases de dados textuais originais). O intuito com a experimenta¸c˜ao desses algoritmos em bases de dados textuais ´e ilustrar seu desempenho como um m´etodo de resolu¸c˜ao da tarefa de agrupamento de textos, da ´area de minera¸c˜ao de texto. Tamb´em, como os algoritmos cl´assicos de agrupamento, k-means e fuzzy k-means, s˜ao equivalentes `a fatora¸c˜ao de matrizes (como foi mostrado no cap´ıtulo2), estes foram apli- cados sobre as mesmas bases de dados, para servir como base de compara¸c˜ao dos algoritmos ONMTF (algoritmo 5de Yoo e Choi (2010)), FNMTF, OvNMTF e BinOvNMTF.
Para proporcionar uma vis˜ao organizada das capacidades e limita¸c˜oes dos algoritmos, primeiramente s˜ao apresentados os experimentos e os resultados obtidos com as bases de dados sint´eticas. Tais resultados s˜ao apresentados em termos de qualidade de reconstru¸c˜ao, a qual ´e analisada com apoio de visualizac˜ao gr´afica, e de capacidade de quantiza¸c˜ao, a qual ´e avaliada em termos do erro de quantiza¸c˜ao dos algoritmos. Ent˜ao, a capacidade de agrupamento ´e validada nos resultados obtidos com as bases de dados textuais reais originais e simplificadas, fazendo uso de medidas de qualidade de agrupamento. Para essas ´
ultimas, uma an´alise qualitativa ´e delineada de forma a ilustrar o valor agregado que a flexibilidade de modelos de coagrupamento pode trazer ao contexto de minera¸c˜ao de texto, mostrando o funcionamento do processo de gera¸c˜ao de cogrupos.