2. PRESENTATION OF CASE STUDIES AND METHODOLOGICAL APPROACH
2.3 M ETHODOLOGY
Heterogeneidade, escala, oportunidade, complexidade e privacidade são desafios do Big Data que podem dificultar o progresso em todas as fases do ciclo de vida. O problema começa durante a coleta de dados, quando a avalanche de dados requer que sejam tomadas decisões sobre o que manter e o que descartar, como armazenar. Atualmente, muitos dados não são nativamente gerados em formatos estruturados como, por exemplo, postagens em tweets e blogs, são mal estruturados pedaços de textos, enquanto imagens e vídeos são estruturados para armazenamento e visualização, mas não para conteúdo semântico e pesquisa: a transformação desse conteúdo em formato estruturado para análises posteriores é o maior desafio. O valor dos dados emerge quando eles podem ser vinculados a outros dados, então a integração é o maior fator de criação de valor. A análise de dados, organização, modelagem são outros desafios. A análise de dados é claramente o gargalo em muitas aplicações, em face da falta de escalabilidade dos algoritmos e devido à complexidade dos dados que precisam de ser analisados. Finalmente, a apresentação dos resultados e a sua interpretação é crucial para a extração do conhecimento (AGRAWAL et al, 2012).
Buhl et al (2013) explicam que o volume, a variedade e a velocidade, assim como, questões voltadas à privacidade podem aparentar ser dificultadores na implementação plena de
iniciativas de Big Data. No entanto, tendo em consideração os seguintes desenvolvimentos tecnológicos, as empresas podem ser capazes de abrir o caminho para o sucesso do Big Data:
a) novas tecnologias permitem a manipulação de grandes quantidades de dados rapidamente e de modo econômico e eficiente. Entretanto, é crítico o alinhamento das oportunidades de infraestruturas de TI com as já existentes, dos novos processos de negócios e das aplicações para permitir a exploração dos avanços da infraestrutura tecnológica;
b) a exitosa abordagem do Big Data requer novas ferramentas que permitem analisar uma grande gama de diferentes fontes de dados de, por exemplo, redes sociais, mecanismos de buscas, transações de pagamento e toda sorte de dados provenientes do comércio eletrônico. Entretanto, a aplicação de ferramentas analíticas primeiramente requer a possibilidade de acesso a esses novos dados, assim como novas fontes de dados em relação às existentes nos data warehouses;
c) o sucesso do Big Data está inevitavelmente ligado ao gerenciamento da inteligência no uso e seleção de dados. Apesar de as novas tecnologias permitirem a coleta de mais e mais dados, o consumidor do futuro não está disposto a impostar vários tipos de dados quando, por exemplo, estiver utilizando o telefone para realizar as compras. Isso requer que as companhias detenham dados de alta qualidade para garantir significante uso dos novos dados inseridos pelo consumidor. A alta qualidade requer que os dados sejam consistentes e levem em conta o tempo dispendido na transação, conteúdo, significado e que os dados permitam identificação única, assim como serem completos, compreensíveis e confiáveis;
d) o Big Data requer abordagens inovadoras com visão das preocupações em privacidade e com as diferentes normas internacionais sobre privacidade não como restrições, mas como a chance de desenvolvimento de vantagem competitiva. Na era do Big Data com muitas e diferentes fontes de dados, a privacidade e o anonimato significam mais do que desvincular o sobrenome, primeiro nome, idade e endereço na base de dados. Os dados gerados por serviços e aplicativos com base em localização, conforme ilustra a Figura 12, e outras fontes ainda podem permitir a fácil e clara identificação e rastreamento.
Figura 12 - Serviços e aplicações móveis com base em localização
Fonte: Manyika et al (2011)
Chen, Mao e Liu (2014) listam uma série de obstáculos no desenvolvimento de aplicações de Big Data:
a) representação de dados: muitos bancos de dados têm certos níveis de heterogeneidade em tipo, estrutura, semântica, organização, granularidade e acessibilidade. O objetivo da representação de dados é fazer com que os dados tenham sentido para a análise e interpretação do usuário. Apesar disso, uma representação de dados inadequada reduzirá o valor do dado original e pode obstruir a efetiva análise dos dados. A representação eficiente refletirá a estrutura de dados, classe e tipo, assim como tecnologias integradas, então para habilitar operações eficientes em diferentes bancos de dados;
b) redução de redundância e compressão de dados: geralmente, há um alto nível de redundância nos bancos de dados. A redução da redundância e compressão dos dados é efetiva para a redução de custos indiretos de todo o sistema na premissa que o valor potencial dos dados não é afetado. Por exemplo, a maioria dos dados gerados por sensores de redes é altamente redundante e esses dados podem ser filtrados e comprimidos;
c) gerenciamento do ciclo de vida dos dados: o corrente sistema de armazenamento não pode suportar o volume massivo de dados e a exploração de valores ocultos no Big Data depende do frescor dos dados. Assim, é necessário decidir quais dados serão armazenados e quais dados descartados;
d) mecanismos analíticos: o sistema analítico do Big Data deve processar massas de dados heterogêneas com tempo limitado. Os sistemas tradicionais de gerenciamento e análise de dados tem base em sistemas de gerenciamento relacional de bancos de dados ou Relational Database Management System (RDBMS). Aparentemente o tradicional RDBMS poderia não suportar o grande volume e heterogeneidade do Big Data, além de ser estritamente desenhado para a falta de escalabilidade e expansibilidade, que poderia não encontrar requisitos de performance. Ainda assim, há ainda alguns problemas nos bancos de dados não relacionais em sua performance e aplicações particulares. Empresas, como Facebook, tem utilizado um mix de arquitetura de que integra as vantagens dos bancos de dados relacionais e não relacionais;
e) confidencialidade dos dados: a manutenção e análise dos bancos de dados podem ser confiadas a terceiros, fato que incrementa o risco potencial de segurança. Por exemplo, um banco de dados transacional geralmente inclui definições completas referentes a processos de negócios e podem conter detalhes em baixa granularidade e algumas informações sensíveis como, por exemplo, números de cartões de crédito. Portanto, a análise do Big Data deve ser entregue a terceiros para processamento apenas quando medidas apropriadas e preventivas forem tomadas para proteção de dados sensíveis, a fim de garantir a sua segurança;
f) gerenciamento de energia: o consumo de energia do mainframe tem atraído muita atenção a partir de perspectivas de economia e ambiente. Com o crescente volume de dados e a demanda analítica, o processamento, armazenamento e transmissão do Big Data inevitavelmente consumirá mais energia elétrica. Portanto, o controle do nível de consumo do sistema e mecanismos de gestão devem ser estabelecidos para o Big Data enquanto a expansibilidade e acessibilidade estão asseguradas;
g) expansibilidade e escalabilidade: os sistemas analíticos do Big Data devem suportar bancos de dados no presente e futuro. O algoritmo deve ser capaz de processar bancos de dados em expansão e mais complexos;
h) cooperação: a análise do Big Data que requer especialistas em diferentes campos cooperando com a exploração do seu potencial. Uma arquitetura de rede compreensiva do Big Data deve ser estabelecida para ajudar cientistas e engenheiros em vários campos com acesso a diferentes tipos de dados e utilização plena de suas expertises, para a cooperação de modo a completar os objetivos analíticos;
i) privacidade: a privacidade no Big Data inclui dois aspectos: i) preservação da privacidade pessoal durante a coleta de dados: interesses pessoais, hábitos, dos usuários podem ser mais facilmente obtidos e os usuários não ficariam conscientes disso; ii) dados pessoais privados podem vazar durante o armazenamento, transmissão e uso, mesmo se obtidos com a permissão dos usuários. Por exemplo, o Facebook é considerado como uma companhia Big Data com mais dados relacionados ao serviço de rede social ou social networking services (SNS) atualmente. Dados podem ser obtidos em páginas públicas de usuários do Facebook que falharam em ou não sabem modificar as suas definições de privacidade. Portanto, a preservação da privacidade tornar-se-á um novo e desafiador problema.
O Big Data também representa grandes desafios para o governo e cidadãos precisamente por conta de que as tecnologias estão se tornando intrusivas e de difícil entendimento. Por isso, a sociedade deve se proteger daqueles que fazem uso impróprio desses dados, lançando mão de novos sistemas regulatórios, práticas sociais capazes de controlar comportamentos antissociais, definindo o que é socialmente e legalmente aceitável em face das novas e geralmente misteriosas práticas habilitadas pelo Big Data (BOLLIER, 2010).
Desse modo, a ISACA (2013b) indica que as políticas empresariais devem assegurar que seja mantida a confidencialidade das informações da parte interessada durante e depois de seu emprego, principalmente porque a informação se tornou a moeda do século XXI e os agentes de dados estão lucrando com a venda de informações. Com isso, o desafio relativo ao risco envolvendo o Big Data pode ser categorizado como operacional ou fundado na tecnologia da informação. O risco operacional abrange os fatores internos e externos, que incluem risco geopolítico e a corrida para satisfazer os dirigentes das empresas, que querem sair na frente da concorrência. O risco geopolítico, que é criado pelas políticas do país, inclui as leis que restringem o processamento e compartilhamento transfronteiras, as leis de privacidade, que evitam a rotulação e compartilhamento de informações pessoais, privadas e financeiras, que podem levar a identificar roubos e transações não autorizadas.
Quanto ao risco de TI, é também dos negócios, associado ao uso, titularidade, operação, envolvimento, influência e adoção de TI em uma empresa. O risco de TI ocorre quando as garantias de segurança são superadas. Por exemplo, uma empresa pode adquirir soluções de software, pois os tecnólogos as consideram escalonáveis, mas não necessariamente, pois as ferramentas atendem às necessidades daqueles que planejam seu uso para análise comercial. As operações de TI podem ser tão focadas no desenvolvimento e entrega, que garantias de segurança simples para o planejamento da capacidade são ignoradas e os dados não são monitorados corretamente (INFORMATION SYSTEMS AUDIT AND CONTROL ASSOCIATION, 2013b).
2.2 PRIVACIDADE