2. PRESENTATION OF CASE STUDIES AND METHODOLOGICAL APPROACH
2.1 ADROH PEASANTS : NON - CERTIFIED ORGANIC COFFEE PRODUCERS
Se de um lado os benefícios produzidos pelo Big Data são reais, significantes e algumas iniciativas de sucesso já produzem resultados, de outro, ainda restam questões técnicas que precisam ser endereçados. Jagadish et Al (2014) indicam que a criação de valor a partir do Big Data é um processo que contempla vários passos: coleta, extração e limpeza da informação,
integração de dados, modelagem e análise, interpretação e desenvolvimento. Muitas discussões dão foco em apenas dois desses passos, quais sejam a modelagem e a análise, sem considerar os restantes. Nada obstante a importância desses elementos, a análise do Big Data não pode ficar restrita apenas a esses dois fatores, em face de que o seu ciclo de vida se configura como um processo iterativo que envolve distintas fases e se retroalimenta, conforme é possível visualizar na Figura 11.
Figura 11 Ciclo de vida do Big Data
Fonte: Jagadish et al (2014).
Nesse ciclo de vida, ilustrado pelos autores, existem dificuldades e desafios em cada fase:
a) obtenção dos dados: a informação não surge do vácuo, mas do registro de alguma atividade de interesse. Esses dados podem ser filtrados e comprimidos em face de sua magnitude, porém sem comprometer a possibilidade de extrair informações subjacentes. Um dos desafios é definir os filtros de tal modo que informações úteis não sejam descartadas, por conta de os dados brutos serem geralmente tão volumosos que não é viável o armazenamento completo;
b) extração e limpeza: com frequência a informação coletada não está no formato ideal para análise, especialmente aquelas coletadas por sensores como vídeos, imagens, gravações de sons. O desafio é expressar essas informações de forma estruturada e adequada para análise;
c) integração, agregação e representação: dada a heterogeneidade dos dados oriundos do Big Data, não basta apenas registrá-los em bancos de dados. Nesse contexto, a análise de dados é consideravelmente mais desafiadora do que simplesmente localizar, identificar e compreender os dados. Para uma análise eficaz em larga escala, o processo deve ocorrer de forma totalmente automatizada;
d) modelagem e análise: Os métodos de mineração do Big Data são fundamentalmente diferentes de análises estatísticas tradicionais em pequenas amostras. Os dados oriundos do Big Data são geralmente dinâmicos, heterogêneos, inter-relacionados. Apesar dessas características que podem representar dificuldades, ainda assim, esses dados podem ser mais valiosos do que pequenas amostras, por conta de que essas análises usualmente revelam padrões mais confiáveis e conhecimento;
e) interpretação: o responsável pela tomada de decisões, a partir das análises, tem de interpretar os resultados. Usualmente, este processo envolve o exame de premissas e a redefinição de parâmetros aplicados na análise. Além disso, há muitas fontes de erros: os sistemas podem conter bugs, os modelos de análise geralmente possuem hipóteses e os resultados podem ser produzidos com dados errôneos. Por todas essas razões, é necessário entender e verificar os resultados produzidos;
f) heterogeneidade: quando humanos consomem informação, a heterogeneidade, permeada por nuances e riqueza de detalhes, pode prover valor profundo. Entretanto, a análise realizada por máquinas requer dados homogêneos e não traz o valor que é extraído das nuances. Em face disso, os dados devem ser cuidadosamente estruturados como primeiro passo para a análise dos dados. O desafio é gerar automaticamente o metadado correto para descrever o dado registrado;
g) inconsistência e incompletude: o crescimento do Big Data inclui informação de diversas fontes, de confiança variável. Incertezas, erros e valores perdidos são endêmicos e devem ser gerenciados. De outro lado, o volume e a redundância podem geralmente ser explorados para compensar dados perdidos, para checar conflitos, validar relações, identificar grupamentos comuns, descobrir relacionamentos e modelos ocultos;
h) escala: a primeira associação feita ao termo Big Data é tamanho. O gerenciamento de grandes volumes de dados e de forma rápida tem sido um desafio por muitas décadas. No passado, este desafio foi mitigado por processadores cada vez mais rápidos. Entretanto, o volume de dados cresce mais rápido do que a velocidade de processamento dos computadores. Isto requer novos meios para determinar como executar os trabalhos de processamento de dados;
i) oportunidade: assim como os dados crescem em volume, são necessárias técnicas para sumarização em tempo real e filtrar o que será armazenado, por conta de que não é economicamente viável o armazenamento de dados brutos. O desafio é prover respostas interativas e responsivas para consultas complexas em grande escala, pois varrer integralmente a base de dados para encontrar os elementos que se encaixem é impraticável. Como exemplo, considere um sistema de gerenciamento de tráfego com informações de milhares de veículos e pontos em rodovias. Esse sistema precisa predizer pontos potenciais de congestionamento ao longo da rota escolhida pelo usuário e sugerir alternativas;
j) perspectiva humana - visualização e colaboração: para que o Big Data alcance o seu pleno potencial, é necessário considerar escala não somente para o sistema, mas também pela perspectiva humana. Os humanos devem absorver adequadamente os resultados das análises e não se perder no mar de dados. Por exemplo, algoritmos de recomendação e ranqueamento podem ajudar identificar os dados mais interessantes para o usuário, levando em conta as suas preferências. Com alguns cliques o usuário pode detalhar cada pedaço do dado que ele vê e entender a sua procedência. Isso é particularmente importante desde que haja um número crescente de pessoas que possuem dados e desejem analisá-los.
k) privacidade e propriedade dos dados: a privacidade de dados é um ponto de grande interesse e preocupação que cresce em importância no contexto do Big Data, configurando-se como um dos pontos centrais desta dissertação. Para registros
eletrônicos de saúde, há leis governamentais restritivas indicando quais dados podem ser revelados. A possibilidade do uso de dados pessoais de forma inapropriada, particularmente com a vinculação de dados de múltiplas fontes, causa grande preocupação. Gerenciar a privacidade efetivamente é, ao mesmo tempo, um problema técnico e sociológico, que deve ser endereçado junto de ambas perspectivas para concretizar as promessas do Big Data. Por exemplo, no contexto de dados recolhidos de serviços de localização que requerem que o usuário compartilhe a sua localização com o provedor de serviço, há uma preocupação com a privacidade que não está tratada por conta da ocultação da identidade somente sem ocultar a sua localização, pois é possível inferir qual é a identidade de um indivíduo por meio da informação de sua localização. Além disso, há os serviços on-line que requerem o compartilhamento de informações privadas, sem que fique claro o que significa esse compartilhamento, como isto pode ser ligado a outras informações e como seria possível prover aos usuários o controle sobre esse compartilhamento de modo intuitivo e efetivo.