Out-of-sample analysis - Which variables explain and predict capital structure

Diversas abordagens foram propostas na literatura na tentativa de identificar computadores que apresentam conteúdo de interesse para investigações digitais forenses, e com isso, direcionar o foco da análise para estes computadores e, dessa forma, diminuindo o tempo e esforços necessários para alcançar os resultados.

O problema de pesquisa desta tese consiste em, a partir de um conjunto de computadores com seus respectivos dispositivos de armazenamento de dados (DADs), objetos de uma investigação digital forense – IDF, descobrir:

I. Como identificar os DADs que apresentam maiores chances de conter os vestígios de interesse para a investigação apenas com os dados obtidos da varredura durante a duplicação?

II. Como sugerir uma sequência que os DADs devem ser examinados na etapa de análise, baseada em prioridades de palavras-chaves11_{de interesse para a investigação?}

1.3 Objetivo

Uma das tarefas mais comum para um perito judicial que atua na área de Investigação Digital Forense é procurar vestígios de interesse no conteúdo de DADs, esses vestígios na maioria das vezes consistem em palavras-chave - PChs [BEEBE, 2014; YANG, 2008].

Considerando que durante o tempo necessário para a realização da duplicação do DAD os dados contidos no mesmo ficam praticamente inacessíveis para o perito realizar outras ações, ou seja, o perito fica praticamente impossibilitado de interagir com os dados contidos no DAD, decidiu-se verificar a hipótese de que na etapa de coleta, seja possível realizar simultaneamente à duplicação do DAD de origem para o DAD de destino a varredura12_{dos dados para procurar por palavras-}

11_{No contexto deste trabalho o termo “palavras-chave” deve ser entendido como sendo uma estrutura de}

dados composta por uma sequencia de caracteres [CASTRO, 1998]. Na literatura também é utilizado o termo “string”. Vale a pena ressaltar que embora toda palavra-chave seja uma string, nem toda string é uma palava-chave.

A palavra varredura no contexto em que foi mencionada deve ser entendida como sendo uma inspeção automática que realiza uma pré-análise para busca de strings no conteúdo dos dados brutos que estão sendo duplicados de um DAD

chave de interesse do perito, sem com isso impactar significativamente o tempo de duplicação.

Assumindo-se que a hipótese colocada anteriormente seja verdadeira, o principal objetivo desta tese é analisar a possibilidade de realizar simultaneamente à duplicação do DAD de origem para o DAD de destino, a varredura dos dados para procurar por palavras-chave de interesse do perito, sem com isso impactar significativamente o tempo de duplicação. Então, baseando-se na quantidade de ocorrências de palavras-chave encontradas, propor um método para triagem e ranqueamento dos DADs duplicados, de forma a apresentar uma sugestão de sequência, indicando quais desses DADs podem ser prioritariamente examinados na etapa de análise, e assim, responder:

a) A proposta é viável? Caso afirmativo, para quais cenários? b) Quais tipos de dados podem ser reconhecidos?

c) Como definir um ranqueamento baseado nos dados coletados durante a varredura?

d) Quais os indicadores de desempenho que devem ser analisados para avaliar este tipo de varredura?

e) A aplicação do método contribui para a diminuição do esforço humano na etapa de análise?

O intuito do método não é substituir o exame detalhado e minucioso realizado na etapa de análise, e sim auxiliar na identificação dos DADs com maior chance de conter as PChs de interesse para a investigação, indicando uma sequência em que os DADs devem ser prioritariamente examinados na etapa de análise.

Dependendo da investigação, encontrar as PChs de interesse nos primeiros DADs, pode não ser necessário analisar todos os DADs. Não está no escopo desse trabalho a realização dos procedimentos intrínsecos da etapa de análise.

Diversos trabalhos encontrados na literatura utilizam técnicas para procura por palavras-chave, duplicação e triagem, isoladamente.

Esta tese, apresenta uma abordagem que utiliza esses conceitos de maneira combinada, de forma a obter os primeiros resultados para a investigação já ao término da duplicação, visto que realiza automaticamente a procura por palavras-chave simultaneamente à duplicação. Então, utiliza estes resultados para realizar a triagem e ranqueamento dos DADs duplicados, sugerindo uma sequência em que os DADs deverão ser examinados na etapa de análise. Essa abordagem não é observada em outros trabalhos da literatura, caracterizando assim, a originalidade desta tese. Na Seção 1.4, são apresentados maiores detalhes das contribuições deste trabalho.

1.4 Contribuições

A principal contribuição desta tese está no método proposto para duplicação e varredura simultânea, triagem e ranqueamento, que fornece as primeiras informações da quantidade de ocorrências de PChs encontradas no DAD já ao término da duplicação, ainda na etapa de coleta. Para determinadas investigações, a aplicação deste método pode auxiliar para a diminuição do tempo e esforços necessários para realizar a etapa de análise. O intuito é propiciar o direcionamento do foco na etapa de análise para os dispositivos considerados mais relevantes para a investigação, o que em certas circunstâncias implica na diminuição da quantidade de DADs e dados a serem analisados.

Para validação do método foram desenvolvidas e implementadas três ferramentas, cujas funcionalidades estão descritas no Capítulo 4. Os primeiros testes realizados, indicaram resultados positivos para obtenção de ocorrências das PChs procuradas durante a duplicação.

Os resultados provenientes deste trabalho servirão como um recurso para auxiliar peritos judiciais no desempenho das atividades de IDF. Embora o método seja focado no trabalho de peritos judiciais de informática, não é restrito a estes, pois o mesmo também poderá ser

utilizado por peritos criminais e profissionais da área de auditoria e segurança da informação.

1.4.1 Produção Científica

A obtenção dos primeiros resultados deste trabalho, ainda que preliminares, permitiu a publicação do artigo:

BARBOSA, A. N.; OKIDA, C.; RUGGIERO, W. V. Método Para Triagem e Agrupamento de Computadores Baseado em Perfil Computacional Aplicado à Computação Forense. Anais da 9ª Conferencia Ibérica de Sistemas y Tecnologías de Informacion, 2014, Barcelona, España. Actas de 9ª Conferencia Ibérica de Sistemas y Tecnologías de Información. v. II. p. 445-448.

In document Which variables explain and predict capital structure – a LASSO approach (sider 37-42)