Diversos autores definem o termo triagem no contexto da Computação Forense.
Os trabalhos encontrados na literatura propõem soluções por meio da utilização de técnicas de triagem, conforme será visto a seguir. Alguns são baseados em determinar DADs que podem ser excluídos da análise e outros focam na priorização de dados que devem ser coletados. No contexto deste trabalho, o foco está em processos de triagem aplicados na identificação de DADs mais prováveis de conter vestígios de interesse para a IDF por meio de uma busca por palavras- chave em dados não estruturados por um sistema de arquivos.
ROGERS et al. (2006), apresentam um dos trabalhos precursores que trata da técnica de triagem aplicada a investigação digital forense. Os autores salientam que em determinadas circunstâncias não é mais apropriada a apreensão do equipamento, transportá-lo para um laboratório, para então iniciar a procura por informações de interesse, vasculhando profundamente em todo o sistema, para talvez encontrar algum vestígio que possa ser útil para a investigação. Em determinadas investigações as respostas devem ser obtidas o mais rápido possível, em questão de horas, em oposição a dias. Por exemplo, em investigações que envolvem sequestro e pedofilia, nos quais a preservação da vida pode estar em risco, obter respostas em um curto intervalo de tempo, nas primeiras horas da investigação é essencial. As informações obtidas podem ser confrontadas durante o depoimento do suspeito.
O objetivo do trabalho é realizar rapidamente a identificação dos DADs com maior potencial de conter vestígios de interesse para a investigação, dentro de um curto intervalo de tempo, no local onde a diligência de investigação é realizada. Os autores propõe Cyber Forensic
Field Triage Process Model - CFFTPM, visando à obtenção de respostas já
nos momentos iniciais da investigação, no decorrer das etapas de preparação, preservação e coleta. Na abordagem adotada, é realizada a coleta parcial de dados contidos no perfil do usuário (diretório Home,
propriedades dos arquivos e no Registry), nas atividades da Internet (histórico do navegador, emails e ferramentas de comunicação instantânea), nos softwares aplicativos instalados e arquivos acessados. Esses dados são analisados e os DADs são ranqueados em termos de importância ou prioridade, conforme a quantidade de informações relevantes encontradas.
Embora o propósito do modelo seja fornecer a identificação, análise e interpretação dos vestígios encontrados no local da investigação sem a necessidade de levar o equipamento ou o DAD diretamente para o laboratório, os autores não descartam a necessidade de que após a triagem inicial em campo seja concluída, o DAD seja levado para um laboratório e submetido à análise mais aprofundada.
O CFFTPM tem sido utilizado com sucesso em casos reais. Além disso, os vestígios e resultados obtidos nesses casos não foram contestados judicialmente.
No trabalho, embora utilizem a técnica de triagem, não é informada de que maneira as informações são procuradas, se ocorre a duplicação do DAD antes da análise e nem são apresentados os resultados dos experimentos realizados.
ROUSSEV e QUATES (2012) propõem um processo de triagem de conteúdo que é realizado subsequente ao processo de aquisição de imagens da mídia denominado de Imagem Forense, usando o resumo de similaridade e metodologias de correlação de hash. Eles aplicam o processo no estudo do caso M57 para demonstrar a aplicação do método proposto em um conjunto de DADs.
Os autores afirmam que a geração atual de ambientes forenses integrados como EnCase e FTK são fundamentalmente inadequados para o trabalho de triagem, pois a abordagem empregada nas ferramentas de “examinação forense” profunda possui baixo desempenho. A melhor escolha seria focar sobre o uso de resumo de similaridade para identificar as correlações entre diversas fontes e
estabelecer um quadro inicial de entendimento para os casos estudados.
Os autores identificam priorização baseados em metadados como uma opção para melhorar o desempenho ao invés de obter vantagem de desempenho por meio do acesso sequencial para o dispositivo de armazenamento físico. A técnica empregada utiliza filtros de Bloom para obter a similaridade baseada no conteúdo do arquivo.
Porém esta abordagem mostra-se eficiente quando o objeto de busca é conhecido, pois não há como obter o resumo da similaridade de um vestígio desconhecido, que pode resultar na grande quantidade de falsos positivos.
BERTÈ et al. (2012) chamam a atenção para o aumento do número de crimes praticados envolvendo o uso de computadores. Posteriormente salientam da crescente dificuldade de analisar a quantidade de DADs apreendidos pela polícia italiana. Então propõe uma nova abordagem para perícia computacional baseada na mineração de dados e teoria da gestão do conhecimento para realizar triagem dos dados coletados. O método baseia-se, primeiramente em espelhar o disco e depois em agrupar determinados tipos de arquivos de interesse que dependem do objetivo da investigação, logs (registros) de acessos encontrados, logs de eventos do sistema, histórico de navegadores para encontrar sites mais visitados, então sumarizam tudo em uma matriz, denominada de matriz completa e finalmente analisam os hábitos do usuário e a probabilidade de um computador ter sido utilizado para cometer o crime investigado.
MARTURANA et al. (2012) ratificam a necessidade de desenvolvimento de novas ideias e métodos para tratar a difícil tarefa de analisar grandes volumes de massas de dados. Destacam que o problema também é enfrentado pela polícia italiana em diversos casos. Então propõem um modelo para ser aplicado em investigações de crimes de violação de direitos autorais. No modelo apresentam uma forma de automatizar a análise de provas para ser aplicado na triagem de vestígios “post-mortem”. Para isso, utiliza-se de técnicas baseadas em
aprendizagem de máquina (Machine Learning) e mineração de dados (Data Mining) para classificar os DADs apreendidos baseado no conteúdo, isto é, nos tipos de arquivos encontrados e histórico de navegador e gera uma estatística desse conteúdo, antes de serem analisados em detalhe. O modelo utiliza o conceito de classe para associar os tipos de arquivos à variáveis.
Dependendo do enfoque do crime de violação de direitos autorais investigado é realizada uma associação com determinados tipos de arquivos. Dessa forma, o foco é direcionado para as unidades de armazenamento que apresentaram maior incidência dos tipos de arquivos que podem ter maior relação com a investigação.
BEEBE e LISHU (2014) apresentam um método de classificação para fazer busca textual para investigação digital forense baseado na técnica de máquina de vetores de suporte (support vector machine - SVM) que consiste em um modelo de aprendizado supervisionado que analisa os dados e reconhece padrões, usado para classificação e análise de regressão.
A ferramenta Encase foi utilizada para extração de características para buscar palavras-chave (PChs). O SleuthKit foi binarizado para extrair características adicionais dos arquivos alocados e clusters desalocados, e a ferramenta Sceadan foi utilizada para classificar tais
clusters. A autora propôs dezoito características como indicadores
quantitativos para medir a relevância das ocorrências.
Os autores propuseram a pesquisa baseada no comprimento da PCh buscada como uma métrica muito útil em algoritmos de classificação de ocorrências. O novo algoritmo de classificação foi chamado de algoritmo de classificação por relevância (Relevancy
Ranking Algorithm). O conjunto de dados M57 foram utilizados como
conjunto teste.
Porém, apenas três das dezoito características (número de ocorrências da PCh por dispositivo, o tamanho e a prioridade da PCh buscada) podem ser utilizados como métrica para dados brutos, sem necessariamente interpretar os arquivos com ajuda do sistema de
arquivos. As métricas apresentadas no resultado são estatísticas particulares do método SVM binário, caso houvesse a apresentação de estatísticas como distribuição, média, desvio padrão e resultados intermediários como resultados dos treinamentos da SVM, possibilitaria uma comparação justa com outros modelos que não seguem o método SVM.
Contudo, este trabalho apresenta informações importantes sobre o conjunto de dados M57, tais como a lista de PChs a ser pesquisada e as funções que os usuários do cenário desempenhavam, e uma sugestão de prioridade por tipos de arquivos.
BAGGILI et al. (2014) apresentam uma abordagem voltada para respostas a incidentes. A ferramenta foi desenvolvida para triagem de dados em investigação digital forense, baseada em uma plataforma inicializável, denominada Forensics2020. A plataforma possui cinco fases: a primeira fase coleta metadados de todos os arquivos lógicos encontrados no disco rígido de um computador. A segunda fase coleta dados de arquivos de imagens. A terceira fase analisa e categoriza cada arquivo baseado no cabeçalho do mesmo. A quarta fase analisa cada arquivo executável para prover uma auditoria completa de softwares aplicativos no sistema investigado. Uma assinatura é gerada para cada arquivo executável, que posteriormente é verificada em uma base de dados de detecção de ameaças. A quinta fase gera o resumo (hash) de cada arquivo e grava em um dispositivo. Todas as cinco fases são realizadas em segundo plano, enquanto a equipe de segurança corporativa interage com o sistema sob suspeita de invasão.
A ferramenta realiza alterações no disco do sistema sob investigação, similarmente a outras ferramentas vendidas comercialmente. Não executa buscas por palavras-chave. Principalmente por estas duas características, não pode ser utilizada com finalidades de investigações de caráter judicial.