文档碎片取证技术是数字取证领域中当前重要研究热点之一。本文总结了文档碎片取证技术的相关理论、技术以及研究现状,重点研究了文档碎片取证模型以及该模型的关键问题,特别是文档碎片分类和重组算法。主要研究内容如下: 1.文档碎片取证模型。首先分析了现有取证模型存在的问题以及文档碎片的数据特性,并以此为基础,设计了一个文档碎片取证分析模型。其次,同其它的模型相比,该模型包含的取证分析阶段较为全面,并且在模型中引入了取证分析阶段所对应的“信息流”概念。最后,应用该模型进行了具体的案例分析。 2.文档碎片分类。首先确定了文档碎片的不同类型定义及其之间关系,对文档碎片分类问题进行了形式化描述,提出一个三级文档碎片分类模型,并确定了碎片分类模型的关键问题。其次,提出一个基于朴素贝叶斯原理的文件头碎片分类算法,并验证了该算法的可行性;利用支持向量机学习理论,提出一个基于增强k频谱核函数的文件头碎片分类算法,并对这两个算法进行了比较。最后,研究了信息论的熵原理在文档碎片分类中的应用,提出一个基于碎片熵值特征的分类算法,并验证了该算法的有效性。 3.文档碎片重组。首先对文档碎片重组问题进行了形式化描述。其次,提出了一个基于像素相似度的图像碎片重组算法,该算法利用碎片间像素相似性,确定了文档碎片之间的连接关系,从而重组文档碎片的原始内容。最后,提出一个基于区域的文档碎片重组算法,该算法关键是确定存储介质上特定类型的文档碎片所在区域,利用文档碎片熵值特征,移走该区域中噪音碎片,然后根据区域中碎片所在存储介质上的逻辑关系进行重组。 4.模型取证能力评价准则。首先阐述了现有模型和取证工具的不足。其次分析了取证人员当前面临的主要取证挑战。最后,试探性提出一套模型取证能力评价参考准则,并根据该准则,对现有取证模型进行了比较。……
