摘要

碎纸自动拼接技术作为信息还原的重要技术,可应用于碎纸重建拼接工作。通过图像提取技术获取碎纸片的形状、颜色等信息,利用这些特征对碎纸进行自动或半自动拼接恢复。碎纸自动拼接在司法技术鉴定、历史文献修复以及军事情报获取等领域都有着重要应用。国际上有着许多关于碎纸恢复还原的重要案例。

国际上碎纸恢复还原相关案例

案例1:德国情报机构“斯塔西”文件恢复工程,试图寻找一种非人工干预的新技术,可以在5年内,将那些在德国统一前夕被前东德情报机构撕成6亿多块碎纸片的绝密文件(手工恢复要400年)进行还原。[1]其中应标的德国弗劳恩霍得研究院设计科技公司(Fraunhofer Institute for Design Technology)宣布,已经开发出一种名为“E-Puzzler”的先进仪器,专门用于完成还原工作。该仪器能够精确识别纸质碎片的特征并将它们重组,还原文件的内容高达70%。弗劳恩霍得研究院称,如果德国政府批准“E-Puzzler”正式投入使用,那么完成全部工作的时间将缩短至5年,平均每年耗资700万英镑。

案例2:美国国防部高级研究计划局(DARPA)曾表示,军方常在战场上收集到撕碎的文件残片,但恢复文件原样却是一件望而生畏的艰巨任务,需要大量人工干预,效率极低,而有价值重要情报通常都是有时限的。2011年10月29日,DARPA组织了一场碎纸复原挑战赛,旨在寻找到高效的算法,对碎纸机处理后的碎纸屑进行复原。全美9000支队伍参与角逐,最终由来自旧金山的三名程序员组成的名为“All Your Shreds Are Belong To U.S.”参赛队伍获胜。其解决方案是:基于计算机视觉、图形学、纸张碎片的边缘性状等特征,设计出自动搜寻到最可能匹配的纸张碎片的仿真算法,同时对可能的碎片对进行人工筛选。然而考虑到实际问题的复杂性以及安全保密管理要求的规范性,此种方案并未能够真正投入军方使用。

图1 DARPA碎纸复原挑战赛竞赛题和复原图

碎纸恢复还原研究现状及研究进展

传统上,恢复还原工作大部分都是由人工半自动方式完成,准确率较高,但效率很低。随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高恢复还原效率。虽然国内外对这项工作进行了一些研究,但由于碎纸自动修复技术应用背景的特殊性,目前公开的可以参考研究资料并不多,提出的解决方法主要有两种:一是基于轮廓的拼接[2,3];二是基于内容的拼接[4,5]。其中,前者的研究较多一些。基于轮廓的碎片自动拼接方法,可分为两个步骤:局部形状匹配分析和全局恢复重建(目前大部分研究都是以第一步为主)。

针对局部形状分析研究,碎片通常被表示为其轮廓曲线的形式,以轮廓曲线的方法进行局部形状匹配分析。Wolfson H[6]提出了一种基于弧长-累积转角图分析(Arclength Versus Total Turning Angle Graph)的形状匹配方法来解决工业中工件自动装配和识别的问题,这是一种通过串匹配的方式来寻找最大公共子段的方法。为了解决大规模文物碎片的修复问题,Leitão H C等人[7]给出了一种基于多尺度的二维碎片拼接方法,该方法通过对轮廓采样点的曲率串进行多尺度分析,利用动态规划技术对匹配对进行精化处理。布朗大学的Kimia B等学者[8]提出了一种基于弹性匹配的碎片自动拼接算法,该方法可以提高匹配的效率,但对双对应曲线的采样分布有较强的依赖性。

对于全局恢复重建方法,朱良家、周宗潭和胡德文[9]提出了一种实现全局一致性最大的松弛法全局匹配方法。松弛法通过局部轮廓匹配产生的候选匹配,对不同碎片之间在空间上的约束关系来剔除部分不合理匹配,保留在全局意义下更优的匹配,并取得了很好的效果。何鹏飞,周宗潭,胡德文[10]提出基于蚁群优化(ACO)的全局匹配算法,其采用基于ψ-s分析的局部轮廓匹配方法,利用多Agent间接通信和直接利用变化媒介质,在ACO算法的框架下将碎片全局匹配问题看作是一个求解整体且没有矛盾的最小拼接代价的优化问题。

碎纸恢复还原基本原理

通常来说,碎片恢复还原工作主要分为以下三个步骤:

1.对纸质碎片进行预处理,即通过特征检测提取等一系列图像预处理过程,将纸质碎片数字化。

2.图像碎片匹配,即通过各种匹配算法模型找出相互匹配的图像碎片。

3.图像碎片的拼合,将步骤2中找到的相互匹配的图像碎片拼合在一起得到最终的正确结果。

文献10主要是对条状及粒状碎纸机碎纸的拼接复原问题进行分析、建模,并讨论单面及双面碎纸片复原的问题。本文结合文献10的建模方法对上述三个步骤进行简要概述。

预处理包括特征提取、图像扫描、图像分割等技术手段。特征提取的关键技术是纸轮廓提取,其直接影响着碎纸拼接结果的精度和效率。利用碎纸轮廓的形状特征,通过轮廓信息寻找轮廓形状的相似性进行局部形状匹配,再逐步完成全局的恢复重建。针对图像扫描技术的应用,文献10利用matlab软件对碎纸片进行了双面扫描,根据像素值提取0-1矩阵(0代表有字部分,1代表空白部分)。通过纸张像素分析,将至少有一面全为非0的纸张挑选出来,放入单面打印纸张;其余的纸片为双面打印。此外,对于图像分割的预处理技术,文献2提出了一种基于Level Set方法的图像分割算法,之后再对提取出的轮廓进行链码提取操作,根据纸片的大小,设定阈值,过滤掉链码面积。小于阈值的区域,即所得到的链码就是我们要提取的轮廓信息部分。(水平集方法是一种描述曲线以曲率相关的速度演化的有效方法,在医学图像处理、自然现象的模拟以及计算机视觉等领域得到了广泛的应用。)

国内外研究者对于图像碎片复原方法的研究主要集中在步骤2——图像碎片匹配算法模型的研究上。文献10在完成数据0-1矩阵提取的前提下,分别建立了三种模型以适应不同类型的纸质碎片拼接,包括条状单面打印碎纸片的拼接模型、条状双面打印碎纸片的拼接模型及针对粒装正反面打印碎纸片的拼接模型(聚类模型)。其中前两种类型的图像碎片匹配模型流程图分别如图2、图3所示。第三种模型则是基于粒装双面拼接技术,其应用了聚类模型来衡量矩阵相关性,将强相关矩阵对应的图像碎片划分成一类,之后再利用模型二进一步实现拼接。

对于双面碎纸的情况,文献10定义了能够拼接在一起的条件,条件1、2满足其一,即可拼接成功:

条件1:第i张碎纸片a面的右边界与第j张碎纸片a面的左边界拼接成功,且第i张碎纸片b面的左边界与第j张碎纸片b面的右边界拼接成功;

条件2:第i张碎纸片a面的右边界与第j张碎纸片b面的左边界拼接成功,且第i张碎纸片b面的右边界与第j张碎纸片a面的左边界拼接成功。

图2条状单面打印碎纸片的拼接模型,其算法核心步骤为Step3,计算左右边界欧式距离为公式(1);Ai代表第i张碎纸片的左边界像素矩阵,Bj代表第j张碎纸片的右边界像素矩阵。图3条状双面打印碎纸片的拼接模型定义了碎纸片的a、b双面,其中Ari代表第i张碎纸片a面右边界对应的0-1矩阵;Ali代表第i张碎纸片a面左边界对应的0-1矩阵;Bri代表第i张碎纸片b面右边界对应的0-1矩阵;Bli代表第i张碎纸片b面左边界对应的0-1矩阵;Jij,Lij,Mij,Nij为两张碎纸片相应边界的差值矩阵;pij,qij分别代表a~a面拼接的匹配度和b~b面拼接的匹配度;表示A的2-范数。

欧式距离计算公式:

纸张碎片相应边界的差值矩阵公式:

两两碎纸片的匹配度计算公式:

图2 条状单面打印碎纸片的拼接模

图3条状双面打印碎纸片的拼接模型

在匹配算法模型中,较为创新的一种策略是基于群智能优化的全局匹配算法来实现图像匹配[11,12]。群智能优化算法是一种离散优化问题的元启发式算法,其利用生物种群行为优化机制来完成对问题的求解。通过优化的搜索学习策略将碎纸拼接匹配问题转换成优化问题,模拟种群生物的进化机制来不断迭代,最终寻找到碎纸对匹配的最优解。

在碎片还原恢复的最后阶段,是将相互匹配的图像拼接起来,恢复图像原貌。在此阶段,有几点值得注意的是,考虑到会存在遗失碎片的可能以及相应的虚拟重建等问题,图像碎片的拼合还需确保两两匹配碎片间匹配边界拼合的严密性。[13]同时,由于碎片在数字化过程中的不同位置,导致了各个碎片与自身原始位置产生了角度变化,即部分碎片的局部坐标系也产生了不同,对于在拼合前的相互匹配的两两碎片,就需要根据共有的曲线或直线段的不同角度,将它们转化到同一个坐标系中。

思考与建议

纵观目前国内外碎纸标准规范情况,美国在碎纸方面的标准有《NSA/CSS Specification 02-01,High Security Paper Shredder》,其要求碎纸颗粒宽度不大于5mm,碎纸颗粒的面积不大于5mm2;德国标准《DIN 63399》代替了原来的《DIN 32757》标准,新的标准定义了七种安全等级,其中最高等级P-7对应的建议如:考虑采用最高安全预防措施的情况的带有非常机密数据的数据载体,材料颗粒表面5mm2,对于整齐颗粒条宽1mm;国内碎纸一级标准应满足碎纸颗粒达到2mm*1mm的纸质载体销毁要求,以确保纸质及其同行载体销毁的安全性。此外,对于一般办公室使用的碎纸机碎纸后的颗粒尺寸也能达到2mm*0.8mm,碎纸机桶一般能盛放粉碎后的A4纸1000张,一张A4纸张按2mm*1mm标准粉碎后产生碎纸颗粒31185个。

因此,无论是从粉碎颗粒的规格大小还是颗粒粉碎数量来看,对于有相似性候选颗粒进行计算机碎纸恢复模型分析的复杂度是呈指数级增长的。综上所述,从目前碎纸拼接恢复还原技术的研究趋势分析,结合国家秘密载体销毁安全保密要求,针对涉密纸张粉碎销毁提出以下几点安全性相关建议:

1、纸张安全销毁设备的研制亟需满足自主可控的信息化建设要求。以国产化软硬件等安全可靠的支撑环境为依托,研制符合系统建设以及分级保护要求的纸张安全销毁设备,确保设备全生命周期中具备有效可控的安全防护措施以及运维管理措施。

2、明确载体销毁分级标准规范要求,确保涉密载体销毁过程安全可控,安全评估载体销毁中存在的失泄密风险。建议参照国外碎纸标准,对不同密级涉密载体以及定密等中间过程产生的涉密载体按照分级销毁技术要求进行销毁,防止因粉碎不彻底而导致可能通过拼接恢复还原出信息。

3、在粉碎过程中,严格执行安全保密管理措施,流程化人工干预方式以及干预时间点。结合碎纸拼接还原技术,目前仍需依赖人工干预手段进行恢复,那么反观纸质粉碎销毁过程,人工干预问题对安全保密有着重要的影响。

4、从现实情况来看,许多碎纸自动拼接模型的仿真实验数据库和实际情报处理的大规模碎纸数据量相比差距甚远,综合考虑碎纸颗粒被扫描的速度和拼接候选等因素,实际利用碎纸自动拼接还原技术进行大规模碎纸颗粒还原恢复还存在一定难度。

参考文献

[1] 春风, 麦吉尔. 前东德情报机构被撕碎的16000袋绝密文件将修复[J]. 兰台世界月刊, 2009(23):58-59.

[2] 张欣, 卜彦龙, 朱良家,等. 物证复原系统中的碎纸轮廓提取技术研究[J]. 计算机仿真, 2006, 23(11):184-187.

[3] 贾海燕, 朱良家, 周宗潭,等. 一种碎纸自动拼接中的形状匹配方法[J]. 计算机仿真, 2006, 23(11):180-183.

[4] 金明娅, 孙丹蕾, 赵艳,等. 单面英文碎纸片的拼接复原及算法实现[J]. 延安大学学报(自然科学版), 2015, 34(1):14-18.

[5] 陈黎黎, 国红军. 基于文档内容的碎纸拼接技术[J]. 衡水学院学报, 2014(4):34-37.

[6] Wolfson H. On Curve Matching[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1990, 12(5):483-489.

[7] Leitão H C D G, Stolfi J. A Multiscale Method for the Reassembly of Two-Dimensional Fragmented Objects[M]. IEEE Computer Society, 2002.

[8] Mcbride J C, Kimia B. Archaeological Fragment Reconstruction Using Curve-Matching[C]// Computer Vision and Pattern Recognition Workshop, 2003. CVPRW “03. Conference on. IEEE, 2003.

[9] Zhu L, Zhou Z, Hu D. Globally consistent reconstruction of ripped-up documents.[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007, 30(1):1-13.

[10] 王晨, 曾骞. 关于碎纸机中碎纸片拼接复原的研究[J]. 大众科技, 2014(3):15-17.

[11] 何鹏飞, 周宗潭, 胡德文. 基于蚁群优化算法的碎纸拼接[J]. 计算机工程与科学, 2011, 33(7):67-73.

[12] 张亮, ZhangLiang. 基于聚类优化模型的碎纸自动拼接方法研究[J]. 计算机应用与软件, 2015, 32(12):218-221.

[13] 廖敏瑜, 谢睿诚, 余声宇. 碎纸片自动拼接复原[J]. 汕头大学学报(自然科学版), 2018(1).

作者:郝璐萌

责编:何洁

声明:本文来自中国保密协会科学技术分会,版权归作者所有。文章内容仅代表作者独立观点,不代表士冗科技立场,转载目的在于传递更多信息。如有侵权,请联系 service@expshell.com。