第六次全国人口普查数据报送与存储备份项目
来源:    发布时间: 2013-12-09 17:45   3200 次浏览   大小:  16px  14px  12px
基于磁带介质的数据上报与接收 多级存储架构下的数据库数据与图像文件的一致性保证 全国范围内差异存储环境下的快速实施
 项目简介
2011 年 11 月 1 日开展的第六次全国人口普查, 其数据处理工作进一步充分地利用了统计信息工程建设成果, 数据采集主要采用光电录入方式, 并按照“光电录入、图像存储、三级处理、逐采用光电录入方式, 并按照“光电录入、图像存储、三级处理、逐级上报”的现代信息技术模式, 采用“统一由各地的人普办数据处理组传递上报普查数据”的工作方式。 本次人口普查规模巨大, 全国约有 4 亿住户, 有 25% 人户分离的人口需在现住地和户口登记地各填报1 次, 15% 的住户人数超过 5 人需要填写第 2 张普查表, 按此计算, 普查需要录入的 A4 幅面 (短表、死亡表)、A3 幅面 (长表) 双面印刷的普查表约 5.5 亿张, 存储的普查表原始图像文件 11 亿个, 数据量约 60TB。 同时, 火星系列存储软件还成功应用于 2007 年进行的第二次全国农业普查中, 并实现海量数据的存储管理 (近 5 亿张表、约 50TB 数据量) 。
  案例详情

系统整体架构

本次人口普查过程中, 国家统计局根据实际业务需求统一制发数据报送与数据存储管理软件, 并在国家、省、地市、县等各级统计局部署实施。在数据采集过程中, 首先由地市级统计局完成人普普查表进行光电录入处理, 最终形成其相关的数据文件 (以数据库形式存储) 和图像文件 (以文件形式存储), 然后利用磁带存储离线传输, 逐级上报人普普查表的图像文件, 最终汇总至省级、国家级统计局, 同时各级统计局归档本地数据信息至磁带, 用于永久性保存。如下图所示数据存储管理整体架构: 

数据存储管理软件用户选用国产火星系列存储管理软件: 

Mars Storage Platform 火星海量数据归档存储中间件:结合普查业务需求定制开发, 实现海量人普数据的本地归档和报送管理; 

Mars Backup Advanced 火星企业级跨平台存储备份软件:实现 Oracle 数据库和图像文件的备份。

国产的火星系统软件, 实现了在各级统计局差异硬件环境下的实施部署, 软件不仅满足了各级统计局对电子档案数据的入库、归档要求, 实现了具有开放性要求的数据永久性存储, 而且实现了数据有效、安全的逐级上报, 以及各级统计局间的衔接管理, 使得上报数据磁带能被多套系统有效地读取; 同时, 在不增加磁带存储设备的前提下, 实现了在整个人普数据处理过程中的数据备份与恢复, 该功能完全保证了在某一时刻普查表的数据文件与图像文件的一致性与唯一性, 是真正意义上的数据安全、可靠。

项目优势与应用效果

与其他市场中主流的存储备份软件相比, 在功能实现上更贴近用户需求, 和应用层接合的更为紧密, 主要表现在:  

集海量人普数据 (文件数量约 11 亿个、总数据量近 60TB) 的多级存储检索查询、备份、归档、上报于一体, 并针对各级统计局提供全面、一体化的管理功能; 

软件在差异存储环境下的快速部署, 实现跨地区跨系统读写数据磁带, 使利用离线磁带作为上报、接收数据成为可能; 

根据数据客体特征定义元数据信息, 如地址码、表单类型等, 以实现普查表电子文件存储管理, 而不是简单的采用备份技术; 

实现数据库与图像文件的同时备份与恢复, 在确保数据安全的同时, 保证在某一时间点普查表的数据文件与图像文件唯一性与一致性; 

上级统计局在接收到上报磁带后, 只需读取磁带中索引信息而无需读取整盘磁带即可实现上报数据的快速入库、归档; 

以 Web Service 方式提供丰富的程序接口, 实现与光电录入软件、数据处理软件的无缝集成, 为应用系统提供数据存储服务。