您好, 访客   登录/注册

一种3D拟真书的设计与实现

来源:用户上传      作者:

  摘要:针对目前市场上电子书泛滥,古籍内容枯燥几乎无人阅读的现状,该文提出一种3D拟真书的设计与实现方案。该方案运用相关3D 前沿技术,并以摄像头的动态手势识别以及计算机全息图像的实时生成两项技术作为突破口,将unity作为数据处理中心和中转平台,调用百度、微信等API来更好地实现和完善古籍3D拟真书设计。此设计具有广泛的应用前景且还含有较大的提升空间。
  关键词:全息图像;古籍;文物;手势识别;语音交互 ;翻译
  中图分类号:TP311    文献标识码:A
  文章编号:1009-3044(2019)17-0095-02
  开放科学(资源服务)标识码(OSID):
  在互联网+背景下,许多传统出版单位纷纷进行转型,将大量的实体书转换成电子书,对诸多古籍进行了数字化处理。但对于书籍的处理目前也仅仅只局限于数字化,这种模式的局限随着3D全息、虚拟现实与增强现实等技术的横空出世被进一步放大。用户的视角及其体验感在随着科技的发展被分别逐步地放大与细化,电子书已经满足不了人们对于书籍内容生动化、细致化、动态化的精致需求。因此为了更加贴合大众需求,结合时代与科技特点,设计了3D拟真书。
  1 结构流程图与实现方案综述
  1.1  3D拟真书的结构流程图
  1.2 实现方案综述
  1)我们选用内嵌10个椎形3D全息膜的环形展柜来作为展示的载体,将展柜分成10个部分,每一个部分与中央处理器中的unity project项目连接。每个柜台会配有相应的耳机等接收信息设备,保证不受外界干扰,且能有效进行实时数据传输,从而形成信息的闭合回路。
  2)在unity中新建3D拟真书project,建立3D书籍模型,通过古籍扫描仪获得书籍内容图片并将其作为3D书籍书页贴图。将每张page标明序号,方便进行程序编写。
  3)通过申请微信API,下载SDK文件,提供应用程序编程接口并在相应的文档中写入注册接口与授权接口,使得微信与unity projec能够相互调用。用户通过扫描相应的微信二维码,登录微信程序界面,其中含有书籍选择、翻译界面调用等相应功能。
  4)架设一台普通摄像头,与读取视频软件VFW相连接,将拍摄的RGB图像转换成HSV图像,再经过去噪与HOG特征提取,关键帧提取进行手势匹配,实现动态手势识别。
  5)在unity中,将3D书籍翻页动画切分成四个分屏,设置四个摄像头,精确计算四个坐标,经过全息膜反射,使其在相同屏幕上的同一个位置实现重合
  2 关键技术使用与优化
  2.1 动态手势识别
  手势识别是目前人机交互领域的研究热点之一。[1]由于3D拟真书是投放在复杂环境下进行使用,干扰信息多种多样,因此如何防干扰,優化识别效果是实现动态手势识别的关键所在。
  人体肤色在空间中具有聚类特征,会在颜色空间中形成小的聚簇,与其他物体区别较大,常用来进行手势分割。普通摄像头拍摄的图像是RGB模式的,不利于肤色分割,而在HSV或者HSI空间中,人体肤色特征最明显,因此需要转换到HSI或者HSV模式来进行分割。我们选择与人体感知色彩一致HSV空间模式。
  大家所认同的归一化RGB空间到HSV空间的映射过程如下:
  除了物体所带来的干扰外,在拍摄过程会有一些比较复杂的背景或者电子噪声出现且分布不均匀,导致捕获的图像背景复杂且有很多孔洞,需要进行去噪处理。在这种情况下,可以采用非线性去除噪声的方法—中值滤波。中值滤波技术能够在一定条件下克服线性滤波器等带来的图像细节模糊,而且对滤除脉冲干扰及图像扫描噪声最为有效。除此之外,我们还可以采用形态学以及其他方法去修复小面积的孔洞或减少干扰的出现,进而完善图像。
  我们采用了人为地在用户后面设置了一块弧形的黑色挡板的方法,用于降噪和防止他人手部对手势识别发生干扰,并且划定摄像头识别范围,消除一些不必要的干扰,提升动态手势识别效果。
  2.2 全息图像生成
  全息图像生成分为两个步骤,第一步在计算机内制作3D全息视频源,第二步利用相关设备将图像展示出来。
  在unity 所制作的3D翻页动画中拖入四个摄像机,呈十字状,且相互到目标的距离保持相同,计算好摄像机坐标并分别设置在模型前面、背面、左侧、右侧四个方位。进一步计算四个摄像机的屏幕坐标,确保四个方向的照射画面能正确显示在同一个屏幕上,实现四分屏的效果。为了能够使得四个方位的画面重叠,还需要调整好摄像头的深度。
  进入动画的时间配置选项中,修改时间,点击进入关键帧模式,修改时间轴,将四个关键帧旋转90度。[3]接着将四个摄像头内容批量导出,并进行批处理渲染操作,遵照你想要的效果,添加四个摄像头,调整好路径及名称。最后进行内容合成,形成完整的全息动画。
  目前我们选用的是应用幻影成像原理的投影方法,能够有效节省成本且操作便捷。幻影成像是利用45度光学反射原理实现的悬空幻想效果[4],幻影成像系统同样是基于“实景造型”和“幻影”的光学成像结合,将所拍摄的影像(人、物)投射到布景箱中的主体模型景观中,演示故事的发展过程[5],即将四个摄像机中的画面内容投射到锥形的倒金字塔中,实现画面重叠。
  椎形倒金字塔是将四张大小合适的3D全息膜,裁剪并拼凑而成的。这种方法简单易操作,且所营造的效果也很好,完全可以因地制宜。如果客观条件允许,可以使用空气投影的方式,即使用喷雾设备产生大量人造雾,结合空气流动学原理而制造出来平面雾屏,利用的是海市蜃楼的原理,在效果上会更令人惊叹。[6]
  2.3 翻译与模型调用
  在设计3D拟真书时,我们考虑到古籍的文字为文言文,又鉴于用户的学历与知识储备等因素,因此在3D拟真书中建立了翻译系统。 用户在翻看书籍时若对相关文字有疑惑,可通过动态手势实现文字贴图与解释贴图切换。为了使3D拟真书在运行时更稳定,更迅速,我们调用百度翻译来进行实时翻译。具体步骤如下:   ① 申请百度翻译API获得相关代码信息
  ② 在VS2010中新建一个应用程序,使其构造出一个较为简单的百度翻译界 面,在窗体主体上添加两个richTextBox按钮,一个是输入未翻译的文言文,另一个则是输出翻译之后的白话文。在添加两个button按钮,即button1执行翻译功能,button2实现语音朗读功能。如果要实现语音朗读的功能,则要新建项目TTS[7](从文本到语音(Text To Speech)),继续添加引用System.Speech等,编写相应代码实现语音朗读功能。
  ③ 建立一个含有百度翻译API的DLL文件
  ④ 将DLL文件调用命令写入代码中。在上面所提到的按钮button1和button2,在它们的单击事件中分别写入含有百度翻译API的DLL文件的调用代码和引用System.Speechd的TTS。
  我们调查了在市场上的具有相同功能的产品,并结合实际制作的3D书籍模型,发现存在这样的一个问题:书页上的内容贴图会因为比例、软件等原因,展示出来较为模糊。
  经过团队讨论后,提供了两种解决思路:
  ① 在获得内容图片后,用PS等修图软件对图像进行进一步处理,将图片矢量化,防止图片出现锯齿状。作为贴图后,在unity中,找到Materials,修改相应贴图的inspector中的一些选项。
  ② 在文字翻译基础上,申请百度Rest Api, 使用百度语音识别和语音合成,在unity中实现语音交互。通过语音交互,将文言文解释转变成语音形式,传递给用户。
  3 未来展望
  通过查阅大量资料、市场调研、咨询专业人士等过程,3D拟真书的设计与实现方案在逻辑及理论上已具备较高的严密性。在技术层面,也综合利用3D全息、3D建模等前沿技术去实现,具有较高的可操作性,最终可实现手势翻动全息书籍的效果。
  但是目前3D拟真书的设计与实现依然处于较为简单的层次,在很多地方仍旧不够完善,如在书籍内容方面较为生硬,人机交互较少等。
  我希望在未来能够实现三种模式:书籍模式、动漫模式、游戏模式。书籍模式为目前我们设计的方案,也是最基础的方案。而动漫模式可以实现看书就像看电影的效果,并且可以进行一定程度的语音交互,能够更大程度地去帮助用户理解与记忆书中的内容。游戏模式则是把书籍中的知识融会贯通,使用 AR(AugmentedReality)/VR(Virtual Reality)等前沿技術,搭建游戏场景,将现代科技与古代文明相结合,解决古籍展示推广中的关键问题。并且这三种模式可以让用户自由选择,真正实现娱教结合。
  3D拟真书未来不仅仅可以用于书籍的展示,同样也可以用于文物的展示。自《国家宝藏》这一档节目开播以来,社会上反响剧烈。人们在节假日期间争相去各大博物馆观看文物,且都是人满为患。如果将3D拟真书用于文物展示,则可以减少拥挤程度,不仅能帮助老年人节省体力(即使不去各个展厅奔走,一样可以全方位地观赏文物)而且能够帮助人们提前做好计划,避免不必要的时间浪费。对于各大博物馆而言,可以大幅度地减少文物复制地成本,避免文物复制地风险。
  本文中的3D拟真书设计与实现方案,不仅具有良好的应用前景,而且可操作性很高,实现成本低。
  参考文献:
  [1] Nasiri M,Mosavi M R,Mirzakuchaki S.Infrared dim small target detection with high reliability using saliency map fusion [J].IET Image Processing,2016,10(7):524-533.
  【通联编辑:闻翔军】
转载注明来源:https://www.xzbu.com/8/view-14954375.htm