2095-6835(2022)18-0028-03文章编号:任意纸质书籍实时化有声阅读系统的研究
李海华1,程骏2(1.华南农业大学图书馆,广东广州510642;2.广东技术师范大学电子与信息学院,广东广州510665)摘要:为了满足视力障碍等人群的阅读需求,国内外已经推出了有声图书系统。但现有的有声图书系统必须由专业供应商提前将文字资料录制成有声数字音频资源,数字音频资源数量有限且不具备实时性。提出了一种任意纸质书籍的实时化音频图书馆阅读系统,使读者能够实时聆听任何一本纸质书籍,特别适合有相关需求的各类读者。关键词:图书馆;有声读物;信道干扰;LoRa模块中图分类号:G255;TP212文献标志码:ADOI:10.15913/j.cnki.kjycx.2022.18.008文字图像识别系统、文字转语音系统、音频播放终端等部分组成。图书采集终端图书馆提供了大量的文献藏书以及光盘资料,是人们阅读消遣、获取知识的重要场所,为人们提供了舒适、宽敞的阅读空间。然而对于某些特殊人群,例如视障人士,或者眼睛疲劳、暂时不适合进行视觉阅读的人士,传统的图书馆视觉阅读模式并不合适,因此,有声读物、有声图书馆[1-3]应运而生。根据文献记载,从1956年起,民主德国莱比锡市就开设了一个专为盲人服务的“有声图书馆”。法国在1942年成立了国家图书馆音乐部,后通过法定缴送制度,逐渐发展成拥有非常丰富视听资源的有声图书馆。美国密歇根州立大学图书馆收集了包括柏特·凡谷声音数据库、内藏超过4万小时的有声书。兰登书屋专门成立听书出版商——聆听图书馆(RandomHouseAudio)。但是,传统的有声图书必须由专业供应商将文字资料提前录制成有声音频资源,存储成光碟或者其他数字音频形式,经过一系列的技术处理,才能供读者使用。这种模式存在一定的缺陷:①现有的数字音频资源数量有限,不是任何书籍都有配套的音频资源;②专业音频资源的制作存在一定的资金及技术门槛;③任何新的音频资源的推出都需要一定的时间准备,无法达到实时化音频阅读效果。针对以上问题,本文提出了一种任意纸质书籍的实时化语音图书馆阅读系统,读者能够实时聆听任何一本纸质书籍,特别适合视觉障碍人士、眼睛疲劳人士以及现代快节奏生活方式下的各类读者。1系统结构与实现1.1系统整体结构图书馆纸质书籍实时化有声阅读系统的总体结构如图1所示。系统由图书采集终端、无线传输系统、·28·[4]
无线传输系统文字图像识别系统服务文字转语音系统器音频播放终端图1图书馆实时有声阅读系统总体结构图1.2系统原理与技术实现图书采集终端是在图书馆对应卡位的书桌上,安装2个高清视频摄像头。阅读时,读者只需将书籍翻到某一页,摄像头就会实时采集页面上的图像数据,并发送给文字图像识别系统,进行文字识别。之所以采用2个摄像头方案,是因为实际的书籍页面由于角度、光线的原因,有可能产生光学盲区,导致某一个区域无法采集到清晰的图像,采用双摄像头,可以很好地解决这个问题。无线传输系统采用semtech公司创建的低功耗局域网无线终端LoRa模块,LoRa无线模块具有低功耗、高效率的无线传输特点[5-7]。只需要在服务器端配置一个LoRa网关,就可以同时连接数千个LoRa节点。因此,只需要在每个图书采集终端配置一个LoRa节点,在服务器端配置一个LoRa网关,即可完成整个图书馆Copyright©博看网. All Rights Reserved.
2022年第18期
ScienceandTechnology&Innovation┃科技与创新
的有声图书网络布局,该方案具有低成本、高效率的独特优势。文字图像识别系统的作用是将摄像头采集到的书籍页面图像中的文字识别出来,可采用市面上成熟的算法技术方案。目前,百度公司和科大讯飞公司等企业,已经推出了商业化的成熟文字识别技术方案,而且价格适中,图书馆只需要支付适当的费用,即可使用成熟的图像文字识别技术。文字转语音系统的作用是将文字信息转化为语音信息,即完成文字信息的实时语音阅读功能,科大讯飞公司提供了全套完整的商用化技术方案,且收费低廉,图书馆只需购买相应的技术方案,即可使用该功能。音频播放终端是由具有蓝牙功能的一对耳机组成,用户可以直接佩戴耳机,实时聆听有声阅读服务,也可使用手机蓝牙功能连接有声系统,用个人手机操作和享受有声阅读服务。1.3系统的扩展功能应用以上所述的系统功能实现后,用户可以在图书馆实时享受到有声听书服务。一般情况下,用户必须坐在图书馆有声图书卡位,才能享受相应服务。为了扩展服务范围,让更多的读者能够享受到此项服务,可以将系统功能扩展升级。可在图书馆有声读书系统的LoRa节点处同时配置一个4G/5G移动通信网关,用户可使用手机APP接入图书馆有声读书系统。当用户需要享受有声读书服务时,可用自己的手机摄像头拍摄纸质书籍某一页的图像,然后利用APP接入图书馆系统,利用图书馆的服务器完成文字识别、文字转语音等功能,再将语音信息反馈给用户手机APP,用户可用手机直接聆听有声读书服务。该项功能升级完成以后,图书馆有声图书服务范围将大大扩展,用户只需扫描图书馆有声服务二维码,下载专用的APP软件,即可在任何时间、任何地点接入图书馆有声服务系统,享受到有声图书服务。但此项功能也存在一定的不足之处,即用户手机摄像头难以提供足够精度的纸质书籍视频,只能拍摄固定角度的静态照片来采集数据,因此,采集到的纸质书籍图像比较容易出现光学盲区、抖动影响、书籍页面不平整等一系列问题,从而影响文字转语音的识别正确率。为了提高手机拍摄的文字识别率,最简单的方法是采用多角度拍摄多张照片的方法来解决。经过实际测试,如果适当改变角度,在静态条件下,拍摄3~4张同一页纸质书籍的照片,通过APP上传到图书馆服务器以后,文字转语音的正确率可以达到92%以上,能够满足读者要求。但是,如果用户处于行走等动态条件下,手机拍摄的纸质书籍文字识别率将大大降低,通常需要拍摄8张以上的照片,才能达到90%以上的正确率,因此,使用手机APP享受有声图书服务时,建议读者最好处于静态阅读状态,尽量不要做过度运动。当然,采用拍摄多张照片的方法来提高文字识别率,用户的等待时间就会延长。一般拍摄3~4张照片,上传到服务器以后,大约在9s以后,用户才能聆听到有声图书的阅读服务。除此之外,带有摄像头的个人电脑、各类笔记本电脑都可以作为扩展应用设备,连接到图书馆有声听书服务平台。用户只需要用个人账号登录图书馆有声书籍系统,即可在任意场合使用自己的个人电脑连接有声读书系统,享受到图书馆有声读书服务。2存在问题及功能改进为了测试图书馆实时有声阅读系统的实际效果,搭建了一个16节点的简易测试系统,系统由16个有声阅读节点、LoRa无线传输网络及1台服务器组成。经过测试发现,当用户数较少时,用户可以实时享受流畅的有声阅读服务。用户翻阅任意一本纸质书籍,系统可实时将书籍上的内容转换为语音信息,用户通过耳机聆听,效果良好;但是,当用户节点数接近16时,系统会出现卡顿或者是出现噪声杂音干扰,经过分析发现,当多个节点同时工作时,各节点之间会出现无线信道频率干扰,从而导致系统出现卡顿和噪声。为解决这个问题,设计了一套主机轮询技术方案。即每次通讯前,都由主机发出无线引导信号,各从机接收到引导信号以后,只有特定的某台从机可以通讯,从而避免了各个节点之间频率干扰的问题。为保证主机轮询方案正常工作,改进了LoRa信息的数据格式,如图2所示。从机地址从机地址时间戳纠错码LoRa帧数据格式2.1无线信道频率干扰问题图2改进后的LoRa帧数据格式在每段标准的LoRa数据之前,加入了4个字节的信息码头。其中第1、第2字节,存储的是各个节点的地址信息,所以一共可以存储216,即65536个从机节点信息。第3字节存储的是时间戳信息,即各个节点发出通讯请求的当前时刻信息,当主机轮询开始时,各个节点会核对相应的地址信息和时间戳信息,主机每次会发出2个从机地址进入备选队列,然后系统核·29·Copyright©博看网. All Rights Reserved.
科技与创新┃ScienceandTechnology&Innovation2022年第18期
对2个从机的时间戳信息,最后按照时间戳的先后顺序,按照时分复用的原则,依次与主机通讯。第4个字节是纠错码,用于主从机之间的误码纠错。2.2图像采集误码问题通过长时间连续测试,我们发现,大多数情况下用户都能正常享受有声阅读服务,但偶然的情况下,有声阅读的内容会出错,表现为几个字或者一句话的内容与纸质书籍文字内容不一致。经过分析,发现这是由于图书采集终端的问题造成的。由于纸张的表面不平整以及反光等现象,摄像头采集的原始图像可能存在某一小块区域的图像采集错误,采用双摄像头系统可以解决大部分的问题,但偶尔还是会出现小概率图像采集错误。为了解决此技术难点,采用了补充调制光源技术,即在双摄像头的相应位置,分别补充2组LED红外发光二极管作为补充光源,红外光肉眼不可见,因此对于读者来说,阅读没有受到任何影响。红外发光二极管两边各4个,分别采用频率为12kHz、25kHz的方波信号进行调制,这是由于自然界的光源均为稳定光源,自然界不存在12kHz和25kHz的调制信号。因此,采用红外制信号作为补充光源,能够大大增强图像采集系统的抗干扰性。经过实测,改进后实际效果良好,系统可提供稳定优质的有声图书阅读服务。2.3背景音乐的自动加载有声图书的播放可以采用无背景音乐模式,但这样会显得比较单调。所以,大多数情况下,有声图书系统都采用了背景音乐伴奏模式。但目前,市面上所有的有声图书系统都采用固定配音模式,即在音频文件制作时,就已经将某一段有声图书的背景音乐选定并录制好了,后期无法改动。本系统采用了自适应动态背景音乐模式。在手动模式下,用户可以手动选择不同的音乐来作为有声图书的背景音乐。在自动模式下,设计了一套背景音乐的选择算法,即在文字图像识别时,系统自动调用背景音乐加载算法,该算法可根据目前的文字内容,自动判断出目前文字内容所表达的情绪及语态,从而选择相应的背景音乐。例如,当所阅读的书籍,当前所表达的文字内容是轻松愉快的状态,系统就会自动加载休闲、轻松的音乐背景。如果当前所阅读的文字描述的是紧张、悬疑的状态,系统就会自动加载紧张、刺激的音乐背景。总之,系统会根据当前的文本内容,自动选择与之相配套的音乐作为背景,从而进一步烘托出文字内容所体现的情景效果,优化读者的阅读感受。3结语本文研究了一种新型的图书馆实时有声阅读系统,该系统可以提供任意纸质书籍的实时有声阅读服务,特别适合于视觉障碍、眼睛疲劳及放松休闲读者的阅读需求,在传统的图书馆模式下开辟一项新的服务内容,更加丰富了图书馆作为学习园地、文明园地的内涵,更好地为读者、为社会提供优质的服务。参考文献:[1]李祯.浅析有声读物在阅读中的应用[J].遵义师范学院学报,2020,22(2):162-164.[2]杨晶.高职院校图书馆“听阅读”服务模式分析[J].哈尔滨职业技术学院学报,2019(4):29-31.[3]陈小友.浅谈图书馆有声读物资源建设与推广策略[J].科技与创新,2017(14):113-115.[4]卢晓君.有声图书馆:资源服务的新模式[J].大学图书情报学刊,2016,34(1):70-72,89.[5]邬亮,吴卓葵,曾杨达,等.基于LoRa的温室多点无线监测系统设计[J].仲恺农业工程学院学报,2020,33(1):50-53,65.[6]孙世岭.基于LoRa技术的矿用顶底板测距传感器设计[J].工业仪表与自动化装置,2020(5):28-31.[7]文渊博,牛澳,毛夏煜,等.基于LoRa的分布式火灾监测报警系统的设计与实现[J].物联网技术,2020,10(8):18-22,26.————————作者简介:李海华,女,华南农业大学图书馆馆员。程骏,男,就职于广东技术师范大学电子与信息学院,研究方向为电子与通信。(编辑:张超)·30·Copyright©博看网. All Rights Reserved.
因篇幅问题不能全部显示,请点此查看更多更全内容