您好, 访客   登录/注册

人工智能时代广播电台融媒体语音智能检索技术

来源:用户上传      作者:

  摘要:文章依托吉林人民广播电台融媒体语音智能检索技术系统进行阐述语音智能检索技术的主要内容以及语音识别、音频自动索引、关键音检索3个技术特点,语音检索的系统结构设计和逻辑构架及主要功能,融媒体语音智能检索技术系统项目实现广播电台桌面级音频搜索服务实践应用。
  关键词:语音识别;音频自动索引;关键音索引;云计算模式
  中图分类号:G2 文献标识码A 文章编号1674-6708(2019)239-0136-02
  当今科技创新及人工智能技术日新月异发展,为广播电台融媒体语音智能检索技术专业应用开辟新的发展前景。如何利用好广播电台的节目素材库,使其在广播节目制作、音频资源共享及为公众服务上发挥更大的作用,是目前广播电台业务发展所面临的迫切需求。对广播节目素材库的有效再利用的难点之一,在于提供强大高效的检索功能。传统的基于元数据编目的节目素材库管理方法,音频素材不同于文本资源,其本身的内容难于用文字去表达。简单的初级编目信息对于素材内容的描述过于概略,不能达到详细内容检索的要求,高级编目又需要大量的人力物力,面对广播电台海量音频库需要的投入太大,即使做到了节目、片段、场景等编目,也不能完全满足对节目内容的多样和个性化检索要求,这就需要采用真正的基于内容理解的自动化处理技术以及人工智能处理技术,对音频进行自动索引和处理,提供更加详细和个性化的内容搜索。
  1融媒体语音智能检索技术的主要内容及技术特点
  融媒体语音智能检索技术是对海量音频库中基于内容的音频进行快速准确检索,首先采用声音识别手段对采集音频文件检索的内容进行编辑整理,然后对存放在音频数据库任何地方的音频文件进行智慧检索,用音频内容出现的字句对音频文件进行检索,通过云计算模式,实现桌面级音频搜索服务的实际应用,伴随广播融媒体语音检索技术不断完善与创新,最终实现从桌面级到移动端的全方位广播电台融媒体语音资源全方位音频搜索服务的实践运用。
  广播电台融媒体语音智能检索核心技术是对海量音频库中的音频进行快速准确的基于内容的检索,目的是为广播电视台等企业级用户提供准确高效的语音内容检索服务。主要包括音频自动索引、关键音检索、语音识别等关键技术:1)音频自动索引技术:用户通过系统使用界面或接口,批量导入待处理的视音频素材,系统自动对其建立内容索引;2)关键音检索技术:用户输入的文本形式的关键词,系统从已索引的视音频中检索该词发音所在的位置;3)语音识别技术:把视音频节目的音频内容转换为文本形式,利用全文检索技术进行检索。
  2融媒体语音智能检索技术的系统结构设计和系统逻辑构架
  2.1系统结构设计
  融媒体语音智能检索技术对现有多媒体库的媒体音频文件建立内容索引的处理数据库文件,形成供用户进行语音检索查询的数据文件,检索结果数据文件和原始媒体文件之问建立起时问点对应关系,交互式回放给用户浏览和使用。语音检索系统只对媒体音频文件进行分析和索引,并保存相关元数据信息,但并不保存原始的媒体音频文件,前台集成应用系统负责从原始媒体音频库中回放和浏览检索结果对应的原始音频文件。
  整个语音检索系统由以下部分构成:语音索引服务器、语音检索服务器、集群控制器、系统管理器、开发集成接口(搜索引擎Web Service:对用户提供Web Service方式的检索查询接口;搜索引擎API for Java:一组Java类库,提供对整个系统的全功能编程支持,包括索引建立和检索查询、管理)、关系数据库系统OraclelOg、Web服务器Tomcat、分布式计算平台otcopus。
  2.2系统逻辑构架
  系统逻辑架构如下:索引服务从用户的媒体音频库中读取音频数据,建立相应的内容索引,存入存储系统和关系数据库中;检索服务根据用户提交的检索请求对内容索引进行检索,给出检索结果;集群服务控制协调索引服务和检索服务,进行虚拟功能包装和负载均衡控制;现有的用户业务系统可通过开发集成接口直接或问接与索引和检索服务器交互,完成系统之间的集成;系统管理统一对整个语音检索系统进行配置和监控。
  2.2.1语音搜索功能设计
  语音检索功能包括关键音搜索功能、全文搜索功能。在搜索引擎系统加入媒体文件,指定以搜索内容索引分类;索引完成之后,可通过相应的搜索功能对其进行检索。
  关键音搜索功能实现在海量媒体音频文件中快速找出与用户输入的查询词发音相同或相似的位置,全文搜索功能实现定位用户的查询词在媒体音频文件中出现的位置。搜索结果中搜索词准确出现媒体文件的音频对应位置,可精确定位到毫秒。
  语音搜索系统在设计中对结果条目的排序和过滤功能实现上要考虑多样性、复杂性需求,由于媒体音频库含有上万小时的音频文件,搜索结果往往是数万条,对结果条目的排序和过滤功能要求非常重要。语音搜索内部引擎对每个搜索结果设置一个置信度的值,系统依据置信度值降序排列返回所有搜索结果。在导入媒体文件的时候,用户给出了附加的元数据信息,如创建时问、类型、作者等信息项,搜索时可按此元数据信息项进行条件比对搜索。用户在搜索输入条件中可以增加相应的条件查询和排序指定,如搜索2017年的xx词、按时问排序,语音检索系统按指定的条件项对结果值进行过滤,然后按指定的排序顺序返回搜索结果信息。如用户在搜索条件项中给出了具体的需要进行搜索的媒体音频文件列表,语音检索系统则在这个列表中搜索指定的内容,结果排序顺序可以是文件列表给出的排序顺序,也可是置信度或其它元数据域排序顺序。
  2.2.2智能媒体语音检索系统在广播电台的设计与实现
  吉林人民广播电台智能媒体语音检索系统主要包括音频自动索引、关键音检索、语音识别等关键技术,构建语音索引服务、语音内容检索服务、集群控制服务、系统管理、数据库等服务功能,语音索引服务实现读取用户输入的各种格式的媒体文件、从中抽取音频信息、建立音频内容索引;语音内容检索服务实现根据用户的检索条件,基于索引服务器生成的内容索引,提供音频内容检索服务;搭建存储系统和数据库系统之上的索引服务和检索服务组成了检索系统的底层计算支撑;集群控制服务和系统管理实现整合底层的多个索引和检索服务的协调工作以及对整个系统的集中操作功能;实现对广播电台海量音频库中基于内容的音频進行快速准确检索。
  该系统已广泛运用于台内多媒体全业务综合服务平台中,数十万小时量级的媒体索引和快速检索,支持各种常见的视音频格式(mp3、wmv、Wmaa、rm、avi等),并可根据记者、编辑要求进行扩展支持。语音识别检索极大地提高记者、编辑对于音频素材转换成文字稿件的效率。
  3结束语
  广播电台融媒体语音智能检索技术的应用告别了传统人工编目、简单检索的音频搜索技术时代,以更高效、更精确的融媒体语音识别检索技术以及科学、人性化的应用成为广播电台提升媒体资料使用率的有效利器。融媒体语音智能检索技术极大地满足了记者、编辑对台内数字化海量信息多媒体智能、高效索引的需要,为未来广播电台移动端融媒体语音智能检索技术实践打下坚实的基础,在人工智能技术发展推动下,融媒体语音检索技术将更有效促进广电信息化广播音频的建设发展。
转载注明来源:https://www.xzbu.com/8/view-14998385.htm