您好, 访客   登录/注册

大数据环境下网络社区学术资源的深度挖掘与推送服务研究

来源:用户上传      作者:

  关键词:大数据;网络社区;学术资源;数据挖掘
  摘要:文章分析了网络社区学术信息资源需求与行为特征,阐明了大数据环境下网络社区学术资源的动力机制,论述了大数据环境下网络社区学术资源深度挖掘与聚合的方法,提出了网络社区面向用户的学术资源推送服务模式。
  中图分类号:G250文献标识码:A文章编号:1003-1588(2016)09-0114-03
  大数据时代学科信息交融为科研人员学术创新提供了条件,面对海量信息数据,科研人员的学术交流方式也由传统渠道逐渐向博客、SMS等网络社区方向发展。大数据环境下网络社区的数量逐渐增多,学术资源呈现网络化聚合趋势,并且类型更为多样,传播速度更为高效。研究表明,截至2014年年底我国学术科研类网络社区用户的数量已经超过180万,常见的网络社区包括丁香园、学术博客等。网络社区学术信息资源的迅速增长及数据挖掘等技术的不断进步,为研究网络社区功能与揭示知识关联奠定了基础。为更好地发现网络社区学术资源的内在关联,掌握网络社区学术资源的发展规律,以高效管理促进科研创新,需要借助大数据技术制订合理的学术资源聚合与服务方案。
  1网络社区学术信息资源需求与行为特征分析
  网络社区是大数据时代科研人员获取学术信息的重要来源,只有了解网络社区学术信息需求与行为特征,才能更好地为科研人员提供服务。
  1.1网络社区学术资源的产生
  网络社区是指具有相同兴趣爱好与学科背景的用户,通过网络技术开展信息交互形成的虚拟团体。当前网络社区成为人们获取信息的有效手段,也为科研人员获取最新科研信息提供了便利[1]。网络社区学术信息的获取途径十分广泛,用户之间的沟通与信息交互均会产生大量数据,社区用户所掌握的学术成果、学科经验等信息资源,均可成为网络社区学术资源的来源。网络社区用户数量庞大,依托互联网可以实现跨区域、跨时空交流,这就意味着社区成员均可成为学术信息的发布者与利用者。
  1.2网络社区学术资源需求
  科研人员通过网络社区获取最新科技信息,以解决学术研究中遇到的问题,或用于完善自身知识结构,这就产生了学术信息资源需求。当前学术交流呈现跨学科趋势,科研人员要求获取专业性、准确性的学术资源,为科研活动提供指导。而科研活动实质上属于知识认知过程,任何阶段都需要信息资源提供支持。网络社区学术资源具有学科化、分类化特点,能够为科研人员提供专业化学科信息服务[2]。如科学网根据学科专业进行模块划分,其中包括医学、工程学、信息技术及数理科学等资源,为科研人员获取相关信息提供了便利。
  1.3网络社区学术信息行为特征
  科研人员在开展科研活动过程中产生学术信息需求,并在遵守网络行为秩序的基础上,利用网络技术产生的一系列行为,这就是网络社区信息行为。科研人员的学术信息行为源于其对学术信息的需求,而学术信息需求是信息行为的内在动力,属于由内而外的知识表达过程。网络社区学术信息行为的开展具有独特的方式,学术人员有极高的信息交互性,并通过信息发布与交流获取更多资源。研究人员可通过发帖咨询的方式获得学术帮助,而其他社区成员对主题帖的关注、回复与转发,可以看作是学术信息衍生行为。科研人员学术信息交流具有广泛性,信息交互对象也在不断扩大,有助于拓展学术资源传播渠道。同时,学术信息交流还具备多维性,即网络社区的信息交流存在多种形式,不仅可以提升知识传播的准确度,还可以丰富研究人员的知识结构。
  2大数据环境下网络社区学术资源的动力机制
  网络社区属于错综复杂的人际关系网络,其中的学术资源存在复杂的关联性,任何关联的变化都会影响到整体发展状况。其支撑动力包括信息行为引导、学术兴趣发现、参与激励机制等,有助于维持网络社区的稳定与发展。
  2.1信息行为引导
  保障网络社区学术信息交流的活跃度,提高用户的学术资源贡献率,促进网络社区的良性发展,就需要构建相应的信息行为引导机制。网络社区犹如一个庞大的知识库,用户可以从中获取所需信息,也可以获得帮助或分享知识[3]。网络社区中经常发布与分享信息的用户,被看作网络社区的“活跃者”,他们在科研信息产生与交流中发挥着重要作用,也影响到其他用户的行为。网络社区可以将他们作为社区引导者,通过规范他们的学术信息行为,激励更多用户参与其中;同时,制定学术造假举报制度,发现造假行为及时处理,并对举报成员予以适当奖励,以营造良好的学术交流氛围。
  2.2科研兴趣发现
  科研人员对学术信息具有较高的专业性要求,因此,在利用互联网获取信息时需要耗费大量时间和精力,影响了科研效率。网络学术社区的产生与发展,其根本目的在于全面了解科研人员的信息需求与科研兴趣,为他们提供便捷的资源获取途径,保障学术资源的持续增长。网络社区用户科研兴趣的发现需要对用户需求进行分析挖掘,通过构建科研兴趣模型了解不同用户的个性化需求,也可以借助网络社区成员的页面浏览与检索结果,从中挖掘不同用户的兴趣爱好或通过信息行为跟踪了解用户的学术兴趣。
  2.3参与激励机制
  网络社区的发展离不开用户的参与互动,这就要求借助必要的激励手段吸引用户参与到学术资源建设中,提升社区学术资源质量。网络社区用户成员之间可以自由交流,并且允许通过版权功能设置等方式,帮助用户构建基于共同专业背景、兴趣爱好的团体。网络社区用户的参与度与其群体依赖性、人际交往情况均有关系,大部分用户更倾向于在彼此认同的基础上形成团队关系,这种关系让用户认识到自己属于团队的一分子,担负着共同建设社区的责任。网络学术社区可以通过虚拟货币、积分等激励方式,制定合理的激励评估机制,营造良好的社区交流环境,激励更多用户参与到社区建设中,促进网络社区资源共建共享。
  3大数据环境下网络社区学术资源的深度挖掘与聚合   大数据环境下网络社区用户的信息行为是动态变化的,决定了对网络社区学术资源进行分析处理的复杂性。借助数据挖掘等大数据技术开展学术资源挖掘,促进学术资源的精确分类与高效聚合,可为学术资源推送服务奠定基础。
  3.1学术资源的获取
  从网络社区海量数据资源中提取有价值的信息,需要用到数据挖掘技术。该技术能够从海量信息中分析一系列信息行为,在分析数据关联的基础上揭示内在规律,融合了数据可视化、数据库、数据处理等技术。由于网络社区学术资源的类别不同,采用的数据挖掘算法也存在差异[4]。数据挖掘过程中首先需要对海量数据进行采集抽样,然后开展数据预处理与数据描述,通过数据变换构建相关模型,并通过模型评估获得结果。学术资源的深度挖掘要求构建兴趣向量,明确具体的学术研究领域与方向,通过对相关学术资源、学术成果的分析处理及关键词频率排序等方式,将分散的学术资源聚集起来,提升学术信息服务的准确率。
  3.2合理选择数据库
  网络社区拥有庞大的数据信息,并且数据规模是不断变化的。因此,在数据库选择方面需要考虑其最大容量,数据库是否具备安全稳定性及数据查询速度是否满足需求等。为解决海量学术信息资源的存储问题,在数据库选择方面首先需要考虑其延展性与兼容性,要求该数据库容纳更多数据,可由几十或数百台服务器构成,数据的存储模式更为自由,无需考虑数据文件的存储格式。数据库中每个文档的存储均有统一的标识,方便进行浏览与管理。同时,该数据库具备较高的伸缩性,能够为云数据库提供支撑,还可以额外增加其他设备,可以通过文件备份与自动转移保障安全性。此外,该数据库还具备完善的信息索引系统,能够帮助用户迅速查找所需信息,提高学术信息的查询速度。
  3.3学术资源挖掘与存储
  网络社区学术信息并非独立存在的,而是存在语义关联的知识节点[5]。学术资源挖掘是通过对信息数据进行高层次处理,提取关联数据的总体特征,获取其中潜在的、新颖的、有价值的信息。首先,了解社区的信息行为特征,利用数据挖掘技术对用户的输入关键词进行搜集查询,在标记相关网页的基础上下载检索文档。其次,对检索结果进行深入分析,获取相关文献的URL值,借助编程技术了解相关文献的具体信息,并将计算权值与相关参数存储在数据库中。全面掌握学术资源之间的语义关系,能够更好地保障数据挖掘与聚合效果。最后,借助语义关联促进学术资源聚合,构建多层次、多维度、立体化的网络社区知识网络,并利用数据可视化技术进行结果展示,方便社区用户了解学术资源的整体脉络及学术资源的挖掘与存储过程(见图1)。
  4大数据环境下网络社区面向用户的学术资源推送服务模式
  4.1网络社区用户需求分析
  网络社区本质上属于信息共享的虚拟交流平台,学术资源推送服务侧重于对信息数据进行重构与加工,明确信息推送服务的参与要素、服务流程与实现机制,进而为科研人员提供具有决策性的信息服务(见图2)。为此,首先需要对社区用户的基本信息、认知水平及信息行为特征进行分析,随后在对社区学术信息资源进行管理的基础上形成学术资源库。社区用户在信息行为、认知能力等方面存在较大差异,对社区学术信息的获取、处理与认知能力,都会影响其对所获取资源的价值利用率。笔者认为,可从社区用户的科研兴趣、认知能力、认知结构等方面进行分析,挖掘社区用户潜在的学术信息需求,根据不同用户群体的行为特征提供个性化服务,也可以针对某个用户提供个性化推送服务,保障服务参与要素、服务流程的联动性,以提高信息服务效率。
  4.2学术资源库的构建
  不同网络社区中学术资源的内容存在较大差异,但学术资源的来源基本相同,均为社区用户信息发布与分享的结果。通过对网络社区各种形态学术信息的聚合与重组,就可以构建学术资源数据库。在具体构建过程中组织与维护学术资源至关重要,学术资源聚合并非简单的信息聚集,而是基于某一主题的关联或对多个主题信息的融合,并保障提取关联特征的准确性。将所有学术资源通过聚类整理纳入数据库后,在全面掌握社区用户需求的基础上,对推送服务参与要素进行识别分析,明确服务流程的科学性与合理性,确定学术信息推送服务目标,为准确提供信息推送服务提供支撑。
  4.3主动推送服务的实施
  网络社区推出学术资源推送服务,主要目的在于针对社区用户的信息交互、检索与浏览行为,在学术资源库中深度挖掘与集成信息后,为用户主动提供准确的反馈信息,满足他们对网络社区信息服务的期待。学术资源推送强调个性化服务,在分析不同群体用户特征的基础上,主动调取学术资源数据库中的相关信息,并将最终结果推送给用户[6]。可根据不同用户群体的基本特征,在用户没有开展信息检索的情况下,主动为用户提供科研信息,让用户在获得信息的同时积极参与到学术信息发布及传播中。
  参考文献:
  [1]胥琳佳.大数据对于传播学研究内容和方法的影响:基于社交媒体和移动互联网的思考[J].中国出版,2013(18):3-6.
  [2]朱世琴.面向大数据时代的高校图书馆创新服务[J].高校图书馆工作,2014(5):70-72.
  [3]栾旭伦.大数据环境下高校图书馆个性化信息服务系统研究[J].图书馆学刊,2014(8):118-121.
  [4]李春英,汤庸,陈国华,等.面向学术社区的专家推荐模型[J].智能系统学报,2012(4):365-369.
  [5]彭文梅.大数据时代高校图书馆信息服务创新与发展[J].河北科技图苑,2014(3):14-16.
  [6]陈国华,汤庸,彭泽武,等.基于学术社区的学术搜索引擎设计[J].计算机科学,2011(8):171-175.
  (编校:马怀云)
转载注明来源:https://www.xzbu.com/4/view-10989986.htm