您好, 访客   登录/注册

古籍书目数据库建设面临的问题及解决措施

来源:用户上传      作者:樊虹燕 应飞

  摘 要:古籍是历史文化的载体,从某种意义上说,其属于文物,需要对其进行相关的保护。文章以古籍书目数据库为主要调查对象,对数据库建设中存在的目录格式、分类法选择等问题进行探究,并提出相应的建议以供大家参考。
  关键词:估计数目;数据库;问题
  华夏历史传承数千年,在岁月长河中流传下数不胜数的古籍,这些古籍是我国的文化遗产,是珍贵的、有代表性的历史文物,更是当今各大图书馆珍藏体系中必不可少的重要部分。当今社会科技发达,如何利用科技对文化遗产进行深入的剖析与利用,实现资源共享,是古籍界关心的头等大事。我国多个图书馆已开展了古籍数据库的建立,但相关经验不充足,有诸多问题需要得到改进完善。
  1 古籍书目数据库的意义
  以机读目录格式的相关特点为参考建立了统一的古籍书目数据库,这个数据库依赖于网络,并以网络系统的形式为用户提供古籍数据资源的相关搜索,成为人们检索书籍的大型目录数据库。古籍具有丰富的历史、文学和学术价值,其重要性是不言而喻的。对于古籍数据库的保护,我国还没有完善的保护措施,而是和众多国家一样以《著作权法》来进行保护。从《著作权法》里的相关内容可知,汇编若干作品,不构成作品的数据库或者其他材料,保持内容的独有特色,成为人们所熟知的汇编作品,其作品的专属权也归汇编者所有,但不能侵犯原作品的著作权。
  图书馆特色古籍数据库的建设主要涉及古籍书目数据库、古籍文摘数据库、古籍全文数据库。古籍书目数据库是结合作品外部信息,方便读者对其检索与利用,对内容进行选择编排都是参考MARC统一标准进行的,保持与其他古籍数据库形式的相似性。从数据制作格式来看,书目数据库可以分为两部分:一种是图像格式,根据内容扫描PDF图像文本;另一种是元数据格式,就是将文献文本输入并导入数据库中,形成能供阅读与检索的数据库机读格式。这两种格式的数据库容量都十分充足,提供了较为原始的检索方式。但这两种数据库的运用无法真正展现出数据库该有的优势特征,基本不受《著作权法》的保护。
  2 古籍书目数据库存在的问题
  2.1 机读目录格式不统一
  随着时代的发展,运用先进的科技对古籍进行编目整理,由于相关技术的浅薄,我国这方面技术仍处于起步阶段。20世纪90年代初,南京图书馆最先建立书目数据库,对读者检索书目起到重大帮助,随后书目数据库被广泛传播,很快就遍及全国。但时至今日,机读目录格式还是没有完全统一,而是在CNMARC的基础上进行优化,并没有实质性的解决方式。CNMARC研发之初是以现代文献为主要实践对象,古籍文字的特点、形态、编排、装帧等都与现代文献截然不同,字段与子字段尚不能完全加以揭示。再加上各大图书馆的古籍管理制度、书籍不尽相同,所以古籍机读目录格式无法实现真正统一,书目数据不能识别古籍文献或者错误识别,这些都造成了资源不能共享。
  2.2 分类法的多样化
  由于古籍自身的特点,我国对古籍的分类没有真正可行的管理措施,导致古籍分类方法一直无法得到真正的统一。相关人士对图书馆进行调查后发现,各图书馆对古籍的分类各不相同,各自都有其自己的方法。因为至今没有统一的古籍分类管理法,所以我国图书馆的古籍分类五花八门,呈现多样化,对开展古籍相关工作十分不利。但调查又发现,多数图书馆参考传统的古籍分类法,名气越高、规模越大的图书馆对古籍分类就越讲究,会根据古籍的特性与时代,采用多种分类归纳法。多种分类法在图书馆的应用十分普遍,但因为管理的多样化,以及日常的分类中会为工作人员带来不便,古籍书目数据库的建设受到影响,得不到显著发展。
  2.3 著录用字问题
  根据古籍的专属特征和国家对古籍的相关规定,在建立古籍机读目录时必须使用原著的字体,只有这样才能反映原书的真正内容。古代文献的特点就是有不同时期的文字,大量的生僻字至今都无法理解其含义,没有相关的文字解说,所以至今都没有超大字库能完全识别古书中的文字,计算机也无法将古文字进行信息识别。时代的久远与多样性造就了古籍中的繁体字、简体字、新型字,十分复杂多变,现如今也无法真正解决这样的问题。很多图书馆在处理这样的问题时采取的方法是替代,一些难以分析的字符只能推测其意,用其他字符来替代,这样的方式无疑会违反我国对古籍的相关规定,破坏了原书的原则。如今运用最广的大字库编辑软件Word也不能满足古籍书目数据库的需求。还是因为古籍的特殊性,它们的字库过小,没有兼容性,更不能互补。繁简字的转换实际是一对一的,无法解决繁简字的多样转换方式,如果将繁体字简化了,在编录数据时就会出现输入差误。
  3 古籍书目数据库应对措施
  3.1 建立统一的机读目录格式
  从我国图书馆管理的发展趋势来看,统一的机读目录格式能让古籍书目数据库得到规范,不再是种类繁多的分类管理方式。没有相对目录的规范性,古籍书目数据库的内容就无法进行交换与共享。国际图联开发的UNIMARC是世界各国图书馆通用的机读目录格式,各国在借鉴UNIMARC的基础上进行本国相关管理的修订。我国研发的CNMAARC是我国专属的、唯一的机读目录标准格式,它适用于我国与其他国家的信息交换,为书目数据库的建立提供参照与依据。但我国唯一机读目录标准格式CNMAARC并不适用于古籍图书,因为它是以现代文献为主要实践对象研发的。为了让古籍机读目录数据更为方便地录入,我国撰写了《汉语文古籍机读目录格式使用手册》。但是,我国没有真正统一古籍机读目录格式,所以其方式还是存在问题。
  经过相关组织的探讨,以CNMAARC的特点为基本,结合《古籍著录规则》,为实现古籍机读目录格式统一进行了不断的研究,为了实现它应有的资源共享的效果,统一古籍计算机编目的相关标准,让计算机与古籍的信息共享,推出了“古籍机读目录格式”。
  3.2 著录规则
  古籍的特点是多样化的,文字形態的多样、意义的多样,华夏五千年的历史赋予了其丰富的内涵。书目数据信息员要以数据库的规范性为基准,针对古籍的特点,保留其固有的特点,进行严格且详细的编目工作,编目中必须保持规范性,按照国家古籍法规《古籍著录规则》的标准进行著录。著录是为了更好地适应计算机相关工作,要严格按照《中国文献编目规则》的标准进行著录。《中国文献编目规则》是以ISBD和中国文献著录标准为标准,是为了更好与国际文献工作相统一,中国文献语言就是以此为中心进行编录的,其意义就是符合操作的实际需求,对内容增加新的元素。
  3.3 分类法
  古籍书目数据库的合理分类一直是古籍界不断研究的核心问题,国内尚未实现古籍分类的统一。各图书馆的分类方式五花八门,甚至很多馆采用多样分类法,如“四库法”“人大法”“中图法”“东北法”等。其中“四库法”使用最多,而且很多博物馆在原有的基础上进行了改进。在全封闭的管理下,多样的方法也不会存在太大问题,但在真正实行时,会因为没有统一的方法而无法进行正常的交流与检索。人们争论的无非是采用哪种分类法,用“四库法”的很多,用“人大法”的也有,各有各的好处,要合理地采用不同的分类法。在古籍分类时可以提前在计算机编目中运用两种分类法进行,这样能测试出哪种方式更适合这种数据,避免了手工编目改变分类号将导致目录和排架全局变动的状况。
  分类法对图书馆工作人员的意义重大,便于对数据的管理及排架。其中,“四库法”能最大化发挥古籍的应有特点,可以从古籍固有的特征中演化出符合计算机存储管理的特性。因为古籍隐晦难懂,所以对其分类的检索手段十分匮乏。要想迅速找到、搜索到相似的书籍,就需要把待搜索书籍的相关内容进行统计,对书籍进行更规范的分类管理,进而推进古籍的分类统一。
  4 结语
  随着社会的不断发展,古籍数据库的管理措施也逐渐完善,古籍界的专家学者应积极探索中国古籍数据库应用的理论与实践,尽可能统一图书数据库,可以借鉴他国的丰富经验,建好古籍书目数据库,为国家的发展、为历史的探讨做出贡献。
  参考文献
  [1]白林林.中文古籍书目数据的关联数据化研究[D].太原:山西大学,2016.
  [2]漆胜兰.中医养生古籍书目数据库的建设与研究[D].合肥:安徽中医药大学,2015.
  [3]颜运梅.众包在国内古籍数据库建设中的应用研究[J].图书馆研究,2016(5):30-34.
  [4]赵江龙,赵江燕.图书馆特色古籍数据库建设的著作权研究[J].内蒙古科技与经济,2015(13):143-144.
转载注明来源:https://www.xzbu.com/7/view-15007877.htm