论文查重 | 论文文献库 | 计算机编目查重问题研究

计算机编目查重问题研究

来源:论文查重 时间:2019-08-06 10:53:40

【摘要】何谓复本?这是进行查重工作首先要解头的问题。对复本涵义理解的币同会产生不同的结果。而论文查重工作的质量直接影响到书目数据库的质量和读者对书日数据的正常使用。为提高查全率和查准率,文章结合 工作实际,讨论了在查重过程中检索点的选择和不同查重途径运用中需要注意的问题。
查重,也就是查复本。但是何谓复本7在现实工 作中,不同的分编人员对复本的概念认识不一,这种 认识上的偏差,给分编和查重工作造成了一定的混乱。 笔者对近几年发表的相关论文进行了分析,讨论的观 点不外乎几种情况:书名相同,责任者相同,版次相 同,出版者相同而ISBN不同的能不能视为复本书,书 名相同,责任者相同,ISBN相同而内容不同的能不能 视为复本书:书名相同,责任者相同,ISBN相同,内 容大致相同,版次不同的能不能视为复本书。周爱莲 老师在其《计算机编目查重探讨》一文中这样定义: “若在编图书与某一馆藏记录的题名、责任者、出版 项、ISBN等著录信息完全相同,则为重书,也称复 本。”…各个著录项目完全相同当然是复本无疑,但对 有疑问的图书没有作深人论述。笔者认为,查重的目 的就是类分文献,使同种书能够集中归类,保证文献 分类标引前后一致,避免“同书异号、”“异书同号”, 为读者更好地使用图书服务。内容是否相同是辨别复 本的标准,这些问题在后面有更详细的阐述。当然, 见仁见智,但只要每个图书馆能够统一认识,由业务 部门制定复本规定,那么复本书的分类标引工作就会 有章可循。
1查重的目的、意义
查重是计算机编目的第一步。提高查重准确率, 是保证图书馆书目数据质量的关键,高质量的查重工 作可以使同种文献分类标识保持前后一致,从而避免 同书异号,一书两入现象。
查重还可对相同图书或相关联图书进行辅助分类 (如配套出版物,再版图书),便于图书的集中管理和读者的使用。 在查重过程中,可以发现和纠正数据库中的问题 记录并加以改正。如利用ISBN查重查不到《发现谦 卑的力量》这本书,但通过改用题名检索途径检索到 了,经过对比发现,编目员在编目时,把7—208— 05195一X错误地录人为7—308—05195一X,才造成了 漏检,因此我们通过查重,不仅给新到复本图书统一、 规范的分类标识,而且改正了数据库中的数据遗留错 误。
同时,在经费紧张的情况下,查重也是图书馆编 目必不可少的一道工序。它可使有限的资金得到最大 程度的利用,最大程度地满足读者的需求。
2检索途径的选择与适用
与传统的手工目录查重相比,计算机编目系统可 供选择的检索点很多,我们经常用到的、具有标识意 义的检索点主要有ISBN、题名、责任者。应该说,它 们没有好坏或主次之分,而仅仅是适合不同的情况。 下面就予以分别说明。
2.1题名查重
题名查重是最常用的查重方式,其查全率和查准 率都较高。利用计算机进行题名查重主要有两种方式 一是准确检索,即将图书的题名全部准确地输入 计算机进行查重检索。在这种情况下,如果题名过于 简单,重复的可能性会很大,需要比较的记录过多, 操作起来不便,如高等数学、大学英语等:对于题名 复杂或冗长的,录入起来又不方便。而且,在有些情 况下还可能造成漏检。比如题名本身著录错误等。 二是模糊检索,或称为前截词检索,即只将题名的前部分输八计算机进行检索,这样就可以将馆藏 数据库中题名前一部分与该图书题名相同的图书检索 出来,它的优势是可以尽量避免漏检。
在这里还要强调的三点,一是注意题名中标点符 号的处理。中文普通图书编目规则规定:正题名中所 含标点、符号、数字、汉语拼音及外文字母照录,起 语法作用的空格保留。因此,在正题名中若出现这些 符号,应按汉字输人规则(一个符号占2个字节,即 一个汉字的位置)予以照录,查重时也必须参与检索, 否则就会出现漏检现象。二是注意汉字、数字、汉语 拼音、外文字母的处理。国家图书馆全国图书馆联合 编目中心依据有关国际标准和国家标准,结合中文普 通图书编目和计算机编目的工作实践,编写和修订了 《中文图书机读目录格式手册>、《中文图书名称规范 数据款目著录规则》等,使之成为全国编目工作共同 遵守的标准。在非汉字的处理上可以归纳为:汉字与 外文单词、数字之间不占有任何字节,外文单词与单 词之间、外文单词与数字之间均占一个字节。三是连 续出版的著作{如年鉴、手册等),年代作为分辑号著 八200 8 h子字段,查重时不作为检索点。口J以上3点 编目人员有时不太留意,在著录和查重时随意性较大, 影响了书目数据的规范和查重的质量。
2.2责任者查重
在题名过简或过繁而不宜用于查重的情况下,可 以考虑责任者查重。用责任者查重操作简单,计算机 可将同一责任者所著图书在本馆的^藏信息全部输出, 查全率和查准率都比较高。该方法除了在题名过简、 过繁或不确定时被采用外,还常用在查重外国著者的 著作。这是由于同一部外国作品往往因译者不同而产 生不同题名,或有的虽同名但字不同。-4o如果只是一味 进行题名查重,那么势必会造成漏检。需要配合责任 者查重。
在使用责任者查重外国著作时,还有一点特别注 意因为外国责任者“姓“、“名”需倒置著录,如 《Coastal systems》一书,责任者为Simon K Haslett.。但提供检索点的USMARK字段1001#,作 者著录为:Haslett,Simon K.,我们在进行责任者查 重时l需输人”Haslett,Simon K.“,而不是Simon K.Haslett.。当然,为避免漏检,我们不妨将错就错, 两种方式都试试。
对于那些著作多的责任者,如鲁迅、莎士比亚等, 如果以责任者为检索点查重,计算机会命中大量的记 录,逐条查找反而麻烦,这时宜选择其他查重方式。
2.3 ISBN查重
用ISBN查重,可操作性强,简单易行。但是,由 于ISBN自身使用上的混乱、编目员的错误输人和计算 机软件系统等问题,都会影响到ISBN查重的效果。具 体有以下几种情况.
一是对ISBN认识的不一致。ISBN标准的制定者 在说明中明确阐述.“目的在于使在中国注册的出版社 所出版的每一种图书的每一版本都有一个世界性唯一 标识代码…。”N J但是由于各个出版社运用上的不统 一,造成一个ISBN被几种图书共用或一种图书有几个 ISBN的现象。例如,笔者在编目时发现,一套渔业船 舶检验系列教材,由5种图书构成,《渔船检验法规与 执法基础》、《渔船船体及船舶设备》、《渔船轮机及电 气设备》、《渔船检验项目》、《渔船检验程序》,5种图 书共用7—5027—6153—5。在用ISBN查重时,就会 检索出5种图书。是否丛书可以共用一个ISBN呢7每 个出版社在这个问题上处理不一样。有的出版社把一 套丛书理解成一种书,从而共用一个ISBN,而有的出 版社则丛书中的每一种书都有不同的ISBN。
二是同一种书的不同印刷形式、装帧形式和开本 有不同的ISBN。题名、责任者、内容完全相同,只是 因为外表的不一样,因而具有了不同的ISBN。在这种 情况下,只从ISBN查重的话,必然漏检。
三是同一种图书的不同版本有不同的ISBN。因此 遇到版本不同的书,查重时不宜用ISBN。但是不同版 本如果内容作了修改,可以认为是不同种书。
3结语
编目查重工作枯燥、烦琐,但是非常重要。这就 要求我们编目人员不但具有相当的专业素质,还要在 工作中逐步摸索,掌握规律,在查重过程中灵活采用 各种方法,多角度、多方面地查询,从而更好地进行 馆藏资源建设。

相关文章:一种基于网页指纹的网页查重技术研究