论文查重 | 论文文献库 | 术语查重探讨

术语查重探讨

来源:论文查重 时间:2019-07-29 16:11:23

术语(中国习惯称“科技名词”)论文查重工作是术语审定工作中的必要环节,对保证术语的单义性至关重要。笔者在全国科学技术名词审定委员会(以下简称“全国科技名词委”)曾从事多年名词审定工作,也曾多次参与国家电工术语标准的审定工作,对术语查重工作的重要性有切身体会;术语查重工作也具有一定的复杂性—笔者从2003年开始从事术语审定工作,到目前为止,曾接触或了解的术语查重程序至少已经有3个,这些查重程序的功能逐渐增强,多年来,为规范科技名词做出了重要贡献。但“百尺竿头,更进一步”,术语查重程序还有待继续完善。事实上,全国科技名词委审定公布的科技名词数据库和国家术语标准中都有一些表示相同概念但定名却不同的术语,一部分是文字录人有误或各学科已约定俗成、不宜统一所致,另一部分则与查重处理不够完善有关。由此可见,术语查重工作在应用上有其重要性和复杂性,还没有得到妥善解决,因此,这是个值得认真研究的课题。术语的名称包括中文名和英文名(对多语种术语数据库而言,则更有用多种语言表示的术语名称)。中文名包括正名(规范名,有且仅有一个)和异名(不一定都有)。异名包括全称、简称、又称、俗称、曾称等[|]。英文名虽没有正名和异名的说法,但也有与中文名相对应的英文名(中文正名均有对应的英文名,但中文异名不都有)。查重,顾名思义,是查找重复、相同之处。术语查重,从微观上来讲,自然就是查找两个术语中各组成部分是否相同以便进一步确定这两个术语是否表示相同概念。因术语包括名称和定义两部分,所以术语查重自然就应该包括术语名称查重和定义查重两部分。由于术语定义查重比较复杂,所以,目前大多数术语数据库都没有开展此项工作。以术语名称作为查重对象,看似合情合理,但深人分析,便可发现,这种做法也有不完善之处:有些术语,虽然其名称并不相同,但看起来非常相似,用术语名称作为查重对象却查不出来。这样的例子参见表1。以上都是在审定过程中出现的术语,而不是已经正式公布的术语,这些术语已经由以术语名称为比较对象的查重程序做过查重,查重结果显示是不重复的术语。但由表1可见,编号为奇数和偶数的Aa相邻两个,,明显能看出其,名或英文確称作为查重,却其共性。阶段用查重辦无法发的术语,只做按拼音排細索引耐财有可能发现,这艘fij除其中-个术语。細要么在鎌的术语位置补充-个术语一但补充一个合适的术语并不容易’要么#&会非常麻烦。而无论怎么补救,都会影响审定进程。二是对外部查重而言,在查重阶段用查重程序无法发现与已审定公布学科重复的术语,根据上文提及的查重处理原则,会被当作新术语而收录到术语数据库中,但我们却对此毫不知情,只有在用户偶然用“包含”等条件在数据库中搜索术语时才能发现。由此可见,以术语名称作为查重对象,虽然看似合情合理,但其实并不妥当,而且会造成不良影响。综上所述,笔者建议以删除术语名称中的空格和符号而形成的连续文字串为对象进行术语查重,这样可以发现文字相同而空格和符号各异的术语,从而实现更精确的查重。对学科“内部查重”而言,就可以在做索引之前就发现这些重复的术语,减少无效劳动,加快审定进程。对学科“外部查重”而言,建议把已审定公布学科的术语数据库和之前已经做过外部查重处理的所有学科合在一起作为一个外部查重数据库,待查重的学科要与这个数据库做外部查重。每个学科查重处理完毕,就合并到这个数据库中,形成新的外部查重数据库,然后下一个学科才能与这个新的外部查重数据库开展查重和协调处理工作。这两个建议都可以减少术语数据库中同义异形的术语,维护术语审定工作的严谨性和权威性。另外,根据以上建议,尤其对目前已处于预公布阶段的学科和已经做过查重处理但尚未到预公布阶段的其他学科,由于这些学科还是用术语名称为对象做的查重,查重结果不够精确,所以建议把这些学科的术语合在一起作为一个大学科,开展以术语名称中的文字串为对象的内部查重,并与已审定公布学科的术语数据库开展以术语名称中的文字串为对象的外部查重。以上是笔者对术语查重工作的浅见。对以术语名称中的文字串为对象的查重思想也通过MicrosoftExcel2007予以实现,并已在多个学科的内部查重工作中得到证实,可发现很多查重程序找不到的定名各异的同义术语。希望此文能对广大术语工作者,尤其是多语种术语数据库工作者有所帮助。

相关文章:低重复率稿件中的学术不端行为检测与防范