知网成翟天临论文抄袭事件“照妖镜”比知网更厉害的竟然是它?

作者:  时间:2019-02-21  热度:

  最近,翟天临论文抄袭事件在网上流传甚广。博士生毕业却说“知网是什么东西”,不禁让广大网友质疑他“学位造假”、“论文不是自己写的”。为找到真相,网友们上天入地、穷尽各种办法找到了他的两篇论文,结果其中一篇论文的查重率竟高达40%,论文抄袭事件由此在网上持续发酵。

  知网,是国家知识基础设施(National Knowledge Infrastructure,NKI)的概念,由世界银行于1998年提出。中国知网,即CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目,由清华大学、清华同方在1999年6月发起,是全球最大的中文数据库。

  根据知网发布的最新数据,CNKI发布的《中国知识资源总库》覆盖了学术期刊、专利、国内外标准、科技成果、报纸、年鉴、优秀博硕士学位论文、会议论文、国际文献等丰富信息资源,文献总量超过2亿篇,每日更新约1万条,目前已经向海内外30000多个政府、高校、科研、医院、企业、中小学等机构4000万人提供知识信息服务,十分权威。

  知网可以提供文献检索、数字检索、翻译助手、图形搜索在内的多种知识检索服务。可以说,在中国,每个读过大学以上学历的人,不可能没听说过知网。写论文、交论文、查重,知网都是必备神器。

  查重是什么技术原理呢?即把论文导入查重系统知识库,通过与库内收录的文献资料进行数据比对,排查出论文中重复的文字内容,当达到查重软件设置的查重规则上限时,就会被认定重复,计入重复率。

  现如今,社会上流传着不少规避论文查重的方法。常用的词语删减、将英文文献翻译为中文、变更数据图表等取巧方法已大部分能被知网识别,但如果遇到全部改写、改变描述方式、打乱段落顺序、删除关键词、关键句等全盘打乱改写的情况,目前依然很难被认定为重复。

  过热故障中的过热与变压器正常运行下的发热是有区别的,正常运行时的其发热源来自于绕组和铁芯,即铜损和铁损,而变压器过热故障是由于受到有效热应力而造成的绝缘加速劣化。

  过热故障中出现的过热容易与变压器正常运行下的发热相混淆,后者是因为其绕组和铁芯会出现铜损和铁损的现象,这是正常运行过程中的发热,而变压器过热故障是受到有效热应力造成的绝缘加速劣化。

  这种情况在知网上很难被认定为重复,但一套强大的软件组合拳从技术层面能识别出这是两个相同的概念:

  KADB是人大金仓自主研发的一款大规模分析型数据库,通过MPP技术可对海量数据进行分析、挖掘和检索,数据处理速度高达PB级(1PB=100万GB)。

  NLP(自然语言处理)是一种人工智能技术,是让机器“理解”人的自然语言。即使面对十分模糊的长长的、晦涩难懂的句子,依然能聪明的进行文字比对、语种比对、语义分析、语义比对、相识度统计及相似度计算等多种应用。同时,NLP还支持无监督下的自我学习,不断提高识别准确度,扩大识别的范围。

  当两个软件联合作业,即使句子被调换语序、改变语法,技术层面依然能判定出为两个相同的概念。

  目前,KADB和NLP软件工具还被广泛应用于人工智能相关场景。尤其KADB还内置地理信息、图计算、聚类、回归、分类等40+种领域算法,可轻松应对人脸识别、车辆轨迹分析、关联关系分析、时空数据分析等典型人工智能应用,被誉为“更懂AI的MPP数据库”。

  全面打乱改写的重复率认定情况目前仍存在较大漏洞。KADB+NLP目前虽从技术层面能实现概念认定,但整个功能的成熟完善乃至实现商用仍有很长的一段路要走。

  未来,还需相关软件厂商多方努力,在完善技术和应用层面下足功夫,弥补查重领域现存的漏洞,使类似翟天临论文抄袭的事件得到有效遏制,让中国的学术之风将会更清明、更纯粹。

美文.分享

人喜欢

上一篇下一篇
猜你喜欢
点击加载更多内容  ↓