探究turnitin相似度检测原理

日期：2018年04月24日编辑：ad200901081555315985 作者：无忧论文网点击次数：1520

论文价格：免费论文编号：lw201804241628106908 论文字数：860 所属栏目：Turnitin检测

论文地区：中国论文语种：中文论文用途：心得体会 comments

今天我们来研究一下关于turnitin相似度检测原理，许多小伙伴都很想揭开这个系统神秘的面纱，也是为了能更好的通过turnitin论文检测，另一个方面也是方便通过sci论文查重。下文是一个转自知乎上面评论，我们就权当抛砖引玉。
上截图前我们先确定一下分析的方法：首先分成两大类即citation和quotation，因为citation有些复杂所以先说quotation，再一点点的测试citation。以某论文里的一处quotation为例，并佐以Turnitin的分析：
这段quotation已经被Turnitin检测到，然后是Turnitin给出的理由：

我们可以发现Turnitin是有理有据的，然后Turnitin提供了与这段类似的其它essay。

我们可以发现Turnitin是很神奇的啊，他仿佛就是所有大学生的essay云啊，可以猜测Turnitin应该也是基于大数据挖掘的某种东西。
以下是他判定的相似率。

其实还是要强调一点，Turnitin检测的是相似度不是抄袭度，所以我们还应该以一个平常心去面对。
接下来是分析citation了，相信这才是题主最关心的，于是我们做个试验将刚才的quotation改成citation。

1.首先我们改变句子的语序和主被动看看能否被检测出来，先上图

这段话中我们改变了整体句子的语序，可见如果只是简单的换下先后位置是没有用的，依然能检测出来，但当我们改变句子语义并变换动词后‘lead’后就会发现Turnitin不会把他当做相似内容，即使使用了相同的名词alliances and circumstances，甚至名词位置顺序不变都不会再被计入相似度内。我们再来看另一种，如果将原先是一段的句子拆分成两个分别放在不同段落会怎样呢？

原谅小编在这偷了个懒，可见Turnitin也不傻依然会被检测到，而且还会被归为同一类。
接着是Turnitin走流程的提供的分析。

再然后是Turnitin给的有相似段落文章的地址。

为了检测动词是不是至关重要的被检测相似度的依据我们来换个词代替flow并将此句子变成被动，但意思可能就变了，唉答主英语水平有限....

可见动词并不是关键词，关键的应该还是英文的逻辑，假如我们改变其中名词的顺序会发生什么呢？让我们测试一下。

我们可以发现在改变了单词顺序的情况下Turnitin已经不再把这段话算作相似段落了。至此相信大家应该都明白了些什么了吧。
总结一下就是，Turnitin检测相似度的原理显然不同于所谓的中文字数的重复检测原理，Turnitin检测的是句子在语法上的逻辑，这与单词是否重复是没有关系的，只要你使用了不同的逻辑来表达相同的话就算你重复的单词再多也是不会被检测出来的。