欢迎您来到启航,主要业务有沈阳网站优化,沈阳网站推广,沈阳seo优化,沈阳关键词优化,沈阳网站制作等业务.

怎样分辨原创与伪原创

2018-01-24

1.代码噪音

因为每个网站的模板都不同,代码也不同,各种信息混合在一起,如果能找到正文就是搜索引擎第一要处理的。

一般Googl都会通过对代码的布局和噪音比例进行区分,哪些是导航,哪些是正文,并可以对一些典型的代码进行忽略。那么我做模板的时候,就要注意了这里有个纠结点,就是整页面降噪,方便搜索引擎进行正文的确认,但是正文区要适当的加燥,增加搜索引擎识别重复性的难度。

2.相似度

相似度是搜索引擎去重用的最多的算法,用的比较多的一种是TF/IDF算法,这个也是计算相关性的算法,TF-IDF主要意思是说:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

TF词频(TermFrequenc指的某一个给定的词语在该文件中出现的次数。

IDF反文档频率(InversDocumentFrequenc指的如果包括词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。


当一篇文章根据TF/IDF进行计算后,形成了一个多维的向量,这个向量就是这篇文章的内容特征向量,当两篇文章的特征向量趋于一致的时候,认为这两篇文章的内容接近,如果一致则说明是重复的。

关于TF/IDF与向量算法的详细请参看 Googl黑板报的数学之美12-余弦定理与新闻分类。

3.数据指纹

当搜索引擎通过相似度把文章收集起来后,要判别一下是否是重复文章,经常用的就是数据指纹,数据指纹有很多种算法,罕见的比如讲文章的标点符号提出,进行对比,很难想象有两篇不同的文章,标点符合是一致的还有对向量进行对比,也就是TF词频(关键词密度)等等来判断。

这时候你可以想象出,现在很多伪原创工具,只是把关键词进行了替换,想关键词替换后,标点符号指纹是不变的甚至连TF词频都不变。还有对文章进行段落的重拍,这个的确是打乱了标点符号,但是向量和词频问题依然存在那么这样的伪原创工具有没有价值你就可想而知了可能对于百度还是有作用的。

沈阳启航网站优化成立于2011年,为企业提供一套 完整网络营销解决方案,包括网站域名+网站空间+网站策划+网站设计+网站建设+网站优化+网站运营+网站推广+网站维护等一站式服务。

( 责任编辑:SEO优化-启航营销 ) 
本文由网站优化首选沈阳启航营销(http://www.qihangweb.com/)编辑,如果您还想了解更多关于SEO优化的文章,请点击查看优化知识常见问题的其它文章,转发请注明来源及版权归属。
沈阳网站推广沈阳关键词优化服务商,服务咨询电话:024-62769293
详情访问官网:www.qihangweb.com 网站推广,高端网站制作,营销单页策划,关键词优化排名,模板网站制作,价格优惠多多 ,多种套餐服务选择,有买有送。
官方推荐关键字:沈阳网站推广 - 沈阳网站优化 - 沈阳关键词优化 - 沈阳优化公司 - 沈阳seo优化
【网络推广服务商】沈阳启航科技有限公司 024-62769293 www.qihangweb.com

文章标签: 沈阳网站优化方案  沈阳网站优化技巧  沈阳关键词优化建议    沈阳seo优化建议