做网站要主要的百度分词技术

网络技巧 网站应用 分类:[default] 更新日期: 2015-10-16
百度分词一直被seoer们研究的话题,看完这篇文章你就好发现不错,作者的目的就一个宣传自己的站,并说出一点技巧,我们累积多了,水平也就慢慢高了
百度自称是全球最大中文搜索引擎,最了解国内网民的搜索习惯,做为中国搜索引擎的老大,很多草根站长一直在研究的它的搜索技术和排名算法,还有不少站长兄弟姐姐还要靠它的流量吃饭,为此草根网站的站长们对它是又爱又恨,百度能带来很大的流量,又会无情的K站或降权。  
好的,那咱们说说百度的分词技术,可能小弟有说的不对地方,请大家拍砖头,希望大家共同进步。没有研究百度分词前不明白百度为什么比google强大.其实分词也就是切词,百度是否拿来一句中文字符串拿来随便切一下呢,当然不会。那么怎么才满足被切割的条件呢?通过下面的实验就会发现如果字符串只包含小于等于3个中文字符的话,那就保留不动,比如:"牵引器"这个词,前提是一个完整的词,百度是不会切分的,当字符串长度大于4个中文字符的时候,百度的分词程序就会启动了。例如"牵引器价格",看看返回结果中标为红字的地方,不难看出来,查询已经被切割成“牵引器”,“价格”两个单词了,再试着换一个词。例如:我们来看"衡水牵引器",百度里提交查询一下,发现标红的关键字都是每一个是"牵引器","衡水",连续出现的情况,可以看到将"牵引器"与"衡水"切分成两个词,如果我们搜"衡水助康医疗器械"呢,发现标题是没有,网页内容比较完整是"衡水助康医疗器械",可能是这个网站还没收录的原故,这个长尾词被切成了"衡水"/"康医疗器械".  
那现我们在来研究一下百度是分词算法,通过几年的发展,百度的分词算法已经算是相当成熟了,这其中也少不了SEOER 的功劳,有一位SEOER的前辈说过:"百度的算法有简单的有复杂的,有正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。“让我们总结一下吧,这里面也有我个人的猜测, 百度拥有一个强大的词汇数据库,里面有我们通用所用的各种词语比如"人名,地名,产品的名称",举个例子"王元哲","衡水","牵引器",这些都是词库中有的,在切词时将专有名称切出,如"助康"这个词,词库中没有,下面的采用双向最大匹配分词算法,假如正向和反向匹配分词结果一致当然最好,就可直接输出即可;如果两者不一致,正向匹配一种结果,反向匹配一种结果.  
百度一直自称是全球最大中文搜索引擎,但分词技术也并无特殊,也许就是因为百度拥有一个超大的专用词典,这个专用词典登录了人名(比如压滤机),厂家名称(比如压滤机生产厂),部分地名(比如阜城等),网址(http://www.xiaoshuo8.net/),并且这个词典在不断的扩充一些新词,一些新词不断的被收录,这就比google强大的一个方面,google在于分词来说,及词库明显比不上百度,这正是google本身要加强的地方. 

> 本站内容系网友提交或本网编辑转载,其目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时与本网联系,我们将在第一时间删除内容!

相关文章
  • CSS3实现动态翻牌效果仿百度贴吧3D翻牌一次动画特效
    CSS3实现动态翻牌效果仿百度贴吧3D翻牌一次动画特效
    本文主要分享一个利用CSS3新特性transform,实现3D翻牌的特效,有需要的小伙伴可以参考下.今天分享一个CSS3制作的翻牌效果,效果如下图所示,所过把把这个效果应用于相册肯定会很炫的.呵呵,超酷啊. 一.HTML代码: 因为是CSS3实现,所以大家可以看到没有任何的JS代码.ul为一组图片,每个li中有个a(因为我们希望可以跳转),a中包含两个div ...
  • 百度UEditor修改右下角统计字数包含html样式
    百度UEditor修改右下角统计字数默认只统计前台所见的文字个数,如何让右下角统计字数包含html样式,需要的朋友可以参考下百度UEditor修改右下角统计字数默认只统计前台所见的文字个数,为了便于展示实际保存的时候是保存的包含html标签的,所以右下角的统计字数功能需要修改 /** * 计算编辑器当前内容的长度 * @name getContentLeng ...
  • PHP微信开发之查询微信精选文章
    这篇文章主要为大家详细介绍了PHP微信开发之简单实现查询微信精选文章的相关资料,感兴趣的小伙伴们可以参考一下查询微信里的一些精选的,点击量比较大的文章. 别忘记申请apikey(登录百度账号即可获取),要完成的功能是: 1.用户回复"文章",公众号要返回文章分类的编号(比如9.科技). 2.用户回复wz9,1,腾讯     则能返回科技类 ...
  • PHP微信开发之查询城市天气
    PHP微信开发之查询城市天气
    这篇文章主要为大家详细介绍了PHP微信开发之简单实现查询城市天气的相关资料,感兴趣的小伙伴们可以参考一下PHP微信查询城市天气,首先,你需要找到一个获取天气的API,此处,我用的是百度的apistore,申请和使用API的网址:http://apistore.baidu.com/apiworks/servicedetail/112.html  登录百度账号, ...
  • 解读ASP.NET5&MVC6系列教程1:ASP.NET5简介
    这篇文章主要介绍ASP.NET 5简介以及对各个版本号进行解释,ASP.NET 5中新的变化,需要的朋友可以参考下.ASP.NET 5简介 ASP.NET 5是一个跨时代的改写,所有的功能和模块都进行了独立拆分,做到了彻底解耦.为了这些改写,微软也是蛮 拼的,几乎把.NET Framwrok全部改写了一遍,形成了一个.NET Core的东西. 在.NET C ...
  • Yii2rbac权限控制之rule教程详解
    Yii2rbac权限控制之rule教程详解
    这篇文章主要介绍了Yii2 rbac权限控制之rule教程详解的相关资料,非常不错具有参考借鉴价值,需要的朋友可以参考下在我们之前Yii2搭建后台并实现rbac权限控制完整实例教程中,不知道你曾经疑惑过没有一个问题,rule表是做什么的,为什么在整个过程中我们都没有涉及到这张表? 相信我不说,部分人也都会去尝试,或百度或google,到头来也会竹篮打水,这部 ...
猜你喜欢