分词算法是什么

更新时间：2025-01-07 18:51:50

分词算法是文本挖掘的基础，通常对整个模型的效果起着较大的决定作用；分词算法常用的两种运行方式：

1、用户搜索及匹配。

例如：我们在百度搜索一个词 “手机回收”，那么百度会先把这个词分为手机和回收两个词这个时候呢，百度会先在库中搜索手机这个词然后进行第一轮的筛选。

把网页当中没有手机这个词的去除，只保留带有手机这个词的结果，之后再从已筛选出来的网页中，筛选出带有回收这个词的页面，然后在所得结果里面根据页面评分给用户进行排序。

2、网页主题计算

前面启蒙博客也讲过，百度蜘蛛只是一个机器，并不能向人一样去思考，而在处理文章的时候，百度蜘蛛则会把文章也进行分词去处理，如过文章里手机这个词出现频率比较多，也就是所说的关键词密度，那么这个页面也就会定性为手机方面的文章。

搜索引擎是通过分词算法来计算网页的，如果我们能够合理地利用分词算法进行网页布局，会让网页将会有一个很好的得分。

中文分词算法大概分为三大类：

第一类是基于字符串匹配，即扫描字符串，如果发现字符串的子串和词典中的词相同，就算匹配，比如机械分词方法。这类分词通常会加入一些启发式规则，比如“正向/反向最大匹配”，“长词优先”等。

第二类是基于统计以及机器学习的分词方法，它们基于人工标注的词性和统计特征，对中文进行建模，即根据观测到的数据(标注好的语料)对模型参数进行训练，在分词阶段再通过模型计算各种分词出现的概率，将概率最大的分词结果作为最终结果。

常见的序列标注模型有HMM和CRF。这类分词算法能很好处理歧义和未登录词问题，效果比前一类效果好，但是需要大量的人工标注数据，以及较慢的分词速度。

第三类是通过让计算机模拟人对句子的理解，达到识别词的效果，由于汉语语义的复杂性，难以将各种语言信息组织成机器能够识别的形式，目前这种分词系统还处于试验阶段。