湘潭seo:搜索引擎中文分词技术详解
来源:原创 阅读:1865 发表时间:2021-05-13
湘潭seo固执地认为,做seo需要从底层做起,了解搜索引擎的中文分词技术,这可以帮助我们了解seo技术的本质,更好地优化网站。另外,除了本文提到的分词技术,其他知识点,比如搜索引擎原理,也是需要掌握的[...]
湘潭seo固执地认为seo需要从底层做起,了解搜索引擎的中文分词技术,这可以帮助我们了解seo技术的本质,更好地优化网站。此外,除了本文提到的分词技术外,搜索引擎原理等其他知识点也是必不可少的。
想成为专业的seo,湘潭SEO认为搜索引擎的分词思维一定要掌握,因为只有掌握了分词思维,才能定位搜索引擎喜欢和用户喜欢的关键词,进而在更深层次挖掘SEO技术。
可能有些新手朋友看起来中文分词的分词理论比较复杂,但你和必要词理论完全一样,没有太大意义。你只需要知道计算方法,知道如何做好每一个网页的分割。现在我们来详细介绍一下百度的中文分词技术。
1。什么是汉语分词?
湘潭seo从相关渠道了解到,百度分词技术是百度根据用户经过查询处理后提交的关键词串,使用各种匹配方法的技术。
中文分词是指将一个汉字序列分割成单个单词,分词是指将连续的单词序列按照一定的规范重新组合成单词序列的过程。所谓分词,就是把单词连在一起的汉语句子分割成几个独立的、完整的、正确的单词,单词是最小的、独立的、有意义的语言成分。
我们知道,在英语写作中,空是作为单词之间的自然定界符,而在汉语中,只有单词、句子、段落可以简单地用明显的定界符来划界,而单词没有形式上的定界符。虽然英语也有分短语的问题,但在单词层面,汉语比英语复杂难懂得多。
中文分词是文本挖掘的基础。成功的中文分词可以达到计算机自动识别句子意思的效果。
中文分词技术属于自然语言处理技术的范畴。对于一句话,人们可以通过自己的知识理解什么是单词。什么不是话?但是计算机怎么理解呢?其处理过程是分词算法。
计算机的所有语言知识都来源于机器词典(给出单词的所有信息)、句法规则(描述单词在各种词性组合中的聚合现象)以及单词和句子的语义、语境和语用知识库。只要中文信息处理系统涉及语法和语义(如检索、翻译、摘要、校对等。),需要以文字为基本单位。汉字由句子转换成词后,可以进行句法分析、语义分析、语义分析等。
【/s2/】二、湘潭seo详细讲解分词的思路和原理。
首先,我们需要知道搜索引擎的工作原理是把每个网页的内容按照文字输入数据库。比如你的文章标题是“SEO博客提供免费SEO实践培训教程”,那么搜索引擎就把这个标题分为已经存储在搜索引擎词典中的单词和用户经常关注的单词,比如:,SEO,博客,培训,提供,免费,SEO教程,SEO实践培训,免费SEO教程,免费SEO培训,SEO培训等。
只需要大家理解这种思维就可以了,所以对于搜索引擎来说,把句子划分成每个单词或者单个单词是第一页,也是最重要的一步,因为只有把单词划分好了,价值信息才能准确的反馈给用户。
对于一个专业的网站优化器来说,中文分词的方法也是很重要的,因为只有把每一个需要优化的词都分段后,才能更好的做好每一个网页的优化工作,才能更清晰的告诉搜索引擎这个网站代表了什么来提高搜索引擎的排名,也能清晰的告诉用户,你的网页要表达的内容是SEO服务以来最深刻的体验,往往一个网页的分词是错误的。再多的努力都是白费的,因为做SEO推广的企业效率很高,低效率意味着投资和回报率太低,这是企业合理利用资源的错误策略。
3。中文分词技术在搜索引擎中有哪些应用?
在自然语言处理技术上,汉语处理技术远远落后于西方处理技术。许多西方的处理方法在中文中不能直接采用,因为中文分词是其他中文信息处理的基础。搜索引擎只是中文分词的一个应用,其他如机器翻译(MT)、语音合成、自动分类、自动文摘、自动校对等。都需要分词。
因为中文需要分词,可能会影响一些研究,但也给一些企业带来了机遇,因为国外的计算机处理技术需要先解决中文分词的问题。
分词的准确性对于搜索引擎来说非常重要,但是如果分词的速度太慢,即使准确率很高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理上亿的网页,如果分词花费的时间太长,会严重影响搜索引擎的内容更新速度。因此,对于搜索引擎来说,分词的准确性和速度需要满足很高的要求。
四.特殊性。
据了解,在计算机网络上,中文分词技术之所以存在,是因为中文在基本语法上有其特殊性,湘潭seo总结的特殊性体现在:
1.与以英语为代表的拉丁语言相比,英语使用空作为自然的分隔符,而汉语继承了古代汉语的传统,所以词与词之间没有分隔。
在古代汉语中,除了连续词、人名、地名之外,词通常是单个汉字,所以当时没有必要写分词。但现代汉语中,双字或多字很多,一个字不再等于一个字。
2.在汉语中,“词”和“短语”的界限是模糊的。虽然现代汉语的基本表达单位是“词”,而且多为双词或多词,但由于人们的理解水平不同,很难区分词与短语的界限。
比如“吐槽者受罚”,“吐槽者”是一个词或者一个短语,不同的人会有不同的标准,同样的“海”和“酒厂”等等。即使是同一个人也可能做出不同的判断。如果中文真的需要用分词来写,会有混乱,难度很大。
事实上,中文分词方法并不局限于中文应用,也适用于英文处理,如手写识别。词与词之间的空格清晰,中文分词方法可以帮助区分英文单词的边界。
V .分词算法的分类。
现有的分词算法可以分为三类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。根据是否与词性标注结合,也可以分为简单分词方法和分词标注结合的综合方法。
1.基于字符串匹配的分词方法
这种方法,也称为机械分词方法,根据一定的策略,将待分析的中文字符串与“足够大”的机器词典中的条目进行匹配。如果在字典中找到某个字符串,则匹配成功(识别出一个单词)。
根据扫描方向的不同,字符串匹配分词方法可以分为正向匹配和反向匹配;根据不同长度的优先匹配,可分为最大(最长)匹配和最小(最短)匹配;几种常用的机械分词方法如下:
(1)正向最大匹配法(从左到右)
首先,根据句子大致将文本分成一个句子,然后将每个句子切割成单个单词,并根据树形结构存储在字典中。比如这句话“春天还会远吗?”首先在“spring”开头查找单词,然后按照字典树结构往下走一个节点,在“spring”后面查找单词“day”,然后再沉入另一个节点,查找“return”后面跟着“day”
(2)反向最大匹配法(从右向左)
就是找到可以反方向匹配的词,比如网购商城串,它会在网上前面向左延伸,结果会是地域词,比如上海或者北京,更精确的定义词会出现在商城前面,比如爱家、爱女人等高度具体的词。
(3)最小分割法
为了最大限度地减少每个句子中切出的单词数量,需要使用各种其他语言信息来进一步提高分割的准确性。
(4)双向最大匹配法(从左到右、从右到左扫描)
正向最大匹配法和反向最大匹配法的结合构成了双向匹配法,就是从左到右挖掘比较匹配的结果值。
以上方法也可以相互结合。例如,正向最大匹配法和反向最大匹配法可以结合形成双向匹配法。由于汉语词汇的特点,正向最小匹配和反向最小匹配很少使用。
一般来说,反向匹配的分割精度略高于正向匹配,遇到的歧义较少。统计结果表明,仅使用正向最大匹配的错误率为1/169,仅使用反向最大匹配的错误率为1/245。然而,这种精度远远不能满足实际需要。实际分词系统以机械分词为主要手段,需要利用其他各种语言信息进一步提高分词精度。
一种方法是改进扫描方式,称为特征扫描或标记分割。首先在待分析的字符串中识别并分割出一些特征明显的单词。以这些单词为断点,可以将原始字符串分割成更小的字符串进行机械分词,从而降低匹配错误率。
另一种方法是将分词和词性标注结合起来,利用丰富的词性信息来帮助分词决策。此外,在标注过程中,对分词结果进行测试和调整,大大提高了分词的准确性。
对于机械分词方法,可以建立一个通用模型,并且有这方面的专业学术论文,这里就不详细讨论了。
2.基于理解的分词方法
这种分词方法通过让计算机模拟人对句子的理解来达到单词识别的效果。其基本思想是在分词的同时分析句法和语义,利用句法和语义信息处理歧义。它通常包括三个部分:分词子系统、句法语义子系统和总控部分。
分词子系统在总控部分的协调下,可以获取关于单词和句子的句法和语义信息来判断分词的歧义性,即模拟人理解句子的过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的普遍性和复杂性,很难将各种语言信息组织成机器可以直接读取的形式。因此,基于理解的分词系统还处于实验阶段。
3.基于统计的分割方法
从形式上来说,一个单词是单词的稳定组合。所以在语境中,相邻词同时出现的次数越多,就越有可能形成一个词。因此,词与词共现的频率或概率更能反映一个词的可信度。可以统计语料库中相邻词的组合频率,计算它们的共现信息,定义两个词的共现信息,计算两个汉字X和y的相邻共现概率。
这种方法只需要统计单词在语料库中的出现频率,不需要划分词典,因此也称为无词典分词或统计单词检索方法。但是这种方法也有一定的局限性,往往会提取一些共现频率高但不是词的常用词,比如“这个”“一个”“一些”“我的”“很多”等。,对于常用词,
实用的统计分词系统使用一个基本的词词典(常用词词典)进行字符串匹配分词,同时使用统计的方法识别一些新词,即将字符串频率统计与字符串匹配相结合,既发挥了匹配分词快速高效的特点,又利用无词典分词结合上下文识别新词,自动消除歧义。
另一种是基于统计机器学习的方法。首先给出大量的分割文本,利用统计机器学习模型学习分词(称为训练)的规则,从而实现未知文本的分割。众所周知,汉语中的每个词单独作为一个词使用的能力是不同的。此外,有些词经常作为前缀出现,而另一些词经常作为后缀(“着”和“性”)。结合两个词是否暂时成为词的信息,这样就获得了大量的与分词相关的知识。这种方法就是充分利用汉语构词的规律来分词。这种方法最大的缺点是需要大量的语料库来支持单词,训练过程中的时间空成本极高。
对于哪种分词算法更准确,目前还没有定论。对于任何一个成熟的分词系统来说,不可能仅仅依靠一种算法,而是需要整合不同的算法。比如海量科技的分词算法采用“复合分词法”。所谓复合分词,是指像中西医结合这样的机械方法和知识方法的综合应用。对于成熟的中文分词系统,需要多种算法综合处理问题。
VI .搜索引擎分词的技术难点。[/s2/]
有了一个成熟的分词算法,能轻松解决中文分词问题吗?事实远非如此。汉语是一种非常复杂的语言,这使得计算机更难理解汉语。在中文分词过程中,有两大问题没有完全突破。
1.模糊识别
歧义指的是同一句话。可能有两种或两种以上的分割方法。歧义主要有两种:交集型歧义和组合型歧义,比如肤浅型。因为“面”和“面”都是词,所以这个短语可以分为“面”和“面”,这就叫做交集歧义(cross歧义)。
这种交集歧义很常见。其实上面举的“和服”的例子,就是交集歧义导致的错误。“妆衣”可分为“妆衣”或“妆衣”。因为没有人知道,所以计算机很难知道哪个方案是正确的。
交集型歧义比组合型歧义更容易处理,组合型歧义必须根据整句来判断。比如在“这个门把手坏了”这句话里,“把手”是一个字,但是在“请把手拿开”这句话里,“把手”不是一个字;在“将军任命一名中将”这句话中,“中将”是一个词,但在“三年后产量将翻一番”这句话中,“中将”不再是一个词。这些单词怎么用电脑识别?
如果交集型歧义和组合型歧义可以用计算机解决,那么歧义中还有一个难题,那就是真歧义。真正的歧义是给出一个句子,人们无法判断哪个应该是词,哪个不应该是词。比如“乒乓球拍拍卖结束”可以分为“乒乓球拍卖完”或者“乒乓球拍拍卖结束”。如果上下文中没有其他句子,恐怕没人知道。
2.新单词识别
命名实体(人名、地名)、新词、专业术语称为未注册词,即未收录在分词词典中但确实可以称为词的那些词。
最典型的就是人名,很容易让人理解。在“王去了广州”这句话中,“王”是一个词,因为它是一个人的名字,但计算机很难识别它。如果把“王”作为一个词列入词典,那么世界上就有这么多的名字,而且一直都有新的名字。把这些名字包括在内,不划算,也不庞大。
湘潭seo总结,除了人名,还有机构名、地名、产品名、品牌名、缩写、省略号等。,这些都是很难处理的,而这些只是人们经常使用的词语。因此,对于搜索引擎来说,分词系统中的新词识别非常重要,新词识别的准确性已经成为评价一个分词系统质量的重要标志之一。
湘潭seo点评:
对于搜索引擎来说,最重要的不是找到所有的结果,因为在几十亿的网页中找到所有的结果没有多大意义,也没有人能全部看完。最重要的是把最相关的结果放在最前面,也叫相关性排名。中文分词是否准确往往直接影响搜索结果的相关性排名。由此可见,相关性是seo的一个要点。从定性分析来看,搜索引擎有不同的分词算法和不同的词库,会影响页面的返回结果。
标签: