1.本发明涉及中文信息自动处理技术领域,尤其是一种消歧分词方法、系统、装置及存储介质。
背景技术:
2.目前已经有很多中文分词器,大致可以分为两类:
3.(1)基于词典的分词器;
4.(2)基于机器学习的分词器。
5.其中基于机器学习的分词器的准确率更高,但也存在以下缺点:
6.(1)准确性依赖于大量语料,若语料不充足则分词效果不理想;
7.(2)分词结果有较高的不确定性,在不同时间下分词的结果可能不一致;
8.(3)性能差,无法应对海量分词需求的场景;
9.(4)对硬件设备的要求较高。
10.基于词典的分词器虽然没有这些问题,但大部分基于词典的分词器不会对词典的类别做区分,或者做了区分,但仅仅作为分词结果的备注属性。当分词结果有歧义时,这类分词器就无法优先对某些类别的词汇分词。例如对“中国人”分词,可以分成“中国/人”,也可以分成“中/国人”,如果不能区分词语类别,“中国”与“国人”的优先级是相同的,那么就可能出现“中/国人”这种不理想的结果。
技术实现要素:
11.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种消歧分词方法、系统、装置及存储介质。
12.本发明所采取的技术方案是:
13.一方面,本发明实施例包括一种消歧分词方法,包括:
14.获取待分词文本;
15.对所述待分词文本进行分句处理,得到至少一个单句;
16.根据预先配置的中文字典树,对所述单句进行分词处理;
17.获取所有可能的分词结果;
18.采用分词最优解短路算法计算各个所述分词结果的分值;
19.筛选所述分值最高的分词结果为消歧分词结果。
20.进一步地,所述对所述待分词文本进行分句处理,得到至少一个单句具体为:
21.利用分词器,以标点符号或者空白字符作为分隔符进行分句,得到至少一个单句。
22.进一步地,所述根据预先配置的中文字典树,对所述单句进行分词处理这一步骤,包括:
23.根据预先配置的中文字典树,利用正向最大匹配算法对所述单句进行分词处理,得到第一组分词结果;
24.根据预先配置的中文字典树,利用逆向最大匹配算法对所述单句进行分词处理,得到第二组分词结果;
25.根据预先配置的中文字典树,利用双向最大匹配法对所述单句进行分词处理,得到第三组分词结果;
26.根据预先配置的中文字典树,利用设立切分标志法对所述单句进行分词处理,得到第四组分词结果;
27.根据预先配置的中文字典树,利用最佳匹配法对所述单句进行分词处理,得到第五组分词结果。
28.进一步地,所述根据预先配置的中文字典树,对所述单句进行分词处理之后,还包括:
29.将所述第一组分词结果与所述第二组分词结果、第三组分词结果、第四组分词结果、第五组分词结果合并,得到分词结果合并集;
30.删除所述分词结果合并集中重复出现的分词结果,得到所述单句对应的所有可能的分词结果。
31.进一步地,采用分词最优解短路算法计算各个所述分词结果的分值这一步骤,包括:
32.根据词典,找出所述单句中所有的可能词,所述分词结果由不同的所述可能词构成;
33.评估各个所述可能词的分值;
34.根据各个所述可能词的分值,统计得到各个所述分词结果的分值。
35.另一方面,本发明实施例还包括一种消歧分词系统,包括:
36.第一获取模块,用于获取待分词文本;
37.分句处理模块,用于对所述待分词文本进行分句处理,得到至少一个单句;
38.分词处理模块,用于根据预先配置的中文字典树,对所述单句进行分词处理;
39.第二获取模块,获取所有可能的分词结果;
40.计算模块,用于采用分词最优解短路算法计算各个所述分词结果的分值;
41.筛选模块,用于筛选所述分值最高的分词结果为消歧分词结果。
42.进一步地,所述分句处理模块具体用于:
43.利用分词器,以标点符号或者空白字符作为分隔符进行分句,得到至少一个单句。
44.进一步地,所述分词处理模块包括:
45.第一分词处理单元,用于根据预先配置的中文字典树,利用正向最大匹配算法对所述单句进行分词处理,得到第一组分词结果;
46.第二分词处理单元,用于根据预先配置的中文字典树,利用逆向最大匹配算法对所述单句进行分词处理,得到第二组分词结果;
47.第三分词处理单元,用于根据预先配置的中文字典树,利用双向最大匹配法对所述单句进行分词处理,得到第三组分词结果;
48.第四分词处理单元,用于根据预先配置的中文字典树,利用设立切分标志法对所述单句进行分词处理,得到第四组分词结果;
49.第五分词处理单元,用于根据预先配置的中文字典树,利用最佳匹配法对所述单
句进行分词处理,得到第五组分词结果。
50.另一方面,本发明实施例还包括一种消歧分词装置,包括:
51.至少一个处理器;
52.至少一个存储器,用于存储至少一个程序;
53.当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的消歧分词方法。
54.另一方面,本发明实施例还包括计算机可读存储介质,其上存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现所述的消歧分词方法。
55.本发明的有益效果是:
56.本发明根据预先配置的中文字典树,对所述单句进行分词处理;减少了内存的占用,获取所有可能的分词结果;然后采用分词最优解短路算法计算各个所述分词结果的分值;最后筛选所述分值最高的分词结果为消歧分词结果;再分词中消除了歧义,提高了分词的准确度和分词效率。
57.本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
58.图1为本发明实施例所述一种常见的英文字典树结构示意图;
59.图2为本发明实施例所述中文字典树结构的示例图;
60.图3为本发明实施例所述消歧分词方法的步骤流程图;
61.图4为本发明实施例所述消歧分词系统的结构示意图;
62.图5为本发明实施例所述消歧分词装置的结构示意图。
具体实施方式
63.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
64.在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
65.在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
66.本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
67.下面结合附图,对本技术实施例作进一步阐述。
68.中文分词:将一个汉字序列切分成一个一个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
69.中文分词词典:由中文常用词语组成的词典,应该保证该词典占用内存较小且查询速度较快。
70.字典树:又称单词查找树、trie树,是一种树形结构,典型应用是用于统计、排序和保存大量的字符串,所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度的减少无谓的字符串比较,查询效率比哈希表高。trie树的核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。
71.字典树有三个基本性质:
72.(1)根节点不包含字符,除根节点外每一个节点都只包含一个字符;
73.(2)从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;
74.(3)每个节点的所有子节点包含的字符都不相同。
75.参照图1,图1示出了一种常见的英文字典树结构,对于每个节点都有指向26个英文字母的指针,如果字符串到某个节点(叶子节点)结束了,那么把该节点的count加一,代表从根节点到当前节点路径上出现的字母所组成的字符串出现过一次。如果不存在以该字符串为前缀的字符串,那么该叶子节点上的26个指针均为null。比如有字符串ae、b、b、bac、c、ca、ceh、ceb、cebg、cebg、f、fi。
76.然而,常见的中文汉字有5万个,如果按照英文字典树结构体来设计,那么每个节点都要存放5万个节点的指针数组,这样会浪费很多空间,因为对于每个节点,5万个指针只用到了极少部分(其他都为null)。因此,参照图2,本实施例设计中文字典树的每个节点都有map(或hash_map),键值为前缀汉字(单个),实值为指向后续汉字节点的指针。和图1所示的英文字典树一样,从根节点到当前节点所经过的汉字连接起来成为某个字符串,对于出现过的字符串,该字符串最后一个汉字所在节点的count加一;例如中文字符串包括:数字、数据、数据集、数据库、数理化、测试、计量、记事本、计算机、计算器,那设计的中文字典树可如图2所示,至于每个节点是使用map还是hash_map,可据具体情况而定。
77.参照图3,本发明实施例提供一种消歧分词方法,包括但不限于以下步骤:
78.s310.获取待分词文本;
79.s320.对所述待分词文本进行分句处理,得到至少一个单句;
80.s330.根据预先配置的中文字典树,对所述单句进行分词处理;
81.s340.获取所有可能的分词结果;
82.s350.采用分词最优解短路算法计算各个所述分词结果的分值;
83.s360.筛选所述分值最高的分词结果为消歧分词结果。
84.本实施例中,首先将要分词的文本按标点符号打散成一个一个的句子。这算是预处理的一个步骤,目的是让要分词处理的句子短,效率更高。毕竟中间有标点符号的词是不存在的。具体地,本实施例中,可采用基于lucene的simpleanalyzer来做,因为simpleanalyzer本身就是为了将文本打散成句子。
85.步骤s330,也就是所述根据预先配置的中文字典树,对所述单句进行分词处理这一步骤,包括但不限于以下步骤:
86.s331.根据预先配置的中文字典树,利用正向最大匹配算法对所述单句进行分词处理,得到第一组分词结果;
87.s332.根据预先配置的中文字典树,利用逆向最大匹配算法对所述单句进行分词处理,得到第二组分词结果;
88.s333.根据预先配置的中文字典树,利用双向最大匹配法对所述单句进行分词处理,得到第三组分词结果;
89.s334.根据预先配置的中文字典树,利用设立切分标志法对所述单句进行分词处理,得到第四组分词结果;
90.s335.根据预先配置的中文字典树,利用最佳匹配法对所述单句进行分词处理,得到第五组分词结果。
91.本实施例中,由于预先配置好了中文字典树,因此,本实施例只需将要处理的句子在中文字典树数据结构中遍历,如果找到匹配的就继续,如果遇到红色的终止符,就确定某个词是一个完整的词了,这样就可以把这个词作为一个分词了,然后从分词后的下一字开始继续在中文字典树数据结构中遍历,如此循环往复就可将句子中的所有词分完。
92.本实施例中,可采用以下方法进行分词:
93.(1)正向最大匹配算法(mm法):
94.假设字典中最长的词语字数为m,先根据汉语标点符号及特征词把汉语句子切分为短句,然后去取短语的前m个字,在字库里面查找是否存在这个词语,如果存在,短语就去掉这个词;如果不存在就去掉这m个字的最后一个字,检查是否是单字,若是输出此字并将短语减去此字,若不是则继续判断看字库是否存在这个词,如此反复循环,直到输出一个词。此后继续取短语的前m个字反复循环。这样就可以将一个短语分成词语的组合了。
95.(2)逆向最大匹配算法(rmm法):
96.匹配方向与mm法相反,是从左向右。逆向最大匹配的分词原理和过程与正向最大匹配相似,区别在于前者从文章或者句子(字串)的末尾开始切分,若不成功则减去最前面的一个字。比如对于字符串“处理机器发生的故障”,第一步,从字串的右边取长度以步长为单位的字段“发生的故障”在词典中进行匹配,匹配不成功,再取字段“生的故障”进行匹配,依次匹配,直到分出“故障”一词,最终使用bmm方法切分的结果为:故障、发生、机器、处理。
97.(3)双向最大匹配法:双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,从而决定正确的分词方法。
98.(4)设立切分标志法:
99.切分标志有自然和非自然之分,自然切分标志是指文章中出现的非文字符号,如标点符号等,分自然切分标志是利用词缀和不构成词的词(包括单音词、复音节词以及象声词等),设立切分标志法首先收集众多的切分标志,分词时先找出切分标志,吧句子切分成一些较短的字段,再利用mm法、rmm法或者其他方法进行细加工。
100.(5)最佳匹配法:
101.最佳匹配法分为正向的最佳匹配法和逆向的最佳匹配法,其出发点是:在词典中按词频的大小顺序排列词条,以求缩短对分词词典的检索时间,达到最佳效果,从而降低分词的复杂度,加快分词速度。
102.此外,本实施例也可利用以下方法进行分词处理:
103.基于理解的分词方法:
104.这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
105.基于统计的分词方法:
106.从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字x、y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。
107.本实施例中,由于经过步骤s330处理后的分词结果中有大量分词结果效果不佳,比如可能存在以下问题:
108.(1)关键分词被分割成两个词,例如“台变”被分成了两个词“台/变”;
109.(2)分词冲突时,业务词汇被分割,例如“南电杆塔”被分成“南/电杆塔”(实际应该是“南电/杆塔”);
110.(3)特殊符号的错误解析(例如“~”、“#”等符号);
111.(4)数字分词被拆分成单个数字,例如“610”被分成“6/1/0”(实际应该是“610”)。
112.基于以上问题,本实施例对获取得到的所有分词结果之后,采用分词最优解短路算法计算各个所述分词结果的分值。本实施例中,由于经过步骤s330处理后得到的分词结果中,可能包含了大量重复的相同分词结果,为了减少后续的重复计算,在对所述单句进行分词处理之后,还包括:
113.s336.将所述第一组分词结果与所述第二组分词结果、第三组分词结果、第四组分词结果、第五组分词结果合并,得到分词结果合并集;
114.s337.删除所述分词结果合并集中重复出现的分词结果,得到所述单句对应的所有可能的分词结果。
115.本实施例中,将重复出现的分词结果删除,剩下的即为单句对应的所有可能的分词结果。
116.本实施例中,分词最优结果短路算法能够有效地减少分词处理中重复的分数计算,并减少了内存的占用。这个算法基于以下3个基本假设:
117.(1)相同时空下同一中文序列的最优解是唯一确定的;
118.(2)输入的字符序列可能有无限字符;
119.(3)输入的字符序列可以分为长度有限的句子;
120.根据基本假设3,单个句子是有限长度的,分词器将首先通过标点符号或空白字符
作为分隔符读取句子(单个输入可能有多个句子),读取单个句子后开始对句子分词,尝试所有分词的可能并且缓存句子的最优解。根据基本假设1,当前分词处理中如果需要重复计算该句子的分数,可以直接使用缓存的结果。
121.具体地,本实施例中,步骤s350,也就是5.采用分词最优解短路算法计算各个所述分词结果的分值这一步骤,包括但限于以下步骤:
122.s351.根据词典,找出所述单句中所有的可能词,所述分词结果由不同的所述可能词构成;
123.s352.评估各个所述可能词的分值;
124.s353.根据各个所述可能词的分值,统计得到各个所述分词结果的分值。
125.本技术实施例中,在得到所有可能的分词结果后,对这些分词结果进行评估,确定其对应的分值。具体地,在一些实施例中,确定分词结果的分值,可以根据其中每个词出现的频率的均值来确定,即分词结果的分值大小可以和其中每个词出现的频率的均值正相关,具体的函数关系可以自行设定,在此不再限制。
126.可以理解的是,分词结果中所有的词出现的概率均值越大,说明其越有可能是正确的分词结果。而根据大数定理,只要统计的数据量足够,则相对频度可以认为等于出现的频率。假设{ω1,ω2,ω3,...,ωn}表示一个词序列,其中,ω1、ω2、ω3……
ωn各表示一个词,n为正整数。那么其中的每个词出现的概率可以通过以下过程确定:选取语料库,确定词ω1出现的次数,除以语料库的词数大小,得到p(ω1);类似地,可以得到其他各个词的出现概率。进而可以根据每个词的出现概率计算得到其对应的分值。
127.但是,如前所述的,将单句划分为词组成的序列可能有多种分词结果,故而需要从中确定最准确的分词结果。比如说对于“他说的确实在理”的文本内容为例,按照正常的自然语言逻辑,其可以分为一个词序列:“他,说,的,确实,在理”,但是由于“的确”、“实在”也是经常出现的词,所以直接按照词典来划分该语句也可能出现“他,说,的确,实在,理”的分词结果。上述对于语句“他说的确实在理”的分词结果中,都共含有5个词,但是序列中后三个词却是不同的,所以需要进一步辨别多个分词结果的合理性,从中选取较优的作为语句的分词结果。具体地,可以分别计算单句按照{他,说,的,确实,在理}分词结果对应的第一分值p1以及单句按照{他,说,的确,实在,理}分词结果出现的第二分值p2。具体地,该分值可以是通过对分词结果中各个词对应的分值求取均值得到的。比较计算得到的第一分值p1、第二分值p2的大小,可以发现第一分值p1大于第二分值p2(因为单独的“理”作为分词出现的概率较小),所以可以确认这个单句的分词结果应当为{他,说,的,确实,在理}。需要说明的是,本技术实施例中,对于各个词出现的概率和词对应的分值之间的具体函数关系不作限定。并且,根据词对应的分值确定分词结果的分值的方式也可以根据需要灵活设定,比如说可以计算分词结果中所有词对应的分值的几何平均值,得到分词结果对应的分值。
128.接下来,将通过具体的案例进一步说明本实施例所述的消歧分词方法。
129.案例:现有分词任务需要对中文字符序列“我来到了枫溪区路东街道上东埔村东云路一横1号,买了一个手机”进行分词。
130.分词流程:
131.1.读取中文字符序列,读取到“,”符号,将“,”符号前的内容视为一个句子,即“我来到了枫溪区路东街道上东埔村东云路一横1号”;
132.2.将句子进行分词,得到分词结果一为:“我/来到了/枫溪区/路东街道/上东埔村/东云路一横/1号”,通过分词最优解短路算法计算到其总分为x分;
133.3.将句子进行分词,得到分词结果二为:“我/来/到/了/枫溪/区/路东/街道/上东埔村/东云路/一横/1号”,通过分词最优解短路算法计算到其总分为y分;
134.4.分词结果1的分值x大于分词结果2的分值y,于是,将“我/来到了/枫溪区/路东街道/上东埔村/东云路一横/1号”作为最终分词结果输出;
135.5.继续读取中文字符序列,重复流程1~4,直到读取完所有的句子为止。
136.本发明实施例所述消歧分词方法具有以下技术效果:
137.本发明实施例根据预先配置的中文字典树,对所述单句进行分词处理;减少了内存的占用,获取所有可能的分词结果;然后采用分词最优解短路算法计算各个所述分词结果的分值;最后筛选所述分值最高的分词结果为消歧分词结果;再分词中消除了歧义,提高了分词的准确度和分词效率。
138.参照图4,本发明实施例还提供一种消歧分词系统400,包括
139.第一获取模块410,用于获取待分词文本;
140.分句处理模块420,用于对所述待分词文本进行分句处理,得到至少一个单句;
141.分词处理模块430,用于根据预先配置的中文字典树,对所述单句进行分词处理;
142.第二获取模块440,获取所有可能的分词结果;
143.计算模块450,用于采用分词最优解短路算法计算各个所述分词结果的分值;
144.筛选模块460,用于筛选所述分值最高的分词结果为消歧分词结果。
145.进一步地,所述分句处理模块420具体用于:
146.利用分词器,以标点符号或者空白字符作为分隔符进行分句,得到至少一个单句。
147.进一步地,所述分词处理模块430包括:
148.第一分词处理单元431,用于根据预先配置的中文字典树,利用正向最大匹配算法对所述单句进行分词处理,得到第一组分词结果;
149.第二分词处理单元432,用于根据预先配置的中文字典树,利用逆向最大匹配算法对所述单句进行分词处理,得到第二组分词结果;
150.第三分词处理单元433,用于根据预先配置的中文字典树,利用双向最大匹配法对所述单句进行分词处理,得到第三组分词结果;
151.第四分词处理单元434,用于根据预先配置的中文字典树,利用设立切分标志法对所述单句进行分词处理,得到第四组分词结果;
152.第五分词处理单元435,用于根据预先配置的中文字典树,利用最佳匹配法对所述单句进行分词处理,得到第五组分词结果。
153.图3所示的方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与图3所示的方法实施例相同,并且达到的有益效果与图3所示的方法实施例所达到的有益效果也相同。
154.参照图5,本发明实施例还提供一种消歧分词装置500,具体包括:
155.至少一个处理器510;
156.至少一个存储器520,用于存储至少一个程序;
157.当所述至少一个程序被所述至少一个处理器510执行,使得所述至少一个处理器
510实现如图3所示的方法。
158.其中,存储器520作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。存储器520可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器520可选包括相对于处理器510远程设置的远程存储器,这些远程存储器可以通过网络连接至处理器510。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
159.可以理解到,图5中示出的装置结构并不构成对装置500的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。如图5所示的装置500中,处理器510可以调取存储器520中储存的程序,并执行但不限于图3所示实施例的步骤。
160.以上所描述的装置500实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现实施例的目的。
161.本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现如图3所示的方法。
162.本技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图3所示的方法。
163.可以理解的是,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
164.上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
技术特征:
1.一种消歧分词方法,其特征在于,包括:获取待分词文本;对所述待分词文本进行分句处理,得到至少一个单句;根据预先配置的中文字典树,对所述单句进行分词处理;获取所有可能的分词结果;采用分词最优解短路算法计算各个所述分词结果的分值;筛选所述分值最高的分词结果为消歧分词结果。2.根据权利要求1所述的一种消歧分词方法,其特征在于,所述对所述待分词文本进行分句处理,得到至少一个单句具体为:利用分词器,以标点符号或者空白字符作为分隔符进行分句,得到至少一个单句。3.根据权利要求1所述的一种消歧分词方法,其特征在于,所述根据预先配置的中文字典树,对所述单句进行分词处理这一步骤,包括:根据预先配置的中文字典树,利用正向最大匹配算法对所述单句进行分词处理,得到第一组分词结果;根据预先配置的中文字典树,利用逆向最大匹配算法对所述单句进行分词处理,得到第二组分词结果;根据预先配置的中文字典树,利用双向最大匹配法对所述单句进行分词处理,得到第三组分词结果;根据预先配置的中文字典树,利用设立切分标志法对所述单句进行分词处理,得到第四组分词结果;根据预先配置的中文字典树,利用最佳匹配法对所述单句进行分词处理,得到第五组分词结果。4.根据权利要求3所述的一种消歧分词方法,其特征在于,所述根据预先配置的中文字典树,对所述单句进行分词处理之后,还包括:将所述第一组分词结果与所述第二组分词结果、第三组分词结果、第四组分词结果、第五组分词结果合并,得到分词结果合并集;删除所述分词结果合并集中重复出现的分词结果,得到所述单句对应的所有可能的分词结果。5.根据权利要求1所述的一种消歧分词方法,其特征在于,采用分词最优解短路算法计算各个所述分词结果的分值这一步骤,包括:根据词典,找出所述单句中所有的可能词,所述分词结果由不同的所述可能词构成;评估各个所述可能词的分值;根据各个所述可能词的分值,统计得到各个所述分词结果的分值。6.一种消歧分词系统,其特征在于,包括:第一获取模块,用于获取待分词文本;分句处理模块,用于对所述待分词文本进行分句处理,得到至少一个单句;分词处理模块,用于根据预先配置的中文字典树,对所述单句进行分词处理;第二获取模块,获取所有可能的分词结果;计算模块,用于采用分词最优解短路算法计算各个所述分词结果的分值;
筛选模块,用于筛选所述分值最高的分词结果为消歧分词结果。7.根据权利要求6所述的一种消歧分词系统,其特征在于,所述分句处理模块具体用于:利用分词器,以标点符号或者空白字符作为分隔符进行分句,得到至少一个单句。8.根据权利要求6所述的一种消歧分词系统,其特征在于,所述分词处理模块包括:第一分词处理单元,用于根据预先配置的中文字典树,利用正向最大匹配算法对所述单句进行分词处理,得到第一组分词结果;第二分词处理单元,用于根据预先配置的中文字典树,利用逆向最大匹配算法对所述单句进行分词处理,得到第二组分词结果;第三分词处理单元,用于根据预先配置的中文字典树,利用双向最大匹配法对所述单句进行分词处理,得到第三组分词结果;第四分词处理单元,用于根据预先配置的中文字典树,利用设立切分标志法对所述单句进行分词处理,得到第四组分词结果;第五分词处理单元,用于根据预先配置的中文字典树,利用最佳匹配法对所述单句进行分词处理,得到第五组分词结果。9.一种消歧分词装置,其特征在于,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-5任一项所述的方法。10.计算机可读存储介质,其特征在于,其上存储有处理器可执行的程序,所述处理器可执1.行的程序在被处理器执行时用于实现如权利要求1-5任一项所述的方法。
技术总结
本发明公开了一种消歧分词方法、系统、装置及存储介质,该方法包括获取待分词文本;对所述待分词文本进行分句处理,得到至少一个单句;根据预先配置的中文字典树,对所述单句进行分词处理;获取所有可能的分词结果;采用分词最优解短路算法计算各个所述分词结果的分值;筛选所述分值最高的分词结果为消歧分词结果。本发明在分词中消除了歧义,提高了分词的准确度和分词效率。本发明可广泛应用于中文信息自动处理技术领域。息自动处理技术领域。息自动处理技术领域。
技术研发人员:蔡文婷 夏伟 张龙武 高永铭 黄兆鹏 周海
受保护的技术使用者:南方电网深圳数字电网研究院有限公司
技术研发日:2021.11.24
技术公布日:2022/3/8