1.本技术涉及检索技术领域,尤其是涉及一种分词检索方法及系统。
背景技术:
2.随着互联网技术的不断发展,在仪器信息方面搭建了各式各样的平台,使得用户可以通过平台检索到关于仪器的各种信息,包括垂直领域的咨询、厂商、仪器、社区、资料、网络讲堂、仪课通、招聘、耗材、试剂、行业应用、专题、市场研究、会展栏目。
3.传统的仪器信息平台中,一般是通过搭建语义模板的方式对用户搜索词进行语法依存关系的配置,以生成不同的检索内容排序。
4.仪器信息平台本身拥有数据结构类型多、用户量小、用户类型多且行业跨度大、专业性强的特点,在进行检索过程中若想要达到精准命中的目的,就需要极大的成本不断的维护和更新语义模板,特别是在用户体量不断增加的当下,越来越多的用户在跨领域下搜索,进一步的增加了仪器信息平台的维护成本。而仪器信息平台自身的盈利能力受限于其所服务的市场,并不能补足成本日渐增加的仪器信息平台的需求,这导致了传统仪器信息平台的维护力度低,检索命中率下降。
技术实现要素:
5.为了降低仪器信息平台的检索成本,本技术目的是提供一种分词检索方法及系统。
6.本技术的上述申请目的是通过以下技术方案得以实现的:第一方面,本技术提供一种分词检索方法,应用于单领域信息检索平台,所述方法包括:接收用户输入的检索词;对所述检索词进行单字分词;分别计算每一语料文档的单字相关度;将单字相关度进行叠加生成语料文档的相关度得分;依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。
7.通过采用上述技术方案,在单领域信息检索平台中,通过单字分词的方式将检索词进行拆分,再计算每一语料文档的单字相关度,通过单字相关度叠加生成的相关度得分对语料文档进行排序。检索过程能够针对数据结构类型多、用户量小、用户类型多且行业跨度大、专业性强的单领域信息检索平台进行精准的检索,不需要再耗费人工梳理语义模板,降低了单领域信息检索平台的维护成本,同时也实现了单领域信息检索平台的检索功能。
8.进一步的,所述方法还包括:依据所述相关度得分对所述语料文档进行排序后,依据排名顺序,获取预设数量的语料文档生成所述第一检索结果。
9.通过采用上述技术方案,在数据结构类型多的情况下,即栏目类型多时,预设数量
的限定降低了单次输出的语料文档数量,可以辅助实现多个栏目的语料文档同步显示。
10.进一步的,分别计算每一语料文档的单字相关度的方法包括:计算单字的逆向文档频率) ;计算所述单字在语料文档d中的词频;计算所述单字在语料文档d中的单字相关度单字相关度;其中,=+norm,norm为字段长度归一值;i为自然数,n为语料文档d的总量;为出现单字的语料文档d的数量;k为常数;b为预设参数,用于控制字段长度归一值所起的作用,当b取值为零时禁用归一化,当b取值为1时启用完全归一化;=/n;,|d|是语料文档d的长度;是语料文档d的平均长度。
11.通过采用上述技术方案,在传统的if-idf分析模型的基础上,对if值和idf值的计算方式分别进行改进,并应用于单字分词检索的过程中,以符合单领域检索的需求。其本身属于if-idf分析模型和单字分词在单领域环境下的技术性结合,不但简化了检索的方式,同时也提高了检索命中的准确性。
12.进一步的,所述方法还包括:将单字相关度进行叠加生成语料文档的相关度得分后,依据预设加权规则计算语料文档的特殊加权得分,依据所述相关度得分和特殊加权得分的和对所述语料文档进行排序以生成第一检索结果。
13.进一步的,所述预设加权规则包括业务加权规则和相关度加权规则。
14.进一步的,所述方法还包括:依据所述语料文档的内容,将所述语料文档分组成多个栏目,依据预设排序规则对所述栏目进行排序以生成第二检索结果,将第一检索结果和第二检索结果结合成最终检索结果。
15.进一步的,所述预设排序规则包括:分别通过用户偏好栏目模型、检索词相关栏目模型、检索词点击偏好栏目模型以及语法依存关系模型分别对所述栏目进行排序;
依据预设优先级规则和栏目出现在通过用户偏好栏目模型、检索词相关栏目模型、检索词点击偏好栏目模型以及语法依存关系模型中出现的次数对所述栏目进行栏目评分;依据栏目评分对栏目进行排序以生成第二检索结果。
16.通过采用上述技术方案,由于在单领域下,栏目的数量受限,通过多种模型共存的方式对栏目进行排序,不但能够更加贴合用户需求,同时各模型的维护成本相对于利用模型对数据量大的语料文档进行排序时的模型维护成本有了极大的降低。
17.第二方面,本技术提供一种分词检索系统,应用于单领域信息检索平台,所述系统包括:接收模块,用于接收用户输入的检索词;分词模块,用于对所述检索词进行单字分词;单字计算模块,用于分别计算每一语料文档的单字相关度;相关度计算模块,用于将单字相关度进行叠加生成语料文档的相关度得分;输出模块,用于依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。
18.进一步的,所述系统还包括:所述输出模块在依据所述相关度得分对所述语料文档进行排序后,依据排名顺序,获取预设数量的语料文档生成所述第一检索结果。
19.进一步的,单字计算模块计算单字相关度的方法包括:计算单字的逆向文档频率) ;计算所述单字在语料文档d中的词频;计算所述单字在语料文档d中的单字相关度单字相关度;其中,=+norm,norm为字段长度归一值;i为自然数,n为语料文档d的总量;为出现单字的语料文档d的数量;k为常数;b为预设参数,用于控制字段长度归一值所起的作用,当b取值为零时禁用归一化,当b取值为1时启用完全归一化;=/n;,
|d|是语料文档d的长度;是语料文档d的平均长度。
20.综上所述,本技术包括以下至少一种有益技术效果:1.单领域信息检索平台的维护成本降低,在语料文档的检索方面,省去了人工维护的成本,从而降低了平台的维护成本;2.提高了平台检索的命中率,无论是全新的单字相关度计算方法还是栏目排序与语料文档排序的配合方式,都提升了用户使用平台检索过程中的命中率。
附图说明
21.图1是本技术一种分词检索方法的流程示意图。
22.图2是本技术生成第二检索结果的方法流程示意图。
23.图3是本技术分词检索系统一个示例的系统图。
24.图4是本技术分词检索系统另一个示例的系统图。
具体实施方式
25.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
26.下面结合说明书附图对本技术实施例作进一步详细描述。
27.本技术实施例提供一种分词检索方法,所述方法应用于单领域信息检索平台。所述的单领域信息检索平台指代某一限定领域的检索平台,如仪器信息平台、医药信息平台等,以下实施例仅以仪器信息平台为例对本技术方案进行介绍,但并非对领域类型的限定。
28.为了提高用户检索的命中率,本技术所述的单领域信息检索平台依据仪器信息的垂直领域划分了多个栏目,具体包括咨询、厂商、仪器、社区、资料、网络讲堂、仪课通、招聘、耗材、试剂、行业应用、专题、市场研究、会展栏目,仪器信息平台存储有语料文档库,语料文档依据栏目类型进行分区存储,使得用户能够在每一栏目中检索相关栏目所包含的语料文档。同时仪器信息平台还配备有全站检索方式,即用户通过检索词检索仪器信息平台中的全部语料文档。
29.参照图1,在一个示例中,在单一栏目内检索语料文档的方法如下。
30.步骤s101:接收用户输入的检索词。
31.具体的,检索词可以是句子,也可以是短句,可以是单字,也可以是多个单字组成的词,仪器信息平台接收用户输入的检索词的方式可以有多种,如通过触摸屏输入检索词、通过语音输入检索词、通过数据传输输入检索词或通过键盘输入检索词,相应的,不同的检索词输入方式也会配备相应的输入设备,在此不做唯一限定。
32.步骤s102:对所述检索词进行单字分词。具体而言,单字分词是指将用户输入的检索词中的每一个单字作为一个分词,例如,以用户输入的检索词为“青岛路博”为例,将其拆分为“青”、“岛”、“路”、“博”共四个字。
33.步骤s103:分别计算每一语料文档的单字相关度。
34.具体包括:计算单字的逆向文档频率) ;i为自然数;计算所述单字在语料文档d中的词频;计算所述单字在语料文档d中的单字相关度单字相关度;其中,=+norm,norm为字段长度归一值;i为自然数,n为语料文档d的总量;为出现单字的语料文档d的数量;k为常数;b为预设参数,用于控制字段长度归一值所起的作用,当b取值为零时禁用归一化,当b取值为1时启用完全归一化;=/n;,|d|是语料文档d的长度;是语料文档d的平均长度。
35.单字相关度的计算过程引用了if-idf分析模型。本技术中,对if值和idf值的计算方式分别进行了改进,并应用于单字分词检索的过程中,以符合单领域检索的需求。其本身属于if-idf分析模型和单字分词在单领域环境下的技术性结合,不但简化了检索的方式,同时也提高了检索命中的准确性。
36.步骤s104:将单字相关度进行叠加生成语料文档的相关度得分。
37.具体的,对于一份语料文档而言,在计算其对应每一个单字的单字相关度后,将组成检索词的每一个单字的单字相关度相加即可获得检索词相对语料文档的相关度得分。例如,以以用户输入的检索词为“青岛路博”为例,对于一份语料文档而言,其单字“青”、“岛”、“路”、“博”的相关度分别为536.26274、789.53536、841.99603、486.35306,则该语料文档的相关度得分为536.26274+789.53536+841.99603+486.35306。
38.步骤s105:依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。
39.具体的,当用户在单个栏目内进行检索时,由于单个栏目能够同时显示的语料文档数量相对比较多,则生成的第一检索结果即为对语料文档进行排序之后的结果;当用户在使用全站检索方式时,则需要同时显示多个栏目内的语料文档,则单个栏目能够同时显示的语料文档数量相对比较少,则依据排名顺序,获取预设数量的语料文档生成所述第一
检索结果在另一个示例中,所述,步骤s104中,将单字相关度进行叠加生成语料文档的相关度得分后,依据预设加权规则计算语料文档的特殊加权得分,依据所述相关度得分和特殊加权得分的和对所述语料文档进行排序以生成第一检索结果。
40.其中,预设加权规则是对已经召回的所有预料文档进行二次加分,包括业务加权规则和相关度加权规则。
41.业务加权规则表示根据用户预设的加权规则对召回结果进行加分。如检索词出现在语料文档中的位置、检索词出现的次数、检索词出现在不同分类等级中的位置等等均具有不同的加分分值。该规则为用户的预设规则,在此不做过多描述。
42.相关度加权规则表示依据语料文档中连续命中检索词的数量对召回结果进行加分。如连续全部命中单字,则加分最高,以使得连续全部命中单字的语料文档分值最高;如连续部分命中单字,则依据连续部分命中单字的数量不同对语料文档加不同的分值,连续部分命中单字数量越大,则加分越高。
43.如检索词为“青岛路博”为例,若语料文档连续全部命中“青”、“岛”、“路”、“博”四个单字,则对该语料文档加分10000分,若仅连续命中“青”、“岛”、“路”三个单字,则该语料文档加分50,若仅连续命中“青”、“岛”两个单字,则该语料文档加分30,若仅命中一个单字则放弃召回该语料文档。
44.进一步的,当用户通过全站检索方式进行检索时,依据预设排序规则对所述栏目进行排序以生成第二检索结果,将第一检索结果和第二检索结果结合称为最终检索结果。
45.参照图2,依据预设排序规则对所述栏目进行排序以生成第二检索结果的方法包括:步骤s201:分别通过用户偏好栏目模型、检索词相关栏目模型、检索词点击偏好栏目模型以及语法依存关系模型分别对所述栏目进行排序;步骤s202:依据预设优先级规则和栏目出现在通过用户偏好栏目模型、检索词相关栏目模型、检索词点击偏好栏目模型以及语法依存关系模型中的状态对所述栏目进行栏目评分;步骤s203:依据栏目评分对栏目进行排序以生成第二检索结果。
46.其中,检索词相关栏目模型为:使用词向量模型计算检索词和各栏目的历史搜索数据的相似度生成栏目排序,该方式为已知检索模型,在此不做详细展开。
47.用户偏好栏目模型为:通过当前用户的历史行为,如搜索行为、点击行为、评论、点赞等,生成检索词相关栏目模型,得到此用户偏好的栏目是仪器、资讯、还是资料等。具体的,所述用户偏好栏目模型是通过用户的当前用户的历史行为分析用户的历史行为是在那个栏目次数最多和停留时间最长,计算方式:统计进入各栏目的次数和各栏目的停留时长共同决定。计算规则:单个栏目偏好得分score=50*(本栏目次数)/(所有栏目次数)+50*(本栏目浏览时长)/(所有栏目浏览时长),使用最终得分进行栏目排序。
48.检索词点击偏好栏目模型为:通过平台相同检索词下所有用户在各栏目的点击行为生成此检索词的栏目排序。点击行为可以是点击次数或点击时间间隔。
49.需要说明的是,在分别通过用户偏好栏目模型、检索词相关栏目模型、检索词点击偏好栏目模型以及语法依存关系模型分别对所述栏目进行排序时,均按照排序获取一定数
量的栏目作为各模型的输出结果,所述的依据预设优先级规则和栏目出现在通过用户偏好栏目模型、检索词相关栏目模型、检索词点击偏好栏目模型以及语法依存关系模型中的状态,表示模型输出结果中有相关栏目或没有相关栏目。当模型输出结果中有相关栏目时,对该模型进行栏目评分的比重加成。对栏目评分进行比重加成过程中,如栏目在用户偏好栏目模型的输出结果中出现加2分,在检索词相关栏目模型的输出结果中出现加4分,在检索词点击偏好栏目模型的输出结果中出现加5分,在语法依存关系模型的输出结果中出现加10分。
50.参照图3,在另一个优选的示例中,本技术还公开了一种分词检索系统,应用于单领域信息检索平台,所述系统包括:接收模块,用于接收用户输入的检索词;分词模块,用于对所述检索词进行单字分词;单字计算模块,用于分别计算每一语料文档的单字相关度;相关度计算模块,用于将单字相关度进行叠加生成语料文档的相关度得分;输出模块,用于依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。
51.所述输出模块在依据所述相关度得分对所述语料文档进行排序后,依据排名顺序,获取预设数量的语料文档生成所述第一检索结果。
52.单字计算模块计算单字相关度的方法包括:计算单字的逆向文档频率) ;计算所述单字在语料文档d中的词频;计算所述单字在语料文档d中的单字相关度单字相关度;其中,=+norm,norm为字段长度归一值;i为自然数n为语料文档d的总量;为出现单字的语料文档d的数量;k为常数;b为预设参数,用于控制字段长度归一值所起的作用,当b取值为零时禁用归一化,当b取值为1时启用完全归一化;=/n;,|d|是语料文档d的长度;
是语料文档d的平均长度。
53.所述分词检索系统还包括栏目排序模块,所述栏目排序模块用于分别通过用户偏好栏目模型、检索词相关栏目模型、检索词点击偏好栏目模型以及语法依存关系模型分别对所述栏目进行排序,再依据预设优先级规则分别对各栏目进行评分,最后依据评分结果对栏目进行排序生成第二检索结果。
54.依据第二检索结果的栏目评分,以栏目评分由高到底的顺序,选取预设数量的栏目,在每个栏目中的语料文档的排序规则依据所述第一检索结果中语料文档的排序方式,每个栏目中语料文档的数量,则依据语料文档的排序由高到低的顺序,选取预设数量的语料文档作为最终返回到仪器信息网终端的检索结果。
55.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
56.在用户需要进行检索时,首先通过仪器信息网终端输入检索词,通过栏目排序模块选择预设数量的栏目,通过接收模块、分词模块、单字计算模块、相关度计算模块和输出模块选择预设数量的语料文档,最终将选择的栏目和语料文档返回到仪器信息网。
57.进一步的,本技术中对接收模块、分词模块、单字计算模块、相关度计算模块、输出模块和栏目排序模块的设置位置不做唯一限定。参照图3,在一个示例中,接收模块设置在仪器信息网终端,分词模块、单字计算模块、相关度计算模块、输出模块和栏目排序模块均设置在仪器信息网平台的服务器中。参照图4,在另一个示例中,接收模块、分词模块和栏目排序模块均设置在仪器信息网终端,以通过仪器信息网终端的处理器分担仪器信息网平台服务器的数据处理压力,单字计算模块、相关度计算模块、输出模块均设置在仪器信息网平台的服务器中。
58.在本技术所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的。另一点,所显示或讨论的相互之间的耦合或直接耦合或数据通信连接可以是通过一些接口。
59.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
60.还应理解,在本技术的各个实施例中,如果没有特殊说明以及逻辑冲突,不同的实施例之间的术语和/或描述具有一致性、且可以相互引用,不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。
61.本具体实施方式的实施例均为本技术的较佳实施例,并非依此限制本技术的保护范围,故:凡依本技术的结构、形状、原理所做的等效变化,均应涵盖于本技术的保护范围之内。
技术特征:
1.一种分词检索方法,其特征在于:应用于单领域信息检索平台,所述方法包括:接收用户输入的检索词;对所述检索词进行单字分词;分别计算每一语料文档的单字相关度;将单字相关度进行叠加生成语料文档的相关度得分;依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。2.根据权利要求1所述的分词检索方法,其特征在于,所述方法还包括:依据所述相关度得分对所述语料文档进行排序后,依据排名顺序,获取预设数量的语料文档生成所述第一检索结果。3.根据权利要求1所述的分词检索方法,其特征在于,分别计算每一语料文档的单字相关度的方法包括:计算单字的逆向文档频率) ;计算所述单字在语料文档d中的词频;计算所述单字在语料文档d中的单字相关度单字相关度;其中,=+norm,norm为字段长度归一值;i为自然数,n为语料文档d的总量;为出现单字的语料文档d的数量;k为常数;b为预设参数,用于控制字段长度归一值所起的作用,当b取值为零时禁用归一化,当b取值为1时启用完全归一化;=/n;,|d|是语料文档d的长度;是语料文档d的平均长度。4.根据权利要求1所述的分词检索方法,其特征在于,所述方法还包括:将单字相关度进行叠加生成语料文档的相关度得分后,依据预设加权规则计算语料文档的特殊加权得分,依据所述相关度得分和特殊加权得分的和对所述语料文档进行排序以生成第一检索结果。5.根据权利要求4所述的分词检索方法,其特征在于,所述预设加权规则包括业务加权规则和相关度加权规则。
6.根据权利要求1所述的分词检索方法,其特征在于,所述方法还包括:依据所述语料文档的内容,将所述语料文档分组成多个栏目,依据预设排序规则对所述栏目进行排序以生成第二检索结果,将第一检索结果和第二检索结果结合成最终检索结果。7.根据权利要求6所述的分词检索方法,其特征在于,所述预设排序规则包括:分别通过用户偏好栏目模型、检索词相关栏目模型、检索词点击偏好栏目模型以及语法依存关系模型分别对所述栏目进行排序;依据预设优先级规则和栏目出现在通过用户偏好栏目模型、检索词相关栏目模型、检索词点击偏好栏目模型以及语法依存关系模型中出现的次数对所述栏目进行栏目评分;依据栏目评分对栏目进行排序以生成第二检索结果。8.一种分词检索系统,其特征在于:应用于单领域信息检索平台,所述系统包括:接收模块,用于接收用户输入的检索词;分词模块,用于对所述检索词进行单字分词;单字计算模块,用于分别计算每一语料文档的单字相关度;相关度计算模块,用于将单字相关度进行叠加生成语料文档的相关度得分;输出模块,用于依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。9.根据权利要求8所述的分词检索系统,其特征在于,所述系统还包括:所述输出模块在依据所述相关度得分对所述语料文档进行排序后,依据排名顺序,获取预设数量的语料文档生成所述第一检索结果。10.根据权利要求8所述的分词检索系统,其特征在于,单字计算模块计算单字相关度的方法包括:计算单字的逆向文档频率) ;计算所述单字在语料文档d中的词频;计算所述单字在语料文档d中的单字相关度单字相关度;其中,=+norm,norm为字段长度归一值;i为自然数,n为语料文档d的总量;为出现单字的语料文档d的数量;k为常数;b为预设参数,用于控制字段长度归一值所起的作用,当b取值为零时禁用归一化,当b取值为1时启用完全归一化;
=/n;,|d|是语料文档d的长度;是语料文档d的平均长度。
技术总结
本申请提供一种分词检索方法及系统。所述方法包括:接收用户输入的检索词;对所述检索词进行单字分词;分别计算每一语料文档的单字相关度;将单字相关度进行叠加生成语料文档的相关度得分;依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。在单领域信息检索平台中,通过单字分词的方式将检索词进行拆分,再计算每一语料文档的单字相关度,通过单字相关度叠加生成的相关度得分对语料文档进行排序。检索过程能够针对数据结构类型多、用户量小、用户类型多且行业跨度大、专业性强的单领域信息检索平台进行精准的检索,不需要再耗费人工梳理语义模板,降低了单领域信息检索平台的维护成本,同时也实现了单领域信息检索平台的检索功能。索平台的检索功能。索平台的检索功能。
技术研发人员:付雪林 王涛 孙思遥 邓应来 王启超 吴邱思 安重阳 韩啸 张葳 曾明泉 唐海霞 赵鑫 刘成书
受保护的技术使用者:北京信立方科技发展股份有限公司
技术研发日:2021.12.11
技术公布日:2022/3/8