一种表示词识别方法、装置、设备及介质与流程

专利查询1月前  16



1.本技术涉及数据治理领域,尤其涉及一种表示词识别方法、装置、设备及介质。


背景技术:

2.随着大数据时代的到来,各领域都在不断推进数字化转型,开展大数据智能化建设。为了提升数据整合、利用的效率,让数据更好、更有效地服务于日常工作,建设智能化、自动化的数据治理引擎势在必行。为了方便数据的管理,一类数据通常会存储在同一数据表中,但是对于各种来源的数据表,很可能存在某一个字段表示的含义一样,但是字段名称不一致的问题,因此数据元对标工作就成了数据治理的一个非常重要的环节。其中数据元也称为数据元素,是用一组属性描述数据的定义和标识,在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元,数据元对标可以理解为是将一个非规范字段对标到符合标准的规范字段,可以按照统一的行业数据规范,使得数据更加标准化、规范化,为后续的查询、使用等提供便利。
3.现有技术中大多基于对文本的处理,通过分词、转化为词向量、运用算法等步骤进行数据元对标,或者是将获取到的数据表中的字段名称等信息直接与标准数据元进行对标,但是由于数据表中字段名称命名不规范等原因会造成数据元对标错误,导致数据元对标较为困难并且效率较低。


技术实现要素:

4.本技术实施例提供一种表示词识别方法、装置、设备及介质,用以解决现有技术中数据表中字段名称命名不规范,导致的数据元对标较为困难并且效率较低的问题。
5.第一方面,本技术提供了一种表示词识别方法,所述方法包括:
6.根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词;
7.针对每列对应的每个目标关键词及预先保存的每个表示词,将该目标关键词与该表示词对应的每个子规则中包含的关键词进行匹配;根据匹配的子规则对应的分值,及匹配的子规则对应的权重,确定该目标关键词与该表示词的匹配分值;并根据该列的每个目标关键词与该表示词的匹配分值,确定该列与该表示词的匹配总分值;采用匹配总分值最高的表示词作为该列的列名称的表示词。
8.第二方面,本技术提供了一种表示词识别装置,所述装置包括:
9.获取模块,用于根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词;
10.识别模块,用于针对每列对应的每个目标关键词及预先保存的每个表示词,将该目标关键词与该表示词对应的每个子规则中包含的关键词进行匹配;根据匹配的子规则对应的分值,及匹配的子规则对应的权重,确定该目标关键词与该表示词的匹配分值;并根据该列的每个目标关键词与该表示词的匹配分值,确定该列与该表示词的匹配总分值;采用
匹配总分值最高的表示词作为该列的列名称的表示词。
11.第三方面,本技术还提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现上述任一所述的表示词识别方法的步骤。
12.第四方面,本技术还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的表示词识别方法的步骤。
13.本技术实施例提供一种表示词识别方法、装置、设备及介质,该方法中根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词,针对每列对应的每个目标关键词及预先保存的每个表示词,将该目标关键词与该表示词对应的每个子规则中包含的关键词进行匹配,根据匹配的子规则对应的分值,及匹配的子规则对应的权重,确定该目标关键词与该表示词的匹配分值,并根据该列的每个目标关键词与该表示词的匹配分值,确定该列与该表示词的匹配总分值,采用匹配总分值最高的表示词作为该列的列名称的表示词。由于在本技术实施例中通过获取数据表中每列对应的目标关键词,并基于预先设定的多个表示词对应的规则,获取到该列与每个表示词的匹配总分值,采用匹配总分值最高的表示词作为该列的列名称的表示词,从而保证了数据元对标的准确率,并且提高了数据元对标的效率。
附图说明
14.为了更清楚地说明本技术的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
15.图1为本技术实施例提供的表示词识别过程示意图;
16.图2为本技术实施例提供的表示词识别装置的结构示意图;
17.图3为本技术实施例提供的一种电子设备结构示意图。
具体实施方式
18.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图,对本技术的实施例的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本技术保护的范围。
19.本技术实施例提供一种表示词识别方法、装置、设备及介质,该方法中根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词,针对每列对应的每个目标关键词及预先保存的每个表示词,将该目标关键词与该表示词对应的每个子规则中包含的关键词进行匹配,根据匹配的子规则对应的分值,及匹配的子规则对应的权重,确定该目标关键词与该表示词的匹配分值,并根据该列的每个目标关键词与该表示词的匹配分值,确定该列与该表示词的匹配总分值,采用匹配总分值最高的表示词作为该列的列名称的表示词。由于在本技术实施例中通过获取数据表中每列对应的目标关键词,并基于预先设定的多个表示词对应的规则,获取到该列与每个表示词的匹配总分值,采用匹配总分值最高的表示词作为该列的列名称的表示词,从而保证了数据元对标的准确
率,并且提高了数据元对标的效率。
20.实施例1:
21.图1为本技术实施例提供的表示词识别过程示意图,该过程具体包括以下步骤:
22.s101:根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词。
23.本技术实施例提供的表示词识别过程应用于电子设备,该电子设备可以是服务器、pc等设备。
24.当需要识别数据库中数据表的表示词时,可以根据预先保存的关键词对应的查找位置,获取该数据表中每列对应的目标关键词。获取目标关键词的数量可以是一个也可以是多个,在本技术实施例中,获取的数据表中每列对应的目标关键词可以是列名称、字段注释和数据类型等关键词中的一个或多个。
25.s102:针对每列对应的每个目标关键词及预先保存的每个表示词,将该目标关键词与该表示词对应的每个子规则中包含的关键词进行匹配;根据匹配的子规则对应的分值,及匹配的子规则对应的权重,确定该目标关键词与该表示词的匹配分值;并根据该列的每个目标关键词与该表示词的匹配分值,确定该列与该表示词的匹配总分值;采用匹配总分值最高的表示词作为该列的列名称的表示词。
26.在本技术实施例中,预先保存的表示词可以是:日期,日期时间,代码,名称,金额,百分比,比率,量,描述,指示符,号码等等,其中表示词可以理解为类别,表示词识别即确定目标关键词对应的类别。在本技术实施例中,针对每个表示词,预先设置有每个表示词对应的规则,每个表示词对应的规则中又包含了多个子规则,每个子规则中包含有关键词,该关键词是该表示词对应的标准表达方式。
27.在进行表示词识别时,当获取到数据表中每列对应的至少一个目标关键词后,可以针对每列对应的每个目标关键词及预先保存的每个表示词,将该目标关键词与该表示词对应的每个子规则中包含的关键词进行匹配,从而确定与该目标关键词匹配的子规则,可以将该匹配的子规则称为目标子规则。
28.具体的,在将目标关键词与子规则中包含的关键词进行匹配时,将该目标关键词与该子规则中包含的每个关键词进行对比,若该子规则中至少存在一个与该目标关键词一致的关键词,则该目标关键词与该子规则匹配。
29.在本技术实施例中,针对每个表示词对应的每个子规则都预先设置了对应的分值,其中每个子规则对应的分值可以相同,可以不同,并且针对每个子规则都预先设置了对应的权重,每个子规则对应的权重可以相同,也可以不同。为了方便描述,可以将每个子规则对应的分值表示为x,将每个子规则对应的权重表示为w,其中,每个子规则对应的分值位于0和1之间,每个分值的大小可以表示为0≤x≤1,针对一个表示词的每个子规则,该表示词对应的每个子规则对应的权重的和值为1,可以表示为可以理解为该表示词对应的规则中包含了n个子规则,并且其中包含的n个子规则对应的权重的和值为1。
30.针对每列,获取到该列对应的至少一个目标关键词后,针对每个目标关键词及每个表示词,将该目标关键词与预先保存的该表示词对应的每个子规则中包含的关键词进行匹配后,确定与该目标关键词匹配的子规则,根据匹配的每个子规则对应的分值及对应的每个权重,确定该目标关键词与该表示词的匹配分值。
31.当确定了该列的每个目标关键词与该表示词的匹配分值后,将该列的每个目标关键词与该表示词的匹配分值累加,可以确定该列与该表示词的匹配总分值,该表示词的匹配总分值的确定过程可以表示为其中y为该列与该表示词的匹配总分值,xi表示每个目标关键词与该表示词的匹配的子规则对应的分值,n表示该表示词中与目标关键词匹配的子规则包含了n个,wi表示每个目标关键词与该表示词的匹配的子规则对应的权重。因为匹配分值是根据匹配的子规则对应的分值和权重确定的,并且每个分值x的范围为0≤x≤1,而且对于某一个表示词来说,其中包含的子规则对应的权重的和值为1,所以根据匹配分值累加而确定的匹配总分值y的范围为0≤y≤1,该匹配总分值可以用来代表该列对应于该表示词的概率。
32.当确定了该列与每个表示词的匹配总分值之后,可以将匹配总分值最高的表示词,作为该列的列名称的表示词,采用匹配总分值最高的表示词作为该列的列名称的表示词,在后续数据元对标时可以将该表示词作为数据元对标算法的输入之一。
33.通过在数据元对标之前对数据表中包含的数据进行表示词识别,很大程度地缩小了在数据元对标过程中需要对比的标准数据元范围,与现有技术中直接将获取到的数据表中的字段名称等信息直接与标准数据元进行对标的方式相比,在准确率和数据元对标的效率方面得到了很大的提升。
34.由于在本技术实施例中通过获取数据表中每列对应的目标关键词,并基于预先设定的多个表示词对应的规则,获取到该列与每个表示词的匹配总分值,采用匹配总分值最高的表示词作为该列的列名称的表示词,从而保证了数据元对标的准确率,并且提高了数据元对标的效率。
35.实施例2:
36.为了有效的获取到每列的关键词,在上述实施例的基础上,在本技术实施例中,所述根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词之前,所述方法包括:
37.接收对数据表进行表示词识别的指令,其中所述指令中携带数据表名称;
38.根据所述数据表名称,获取所述数据表名称的数据表中包含的数据。
39.当电子设备接收到数据表进行表示词识别的指令时,为了在之后的识别过程中能够准确、有效地确定表示词,在本技术实施例中电子设备可以根据接收到的指令中包含的待进行表示词识别的数据表名称,在数据库中根据待进行表示词识别的数据表名称,查找到对应的数据表,并获取到该数据表中包含的所有数据。
40.实施例3:
41.为了保证表示词识别的准确性,在上述各实施例的基础上,在本技术实施例中,所述根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词包括:
42.针对所述数据表中的每列,在包含该列的关键词的至少一个预设查找位置处,获取包含该列的目标关键词的数据;
43.根据所述数据,确定所述数据中包含的目标关键词。
44.在本技术实施例中,为了保证表示词识别的准确性,针对数据表中的每列,可以基于预先保存的查找关键词的预设查找位置,在对应的预设查找位置,获取到数据表中每列
对应的目标关键词。预设查找位置可以是一个或几个,预设查找位置的数量越多,获取的目标关键词就会越多,进行识别的过程也就会越准确。
45.因为预先保存了关键词的至少一个预设查找位置,因此基于每列,可以基于每个预设查找位置获取到包含该列的目标关键词的数据,当获取到该数据后,可以直接将该数据确定为目标关键词。当然也可以在该数据中进行截取,将截取的部分字段确定为目标关键词,具体的可以将数据中前面几个设定字符对应的字符段作为目标关键词,或者将中间几个设定字符对应的字符段作为目标关键词,还可以将数据中最后几个设定字符对应的字符段作为目标关键词。
46.为了进一步保证表示词识别的准确性,在上述各实施例的基础上,在本技术实施例中,所述预设位置处包括以下至少一种:
47.包含该列的字段注释的位置处;
48.包含该列的列名称的位置处;
49.包含该列的数据类型的位置处。
50.一般情况下每列的字段注释和列名称是对该列包含数据的说明,因此可以用字段注释和列名称来表示该列的特征,可以将该预设查找位置设置为包含该列的字段注释的位置处,并且还可以将包含该列的列名称的位置设置为该预设查找位置。针对数据表中的每列,该列的数据类型也可以作为该列的一个特征,因此还可以将包含该列的数据类型的位置处设置为预设查找位置处。
51.具体的,在本技术实施例中,获取数据表中每列对应的目标关键词时,可以是在包含该列的字段注释的位置处,获取到包含字段注释对应的目标关键词的数据,也可以在包含该列的列名称的位置处,获取到包含列名称对应的目标关键词的数据,还可以在包含该列的数据类型的位置处,获取到包含数据类型对应的目标关键词的数据。
52.对于数据表中的某一列来说,一般情况下,该列的列名称主要包含拼音和英文单词,该列的字段注释主要包含中文注释,因为可以根据列名称和字段注释中包含的内容,对每个表示词对应的关键词进行设置。以“日期”这一表示词为例,“日期”对应的关于列名称的关键词通常包含“rq”、“date”等,关于字段注释的关键词通常包含“日期”、“生日”、“何日”等。
53.另外,对于各种来源的数据表,虽然数据表中都存在一列存储的数据是对日期的描述,但是很可能每个数据表中在存储数据的时候采用的数据类型是不同的,为了有效的获取到每列的目标关键词并且保证获取的匹配分值更准确,在本技术实施例中,根据预先保存的每个表示词可能采用的数据类型,确定对应的子规则中包含的关键词,并依据子规则中包含的关键词,预先设置每个子规则对应的分值。
54.同样以“日期”这一表示词为例,“日期”对应的一个子规则中包含如下关键词{

datetime’:high,

timestamp’:high,

string’:middle,

varchar’:middle,

char’:middle,

int’:middle,

bigint’:middle,

smallint’:low,

tinyint’:low,

double’:low,

decimal’:low,

float’:low,

boolean’:unable},其中high、middle、low、unable分别代表该关键词对应的分值1分、0.5分、0.3分、0分,datetime、timestamp、string、varchar、char、int、bigint、smallint、tinyint、double、decimal、float、boolean为不同的数据类型。其他各预先保存的表示词也可梳理出类似的关于列名称、字段注释和数据类型
的关键词,本领域的技术人员可以根据预先保存的表示词的需要确定每个子规则中包含的关键词。
55.为了进一步保证表示词识别的准确性,在上述各实施例的基础上,在本技术实施例中,所述根据所述数据,确定所述数据中包含的目标关键词包括:
56.从所述数据的最后一个字符查找满足预设的关键词的长度的字符段,将所述字符段确定为所述数据中包含的目标关键词。
57.对于获取到的包含数据表中某一列的目标关键词的数据来说,处于不同位置的字符段对该数据的语义影响程度是不同的,一般情况下,位于词尾的字符段对字段表示词识别具有更重要的作用。例如,数据表中某一列对应的字段注释“籍贯代码”,“籍贯”应该属于“名称”这一表示词对应的关键词,“代码”则应该属于“代码”这一表示词对应的关键词,而实际上“籍贯代码”实际上是一种“代码”。
58.因此在本技术实施例中,可以针对数据表中的每列,获取到包含该列的目标关键词的数据之后,可以从该数据的最后一个字符开始查找,根据预设的关键词的长度,获取到满足该预设的关键词的长度的字符段,将获取到的字符段作为目标关键词。为了方便描述,可以将基于字段注释和该预设的关键词的长度确定的目标关键词称为字段注释词尾对应的关键词,将基于列名称和该预设的关键词的长度确定的关键词称为列名称词尾对应的关键词。
59.具体的,假设数据表中某一列的列名称为“jg”,字段注释为“籍贯代码”,预设的关键词的长度为“2”,在本技术实施例中,可以获取到数据表中该列对应的目标关键词分别为列名称对应的关键词“jg”、字段注释对应的关键词“籍贯代码”、列名称词尾对应的关键词“jg”和字段注释词尾对应的关键词“代码”。
60.实施例4:
61.为了进一步保证表示词识别的准确性,在上述各实施例的基础上,在本技术实施例中,所述根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词包括:
62.针对数据表中的每列,获取该列包含的数据,根据该列数据的数据类型,及针对该数据类型预设的特征,确定该列包含的数据的特征值,将该特征值确定为该列的目标关键词;若数据类型为数字类型,则所述预设的特征包含平均数据长度,数据方差和数据的最大值及最小值中的至少一个;若数据类型为字符类型,则所述预设的特征包含平均数据长度,数据中包含的中文字符的比值,数据中包含的英文字符的比值和数据中包含的数字字符的比值中的至少一个。
63.本技术实施例中是基于数据表的文本特征,确定数据表中每列对应的目标关键词,也就是说基于数据表中包含的数据的描述信息直接确定每列包含的目标关键词,其中文本特征可以理解为列名称、列的字段注释和列的数据类型等列中包含的数据进行描述的描述信息。当然还可以对数据表中每列包含的数据进行分析,获取对应的数据特征,将该数据特征作为数据表中每列包含的目标关键词。
64.为了进一步保证表示词识别的准确性,在本技术实施例中,针对数据表中的每列,可以根据预先保存的数据表的数据表名称的查找位置处,确定该数据表的数据表名称,并根据该列的列名称及该数据表的数据表名称在数据库中查找该列包含的数据。因为不同的
数据类型,对应的特征是不同的,因此在本技术实施例中,针对不同的数据类型,设置有每种数据类型对应的特征,当获取到每列包含的数据后,根据该列包含的数据的数据类型,及针对该数据类型预设的特征,确定该列包含的数据的特征值,将该特征值确定为该列的目标关键词。从而可以基于该目标关键词,及每个表示词对应的子规则中包含的关键词进行匹配,从而根据匹配的子规则对应的分值及对应的权重,确定该目标关键词与每列表示词的匹配分值。
65.在本技术实施例中,若数据的数据类型为数字类型,则预设的特征可以是平均数据长度,数据方差和数据的最大值及最小值中的至少一个;若数据的数据类型为字符类型,则预设的特征可以是平均数据长度,数据中包含的中文字符的比值,数据中包含的英文字符的比值和数据中包含的数字字符的比值中的至少一个。
66.具体的,在本技术实施例中,预先保存了“号码”这一表示词,一般来说,对于同一类的“号码”数据长度一致,比如身份证号码的数据长度固定为18位,手机号码的数据长度固定为11位,因此可以在“号码”这一表示词对应的子规则中将平均数据长度作为该子规则包含的关键词。当数据表中的某一列获取到的该列的数据类型对应的目标关键词为数字类型时,可以获取该列包含的数据并计算其中包含的数据的平均数据长度,将获计算得到的平均数据长度确定为该列的目标关键词,若该目标关键词与“号码”这一表示词对应的子规则中包含的关键词匹配,则根据该子规则对应的分值及该子规则对应的权重,确定该目标关键词与该表示词的匹配分值。
67.在本技术实施例中,不仅基于数据表的文本特征对字段进行表示词识别,还对数据表中每列包含的数据进行分析,获取对应的数据特征,能够让文本特征与数据特征相互作为补充,验证表示词识别的准确性,使字段表示词识别过程中不仅仅依据单一的文本特征对字段进行表示词识别,从而保证了字段表示词识别的准确性,尤其是在多个列名称的内容相似时,能够结合文本特征和数据特征进行区分,有效避免了出现表示词识别错误的情况。
68.下面以一个具体的例子进行说明:
69.针对预先保存的每个表示词,将获取到的每列对应的目标关键词与该表示词对应的每个子规则中包含的关键词进行匹配,根据匹配的子规则对应的分值可以得到该列的每个目标关键词与该表示词的一个分值列表。为了方便描述,该匹配分值列表可以表示为[x1,x2,x3,x4,x5,x6],其中xi∈[0,1],该表示词中与目标关键词匹配的子规则包含了6个,分别是关于列名称的子规则、关于字段注释的子规则、关于列名称词尾的子规则、关于字段注释词尾的子规则、关于数据类型的子规则和关于数据特征的子规则。其中,该表示词对应的关于列名称、字段注释、列名称词尾、字段注释词尾和数据特征的子规则,若获取到的数据表中的目标关键词与上述任一子规则匹配,则该匹配的子规则对应的记1分,不匹配的子规则对应的分值为0分。另外,基于该表示词对应的关于数据类型的子规则,若获取到的数据表中的目标关键词与该子规则中的一个关键词匹配,则将该关键词对应分值作为匹配的分值,该分值也就是该匹配的子规则对应的分值。
[0070]
对于预先保存的每个表示词,可以设置该表示词对应的每个子规则对应的权重,其中权重的设置是预先通过经验、规则或机器学习模型训练等方式预先设置的。预先保存的每个表示词对应的子规则都存在一个权重列表,其中权重列表中包含该表示词对应的每
个子规则对应的权重,权重代表该子规则对应的特征属于该表示词的重要性、指向性强弱,为了方便描述,该权重列表可以表示为[w1,w2,w3,w4,w5,w6],
[0071]
将该目标关键词与该表示词匹配完成之后,可以根据匹配分值列表和权重列表,确定该列与该表示词的匹配总分值y∈[0,1]。
[0072]
将获取到的数据表中该列的目标关键词与预先保存的每个表示词对应的规则都匹配完成之后,可以获得一个关于每个表示词的匹配总分值列表,为了方便描述,可以将该匹配总分值列表示成[y1,y2,y3,y4,y5,y6,y7,y8,y9,y
10
,y
11
],该表达式中表示在本技术实施例中预先保存了11个表示词,每个表示词的匹配总分值分别为y1,y2,y3,y4,y5,y6,y7,y8,y9,y
10
,y
11
,其中匹配总分值越高则可能属于该表示词的可能性越大,则可以采用匹配总分值最高的表示词作为该列的列名称的表示词。
[0073]
图2为本技术实施例提供的表示词装置的结构示意图,如图2所示,该装置包括:
[0074]
获取模块201,用于根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词;
[0075]
识别模块202,用于针对每列对应的每个目标关键词及预先保存的每个表示词,将该目标关键词与该表示词对应的每个子规则中包含的关键词进行匹配;根据匹配的子规则对应的分值,及匹配的子规则对应的权重,确定该目标关键词与该表示词的匹配分值;并根据该列的每个目标关键词与该表示词的匹配分值,确定该列与该表示词的匹配总分值;采用匹配总分值最高的表示词作为该列的列名称的表示词。
[0076]
在一种可能的实施方式中,所述获取模块201,具体用于接收对数据表进行表示词识别的指令,其中所述指令中携带数据表名称;根据所述数据表名称,获取所述数据表名称的数据表中包含的数据。
[0077]
在一种可能的实施方式中,所述获取模块201,具体用于针对所述数据表中的每列,在包含该列的关键词的至少一个预设查找位置处,获取包含该列的目标关键词的数据;根据所述数据,确定所述数据中包含的目标关键词。
[0078]
所述预设查找位置处包括以下至少一种:
[0079]
包含该列的字段注释的位置处;
[0080]
包含该列的列名称的位置处;
[0081]
包含该列的数据类型的位置处。
[0082]
在一种可能的实施方式中,所述获取模块201,具体用于从所述数据的最后一个字符查找满足预设的关键词的长度的字符段,将所述字符段确定为所述数据中包含的目标关键词。
[0083]
在一种可能的实施方式中,所述获取模块201,还用于针对数据表中的每列,获取该列包含的数据,根据该列的数据类型,及针对该数据类型预设的特征,确定该列包含的数据的特征值,将该特征值确定为该列的目标关键词;若数据类型为数字类型,则所述预设的特征包含平均数据长度,数据方差和数据的最大值及最小值中的至少一个;若数据类型为字符类型,则所述预设的特征包含平均数据长度,数据中包含的中文字符的比值,数据中包含的英文字符的比值和数据中包含的数字字符的比值中的至少一个。
[0084]
图3为本技术实施例提供的一种电子设备结构示意图,在上述各实施例的基础上,
interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口302用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。上述处理器可以是通用处理器,包括中央处理器、网络处理器(network processor,np)等;还可以是数字指令处理器(digital signal processing,dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0102]
在上述各实施例的基础上,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由处理器执行的计算机程序,当所述程序在所述处理器上运行时,使得所述处理器执行时实现如下步骤:
[0103]
根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词;
[0104]
针对每列对应的每个目标关键词及预先保存的每个表示词,将该目标关键词与该表示词对应的每个子规则中包含的关键词进行匹配;根据匹配的子规则对应的分值,及匹配的子规则对应的权重,确定该目标关键词与该表示词的匹配分值;并根据该列的每个目标关键词与该表示词的匹配分值,确定该列与该表示词的匹配总分值;采用匹配总分值最高的表示词作为该列的列名称的表示词。
[0105]
在一种可能的实施方式中,所述根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词之前,所述方法包括:
[0106]
接收对数据表进行表示词识别的指令,其中所述指令中携带数据表名称;
[0107]
根据所述数据表名称,获取所述数据表名称的数据表中包含的数据。
[0108]
在一种可能的实施方式中,所述根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词包括:
[0109]
针对所述数据表中的每列,在包含该列的关键词的至少一个预设查找位置处,获取包含该列的目标关键词的数据;
[0110]
根据所述数据,确定所述数据中包含的目标关键词。
[0111]
在一种可能的实施方式中,所述预设查找位置处包括以下至少一种:
[0112]
包含该列的字段注释的位置处;
[0113]
包含该列的列名称的位置处;
[0114]
包含该列的数据类型的位置处。
[0115]
在一种可能的实施方式中,所述根据所述数据,确定所述数据中包含的目标关键词包括:
[0116]
从所述数据的最后一个字符查找满足预设的关键词的长度的字符段,将所述字符段确定为所述数据中包含的目标关键词。
[0117]
在一种可能的实施方式中,所述根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词包括:
[0118]
针对数据表中的每列,获取该列包含的数据,根据该列的数据类型,及针对该数据
类型预设的特征,确定该列包含的数据的特征值,将该特征值确定为该列的目标关键词;若数据类型为数字类型,则所述预设的特征包含平均数据长度,数据方差和数据的最大值及最小值中的至少一个;若数据类型为字符类型,则所述预设的特征包含平均数据长度,数据中包含的中文字符的比值,数据中包含的英文字符的比值和数据中包含的数字字符的比值中的至少一个。
[0119]
由于上述提供的计算机可读取介质解决问题的原理与表示词识别方法相似,因此处理器执行上述计算机可读取介质中的计算机程序后,实现的步骤可以参见上述实施例,重复之处不再赘述。
[0120]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0121]
对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0122]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0123]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0124]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0125]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0126]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。

技术特征:
1.一种表示词识别方法,其特征在于,所述方法包括:根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词;针对每列对应的每个目标关键词及预先保存的每个表示词,将该目标关键词与该表示词对应的每个子规则中包含的关键词进行匹配;根据匹配的子规则对应的分值,及匹配的子规则对应的权重,确定该目标关键词与该表示词的匹配分值;并根据该列的每个目标关键词与该表示词的匹配分值,确定该列与该表示词的匹配总分值;采用匹配总分值最高的表示词作为该列的列名称的表示词。2.如权利要求1所述的方法,其特征在于,所述根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词之前,所述方法包括:接收对数据表进行表示词识别的指令,其中所述指令中携带数据表名称;根据所述数据表名称,获取所述数据表名称的数据表中包含的数据。3.如权利要求1所述的方法,其特征在于,所述根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词包括:针对所述数据表中的每列,在包含该列的关键词的至少一个预设查找位置处,获取包含该列的目标关键词的数据;根据所述数据,确定所述数据中包含的目标关键词。4.如权利要求3所述的方法,其特征在于,所述预设查找位置处包括以下至少一种:包含该列的字段注释的位置处;包含该列的列名称的位置处;包含该列的数据类型的位置处。5.如权利要求3所述的方法,其特征在于,所述根据所述数据,确定所述数据中包含的目标关键词包括:从所述数据的最后一个字符查找满足预设的关键词的长度的字符段,将所述字符段确定为所述数据中包含的目标关键词。6.如权利要求1所述的方法,其特征在于,所述根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词包括:针对数据表中的每列,获取该列包含的数据,根据该列的数据类型,及针对该数据类型预设的特征,确定该列包含的数据的特征值,将该特征值确定为该列的目标关键词;若数据类型为数字类型,则所述预设的特征包含平均数据长度,数据方差和数据的最大值及最小值中的至少一个;若数据类型为字符类型,则所述预设的特征包含平均数据长度,数据中包含的中文字符的比值,数据中包含的英文字符的比值和数据中包含的数字字符的比值中的至少一个。7.一种表示词识别装置,其特征在于,所述装置包括:获取模块,用于根据预先保存的至少一个关键词对应的查找位置,获取数据表中每列对应的至少一个目标关键词;识别模块,用于针对每列对应的每个目标关键词及预先保存的每个表示词,将该目标关键词与该表示词对应的每个子规则中包含的关键词进行匹配;根据匹配的子规则对应的分值,及匹配的子规则对应的权重,确定该目标关键词与该表示词的匹配分值;并根据该列
的每个目标关键词与该表示词的匹配分值,确定该列与该表示词的匹配总分值;采用匹配总分值最高的表示词作为该列的列名称的表示词。8.如权利要求7所述的装置,其特征在于,所述获取模块,还用于接收对数据表进行表示词识别的指令,其中所述指令中携带数据表名称;根据所述数据表名称,获取所述数据表名称的数据表中包含的数据。9.如权利要求7所述的装置,其特征在于,所述获取模块,具体用于针对所述数据表中的每列,在包含该列的关键词的至少一个预设查找位置处,获取包含该列的目标关键词的数据;根据所述数据,确定所述数据中包含的目标关键词。10.如权利要求9所述的装置,其特征在于,所述获取模块,具体还用于从所述数据的最后一个字符查找满足预设的关键词的长度的字符段,将所述字符段确定为所述数据中包含的目标关键词。11.如权利要求7所述的装置,其特征在于,所述获取模块,具体用于针对数据表中的每列,获取该列包含的数据,根据该列的数据类型,及针对该数据类型预设的特征,确定该列包含的数据的特征值,将该特征值确定为该列的目标关键词;若数据类型为数字类型,则所述预设的特征包含平均数据长度,数据方差和数据的最大值及最小值中的至少一个;若数据类型为字符类型,则所述预设的特征包含平均数据长度,数据中包含的中文字符的比值,数据中包含的英文字符的比值和数据中包含的数字字符的比值中的至少一个。12.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现权利要求1-6中任一所述的表示词识别方法的步骤。13.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6中任一所述的表示词识别方法的步骤。

技术总结
本申请实施例提供一种表示词识别方法、装置、设备及介质,该方法中将数据表中每列对应的至少一个目标关键词与预先保存的每个表示词对应的每个子规则中包含的关键词进行匹配,根据匹配的子规则对应的分值,及匹配的子规则对应的权重,确定该目标关键词与该表示词的匹配分值,并确定该列与该表示词的匹配总分值,采用匹配总分值最高的表示词作为该列的列名称的表示词。由于在本申请实施例中通过获取数据表中每列对应的目标关键词,并基于预先设定的多个表示词对应的规则,获取到该列与每个表示词的匹配总分值,采用匹配总分最高的表示词作为该列的列名称的表示词,从而保证了数据元对标的准确率,并且提高了数据元对标的效率。并且提高了数据元对标的效率。并且提高了数据元对标的效率。


技术研发人员:童宇蔚 陈立力 周明伟
受保护的技术使用者:浙江大华技术股份有限公司
技术研发日:2021.11.25
技术公布日:2022/3/8

最新回复(0)