1.本技术涉及智慧城市大数据应用技术领域,特别是涉及一种数据表关联分析方法和装置。
背景技术:
2.随着数字化改革的深入以及智慧城市建设的推进,各地在城市大脑数据资源开发建设的过程中已经归集到海量的数据。数据来源于业务,数据也必将服务于业务,在数据使用的过程,通过对有相关联业务的数据进行治理、加工、融合分析挖掘数据的价值,从而为城市管理服务赋能。
3.对数据业务关联性研究中,现有技术普遍通过业务属性对数据进行归属分类。如:通过数据描述的对象、数据的业务领域、数据的来源进行归类。这种粗放型的针对表数据关系管理方式,在一定程度上反映了数据的业务关联关系,但是无法体现跨类型、跨领域的数据本身的相关性,也无法更加细致地体现出数据表字段业务级别的业务关系,因此这种分类方法无法应用于对海量数据进行关联性研究中。
[0004][0005]
此外,现有技术中还存在诸如人为建立表与表之间的业务关联的方法挖掘数据之间的相关性。而在海量数据的情况下,当业务系统中数据表结构字段数目多,关联关系错综复杂时,人工分析的方法势必存在工作效率低、错误率高、开发周期长等问题。
[0006]
综上,针对目前在数据业务关联性研究中存在的表与表之间的业务关联性无法快速获取,导致目前尚未得到能实现快速从海量数据中梳理出数据之间关联关系的目的的有效解决方案。
技术实现要素:
[0007]
本技术实施例提供了一种数据表关联分析方法和装置,针对现有技术中存在的无法快速从海量数据中梳理出数据之间关联关系的问题,能够通过对数据本身相似度的评判,梳理出数据之间的业务关系,在数据开发中进行数据推荐,实现既能跨领域、跨类型比对表之间的相关性、又能细致体现数据表中每一字段的业务联系的有益效果。
[0008]
第一方面,本技术实施例提供了一种数据表关联分析方法,所述方法包括:获取基准表以及至少一待分析表,分别从所述基准表中提取基准配置信息、从每一所述待分析表中提取对应的待分析信息;根据所述基准配置信息与每一所述待分析信息,计算所述基准表与每一所述待分析表的语义相似度,并构建基于所述语义相似度的相似度向量,其中,每一所述所述相似度向量对应一基准表与一所述待分析表的相似程度;计算每一所述相似度向量的向量长度,根据所述向量长度对所有所述相似度向量进行排序,基于所述排序结果确定所述基准表与每一所述待分析表的关联程度。
[0009]
在其中一些实施例中,所述基准配置信息包括所述基准表的基准表名称、基准表描述、基准表字段、基准表字段下数据;所述待分析信息包括所述待分析表的待分析表名
称、待分析表描述、待分析表字段、待分析表字段下数据。
[0010]
在其中一些实施例中,所述相似度向量包括:基准表名称与待分析表名称的第一相似度向量、或者基准表描述与待分析表描述的第二相似度向量、或者基准表字段与待分析表字段的第三相似度向量、或者基准表字段下数据与待分析表字段下数据的第四相似度向量的至少一种;“计算每一所述相似度向量的向量长度,根据所述向量长度对所有所述相似度向量进行排序”包括:对获取到的每种所述相似度向量分别计算对应的所述向量长度,根据所述向量长度对每种所述相似度向量进行排序。
[0011]
在其中一些实施例中,“计算所述基准表与每一所述待分析表的语义相似度”包括:分别从所述基准表中提取基准表语义向量,从每一所述待分析表中提取对应的每一基准表语义向量;计算所述基准表语义向量与任一所述待分析表语义向量的余弦值,得到语义相似度。
[0012]
在其中一些实施例中,“分别从所述基准表中提取基准表语义向量,从每一所述待分析表中提取对应的每一基准表语义向量”包括:分别对所述基准配置信息以及每一所述待分析信息进行分词,得到所述基准配置信息对应的基准分词向量以及每一所述待分析信息对应的待分析分词向量,计算所述基准分词向量、所述待分析分词向量的并集,生成分词并集;比较所述基准分词向量中任一第一分词与所述分词并集中每一第三分词的第一相似度,将所述第一相似度的最大值作为所述第一分词的第一语义分数,生成基准表语义向量,其中所述基准表语义向量中存储每一所述第一分词对应的所述第一语义分数;比较所述待分析分词向量中任一第三分词与所述分词并集中每一第三分词的第二相似度,将所述第二相似度的最大值作为所述第二分词的第二语义分数,生成待分析表语义向量,其中所述待分析表语义向量中存储每一所述第二分词对应的所述第二语义分数。
[0013]
在其中一些实施例中,“基于所述排序结果确定所述基准表与每一所述待分析表的关联程度”包括:将每种所述相似度向量的所述向量长度与预设值相比对,在每一所述向量长度都大于所述预设值的情况下,将所述向量长度对应的所述待分析表与所述基准表的所述关联程度标记为有关联。
[0014]
在其中一些实施例中,所述方法还包括:根据所述关联程度剔除所述排序结果中所述相似程度未达到预设条件的相似度向量,其中,所述预设条件包括:将基准表名称与待分析表名称的第一相似度向量、或者基准表描述与待分析表描述的第二相似度向量、或者基准表字段与待分析表字段的第三相似度向量、或者基准表字段下数据与待分析表字段下数据的第四相似度向量对应的各个所述向量长度与预设阈值相比,满足所述预设阈值的数量需达到预设数量。
[0015]
在其中一些实施例中,所述方法还包括:提取所述排序结果中设定数目个所述待分析表,作为与所述基准表对应的关联表。
[0016]
第二方面,本技术实施例提供了一种数据表关联分析装置,包括:信息获取模块,用于获取基准表以及至少一待分析表,分别从所述基准表中提取基准配置信息、从每一所述待分析表中提取对应的待分析信息;向量构建模块,用于根据所述基准配置信息与每一所述待分析信息,计算所述基准表与每一所述待分析表的语义相似度,并构建基于所述语义相似度的相似度向量,其中,每一所述所述相似度向量对应一基准表与一所述待分析表的相似程度;关联度排序模块,用于计算每一所述相似度向量的向量长度,根据所述向量长
度对所有所述相似度向量进行排序,基于所述排序结果确定所述基准表与每一所述待分析表的关联程度。
[0017]
第三方面,本技术实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行第一方面任一项所述的数据表关联分析方法。
[0018]
第四方面,本技术实施例提供了一种计算机程序产品,包括软件代码部分,当所述计算机程序产品在计算机上被运行时,所述软件代码部分用于执行根据第一方面任一项所述的数据表关联分析方法。
[0019]
第五方面,本技术实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据第一方面任一项所述的数据表关联分析方法。
[0020]
本技术实施例的主要贡献和创新点如下:
[0021]
本技术实施例能够将基准表以及待分析表的数据本身的语义信息进行比对,并根据语义相似度构建得到相似度向量,通过相似度向量表示基准表与待分析表的关联关系,并根据最后的关联关系的排序结果分析得到与基准表关联度高的待分析表。该方法根据海量数据中的实际数据内容进行自动比对,不仅比对的速度更快,同时也能提高比对得到的表的关联结果的正确率。
[0022]
本技术的一个或多个实施例的细节在以下附图和描述中提出,以使本技术的其他特征、目的和优点更加简明易懂。
附图说明
[0023]
此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
[0024]
图1是根据本技术第一实施例的数据表关联分析方法的主要步骤流程图。
[0025]
图2是根据本技术第二实施例的数据表关联分析方法的主要步骤流程图。
[0026]
图3是根据本技术第二实施例的分词匹配关系示意图。
[0027]
图4是本技术第二实施例的待分析表推荐方法的流程图。
[0028]
图5是根据本技术实施例的数据表关联分析装置的结构框图;
[0029]
图6是根据本技术实施例的电子装置的硬件结构示意图。
具体实施方式
[0030]
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
[0031]
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进
行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
[0032]
本方案目的在于从海量待分析数据中获取与基准表中的基准数据存在业务关联的数据,获取业务关联目的包括但不限于:通过已有数据的分类以及获分析出的已有数据与海量数据的关联关系,对未知的海量数据进行分类;根据已有业务衍生出新的业务;通过关联关系打通各部门之间的数据壁垒,利于对数据的使用和价值的挖掘;根据已有数据与海量数据的关联关系能够将海量数据的字段标准化。
[0033]
图1是根据本技术第一实施例的数据表关联分析方法的主要步骤流程图。
[0034]
为实现该目的,如图1所示,数据表关联分析方法主要包括如下的步骤s101 至步骤s103。
[0035]
s101、获取基准表以及至少一待分析表,分别从所述基准表中提取基准配置信息、从每一所述待分析表中提取对应的待分析信息。
[0036]
在步骤s101中,基准表是指已获取的数据表,待分析表是指存储于数据库中尚未被获取的数据表。该步骤目的在于提取出基准配置信息以及待分析信息,并分析二者之间的相似程度,从而直观体现出数据之间是否存在业务关联。具体地,现有技术中对多张表之间的关联性分析方法通常针对的是数据描述的对象、数据的业务领域、数据的来源等,这种方式无法适用于跨类型、跨领域的海量数据分析中。例如,当两张表的来源、业务领域以及描述的对象均不同时,该方法会判定为两张表关联度低,但往往会存在两张表的某个字段下存储的是同样或者类似的数据的情况。因此通常情况下都采用人工对比字段的方式确保数据表之间的关联关系不会分析错误。本步骤与二者不同在于:提取的是表中数据本身的特征信息,从而在比较时能够对那些跨领域、跨来源的数据表进行关联性比较。因此本实施例提出的对数据本身相似度进行比较的方式能够更快速梳理出数据之间的业务关系,更有利于提高数据应用价值以及数据使用的效率。
[0037]
在该步骤中,基准配置信息是指基准表表属性信息,具体地,基准表属性信息包括从基准表的数据中提取出来的第一属性数据。同样的,待分析信息是指待分析表属信信息,待分析表属信信息包括从待分析表的数据中提取出来的第二属性数据。将第一属性信息与第二属性信息相比较,得出的是基准表中数据与待分析表中数据的数据相似度,基于数据相似度进一步分析能够得到基准表与待分析表的关联程度。
[0038]
s102、根据所述基准配置信息与每一所述待分析信息,计算所述基准表与每一所述待分析表的语义相似度,并构建基于所述语义相似度的相似度向量,其中,每一所述所述相似度向量对应一基准表与一所述待分析表的相似程度。
[0039]
在步骤s102中,语义相似度是指对基准表以及待分析表中存储的属性信息进行的语义比对,得到的相似度值。具体地,在比对基准表和待分析表的属性信息时,每个属性信息包括了多个维度的特征,例如表名特征、表字段特征、表数据特征等等,每一维度的特征下又包括了多个词意。因此在比对时,将基准表中的一个具体词意与待分析表中的一个具体词意相比,对应得到一个语义相似度,待完成所有比较后,以所有词意的语义相似度构建得到相似度向量。
[0040]
在该步骤中,相似度向量可以根据具体比对的维度分开构建,例如,对表名特征、表字段特征、表数据特征分别构建得到表名特征的相似度向量、表字段特征的相似度向量、
表数据特征的相似度向量,再以所有相似度向量的综合结果作为评价基础表和待分析表的关联程度的依据。在该步骤中,比对综合结果的方式包括但不限于:在每一类特征对应的相似度向量均大于预设阈值的情况下,综合结果为有关联性;或者,在其中几类特征对应的相似度向量大于预设阈值的情况下,综合结果为有关联性。
[0041]
s103、计算每一所述相似度向量的向量长度,根据所述向量长度对所有所述相似度向量进行排序,基于所述排序结果确定所述基准表与每一所述待分析表的关联程度。
[0042]
在步骤s103中,向量长度越长,则基准表与待分析表的业务相关性越强,通过向量长度能够分析得到基准表与各个待分析表的业务相关性情况,并选取业务相关性强的待分析表作为与基准表相关联的数据表。
[0043]
在该步骤中,向量长度可以基于比对的表的维度分为多个,具体地,通过计算相似度向量的方式得到每个基准表与每个待分析表的表名的向量相似度的向量长度,向量长度越长,表示基准表与该待分析表的表名的关联性越强。
[0044]
如上所述,本技术第一实施例提供的数据表关联分析方法,能够将基准表以及待分析表的数据本身的语义信息进行比对,并根据语义相似度构建得到相似度向量,通过相似度向量表示基准表与待分析表的关联关系,并根据最后的关联关系的排序结果分析得到与基准表关联度高的待分析表。该方法通过将海量数据中的实际数据内容进行自动比对,不仅比对的速度更快,同时也能提高比对得到的表的关联结果的正确率。
[0045]
在其中一个可行实施例中,所述基准配置信息包括所述基准表的基准表名称、基准表描述、基准表字段、基准表字段下数据;所述待分析信息包括所述待分析表的待分析表名称、待分析表描述、待分析表字段、待分析表字段下数据。
[0046]
具体地,对于基准表和待分析表的比对属性可以从以下一种或多种特征中采集:分别是表名称、表描述、表字段或者表字段下数据。
[0047]
在针对一张基准表与一张待分析表进行比对时,比对的维数与得到的向量数量呈一对一的关系。具体地,所述相似度向量包括:基准表名称与待分析表名称的第一相似度向量、或者基准表描述与待分析表描述的第二相似度向量、或者基准表字段与待分析表字段的第三相似度向量、或者基准表字段下数据与待分析表字段下数据的第四相似度向量的至少一种。
[0048]
示例性地,在选择表名称、表描述、表字段以及表字段下数据进行比对时,相似度向量包括第一相似度向量、第二相似度向量、第三相似度向量以及第四相似度向量。每一相似度向量可用以分别计算基准表以及待分析表的关联程度,也可以结合在一起综合评价基准表与待分析表的关联程度,具体的评价方式可以在此不做累赘说明。
[0049]
在该实施例中,对获取到的每种所述相似度向量分别计算对应的所述向量长度,根据所述向量长度对每种所述相似度向量进行排序。
[0050]
具体而言,基于获取到的第一相似度向量、第二相似度向量、第三相似度向量、第四相似度向量,分别求出他们对应的向量长度,并对每一特征的向量长度分别排序,得到四个排序结果,其中,第一排序结果表示基准表与各个待分析表的表名称之间的相似程度、第二排序结果表示基准表与各个待分析表的表描述之间的相似程度、第三排序结果表示基准表与各个待分析表的表字段之间的相似程度、第四排序结果表示基准表与各个待分析表的表字段下数据之间的相似程度;其中,第一相似度向量的向量长度越长则表示基准表与待
分析表的表名称关联性越高,第二相似度向量的向量长度越长则表示基准表与待分析表的表描述关联性越高,第三相似度向量的向量长度越长则表示基准表与待分析表的表字段关联性越高,第四相似度向量的向量长度越长则表示基准表与待分析表的表字段下数据关联性越高。
[0051]
在其中一个可行实施例中,“基于所述排序结果确定所述基准表与每一所述待分析表的关联程度”包括:将每种所述相似度向量的所述向量长度与预设值相比对,在每一所述向量长度都大于所述预设值的情况下,将所述向量长度对应的所述待分析表与所述基准表的所述关联程度标记为有关联。
[0052]
在该实施例中,基准表与待分析表之间的关联关系由比较的每一维度的相似程度综合分析得到,具体地,可以通过设置预设值筛选出向量长度的相似度高于预设值的相似度向量。更具体地,在该实施例中,根据所述关联程度剔除所述排序结果中所述相似程度未达到预设条件的相似度向量,其中,所述预设条件包括:将基准表名称与待分析表名称的第一相似度向量、或者基准表描述与待分析表描述的第二相似度向量、或者基准表字段与待分析表字段的第三相似度向量、或者基准表字段下数据与待分析表字段下数据的第四相似度向量对应的各个所述向量长度与预设阈值相比,满足所述预设阈值的数量需达到预设数量。
[0053]
例如,在分析表a与表b的关联程度时,当表a的表名称与表b的表名称的相似程度大于设置的预设值,则说明表a的表名称与表b的表名称有关联。在海量数据的分析过程中,与一张基准表存在某一维度有关联的待分析表的数量可能有很多,因此通过筛选出每一维度的关联程度都大于预设阈值的待分析表从而精准地找出与基准表最具关联性的关联表。
[0054]
在其中一个可行实施例中,“计算所述基准表与每一所述待分析表的语义相似度”包括:分别从所述基准表中提取基准表语义向量,从每一所述待分析表中提取对应的每一基准表语义向量;计算所述基准表语义向量与任一所述待分析表语义向量的余弦值,得到语义相似度。
[0055]
在该实施例中,采用余弦相似度计算基准表与待分析表中的文档数据的相似度包括:
[0056][0057]
公式中,x表示基准表语义向量,y表示待分析表语义向量,t(x,y)表示基准表语义向量与待分析表语义向量的相似度,t(x,y)值越大,说明基准表语义向量与待分析表语义向量的夹角越大,则两点相距越远,相似度则越小。
[0058]
具体地,提取基准表语义向量以及待分析表语义向量的步骤包括:分别对所述基准配置信息以及每一所述待分析信息进行分词,得到所述基准配置信息对应的基准分词向量以及每一所述待分析信息对应的待分析分词向量,计算所述基准分词向量、所述待分析分词向量的并集,生成分词并集;比较所述基准分词向量中任一第一分词与所述分词并集中每一第三分词的第一相似度,将所述第一相似度的最大值作为所述第一分词的第一语义分数,生成基准表语义向量,其中所述基准表语义向量中存储每一所述第一分词对应的所述第一语义分数;比较所述待分析分词向量中任一第三分词与所述分词并集中每一第三分
词的第二相似度,将所述第二相似度的最大值作为所述第二分词的第二语义分数,生成待分析表语义向量,其中所述待分析表语义向量中存储每一所述第二分词对应的所述第二语义分数。
[0059]
通过该实施例能够分别计算待分析表与基准表的表名称、表描述、字段名称、字段下数据的语意相似度,并构建对应的相似度向量,对每一待分析表的相似度向量取向量长度,并根据向量长度的长短对待分析表进行排序,提取所述排序结果中设定数目个所述待分析表,作为与所述基准表对应的关联表。
[0060]
图2是根据本技术第二实施例的数据表关联分析方法的主要步骤流程图。
[0061]
如图2所示,本实施例通过比对基准表与海量数据中的表名称、表描述、字段名称以及字段下数据分别得到这四个维度的匹配度比对结果,并根据所获得的匹配度比对结果分别进行海量数据的关联程度推荐。
[0062]
在本实施例中具体以表名称比对为例,在实际应用中表描述、字段名称以及字段下数据都可以采用与表名称相类似的方法进行比对。
[0063]
示例性的,在本实施例中,分别采集基准表、待分析表的表名称,对表名称进行分词拆分。
[0064]
图3是根据本技术第二实施例的分词匹配关系示意图。
[0065]
如图3所示,基准表的表名称“杭州市鲜果信息科技有限公司”被拆分后获得分词组为:ti={w1,w2,.....wn},其中,w1=杭州市,w2=鲜果,w3=信息,w4=科技,w5=有限公司,以“鲜果信息”作为匹配词,对待分析表中的表名称拆分得到的分词进行逐一地模糊匹配,具体地,模糊匹配的方式为:假设待分析表分词向量为tj,取ti与tj向量中所有分词wi的并集,获取到新的向量t,且对于重复的分词只保留唯一,获取到待分析表与基准表分词合计,向量t,t=t
i u tj。很显然表名称分词合计t的向量长度,小于等于ti与tj向量长度之和。此时取 t向量中的分词wi,与基准表表向量ti中的每一个分词,分别计算相似度(值为 0-1之间),得到的所有结果中的最大值,作为wi在向量ti中的语意分数,表示为ci。t中所有分词与ti进行匹配计算后得到每一个分词的语意分数,构成基准表语意向量si={c1,c2,
……
,cn}。同理可得到待分析表tj的语意向量sj;
[0066]
针对于每一个待分析表获得的语意向量sj分别与基准表语意向量si做计算,获取语意相似度ss,语意相似度ss乘以100,获得以百分制计算的相似度分值;
[0067][0068]
根据如上算法分别计算待分析表与基准表的表名称、表描述、字段名称、字段下数据的语意相似度,可获取到对应的相似度向量lj={s1,s2,s3,s4};
[0069]
对待分析表的相似度向量lj求取向量长度,向量长度越长,则待分析表与基准表业务相关性越强;根据lj向量长度,对待分析表进行排序。
[0070]
如上所述,以基准表为匹配值对待分析表数据从表名称、表描述、字段名称、字段下数据分别进行特征分词提取,通过模糊匹配和语义相似度分析,获取匹配值,得到与基准表相关联的关联表。
[0071]
图4是本技术第二实施例的待分析表推荐方法的流程图。
[0072]
如图4所示,在比较基准表与多个待分析表的关联程度时,根据第一优先级先比较基准表与各个待分析表满足匹配度期望的维度个数,例如基准表与第一待分析表、第二待分析表的维度个数均为4个,则表示两张待分析表的表名称、表描述、表字段、表字段下数据均满足关联程度的期望阈值。则根据第二优先级比较表名称、表描述、表字段、表字段下数据的相似度的总分值,若相似度的分值越高,则说明基准表与待分析表的关联性越高,则将关联性最高的待分析表作为推荐。
[0073]
图5是根据本技术的第三实施例的数据表关联分析装置的结构框图。
[0074]
如图5所示,本技术的一个实施例提出了一种数据表关联分析装置,包括:
[0075]
信息获取模块501,用于获取基准表以及至少一待分析表,分别从所述基准表中提取基准配置信息、从每一所述待分析表中提取对应的待分析信息。
[0076]
向量构建模块502,用于根据所述基准配置信息与每一所述待分析信息,计算所述基准表与每一所述待分析表的语义相似度,并构建基于所述语义相似度的相似度向量,其中,每一所述所述相似度向量对应一基准表与一所述待分析表的相似程度。
[0077]
关联度排序模块503,用于计算每一所述相似度向量的向量长度,根据所述向量长度对所有所述相似度向量进行排序,基于所述排序结果确定所述基准表与每一所述待分析表的关联程度。
[0078]
图6是根据本技术实施例的电子装置的硬件结构示意图。
[0079]
如图6所示,本技术一个实施例的电子装置,包括存储器604和处理器602,该存储器604中存储有计算机程序,该处理器602被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0080]
具体地,上述处理器602可以包括中央处理器(cpu),或者特定集成电路 (applicationspecificintegratedcircuit,简称为asic),或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0081]
其中,存储器604可以包括用于数据或指令的大容量存储器604。举例来说而非限制,存储器604可包括硬盘驱动器(harddiskdrive,简称为hdd)、软盘驱动器、固态驱动器(solidstatedrive,简称为ssd)、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus,简称为usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器604可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器604可在数据处理装置的内部或外部。在特定实施例中,存储器604是非易失性(non-volatile)存储器。在特定实施例中,存储器604包括只读存储器(read-onlymemory,简称为rom) 和随机存取存储器(randomaccessmemory,简称为ram)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(programmableread-onlymemory,简称为prom)、可擦除prom(erasableprogrammableread-onlymemory,简称为eprom)、电可擦除prom (electricallyerasableprogrammableread-onlymemory,简称为eeprom)、电可改写rom(electricallyalterableread-onlymemory,简称为earom)或闪存 (flash)或者两个或更多个以上这些的组合。在合适的情况下,该ram可以是静态随机存取存储器(staticrandom-accessmemory,简称为sram)或动态随机存取存储器(dynamicrandomaccessmemory,简称为dram),其中,dram 可以是快速页模式动态随机存取存储器604 (fastpagemodedynamicrandomaccessmemory,简称为fpmdram)、扩展数据输出动态随机存取存储器(extendeddateo
utdynamicrandomaccessmemory,简称为edodram)、同步动态随机存取内存 (synchronousdynamicrandom-accessmemory,简称sdram)等。
[0082]
存储器604可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器602所执行的可能的计算机程序指令。
[0083]
处理器602通过读取并执行存储器604中存储的计算机程序指令,以实现上述实施例中的任意一种数据表关联分析方法。
[0084]
可选地,上述电子装置还可以包括传输设备606以及输入输出设备608,其中,该传输设备606和上述处理器602连接,该输入输出设备608和上述处理器602连接。
[0085]
传输设备606可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备606可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
[0086]
输入输出设备608用于输入或输出信息。在本实施例中,输入的信息可以是获取的基准表、待分析表等,输出的信息可以是对对待分析表的分析结果或者推荐结果等。
[0087]
可选地,在本实施例中,上述处理器602可以被设置为通过计算机程序执行以下步骤:
[0088]
s101、获取基准表以及至少一待分析表,分别从所述基准表中提取基准配置信息、从每一所述待分析表中提取对应的待分析信息。
[0089]
s102、根据所述基准配置信息与每一所述待分析信息,计算所述基准表与每一所述待分析表的语义相似度,并构建基于所述语义相似度的相似度向量,其中,每一所述所述相似度向量对应一基准表与一所述待分析表的相似程度。
[0090]
s103、计算每一所述相似度向量的向量长度,根据所述向量长度对所有所述相似度向量进行排序,基于所述排序结果确定所述基准表与每一所述待分析表的关联程度。
[0091]
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0092]
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
[0093]
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻
辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如dvd及其数据变体、cd等光学介质上。物理介质是非瞬态介质。
[0094]
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0095]
以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
技术特征:
1.一种数据表关联分析方法,其特征在于,包括以下步骤:获取基准表以及至少一待分析表,分别从所述基准表中提取基准配置信息、从每一所述待分析表中提取对应的待分析信息;根据所述基准配置信息与每一所述待分析信息,计算所述基准表与每一所述待分析表的语义相似度,并构建基于所述语义相似度的相似度向量,其中,每一所述相似度向量对应一基准表与一所述待分析表的相似程度;计算每一所述相似度向量的向量长度,根据所述向量长度对所有所述相似度向量进行排序,基于所述排序结果确定所述基准表与每一所述待分析表的关联程度。2.根据权利要求1所述的数据表关联分析方法,其特征在于,所述基准配置信息包括所述基准表的基准表名称、基准表描述、基准表字段、基准表字段下数据;所述待分析信息包括所述待分析表的待分析表名称、待分析表描述、待分析表字段、待分析表字段下数据。3.根据权利要求2所述的数据表关联分析方法,其特征在于,所述相似度向量包括:基准表名称与待分析表名称的第一相似度向量、或者基准表描述与待分析表描述的第二相似度向量、或者基准表字段与待分析表字段的第三相似度向量、或者基准表字段下数据与待分析表字段下数据的第四相似度向量的至少一种;“计算每一所述相似度向量的向量长度,根据所述向量长度对所有所述相似度向量进行排序”包括:对获取到的每种所述相似度向量分别计算对应的所述向量长度,根据所述向量长度对每种所述相似度向量进行排序。4.根据权利要求1所述的数据表关联分析方法,其特征在于,“计算所述基准表与每一所述待分析表的语义相似度”包括:分别从所述基准表中提取基准表语义向量,从每一所述待分析表中提取对应的每一基准表语义向量;计算所述基准表语义向量与任一所述待分析表语义向量的余弦值,得到语义相似度。5.根据权利要求4所述的数据表关联分析方法,其特征在于,“分别从所述基准表中提取基准表语义向量,从每一所述待分析表中提取对应的每一基准表语义向量”包括:分别对所述基准配置信息以及每一所述待分析信息进行分词,得到所述基准配置信息对应的基准分词向量以及每一所述待分析信息对应的待分析分词向量,计算所述基准分词向量、所述待分析分词向量的并集,生成分词并集;比较所述基准分词向量中任一第一分词与所述分词并集中每一第三分词的第一相似度,将所述第一相似度的最大值作为所述第一分词的第一语义分数,生成基准表语义向量,其中所述基准表语义向量中存储每一所述第一分词对应的所述第一语义分数;比较所述待分析分词向量中任一第三分词与所述分词并集中每一第三分词的第二相似度,将所述第二相似度的最大值作为所述第二分词的第二语义分数,生成待分析表语义向量,其中所述待分析表语义向量中存储每一所述第二分词对应的所述第二语义分数。6.根据权利要求3所述的数据表关联分析方法,其特征在于,“基于所述排序结果确定所述基准表与每一所述待分析表的关联程度”包括:将每种所述相似度向量的所述向量长度与预设值相比对,在每一所述向量长度都大于所述预设值的情况下,将所述向量长度对应的所述待分析表与所述基准表的所述关联程度标记为有关联。
7.根据权利要求2所述的数据表关联分析方法,其特征在于,所述方法还包括:根据所述关联程度剔除所述排序结果中所述相似程度未达到预设条件的相似度向量,其中,所述预设条件包括:将基准表名称与待分析表名称的第一相似度向量、或者基准表描述与待分析表描述的第二相似度向量、或者基准表字段与待分析表字段的第三相似度向量、或者基准表字段下数据与待分析表字段下数据的第四相似度向量对应的各个所述向量长度与预设阈值相比,满足所述预设阈值的数量需达到预设数量。8.根据权利要求1或7任一所述的数据表关联分析方法,其特征在于,所述方法还包括:提取所述排序结果中设定数目个所述待分析表,作为与所述基准表对应的关联表。9.一种数据表关联分析装置,其特征在于,包括:信息获取模块,用于获取基准表以及至少一待分析表,分别从所述基准表中提取基准配置信息、从每一所述待分析表中提取对应的待分析信息;向量构建模块,用于根据所述基准配置信息与每一所述待分析信息,计算所述基准表与每一所述待分析表的语义相似度,并构建基于所述语义相似度的相似度向量,其中,每一所述所述相似度向量对应一基准表与一所述待分析表的相似程度;关联度排序模块,用于计算每一所述相似度向量的向量长度,根据所述向量长度对所有所述相似度向量进行排序,基于所述排序结果确定所述基准表与每一所述待分析表的关联程度。10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至8任一项所述的数据表关联分析方法。11.一种计算机程序产品,其特征在于,包括软件代码部分,当所述计算机程序产品在计算机上被运行时,所述软件代码部分用于执行根据权利要求1至8任一项所述的数据表关联分析方法。12.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1至8任一项所述的数据表关联分析方法。
技术总结
本申请提出了一种数据表关联分析方法和装置,其中,所述方法包括:获取基准表以及至少一待分析表,分别从所述基准表中提取基准配置信息、从每一所述待分析表中提取对应的待分析信息;根据所述基准配置信息与每一所述待分析信息,计算所述基准表与每一所述待分析表的语义相似度,并构建基于所述语义相似度的相似度向量,其中,每一所述所述相似度向量对应一基准表与一所述待分析表的相似程度;计算每一所述相似度向量的向量长度,根据所述向量长度对所有所述相似度向量进行排序,基于所述排序结果确定所述基准表与每一所述待分析表的关联程度。本申请能够解决现有技术中存在的无法快速从海量数据中梳理出数据之间关联关系的问题。题。题。
技术研发人员:毛云青 赵军辉 潘蓝翔 徐剑炯
受保护的技术使用者:城云科技(中国)有限公司
技术研发日:2021.11.12
技术公布日:2022/3/8