1.本技术涉及数据处理技术领域,具体而言,本技术涉及一种字段标准化的检测方法、装置、电子设备及可读存储介质。
背景技术:
2.随着目前信息化的发展,企业的运营离不开数据的支撑,通过分析企业中的各个业务系统中的数据可以非常直观的确定企业当前的运营情况,监控各个业务系统的产品或服务是否符合要求等作用。
3.随着企业的发展,企业中所使用的业务系统越来越多,尤其在金融领域中,各个业务系统的中的数据量越来越大,也越来越复杂,即业务系统的数据库中存在各种各样不同格式、类型的字段,若业务系统中所使用的字段没有一个标准话的规范,无疑影响业务系统的正常运行,影响业务的开展。
4.现有技术中在金融领域,如银行的业务系统中,为了保障安全性,各个业务系统数据库中的字段是否标准化、规范化,一般采用人工的方式进行维护,判断字段是否符合预设的标准,这样效率较低,周期长,还容易出现错误,耗费的成本也较高。
技术实现要素:
5.本技术实施例提供了一种字段标准化的检测方法、装置、电子设备及可读存储介质,可以解决人工检测字段是否标准化导致的效率低,周期长,易出错的问题。所述技术方案如下:
6.根据本技术实施例的一个方面,提供了一种字段标准化的检测方法,该方法包括:
7.爬取业务系统中的数据库表记录的每一字段的字段名、字段类型以及字段长度;
8.对于每一个字段,将字段名与预设标准库中的标准字段名进行比对,获得第一比对结果;将字段类型与预设标准库中的标准字段类型进行比对,获得第二比对结果;将字段长度与预设标准库中的标准字段长度进行比对,获得第三比对结果;
9.根据第一比对结果、第二比对结果以及第三比对结果,计算出字段的比对值;
10.将比对值不小于第一预设阈值的字段作为目标字段,当目标字段的个数占所有字段的个数的比例大于第二预设阈值时,确定业务系统符合预设的检测标准。
11.在一个可能的实现方式中,标准字段名包括中文名以及英文名;
12.将字段的字段名与预设标准库中的标准字段名进行比对,获得第一比对结果,包括:
13.当字段名中的中文名与标准字段名中的中文名一致时,获得第一分值;
14.当字段名中的英文名与标准字段名中的英文名一致时,获得第二分值;
15.将第一分值与第二分值之和作为第一比对结果。
16.在另一个可能的实现方式中,将字段类型与预设标准库中的标准字段类型进行比对,获得第二比对结果,包括:
17.当字段的字段类型与标准字段类型一致,且字段的内容所属字段类型与字段类型一致时,确定第二比对结果为第三分值度。
18.在又一个可能的实现方式中,将字段的字段中文名与标准字段中文名进行比对,获得字段中文名的第三相似度,包括:
19.若确定标准字段中文名中存在字段中文名,则确定第三相似度为第一数值;
20.若确定标准字段中文名中不存在字段中文名,则确定第三相似度为第二数值。
21.在又一个可能的实现方式中,方法还包括:
22.当字段类型与标准字段类型一致,且字段的内容所属字段类型与字段类型不一致时,确定第二比对结果为第四分值。
23.在又一个可能的实现方式中,将字段长度与预设标准库中的标准字段长度进行比对,获得第三比对结果,包括:
24.当字段长度与标准字段长度一致,且与字段相对应的内容的长度符合字段长度时,确定第三比对结果为第五分值。
25.在又一个可能的实现方式中,方法还包括:
26.当字段的字段长度与标准字段长度一致、与字段对应的内容的长度与字段长度不一致时,确定第三比对结果为第六分值。
27.根据本技术实施例的另一个方面,提供了一种字段标准化的检测装置,该装置包括:
28.爬取模块,用于爬取业务系统中的数据库表记录的每一字段的字段名、字段类型以及字段长度;
29.比对模块,用于对于每一个字段,将字段名与预设标准库中的标准字段名进行比对,获得第一比对结果;将字段类型与预设标准库中的标准字段类型进行比对,获得第二比对结果;将字段长度与预设标准库中的标准字段长度进行比对,获得第三比对结果;
30.计算模块,用于根据第一比对结果、第二比对结果以及第三比对结果,计算出字段的比对值;
31.确定模块,用于将比对值不小于第一预设阈值的字段作为目标字段,当目标字段的个数占所有字段的个数的比例大于第二预设阈值时,确定业务系统符合预设的检测标准。
32.根据本技术实施例的另一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序处理器执行计算机程序以实现上述的字段标准化的检测方法的步骤。
33.根据本技术实施例的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的字段标准化的检测方法的步骤。
34.本技术实施例提供的技术方案带来的有益效果是:
35.本技术实施例中通过业务系统中的数据库表记录的每一字段的字段名、字段类型以及字段长度与预设的标准库中的标准字段名、标准字段类型以及标准字段长度进行比对,得到每一个字段的比对值,从一个字段的多个维度的信息衡量该字段是否符合预设的检测标准,比对更为准确,再确定比对值不小于低于预设阈值的目标字段占业务系统中所有字段的比值,考虑到了真实情况下的各种干扰因素,减小了比对的误差,可以非常直观的
业务系统是否符合预设的检测标准。
附图说明
36.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
37.图1为本技术实施例提供的一种字段标准化的检测方法的流程示意图;
38.图2为本技术实施例提供的一种字段标准化的检测装置的结构示意图;
39.图3为本技术实施例提供的一种数据标准化的检测的电子设备的结构示意图。
具体实施方式
40.下面结合本技术中的附图描述本技术的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本技术实施例的技术方案的示例性描述,对本技术实施例的技术方案不构成限制。
41.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“a和/或b”可以实现为“a”,或者实现为“b”,或者实现为“a和b”。
42.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
43.业务系统,是指企业达成定位所需要的业务环节、各合作伙伴扮演的角色以及利益相关者合作与交易的方式和内容,本技术实施例中主要涉及金融领域中的业务系统,例如信贷系统、客户信息系统(ecif)、贷记卡系统、国际结算系统等。
44.随着信息化的发展,各种行业中的企业都实行数据化管理,而伴随着企业的发展,开发出越来越多的业务系统,业务系统中的数据量也越来越大,那么对于数据的准确性的要求也越来越高,尤其在金融领域,并且不同的业务系统之间的数据交互也越来越频繁,数据交互的方式也越来越复杂,若数据不统一会非常影响业务系统之间的数据交互,对于企业的发展带来不良的影响。
45.而具体地,业务系统中的数据即是业务系统所使用的数据库中的所有的字段,现有技术中一般为了保障数据的安全性,一般采用人工的方式进行维护,即判断各个业务系统中的字段是否标准化、规范化,是否按照预设的标准录入和使用数据,这样的方式效率较低,周期长,还容易出现错误,耗费较多的人力物力。
46.本技术提供的字段标准化的检测方法、装置、电子设备及计算机可读存储介质,旨在解决现有技术的如上技术问题。
47.下面通过对几个示例性实施方式的描述,对本技术实施例的技术方案以及本技术
的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
48.本技术实施例中提供了一种字段标准化的检测方法,如图1所示,该方法包括:
49.s101、爬取业务系统中的数据库表记录的每一字段的字段名、字段类型以及字段长度。
50.本技术实施例采集的业务系统主要是在金融行业中所涉及的业务系统,例如信贷系统、客户信息系统(ecif)、贷记卡系统、国际结算系统等,在金融行业中数据是否标准化是非常重要的,每个业务系统中的数据也即字段,基本是按照各自业务系统内部的业务需求而产生的各式各样的数据,因此,需采集业务系统中所有字段的字段信息,对所有字段的字段信息进行检测。
51.采集业务系统中的所有字段的字段信息的方式可以通过终端从企业内部使用的数据库中直接爬取获得,也可以是在服务器后台配置采集的时间,间隔预设的时间自动进行爬取等方式,爬取的方式如现有技术中常见的方式,本技术实施例不作具体限定。
52.业务系统中的数据库是支持业务系统正常运行的基础条件,业务系统的运行逻辑,所涉及使用的各种字段都存储在数据库中,业务系统中所涉及的所有字段的字段信息,如字段名、字段类型以及字段长度等信息可以从数据库中采集得到,可以以文本格式进行记录保存。
53.s102、对于每一个字段,将字段名与预设标准库中的标准字段名进行比对,获得第一比对结果;将字段类型与预设标准库中的标准字段类型进行比对,获得第二比对结果;将字段长度与预设标准库中的标准字段长度进行比对,获得第三比对结果。
54.预设标准库是预先设置的,是基于各个业务系统实际情况下的业务规则和字段含义,在企业层面定义的一种标准,各个业务系统都应遵守,具体的,规范定义了字段的命名标准、字段可能的字段类型以及字段的标准长度等,如标准字段名、标准字段类型以及标准字段长度等。
55.对于每一个字段,可以将该字段的字段名、字段类型以及字段长度分别与预设标准库中的标准字段名、标准字段类型以及标准字段长度进行比对,即将字段名与预设标准库中的标准字段名进行比对,获得第一比对结果;将字段类型与预设标准库中的标准字段类型进行比对,获得第二比对结果;将字段长度与预设标准库中的标准字段长度进行比对,获得第三比对结果;
56.应当理解的是,对于每一个字段,基于该字段的字段名、字段类型以及字段长度三个维度衡量该字段,确定预设的标准库中是否对应存在与该字段对应一致的标准字段名、标准字段类型以及标准字段长度,具体的比对过程在后续的实施例中进行描述。
57.s103、根据第一比对结果、第二比对结果以及第三比对结果,计算出字段的比对值。
58.应当理解的是,在本技术实施例中采用评分的方式衡量该字段是否符合预设检测,即比对结果是一个具体的分值,在获得每一个字段的关于字段名的第一别对结果、关于字段类型的第二比对结果以及关于字段长度的第三比对结果后,可以根据第一比对结果、第二比对结果以及第三比对结果,计算出字段的比对值,计算的方式可以是将第一比对结
果与第二比对结果,以及与第三比对结果相加,作为该字段的比对值,也可以采用其他方式,本技术实施例不作具体限定。
59.s104、将比对值不小于第一预设阈值的字段作为目标字段,当目标字段的个数占所有字段的个数的比例大于第二预设阈值时,确定业务系统符合预设的检测标准。
60.应当理解的是,在本技术实施例中一个字段的比对值越大,表示该字段越符合预设的标准,而实际情况下,一个字段的字段名、字段类型或字段长度中可能存在某一项并不符合预设的标准,即第一比对结果、第二比对结果或第三比对结果中可能某一项的分值很低或者没有得分,因此,本技术实施例中设置第一预设阈值,将比对值不小于第一预设阈值的字段作为目标字段,可以认为目标字段的字段名、字段类型或字段长度是符合预设标准库中的标准字段名、标准字段类型以及标准字段长度的。
61.本技术实施例中统计出所有字段中目标字段的个数,然后计算目标字段占所有字段的比例,目标字段占所有字段的比例越大,表示业务系统越符合预设的检测标准,而目标字段占所有字段的比例越小,表示业务系统越不符合预设的检测标准,因此,本技术实施例中设置第二预设阈值,当目标字段的个数占所有字段的个数的比例大于第二预设阈值时,确定业务系统符合预设的检测标准。
62.在本技术所述中采用实际情况下使用较为频繁的百分制,即比对值的总分为100分,基于字段名、字段类型以及字段长度的重要程度分配不同的权重,例如字段名占30分,字段类型占40分,字段长度占30分。
63.例如设置第一预设阈值为80分,设置第二预设阈值为90%,当所有字段的总个数为100个,可以统计出比对值大于80的目标字段的个数为80个,则目标字段占所有字段的比例为80/100=80%,而80%小于90%,可以确定该业务系统不符合预设的检测标准。
64.本技术实施例中通过业务系统中的数据库表记录的每一字段的字段名、字段类型以及字段长度与预设的标准库中的标准字段名、标准字段类型以及标准字段长度进行比对,得到每一个字段的比对值,从一个字段的多个维度的信息衡量该字段是否符合预设的检测标准,比对更为准确,再确定比对值不小于低于预设阈值的目标字段占业务系统中所有字段的比值,考虑到了真实情况下的各种干扰因素,减小了比对的误差,可以非常直观的业务系统是否符合预设的检测标准。
65.本技术实施例中还提供了一种可能的实现方式,标准字段名包括中文名以及英文名;
66.将字段的字段名与预设标准库中的标准字段名进行比对,获得第一比对结果,包括:
67.当字段名中的中文名与标准字段名中的中文名一致时,获得第一分值;
68.当字段名中的英文名与标准字段名中的英文名一致时,获得第二分值;
69.将第一分值与第二分值之和作为第一比对结果。
70.应当理解的是,在数据库中记录存储的字段的字段名一般都存在字段中文名和字段英文名,可以分别对该字段的字段中文名和字段英文名分别与预设标准库中的标准字段名中的中文名和英文名进行比对,确定第一比对结果。结合上述实施例中的百分制,字段名占30分,本技术实施例中基于中文名和英文名重要程度,确定中文名和英文名的权重,例如可以分配给中文名10分,英文名20分。
71.具体地,将该字段的中文名与标准名中的中文名进行比对,即是确定该字段名中的中文名是否与标准字段中文名中的中文名一致,例如该字段的字段名中的中文名为“customer name”,而预设标准库中的标准字段名中的中文名包括“客户姓名”、“客户性别”、“客户年龄”等,可以确定该字段名中的中文名与标准字段名中的中文名“客户姓名”一致,此时,获得第一分值,也即10分。
72.将该字段的英文名与标准名中的英文名进行比对,即是确定该字段名中的英文名是否与标准字段英文名中的英文名一致,例如该字段的字段名中的英文名为“客户姓名”,而预设标准库中的标准字段名中的英文名包括“customer name”、“customer gender”、“、customer age”等,可以确定该字段名中的英文名与标准字段名中的英文名“客户姓名”一致,此时,获得第二分值,也即20分。
73.根据上述例子,将第一分值与第二分值之和作为第一比对结果,即第一比对结果为10+20=30分。
74.应当理解的是,在本技术实施例中在将该字段的字段类型与预设标准库中的标准字段类型进行比对后,还需判断该字段的内容是否符合该字段的字段类型,因实际情况下业务系统的数据库中的字段是非常多的,每个字段的字段类型也是很多的,可能由于各种原因录入业务系统中的数据与该字段的字段类型并不匹配,不符合数据的标准,例如字段类型为字符串类型,但其记录的该字段的内容可能为日期和时间数据类型。
75.本技术实施例中预设标准库中标准字段类型可以包括二进制类型、字符串类型、unicode数据类型、日期和时间数据类型、数值数据类型、货币数据类型、特殊数据类型常见的数据库中的字段类型,根据实际情况确定本技术中的预设标准库中所包含的类型。
76.将该字段的字段类型与标准字段类型进行比对,即是判断该字段的字段类型是否属于标准字段类型中的一种,确定该字段的字段类型是否与预设标准库中的一种标准字段类型一致,例如该字段的字段类型为字符串型,而标准字段类型中包括字符串类型、日期和时间数据类型、数值数据类型,可以确定该字段的字段类型与预设标准库中的字符串类型一致,然后再判断该字段的内容是否符合该字段的字段类型,例如该字段的内容为“张三”,可以确定该字段的内容所属的字段类型是字符串类型,是与字段类型一致的,则可以确定第二比对结果为第三分值,而第三分值以上述实施例中的百分制时为40分,即第二比对结果为40分。
77.本技术实施例中还提供了一种可能的实现方式,方法还包括:
78.当字段类型与标准字段类型一致,且字段的内容所属字段类型与字段类型不一致时,确定第二比对结果为第四分值。
79.应当注意的是,若该字段的字段类型属于标准字段类型,但该字段的内容所属的字段类型并不符合该字段的字段类型,从数据标准化的角度考虑,该字段所规定的字段类型是符合标准字段类型的,但是该字段的内容所属的字段类型是错误的,可以在后期进行相应的调整修改,因此,本技术实施例中当该字段的字段类型与标准字段类型一致,而该字段的内容所属的字段类型与该字段的字段类型不一致时,第二比对结果为第四分值。
80.根据上述实施例中的百分制,字段类型占40分,而本技术实施例中字段的内容所属的字段类型是否与该字段的字段类型,相较于该字段的字段类型是否与标准字段类型一致当然更为重要,因此本技术实施例中设置第四分值为25分。
81.例如该字段的内容为“张三”,而该字段的字段类型数值类型,预设标准库中的标准字段类型包括字符串类型和数值类型,可以确定该字段的字段类型与标准字段类型一致,而该字段的内容所属的字段类型与该字段的字段类型不一致,第二比对结果为25分。
82.本技术实施例中还提供了一种可能的实现方式,将字段长度与预设标准库中的标准字段长度进行比对,获得第三比对结果,包括:
83.当字段长度与标准字段长度一致,且与字段相对应的内容的长度符合字段长度时,确定第三比对结果为第五分值。
84.应当理解的是,同样的,在本技术实施例中再将该字段的字段长度与标准字段长度进行比对后,还需判断该字段对应的内容是否符合该字段的字段长度,例如该字段的字段长度为3,而该字段对应的内容可能为“张三”,而“张三”的字段长度为2,是不符合该字段的字段长度的。
85.将该字段的字段长度与标准字段长度进行比对,即是判断该字段的字段长度是否与预设标准库中包括的标准字段长度是否一致,例如该字段的字段长度为2,而标准字段长度包括2、5、10等,可以确定该字段的字段长度符合标准字段长度,然后再判断该字段对应的内容是否符合该字段的字段长度,例如该字段的内容为“张三”,“张三”的字段长度为2,可以该字段的内容的长度是与字段长度2一致的,可以确定第三比对结果为第五分值,而第五分值以上述实施例中的百分制为30分,即第三比对结果为30分。
86.本技术实施例中还提供了一种可能的实现方式,方法还包括:
87.当字段的字段长度与标准字段长度一致、与字段对应的内容的长度与字段长度不一致时,确定第三比对结果为第六分值。
88.应当注意的是,若该字段的字段长度符合标准字段长度,但该字段对应的内容并不符合该字段的字段类型,从数据标准化的角度考虑,该字段所规定的字段长度是符合标准字段长度的,但是该字段的内容对应的字段长度是错误的,与该字段的字段长度不一致,也可以在后期进行相应的调整修改,因此,若该字段的字段长度与标准字段长度一致,但是该字段对应的内容并不符合该字段的字段长度,第三比对结果为第六分值。
89.根据上述实施例中的百分制,字段长度占30分,本技术实施例中可以设置第六分值为15分,例如该字段的内容为“张三四”,字段长度为2,预设标准库中的字段长度包括2、5、10等,可以确定该字段的字段长度与预设标准库中的字段长度2一致,而该字段的内容的长度为3,是与该字段的字段长度不一致的,可以确定第三比对结果为15分。
90.本技术实施例提供了一种字段标准化的检测装置,如图2所示,该字段标准化的检测装置可以包括:爬取模块110、比对模块210、计算模块310以及确定模块410,其中,
91.爬取模块110,用于爬取业务系统中的数据库表记录的每一字段的字段名、字段类型以及字段长度;
92.比对模块210,用于对于每一个字段,将字段名与预设标准库中的标准字段名进行比对,获得第一比对结果;将字段类型与预设标准库中的标准字段类型进行比对,获得第二比对结果;将字段长度与预设标准库中的标准字段长度进行比对,获得第三比对结果;
93.计算模块310,用于根据第一比对结果、第二比对结果以及第三比对结果,计算出字段的比对值;
94.确定模块410,用于将比对值不小于第一预设阈值的字段作为目标字段,当目标字
段的个数占所有字段的个数的比例大于第二预设阈值时,确定业务系统符合预设的检测标准。
95.本技术实施例提供的字段标准化的检测装置,具体执行上述方法实施例流程,具体请详见上述字段标准化的检测方法实施例的内容,在此不再赘述。本技术实施例提供的字段标准化的检测装置,通过业务系统中的数据库表记录的每一字段的字段名、字段类型以及字段长度与预设的标准库中的标准字段名、标准字段类型以及标准字段长度进行比对,得到每一个字段的比对值,从一个字段的多个维度的信息衡量该字段是否符合预设的检测标准,比对更为准确,再确定比对值不小于低于预设阈值的目标字段占业务系统中所有字段的比值,考虑到了真实情况下的各种干扰因素,减小了比对的误差,可以非常直观的业务系统是否符合预设的检测标准。
96.在一个可能的实现方式中,标准字段名包括中文名以及英文名;
97.比对模块210包括:
98.第一比对模块,用于当字段名中的中文名与标准字段名中的中文名一致时,获得第一分值;
99.当字段名中的英文名与标准字段名中的英文名一致时,获得第二分值;
100.将第一分值与第二分值之和作为第一比对结果。
101.在另一个可能的实现方式中,比对模块210还包括:
102.第二比对模块,用于当字段的字段类型与标准字段类型一致,且字段的内容所属字段类型与字段类型一致时,确定第二比对结果为第三分值。
103.在又一个可能的实现方式中,比对模块210还包括:
104.中文名子单元,用于若确定标准字段中文名中存在字段中文名,则确定第三相似度为第一数值;
105.第三比对模块,用于当字段类型与标准字段类型一致,且字段的内容所属字段类型与字段类型不一致时,确定第二比对结果为第四分值。
106.在又一个可能的实现方式中,比对模块210还包括:
107.第四比对模块,用于当字段长度与标准字段长度一致,且与字段相对应的内容的长度符合字段长度时,确定第三比对结果为第五分值。
108.在又一个可能的实现方式中,比对模块210还包括:
109.当字段的字段长度与标准字段长度一致、与字段对应的内容的长度与字段长度不一致时,确定第三比对结果为第六分值。
110.本技术实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现字段标准化的检测方法的步骤,与相关技术相比可实现:本技术实施例中通过业务系统中的数据库表记录的每一字段的字段名、字段类型以及字段长度与预设的标准库中的标准字段名、标准字段类型以及标准字段长度进行比对,得到每一个字段的比对值,从一个字段的多个维度的信息衡量该字段是否符合预设的检测标准,比对更为准确,再确定比对值不小于低于预设阈值的目标字段占业务系统中所有字段的比值,考虑到了真实情况下的各种干扰因素,减小了比对的误差,可以非常直观的业务系统是否符合预设的检测标准。
111.在一个可选实施例中提供了一种电子设备,如图3所示,图3所示的电子设备4000
包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。
112.处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic(application specific integrated circuit,专用集成电路),fpga(field programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
113.总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
114.存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、cd-rom(compact disc read only memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
115.存储器4003用于存储执行本技术实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
116.本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
117.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除图示或文字描述以外的顺序实施。
118.应该理解的是,虽然本技术实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本技术实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本技术实施例对此不限制。
119.以上所述仅是本技术部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术的方案技术构思的前提下,采用基于本技术技术思想的其他类似实施手段,同样属于本技术实施例的保护范畴。
技术特征:
1.一种字段标准化的检测方法,其特征在于,所述方法包括:爬取业务系统中的数据库表记录的每一字段的字段名、字段类型以及字段长度;对于所述每一个字段,将所述字段名与预设标准库中的标准字段名进行比对,获得第一比对结果;将所述字段类型与预设标准库中的标准字段类型进行比对,获得第二比对结果;将所述字段长度与预设标准库中的标准字段长度进行比对,获得第三比对结果;根据所述第一比对结果、第二比对结果以及第三比对结果,计算出所述字段的比对值;将所述比对值不小于第一预设阈值的字段作为目标字段,当所述目标字段的个数占所有字段的个数的比例大于第二预设阈值时,确定所述业务系统符合预设的检测标准。2.根据权利要求1所述的字段标准化的检测方法,其特征在于,所述标准字段名包括中文名以及英文名;所述将所述字段的字段名与预设标准库中的标准字段名进行比对,获得第一比对结果,包括:当所述字段名中的中文名与所述标准字段名中的中文名一致时,获得第一分值;当所述字段名中的英文名与所述标准字段名中的英文名一致时,获得第二分值;将所述第一分值与所述第二分值之和作为所述第一比对结果。3.根据权利要求1所述的字段标准化的检测方法,其特征在于,所述将所述字段类型与预设标准库中的标准字段类型进行比对,获得第二比对结果,包括:当所述字段的字段类型与所述标准字段类型一致,且所述字段的内容所属字段类型与所述字段类型一致时,确定所述第二比对结果为第三分值。4.根据权利要求3所述的字段标准化的检测方法,其特征在于,所述方法还包括:当所述字段类型与所述标准字段类型一致,且所述字段的内容所属字段类型与所述字段类型不一致时,确定所述第二比对结果为第四分值。5.根据权利要求1所述的字段标准化的检测方法,其特征在于,所述将所述字段长度与预设标准库中的标准字段长度进行比对,获得第三比对结果,包括:当所述字段长度与所述标准字段长度一致,且与所述字段相对应的内容的长度符合所述字段长度时,确定所述第三比对结果为第五分值。6.根据权利要求5所述的字段标准化的检测方法,其特征在于,所述方法还包括:当所述字段的字段长度与所述标准字段长度一致、与所述字段对应的内容的长度与所述字段长度不一致时,确定所述第三比对结果为第六分值。7.一种字段标准化的检测装置,其特征在于,所述装置包括:爬取模块,用于爬取业务系统中的数据库表记录的每一字段的字段名、字段类型以及字段长度;比对模块,用于对于所述每一个字段,将所述字段名与预设标准库中的标准字段名进行比对,获得第一比对结果;将所述字段类型与预设标准库中的标准字段类型进行比对,获得第二比对结果;将所述字段长度与预设标准库中的标准字段长度进行比对,获得第三比对结果;计算模块,用于根据所述第一比对结果、第二比对结果以及第三比对结果,计算出所述字段的比对值;确定模块,用于将所述比对值不小于第一预设阈值的字段作为目标字段,当所述目标
字段的个数占所有字段的个数的比例大于第二预设阈值时,确定所述业务系统符合预设的检测标准。8.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-6任一项所述的字段标准化的检测方法的步骤。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的字段标准化的检测方法的步骤。
技术总结
本申请实施例提供了一种字段标准化的检测方法、装置、电子设备及可读存储介质,涉及数据处理领域。该方法包括:爬取业务系统中的数据库表记录的每一字段的字段名、字段类型以及字段长度;对于每一个字段,将字段名与预设标准库中的标准字段名进行比对,获得第一比对结果;将字段类型与预设标准库中的标准字段类型进行比对,获得第二比对结果;将字段长度与预设标准库中的标准字段长度进行比对,获得第三比对结果;根据第一比对结果、第二比对结果以及第三比对结果,计算出字段的比对值;将比对值不小于第一预设阈值的字段作为目标字段,当目标字段的个数占所有字段的个数的比例大于第二预设阈值时,确定业务系统符合预设的检测标准。标准。标准。
技术研发人员:张静芳
受保护的技术使用者:中电金信软件有限公司
技术研发日:2021.11.29
技术公布日:2022/3/8