1.本发明属于知识图谱挖掘技术领域,特别涉及一种网络资产图中重要资产与关键链路的识别方法。
背景技术:
2.图谱是一种描述和建模复杂系统的通用语言,在真实世界中无处不在。例如,脸谱(facebook)、推特(twitter)等社交媒体构成了人类之间的社交网络(social network);人体中的蛋白质分子构成了生物网络(biological network);各种移动终端构成了通信网络(communicationnetwork);智能硬件之间构成了物联网(internet-of-things)、城市间的公路、铁路、航线构成了运输网络(transportationnetwork)等。随着大数据时代的到来,在图上进行数据挖掘逐渐成为令人瞩目的研究热点之一,如为用户推荐感兴趣的好友、判断蛋白质结构、预测交通流量、检测异常账户等。这些图谱的数据挖掘算法不仅能够提高图谱结构的可视化程度,也能帮助我们更好地理解网络中纷繁复杂的关联关系。
3.知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的技术方法。知识图谱由节点和边组成。节点可以是一个实体,如一个人、一本书等,或是抽象的概念,如人工智能、知识图谱等。边可以是实体的属性,如姓名、书名,或是实体之间的关系,如朋友、配偶。知识图谱的早期概念来自semantic web(语义网),其最初理想是把基于文本链接的万维网转化成基于实体链接的语义网。
4.网络资产图也是一种复杂的知识图谱和异质网络,由多种类型的网络资产和其关联关系组成。在网络资产图谱的重要节点和连边中,业务影响力簇中心与桥节点称为重要资产,重要资产及其连边形成的桥接链路称为关键链路,这两种结构在图谱中都扮演着非常重要的角色。但是,随着网络资产图谱规模的增加,分析人员很难直接通过肉眼识别重要资产与关键链路。
技术实现要素:
5.为解决目前技术存在的缺陷和不足,本发明的目的在于提供一种网络资产图中重要资产与关键链路的识别方法。该识别方法准确率高、提取效果好,可以提高可视空间。
6.本发明的目的通过下述技术方案实现:
7.一种网络资产图中重要资产与关键链路的识别方法,包括如下步骤:
8.s01:获取网络资产图,计算网络资产图中每个节点的随机游走介数中心性,并进行放大;
9.s02:将步骤s01中每个节点放大后的随机游走介数中心性输入到第一h-index算法中,得到t1;
10.s03:如果步骤s01中某节点放大后的随机游走介数中心性大于步骤s02中得到的t1,则将该节点加入到候选簇中心集合中;
11.s04:计算步骤s03得到的候选簇中心集合中每个节点的度中心性,并进行放大;
12.s05:将步骤s04中每个节点放大后的度中心性输入到第二h-index算法中,得到t2;
13.s06:如果步骤s04中某节点放大后的度中心性大于步骤s05中得到的t2,则将该节点加入到簇中心集合中;
14.s07:对步骤s06中的得到的簇中心集合进行分桶;
15.s08:根据步骤s06得到的簇中心集合,识别出业务影响力簇中心;
16.s09:根据步骤s06得到的簇中心集合和步骤s07的分桶结果,识别出关键链路和桥节点;
17.s10:根据步骤s09得到的桥节点的集合,识别出业务影响力桥节点。
18.在其中一个实施例中,步骤s02中,所述第一h-index算法的具体步骤如下:
19.s02.1:对所有节点,按照步骤s01放大后的随机游走介数中心性进行从大到小的排序;
20.s02.2:假设h=i(i=1,2,
…
,n),n为节点个数,从排序后中心性最大节点开始往下遍历,若h*s_1≥第h个节点中心性,则只有h-1个节点的中心性大于(h-1)*s_1,此时,t_1=(h-1)*s_1,其中s_1为用户预定义的放缩系数(scaling_index)。
21.在其中一个实施例中,步骤s05中,所述第二h-index算法的具体步骤如下:
22.s05.1、对所有节点,按照步骤s04放大后的度中心性进行从大到小的排序;
23.s05.2、假设h=i(i=1,2,
…
,n),n为节点个数,从排序后中心性最大节点开始往下遍历,若h*s_2≥第h个节点中心性,则只有h-1个节点的中心性大于(h-1)*s_2,此时,t_2=(h-1)*s_2,其中s_2为用户预定义的放缩系数。
24.在其中一个实施例中,步骤s08中,所述识别出业务影响力簇中心的具体步骤如下:
25.s08.1:观察簇中心在所述网络资产图上的结构和业务特点;
26.s08.2:将所述簇中心分为业务影响力簇中心、节点影响力簇中心以及结构影响力簇中心;
27.s08.3:如果某簇中心(节点)为业务影响力簇中心,则该簇中心视为重要资产。
28.在其中的一个实施例中,步骤s09中,所述识别关键链路的具体步骤如下:
29.s09.1:遍历所有簇中心节点,找到不同簇中心之间的桥接链路,然后输出桥节点;
30.s09.2:遍历所述桥接链路,如果某所述桥接链路的两端均为所述业务影响力簇中心,则该桥接链路为关键链路。
31.在其中一个实施例中,步骤s10中,所述识别出业务影响力桥节点的具体步骤如下:
32.s10.1、观察桥节点在所述网络资产图上的结构和业务特点;
33.s10.2、将所述桥节点分为业务影响力桥节点、一级桥节点、二级桥节点以及三级桥节点;
34.s10.3、如果某桥节点为业务影响力桥节点,则该桥节点视为重要资产。
35.本发明相对于现有技术具有如下的优点及效果:本发明为识别网络资产图中重要资产与关键链路提供了一种参数设置简单、提取效果准确的方法,将自上而下、分类求精的思想应用于网络资产与资产链的检测中,有效地解决了现有识别算法中对用户自定义参数
依赖程度高、准确率低的问题,以帮助人们更深层次地挖掘网络资产图的特殊业务结构,适合推广应用。
附图说明
36.图1为本发明实施例网络资产图中重要资产与关键链路识别方法的流程示意图;
37.图2为本发明一实施例的案例数据data7提取前的网络资产图;
38.图3为图2的数据data7提取后的网络资产图;
39.图4为本发明另一实施例的案例数据data14提取前的网络资产图;
40.图5为图4的数据data14提取后的网络资产图。
具体实施方式
41.下面结合实施例对本发明作进一步详细的描述,但本发明的实施方式不限于此。
42.除非另有定义,否则本文中所用的全部技术术语和科学术语均具有如本发明所属领域普通技术人员通常理解的相同含义。
43.如本文所用,术语“含有”或“包括(包含)”可以是开放式、半封闭式和封闭式的。换言之,所述术语也包括“基本上由
…
构成”、或“由
…
构成”。
44.本发明公开了一种网络资产图中重要资产与关键链路的识别方法,也称为extract算法,通过hubextract和bridgeextract两种算法实现。hubextract算法结合了随机游走介数中心性和度中心性的优点,可分为四个部分:第一部分是利用随机游走介数中心性得到候选簇中心集合;第二部分是在候选簇中心中利用度中心性过滤度小的节点得到簇中心集合;第三部分是对簇中心集合进行分桶;第四部分是细分簇中心集合。通过这四个步骤,可以成功识别出重要资产中的业务影响力簇中心。然后,在已知的簇中心基础上,我们可以根据业务规则识别出重要资产之间的桥接链路,也就是关键链路。最后,通过bridgeextract算法对桥接链路的提取,可以得到关键链路上的另一种重要资产-业务影响力桥节点。本发明的识别方法具有识别效果好、准确性高的特点,适合推广应用。
45.具体的,如图1所示,本发明实施例提供一种网络资产图中重要资产与关键链路的识别方法,包括如下步骤:
46.s01:获取网络资产图,计算网络资产图中每个节点的随机游走介数中心性,并进行放大;
47.s02:将步骤s01中每个节点放大后的随机游走介数中心性输入到第一h-index算法中,得到t1(threshold 1);
48.s03:如果步骤s01中某节点放大后的随机游走介数中心性大于步骤s02中得到的t1,则将该节点加入到候选簇中心集合中;
49.s04:计算步骤s03得到的候选簇中心集合中每个节点的度中心性,并进行放大;
50.s05:将步骤s04中每个节点放大后的度中心性输入到第二h-index算法中,得到t2(threshold 2);
51.s06:如果步骤s04中某节点放大后的度中心性大于步骤s05中得到的t2,则将该节点加入到簇中心集合中;
52.s07:对步骤s06中的得到的簇中心集合进行分桶;
53.s08:根据步骤s06得到的簇中心集合,识别出业务影响力簇中心;
54.s09:根据步骤s06得到的簇中心集合和步骤s07的分桶结果,识别出关键链路和桥节点;
55.s10:根据步骤s09得到的桥节点的集合,识别出业务影响力桥节点。
56.在其中一个实施例中,步骤s02中,所述第一h-index算法的具体步骤如下:
57.s02.1:对所有节点,按照步骤s01放大后的随机游走介数中心性进行从大到小的排序;
58.s02.2:假设h=i(i=1,2,
…
,n),n为节点个数,从排序后中心性最大节点开始往下遍历,若h*s_1≥第h个节点中心性,则只有h-1个节点的中心性大于(h-1)*s_1,此时,t_1=(h-1)*s_1,其中s_1为用户预定义的放缩系数(scaling_index)。
59.在其中一个实施例中,步骤s05中,所述第二h-index算法的具体步骤如下:
60.s05.1、对所有节点,按照步骤s04放大后的度中心性进行从大到小的排序;
61.s05.2、假设h=i(i=1,2,
…
,n),n为节点个数,从排序后中心性最大节点开始往下遍历,若h*s_2≥第h个节点中心性,则只有h-1个节点的中心性大于(h-1)*s_2,此时,t_2=(h-1)*s_2,其中s_2为用户预定义的放缩系数。
62.在其中一个实施例中,步骤s08中,所述识别出业务影响力簇中心的具体步骤如下:
63.s08.1:观察簇中心在所述网络资产图上的结构和业务特点;
64.s08.2:将所述簇中心分为业务影响力簇中心、节点影响力簇中心以及结构影响力簇中心;
65.s08.3:如果某簇中心(节点)为业务影响力簇中心,则该簇中心视为重要资产。
66.在其中的一个实施例中,步骤s09中,所述识别关键链路的具体步骤如下:
67.s09.1:遍历所有簇中心节点,找到不同簇中心之间的桥接链路,然后输出桥节点;
68.s09.2:遍历所述桥接链路,如果某所述桥接链路的两端均为所述业务影响力簇中心,则该桥接链路为关键链路。
69.在其中一个实施例中,步骤s10中,所述识别出业务影响力桥节点的具体步骤如下:
70.s10.1、观察桥节点在所述网络资产图上的结构和业务特点;
71.s10.2、将所述桥节点分为业务影响力桥节点、一级桥节点、二级桥节点以及三级桥节点;
72.s10.3、如果某桥节点为业务影响力桥节点,则该桥节点视为重要资产。
73.在一实施例中,采用本发明的识别方法,对案例数据data7进行识别,案例数据data7提取前的网络资产图如图2所示,数据data7提取后的网络资产图如图3所示;从图2和图3可以看出,通过本发明的识别方法,能够对网络资产图中重要资产和关键链路进行有效识别。
74.在另一实施例中,采用本发明的识别方法,对案例数据data14进行识别,案例数据data14提取前的网络资产图如图4所示,数据data14提取后的网络资产图如图5所示;从图4和图5可以看出,通过本发明的识别方法,能够对网络资产图中重要资产和关键链路进行有效识别。
75.本发明为识别网络资产图中重要资产与关键链路提供了一种参数设置简单、提取效果准确的方法,将自上而下、分类求精的思想应用于网络资产与资产链的检测中,有效地解决了现有识别算法中对用户自定义参数依赖程度高、准确率低的问题,以帮助人们更深层次地挖掘网络资产图的特殊业务结构,适合推广应用。
76.上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
技术特征:
1.一种网络资产图中重要资产与关键链路的识别方法,其特征在于,包括如下步骤:s01:获取网络资产图,计算网络资产图中每个节点的随机游走介数中心性,并进行放大;s02:将步骤s01中每个节点放大后的随机游走介数中心性输入到第一h-index算法中,得到t1;s03:如果步骤s01中某节点放大后的随机游走介数中心性大于步骤s02中得到的t1,则将该节点加入到候选簇中心集合中;s04:计算步骤s03得到的候选簇中心集合中每个节点的度中心性,并进行放大;s05:将步骤s04中每个节点放大后的度中心性输入到第二h-index算法中,得到t2;s06:如果步骤s04中某节点放大后的度中心性大于步骤s05中得到的t2,则将该节点加入到簇中心集合中;s07:对步骤s06中的得到的簇中心集合进行分桶;s08:根据步骤s06得到的簇中心集合,识别出业务影响力簇中心;s09:根据步骤s06得到的簇中心集合和步骤s07的分桶结果,识别出关键链路和桥节点;s10:根据步骤s09得到的桥节点的集合,识别出业务影响力桥节点。2.根据权利要求1所述的网络资产图中重要资产与关键链路的识别方法,其特征在于,步骤s02中,所述第一h-index算法的具体步骤如下:s02.1:对所有节点,按照步骤s01放大后的随机游走介数中心性进行从大到小的排序;s02.2:假设h=i(i=1,2,
…
,n),n为节点个数,从排序后中心性最大节点开始往下遍历,若h*s_1≥第h个节点中心性,则只有h-1个节点的中心性大于(h-1)*s_1,此时,t_1=(h-1)*s_1,其中s_1为用户预定义的放缩系数。3.根据权利要求1所述的网络资产图中重要资产与关键链路的识别方法,其特征在于,步骤s05中,所述第二h-index算法的具体步骤如下:s05.1、对所有节点,按照步骤s04放大后的度中心性进行从大到小的排序;s05.2、假设h=i(i=1,2,
…
,n),n为节点个数,从排序后中心性最大节点开始往下遍历,若h*s_2≥第h个节点中心性,则只有h-1个节点的中心性大于(h-1)*s_2,此时,t_2=(h-1)*s_2,其中s_2为用户预定义的放缩系数。4.根据权利要求1所述的网络资产图中重要资产与关键链路的识别方法,其特征在于,步骤s08中,所述识别出业务影响力簇中心的具体步骤如下:s08.1:观察簇中心在所述网络资产图上的结构和业务特点;s08.2:将所述簇中心分为业务影响力簇中心、节点影响力簇中心以及结构影响力簇中心;s08.3:如果某簇中心为业务影响力簇中心,则该簇中心视为重要资产。5.根据权利要求1所述的网络资产图中重要资产与关键链路的识别方法,其特征在于,步骤s09中,所述识别关键链路的具体步骤如下:s09.1:遍历所有簇中心节点,找到不同簇中心之间的桥接链路,然后输出桥节点;s09.2:遍历所述桥接链路,如果某所述桥接链路的两端均为所述业务影响力簇中心,则该桥接链路为关键链路。
6.根据权利要求1所述的网络资产图中重要资产与关键链路的识别方法,其特征在于,步骤s10中,所述识别出业务影响力桥节点的具体步骤如下:s10.1、观察桥节点在所述网络资产图上的结构和业务特点;s10.2、将所述桥节点分为业务影响力桥节点、一级桥节点、二级桥节点以及三级桥节点;s10.3、如果某桥节点为业务影响力桥节点,则该桥节点视为重要资产。
技术总结
本发明公开了一种网络资产图中重要资产与关键链路的识别方法,该识别方法首先结合随机游走介数中心性和度中心性的优点,利用随机游走介数中心性得到候选簇中心集合,接着在候选簇中心中利用度中心性过滤度小的节点得到簇中心集合,然后对簇中心集合进行分桶,并细分簇中心集合,可以成功识别出重要资产中的业务影响力簇中心,在已知的簇中心基础上,根据业务规则识别出重要资产之间的桥接链路,也就是关键链路;其次通过对桥接链路的提取,得到关键链路上的另一种重要资产-业务影响力桥节点。本发明提供了在网络资产图中识别重要资产与关键链路的方法,具有识别效果好、准确性高的特点,适合推广应用。适合推广应用。适合推广应用。
技术研发人员:赵颖 赵鑫 付铄雯 张驰 郭杰 陈运鹏 周芳芳 陈卓 李玉伟 林子翔 黄鑫 赵晋龙
受保护的技术使用者:奇安信科技集团股份有限公司
技术研发日:2021.11.29
技术公布日:2022/3/8