本发明涉及数据处理,特别涉及一种基于威胁情报多源异构数据的湖仓一体架构。
背景技术:
1、随着万物互联的智能时代的到来,数据已成为关键生产资料。根据国际数据公司idc的数据显示,预计到2026年全球每年将产生216zb的数据。这种数据量的增长给数据基础设施平台带来了新的挑战,传统数据仓库已无法满足激增数据的存储和分析需求。
2、在当前的网络环境中,威胁情报成为保障信息安全的重要手段。威胁情报涉及大量多源异构数据,这些数据包括来自不同来源、格式和结构的数据,如日志数据、网络流量数据、安全事件数据等。如何有效地存储、管理和分析这些多源异构数据,成为企业和组织面临的一大挑战。
3、为了应对这些挑战,大数据架构需要对数据存储和计算分析能力进行升级,同时提高资源利用率。传统的数据仓库和数据湖在处理多源异构数据方面各有优劣。数据仓库提供了高效的数据查询和分析能力,但在处理大规模非结构化数据时效率较低;数据湖能够存储大规模非结构化数据,但在数据管理和查询优化方面存在不足。
4、数据仓库是一种用于存储、管理和分析大量历史数据的技术,它的主要特点是集中化、非实时、批量处理。数据仓库是面向主题集成的,是为了支撑各种业务而建立的,数据来自于分散的操作型数据。因此需要将所需数据从多个异构的数据源中抽取出来,进行加工与集成,按照主题进行重组,最终进入数据仓库。数据仓库主要用于支撑企业决策分析,所设计的数据操作主要是数据查询。
5、数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库,它可以存储来自多个数据源、多种数据类型的原始数据,数据无需经过结构化处理,就可以进行存取、处理、分析和传输。数据湖能帮助企业快速完成异构数据源的联邦分析、挖掘和探索数据价值。数据湖的本质,是由“数据存储架构+数据处理工具”组成的解决方案。
6、但是上述现有技术存在以下缺点:
7、(1)构建和维护数据仓库的成本较高,包括硬件、软件和人工成本。
8、(2)数据仓库主要针对结构化数据,处理威胁情报中的非结构化数据的能力较弱。
9、(3)数据仓库的数据通常是批处理方式更新,实时性较差,不适合需要实时数据的应用场景。
10、(4)由于数据湖中存储的威胁情报数据数据种类繁多,数据治理和安全性管理比较复杂。
11、(5)数据湖中的威胁情报数据未经清洗和转换,可能存在数据质量问题。
12、(6)由于数据湖中的数据格式多样,查询性能可能不如数据仓库。
13、(7)多源异构数据的融合处理效率低,难以满足实时分析需求。
技术实现思路
1、本发明的目的旨在至少解决所述技术缺陷之一。
2、为此,本发明的目的在于提出一种基于威胁情报多源异构数据的湖仓一体架构,以解决背景技术中所提到的问题,克服现有技术中存在的不足。
3、为了实现上述目的,本发明的实施例提供一种基于威胁情报多源异构数据的湖仓一体架构,包括:
4、数据存储层、数据管理层、数据分析层和实时报警与自动化响应层,其中,
5、所述数据存储层用于采用paimon作为数据存储引擎,将采集到的威胁情报数据进行写入和读取,存储在paimon中;
6、所述数据管理层基于paimon的元数据管理功能,记录的威胁情报数据的存储位置、版本信息以及分区信息,并通过元数据管理实现对数据的定位和访问;
7、所述数据分析层采用starrocks作为数据分析引擎,通过starrocks的外表特性来读取paimon中的多源异构的威胁情报数据,建立一层物化视图来作为数据细节层dwd层,实现对威胁情报数据的分析,生成威胁情报分析结果;
8、所述实时报警与自动化响应层用于根据威胁情报分析结果,实时生成报警信息,以及时通知安全人员,对安全事件进行响应和处理;
9、其中,所述基于威胁情报多源异构数据的湖仓一体架构构建过程包括:
10、首先使用flink流批一体计算引擎将数据仓以paimon格式在数据湖上构建,使用flink完成数据仓数据运营层ods层到数据细节层dwd层,数据服务层dws层和数据应用层ads层的计算,通过使用starrocks对各层数仓做统一的olap查询和ads层在线分析。
11、由上述任一方案优选的是,所述威胁情报数据包括:日志、网络流量和攻击样本。
12、由上述任一方案优选的是,所述数据存储层支持分布式存储和多副本冗余。
13、由上述任一方案优选的是,所述数据存储层将威胁情报数据以分区和文件的形式存储在paimon中,支持对威胁情报数据的版本控制和增量更新。
14、由上述任一方案优选的是,所述数据分析层中starrocks的物化视图作为dwd层之后,通过第二层嵌套物化视图来作为dws层,最终提供给数据服务层进行数据分析,实现对威胁情报数据的即时查询和分析。
15、由上述任一方案优选的是,使用starrocks统一管理数据湖和数据仓库,将高并发和实时性要求高的业务放在starrocks中进行分析。
16、由上述任一方案优选的是,采用paimon catalog和外部表进行数据湖上的分析,不需要执行数据导入即可直接查询apache paimon里的数据。
17、由上述任一方案优选的是,设计动态数据迁移机制,根据威胁情报数据的使用频率和查询需求,自动调整威胁情报数据在数据湖和数据仓库之间的存储位置和格式。
18、与现有技术相比,本发明所具有的优点和有益效果为:
19、本发明实施例的基于威胁情报多源异构数据的湖仓一体架构,解决了大数据场景下威胁情报多源异构数据的实时处理诉求高、非结构化数据治理难、系统运维复杂等问题,打破了数据仓库和数据湖之间的壁垒,融合了两者的优势。
20、1.实现了高效的数据查询和分析,满足实时分析需求,提升了业务决策的及时性和准确性。
21、2.提高了多源异构数据的存储和管理效率,解决了数据格式和结构的异构性问题。
22、3.通过单一数据存储系统提供一个精简的平台,满足所有业务数据需求。湖仓一体还可减少通过数据管道移动到多个系统的数据量,从而简化了数据可观察性。
23、4.湖仓一体数据分析方案运营成本低于数据仓库。此外,湖仓一体的混合架构不需要人维护多个数据存储系统,从而降低了运营成本。
24、5.湖仓一体架构缓解了数据湖带来的标准治理问题。例如,在数据提取和上传时,它可以确保数据满足定义的模式要求,从而减少下游数据质量问题。
25、6.通过数据安全模块,保障了数据的安全性和隐私性,满足了数据合规性要求。
26、本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
1.一种基于威胁情报多源异构数据的湖仓一体架构,其特征在于,包括:数据存储层、数据管理层、数据分析层和实时报警与自动化响应层,其中,
2.如权利要求1所述的基于威胁情报多源异构数据的湖仓一体架构,其特征在于,所述威胁情报数据包括:日志、网络流量和攻击样本。
3.如权利要求1所述的基于威胁情报多源异构数据的湖仓一体架构,其特征在于,所述数据存储层支持分布式存储和多副本冗余。
4.如权利要求1所述的基于威胁情报多源异构数据的湖仓一体架构,其特征在于,所述数据存储层将威胁情报数据以分区和文件的形式存储在paimon中,支持对威胁情报数据的版本控制和增量更新。
5.如权利要求1所述的基于威胁情报多源异构数据的湖仓一体架构,其特征在于,所述数据分析层中starrocks的物化视图作为dwd层之后,通过第二层嵌套物化视图来作为dws层,最终提供给数据服务层进行数据分析,实现对威胁情报数据的即时查询和分析。
6.如权利要求1所述的基于威胁情报多源异构数据的湖仓一体架构,其特征在于,使用starrocks统一管理数据湖和数据仓库,将高并发和实时性要求高的业务放在starrocks中进行分析。
7.如权利要求1所述的基于威胁情报多源异构数据的湖仓一体架构,其特征在于,采用paimon catalog和外部表进行数据湖上的分析,不需要执行数据导入即可直接查询apachepaimon里的数据。
8.如权利要求1所述的基于威胁情报多源异构数据的湖仓一体架构,其特征在于,设计动态数据迁移机制,根据威胁情报数据的使用频率和查询需求,自动调整威胁情报数据在数据湖和数据仓库之间的存储位置和格式。