1.本发明涉及新一代信息技术领域,尤其涉及一种物联网潜在用户识别方法、装置、计算机设备及存储介质。
背景技术:
2.物联网作为新一代信息技术自主创新突破的重点方向,蕴含着巨大的创新空间,在芯片、传感器、近距离传输、海量数据处理以及综合集成、应用等领域,创新活动日趋活跃,创新要素不断积聚。物联网在各行各业的应用不断深化,将催生大量的新技术、新产品、新应用、新模式。
3.目前,运营商主要通过客户经理在网上收集目标企业信息、或通过上门拜访等方式了解企业需求,然后再将其需求与运营商产品服务进行匹配,进而判断企业是否为潜在客户、并采取相应的营销活动。但是,这种方法缺乏导向性、极度依赖人工和经验,没有充分地利用到大数据(例如,企业工商数据、运营商存量客户数据等)以及相关技术(例如,机器学习等),所以潜在客户挖掘效率低下、而且易受到主观因素影响导致准确率不高。
技术实现要素:
4.本发明实施例提供了一种物联网潜在用户识别方法、装置、计算机设备及存储介质,旨在解决现有技术中物联网潜在客户的识别通过人工和经验来识别,导致潜在客户挖掘效率低下、而且易受到主观因素影响导致准确率不高的问题。
5.第一方面,本发明实施例提供了一种物联网潜在用户识别方法,其包括:
6.获取第一数据集和第二数据集;其中,所述第一数据集的第一类型用户数据和所述第二数据集中的第二类型用户数据均包括用户唯一识别码;
7.获取所述第一数据集中具有第二类型用户数据的用户唯一识别码的目标第一类型用户数据以组成标注样本集,并由所述标注样本相对于第一数据集的补集获取未标注样本集;
8.将所述标注样本集中的每一条第一类型用户数据根据预设的字段值转换策略转换为相应的第一用户特征向量,并将所述未标注样本集中的每一条第一类型用户数据根据所述字段值转换策略转换为相应的第二用户特征向量;
9.根据预设的标注策略及所述标注样本集对所述未标注样本集中各第一类型用户数据进行若干次标注,得到所述未标注样本集对应的若干组标注集;
10.获取所述未标注样本集对应的若干组标注集中分别对待训练lightgbm模型进行模型训练,得到与若干组标注集分别对应的lightgbm模型,由若干组标注集分别对应的lightgbm模型组成分类模型集;
11.获取待预测用户数据,并根据所述字段值转换策略获取所述待预测用户数据相应的待预测用户特征向量,将所述待预测用户特征向量输入至所述分类模型集中各lightgbm模型进行运算,得到与各lightgbm模型分别对应的分类结果以组成分类结果集;
12.获取所述分类结果集中分类结果的平均值,作为分类结果平均值;以及
13.若确定所述分类结果平均值大于预设的分类阈值,将待预测用户数据的标注值设置为第一标注值。
14.第二方面,本发明实施例提供了一种物联网潜在用户识别装置,其包括:
15.数据集初始获取单元,用于获取第一数据集和第二数据集;其中,所述第一数据集的第一类型用户数据和所述第二数据集中的第二类型用户数据均包括用户唯一识别码;
16.数据集分类单元,用于获取所述第一数据集中具有第二类型用户数据的用户唯一识别码的目标第一类型用户数据以组成标注样本集,并由所述标注样本相对于第一数据集的补集获取未标注样本集;
17.用户特征向量获取单元,用于将所述标注样本集中的每一条第一类型用户数据根据预设的字段值转换策略转换为相应的第一用户特征向量,并将所述未标注样本集中的每一条第一类型用户数据根据所述字段值转换策略转换为相应的第二用户特征向量;
18.数据标注单元,用于根据预设的标注策略及所述标注样本集对所述未标注样本集中各第一类型用户数据进行若干次标注,得到所述未标注样本集对应的若干组标注集;
19.模型集训练单元,用于获取所述未标注样本集对应的若干组标注集中分别对待训练lightgbm模型进行模型训练,得到与若干组标注集分别对应的lightgbm模型,由若干组标注集分别对应的lightgbm模型组成分类模型集;
20.分类结果集获取单元,用于获取待预测用户数据,并根据所述字段值转换策略获取所述待预测用户数据相应的待预测用户特征向量,将所述待预测用户特征向量输入至所述分类模型集中各lightgbm模型进行运算,得到与各lightgbm模型分别对应的分类结果以组成分类结果集;
21.分类结果平均值获取单元,用于获取所述分类结果集中分类结果的平均值,作为分类结果平均值;以及
22.第一标注单元,用于若确定所述分类结果平均值大于预设的分类阈值,将待预测用户数据的标注值设置为第一标注值。
23.第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的物联网潜在用户识别方法。
24.第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的物联网潜在用户识别方法。
25.本发明实施例提供了一种物联网潜在用户识别方法、装置、计算机设备及存储介质,先基于第一数据集和第二数据集标注样本集和非标注样本集,然后根据标注策略及所述标注样本集对所述未标注样本集中各一类型用户数据进行若干次标注得到若干组标注集,之后基于若干组标注集分别对待训练lightgbm模型进行模型训练得到分类模型集,最后基于分类模型集对待预测用户数据进行分类结果获取并求平均值得到分类结果平均值,并基于分类结果平均值与分类阈值的比较结果确定待预测用户数据的标注值。实现了基于第一数据集和第二数据集得到的标注样本集和非标注样本集对多个lightgbm模型进行训练组成分类模型集,并基于分类模型集对待预测用户数据同时进行多模型分类求平均值,
得到更加准确的分类结果。
附图说明
26.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
27.图1为本发明实施例提供的物联网潜在用户识别方法的应用场景示意图;
28.图2为本发明实施例提供的物联网潜在用户识别方法的流程示意图;
29.图3为本发明实施例提供的物联网潜在用户识别装置的示意性框图;
30.图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
31.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
32.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
33.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
34.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
35.请参阅图1和图2,图1为本发明实施例提供的物联网潜在用户识别方法的应用场景示意图;图2为本发明实施例提供的物联网潜在用户识别方法的流程示意图,该物联网潜在用户识别方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
36.如图2所示,该方法包括步骤s101~s108。
37.s101、获取第一数据集和第二数据集;其中,所述第一数据集的第一类型用户数据和所述第二数据集中的第二类型用户数据均包括用户唯一识别码。
38.在本实施例中,是以服务器为执行主体来描述技术方案。服务器可以从第一数据库中获取第一数据集,例如第一数据库为企业工商数据库,从企业工商数据库中可以获取多条第一类型用户数据,每一条第一类型用户数据均是多维度数据信息,每一条第一类型用户数据具体可以包括企业名称、统一社会信用代码(统一社会信用代码可以视为用户唯一识别码)、注册资金、注册省市、企业类型、所属行业、经营范围、数据标注标识等维度的特征取值;而且服务器还能从第二数据库中获取第二数据集,例如第二数据库为物联网运营商数据库,从物联网运营商数据库中可以获取多条第二类型用户数据,每一条第二类型用户数据具体可以包括企业名称和统一社会信用代码。当分别获取到第一数据集和第二数据集后,在服务器中对第一数据集和第二数据集进行存储,而且所获取的第一数据集和第二
数据集可作为后续物联网潜在用户识别的基础数据。
39.s102、获取所述第一数据集中具有第二类型用户数据的用户唯一识别码的目标第一类型用户数据以组成标注样本集,并由所述标注样本相对于第一数据集的补集获取未标注样本集。
40.在本实施例中,当服务器中获取了第一数据集和第二数据集后,可以由第二数据集对第一数据集中每一条第一类型用户数据进行标注。具体是先确定所述第一数据集中存在哪些第一类型用户数据的用户唯一识别码与第二类型用户数据的用户唯一识别码相同,只要第一数据集中某一条第一类型用户数据(例如将其记为第a1号第一类型用户数据)能在第二数据集中能找到对应的第二类型用户数据且两者具有相同的用户唯一识别码,则第一数据集中该第a1号第一类型用户数据则可以被选定为标注数据,并将该第a1号第一类型用户数据的多维度数据信息中数据标注标识的取值赋值1(此时数据标注标识的取值赋值1表示第a1号第一类型用户数据为标注数据)。依次类推,参考确定第a1号第一类型用户数据是标识为标注数据的方式,对第一数据集中其他各条第一类型用户数据进行是否为标注数据的标识。
41.当完成了对第一数据集中所有第一类型用户数据是否为标注数据的标识后,可由具有标注数据的标识的所有第一类型用户数据组成标注样本集,第一数据中除掉标注样本集后剩余的第一类型用户数据组成未标注样本集。其中,标注样本集中每一条第一类型用户数据的多维度数据信息中数据标注标识的取值赋值1,未标注样本集中每一条第一类型用户数据的多维度数据信息中数据标注标识的取值赋值0。
42.s103、将所述标注样本集中的每一条第一类型用户数据根据预设的字段值转换策略转换为相应的第一用户特征向量,并将所述未标注样本集中的每一条第一类型用户数据根据所述字段值转换策略转换为相应的第二用户特征向量。
43.在本实施例中,为了将所述标注样本集和所述未标注样本集中的每一条第一类型用户数据均对应转换为用户特征向量,可以先获取预设的字段值装换策略以确定采用何种方式将用户数据进行特征向量的转换。具体的,所述字段值转换策略至少包括文本型字段值转换子策略、类别型字段值转换子策略和数值型字段值转换子策略,所述文本型字段值转换子策略用于将第一类型用户数据中文本型的字段取值转换为特征向量,所述类别型字段值转换子策略用于将第一类型用户数据中类别型的字段取值转换为特征向量,所述数值型字段值转换子策略用于将第一类型用户数据中数值型的字段取值转换为特征向量。可见,通过将所述标注样本集和所述未标注样本集中的每一条第一类型用户数据均对应转换为用户特征向量后,可以量化分析各用户特征向量之间的关系。
44.在一实施例中,所述字段值转换策略包括文本型字段值转换子策略、类别型字段值转换子策略和数值型字段值转换子策略,步骤s103中所述将所述标注样本集中的每一条第一类型用户数据根据预设的字段值转换策略转换为相应的第一用户特征向量,包括:
45.获取所述标注样本集中的第i号第一类型用户数据,并获取所述第i号第一类型用户数据中文本型字段取值集、类别型字段值集和数值型字段取值集;其中,i的初始取值为1且i的取值范围是[1,n1],n1为所述标注样本集中所包括第一类型用户数据的总条数;
[0046]
将所述第i号第一类型用户数据中文本型字段取值集中各文本型字段取值根据所述文本型字段值转换子策略对应转换为第一字段特征向量;
[0047]
将所述第i号第一类型用户数据中类别型字段取值集中各类别型字段取值根据所述类别型字段值转换子策略对应转换为第二字段特征向量;
[0048]
将所述第i号第一类型用户数据中数值型字段取值集中各数值型字段取值根据所述数值型字段值转换子策略对应转换为第三字段特征向量;
[0049]
将所述第i号第一类型用户数据中各字段取值分别对应的第一字段特征向量、第二字段特征向量和第三字段特征向量进行连接,得到所述第i号第一类型用户数据的第i号第一用户特征向量;
[0050]
将i自增1以更新i的取值;
[0051]
若确定i未超出n1,返回执行所述获取所述标注样本集中的第i号第一类型用户数据,并获取所述第i号第一类型用户数据中文本型字段取值集、类别型字段值集和数值型字段取值集的步骤;
[0052]
若确定i超出n1,将第1号第一用户特征向量至第n1号第一用户特征向量保存。
[0053]
在本实施例中,以第1号第一类型用户数据为例来说明第1号第一用户特征向量的获取过程。例如,假设第1号第一类型用户数据包括用户唯一识别码字段取值(如91440300************)、企业名称字段取值(如深圳市**有限公司)、注册资金字段取值(如****万)、注册省市字段取值(如广东省深圳市)、企业类型字段取值(如有限责任公司)、所属行业字段取值(如制造业)、经营范围字段取值(如服饰、服装)、数据标注标识字段取值(如字段取值为1),其中企业名称字段取值和经营范围字段取值是文本型字段取值,注册省市字段取值、企业类型字段取值和所属行业字段取值是类别型字段取值,用户唯一识别码字段取值、注册资金字段取值和数据标注标识字段取值是数值型字段取值。将企业名称字段取值和经营范围字段取值这些文本型字段取值通过所述文本型字段值转换子策略对应转换为第一字段特征向量,将注册省市字段取值、企业类型字段取值和所属行业字段取值这些类别型字段取值通过所述类别型字段值转换子策略对应转换为第二字段特征向量,而且将用户唯一识别码字段取值、注册资金字段取值和数据标注标识字段取值这些数值型字段取值通过所述数值型字段值转换子策略对应转换为第三字段特征向量,之后即可得到第1号第一类型用户数据中各字段取值分别对应的字段特征向量,最后按照第1号第一类型用户数据原始的字段取值排列顺序将各字段取值对应的字段特征向量进行连接可得到第1号第一用户特征向量。
[0054]
例如,以企业名称字段取值为深圳市**有限公司为例,可根据将企业名称字段取值先进行分词然后进行关键词抽取而得到企业名称字段取值对应的关键词集合,之后可以根据word2vec模型将上述关键词集合中每一关键词最终转换为词向量,将这些词向量进行连接即可得到企业名称字段取值对应的第一字段特征向量。其他文本型字段取值根据文本型字段值转换子策略对应转换为第一字段特征向量的转换方法,可参考上述企业名称字段取值转换为对应的第一字段特征向量的转换方法。
[0055]
继续以注册省市字段取值为广东省深圳市为例,可以先获取其省市编号代码,然后基于预设的类别型字段值转换子策略将其转换取值范围在0至1之间的哑变量作为第二字段特征向量。以注册资金字段取值为例,可以直接将注册资金字段取值采用标准化处理,使之成为均值为0、标准差为1的数值,从而得到相应的第三字段特征向量。
[0056]
之后对所述未标注样本集中的每一条第一类型用户数据根据所述字段值转换策
略转换为相应的第二用户特征向量时,不同之处在于未标注样本集中的每一条第一类型用户数据的数据标注标识字段取值全部为0,而标注样本集中的每一条第一类型用户数据的数据标注标识字段取值全部为1。对所述未标注样本集中的每一条第一类型用户数据中除了数据标注标识字段取值其他字段取值根据所述字段值转换策略转换时,可参考将所述标注样本集中的每一条第一类型用户数据根据预设的字段值转换策略转换为相应的第一用户特征向量的过程。
[0057]
s104、根据预设的标注策略及所述标注样本集对所述未标注样本集中各第一类型用户数据进行若干次标注,得到所述未标注样本集对应的若干组标注集。
[0058]
在本实施例中,为了将所述未标注样本集中各第一类型用户数据的数据标注标识字段取值依据标注样本集中各第一类型用户数据的数据标注标识字段取值进行重新标注,此时可以先获取服务器中存储的标注策略,然后获取标注样本集(由于标注样本集中每一个第一类型用户数据的数据标注标识字段取值都是已知的,且标注样本集中每一个第一类型用户数据的第一用户特征向量也是已知的),之后基于预设的标注策略及所述标注样本集对所述未标注样本集中各一类型用户数据进行若干次标注,得到所述未标注样本集对应的若干组标注集。在该标注策略中主要分析所述未标注样本集中各第二用户特征向量与所述未标注样本集中与其他各第二用户特征向量以及标注样本集中各第一用户特征向量之间的向量相似度,从而找到所述未标注样本集中各第二用户特征向量的近似用户特征向量集,从而统计得到所述未标注样本集中各第二用户特征向量的数据标注标识字段取值。通过这一方式,充分利用了标注样本集来实现对非标注样本集的标注。
[0059]
在一实施例中,步骤s104包括:
[0060]
获取k值,随机生成取值范围在[0,1]的第k组随机数;其中,k的初始取值为1,且k的取值范围是[1,n3],n3为预设的标注总次数;
[0061]
获取所述未标注样本集中的第j号第一类型用户数据相应的第j号第二用户特征向量;其中,j的初始取值为1且j的取值范围是[1,n2],n2为所述未标注样本集中所包括第一类型用户数据的总条数;
[0062]
获取所述第j号第二用户特征向量与所述未标注样本集中其他第一类型用户数据相应的其他第二用户特征向量之间的向量相似度值,并获取所述第j号第二用户特征向量与所述标注样本集中各第一类型用户数据相应第一用户特征向量之间的向量相似度值,得到第j号向量相似度集;
[0063]
获取所述第j号向量相似度集中向量相似度值的降序排名值未超出已存储的排名阈值的目标向量相似度值,及各目标向量相似度值分别对应的目标用户特征向量,组成第j号目标用户特征向量集;
[0064]
根据预设的正例判定策略获取所述第j号目标用户特征向量集中的第j号正例比例,将所述第j号正例比例与取值范围在[0,1]的第k组随机数进行数值大小比较得到第j号比较结果;
[0065]
若第j号比较结果为第j号正例比例大于或等于所述随机数,将所述第j号第一类型用户数据的标注值赋值为1;
[0066]
若第j号比较结果为第j号正例比例小于所述随机数,将所述第j号第一类型用户数据的标注值赋值为-1;
[0067]
将j自增1以更新j的取值;
[0068]
若确定j未超出n2,返回执行所述获取所述未标注样本集中的第j号第一类型用户数据相应的第j号第二用户特征向量的步骤;
[0069]
若确定j超出n2,将第1号第一类型用户数据的标注值至第n2号第n2号第一类型用户数据的标注值均与对应第二用户特征向量进行组合后保存作为所述未标注样本集的第k组标注集;
[0070]
将k自增1以更新k的取值;
[0071]
若确定k未超出n3,返回执行所述获取k值,随机生成取值范围在[0,1]的第k组随机数的步骤;
[0072]
若确定k超出n3,获取所述未标注样本集的第1组标注集及所述未标注样本集的第n3组标注集并保存。
[0073]
在本实施例中,以k=1为例来说明基于所述标注样本集对所述未标注样本集进行第一轮标注的过程,若假设k=1时随机生成的第1组随机数为0.5,则第一轮标注中第1号第一类型用户数据的标注过程具体如下:
[0074]
1)获取所述未标注样本集中的第1号第一类型用户数据相应的第1号第二用户特征向量;
[0075]
2)获取第1号第二用户特征向量与所述未标注样本集中其他第一类型用户数据相应的其他第二用户特征向量之间的向量相似度值,并获取所述第1号第二用户特征向量与所述标注样本集中各第一类型用户数据相应第一用户特征向量之间的向量相似度值,得到第1号向量相似度集;
[0076]
3)获取所述第1号向量相似度集中向量相似度值的降序排名值未超出已存储的排名阈值(如已存储的排名阈值为20,排名阈值的获取过程在后续有详细描述)的目标向量相似度值,及各目标向量相似度值分别对应的目标用户特征向量,组成第1号目标用户特征向量集;
[0077]
4)获取第1号目标用户特征向量集中对应标注样本集的第一用户特征向量的第1号特征向量总个数,然后以第1号特征向量总个数除以排名阈值得到第1号正例比例,然后将所述第1号正例比例与第1组随机数(也即上述举例的0.5)进行数值大小比较得到第1号比较结果;
[0078]
5)若第j号比较结果为第j号正例比例大于或等于所述随机数,将所述第j号第一类型用户数据的标注值赋值为1;
[0079]
6)若第j号比较结果为第j号正例比例小于所述随机数,将所述第j号第一类型用户数据的标注值赋值为-1。
[0080]
在第一轮标注中对其他第一类型用户数据的标注可以参考第一轮标注中第1号第一类型用户数据的标注方式,而且在其他轮对所述未标注样本集中的各第一类型用户数据进行标注时与第一轮标注的不同之处在于随机生成的随机数不相同,可能导致不同轮针对同一第一类型用户数据有不同的标注结果。可见通过这一方式,充分利用了标注样本集来实现对非标注样本集的快速标注。
[0081]
其中,已存储的排名阈值是一个需要调整的特殊超参数,例如将该排名阈值记为l,则e
l
是未标注样本集中参考步骤1)-6)的标注方法标注成正例的期望值,在一定范围内,
随着l的增加,e
l
也会增加;但当l达到一定大小后,e
l
不再增长,甚至会下降。由于l较大时能够充分利用正例提供的信息,因此一个合适的l值应该使得e
l
尽可能大;但同时,l值过大会导致计算量过大;因此,在此可尝试使用多个l值,并通过比较结果,决定最终要使用的l=20作为l的取值。
[0082]
s105、获取所述未标注样本集对应的若干组标注集中分别对待训练lightgbm模型进行模型训练,得到与若干组标注集分别对应的lightgbm模型,由若干组标注集分别对应的lightgbm模型组成分类模型集。
[0083]
在本实施例中,由于在步骤s104中基于多轮标注得到了多组标注集,此时可以将各组标注集分别对待训练lightgbm模型进行模型训练,从而可以得到多个lightgbm模型。之后这多个lightgbm模型均可用于对待预测数据进行运算,得到预测结果(也可以理解为分类结果)。
[0084]
在一实施例中,步骤s105之后还包括:
[0085]
对分类模型集中各lightgbm模型分别通过五折交叉验证进行模型调优,以更新分类模型集。
[0086]
在本实施例中,以分类模型集中其中一个lightgbm模型为例来说明,如将上述选定的个lightgbm模型记为第一lightgbm模型,此时可以将第一lightgbm模型进行以下处理实现五折交叉验证:
[0087]
11)将第一lightgbm模型对应的一组标注集中所有数据进行五等分,得到5堆数据;
[0088]
12)将5堆数据中的其中一堆数据作为测试集,另外四堆作为训练集对第一lightgbm模型进行第一次调优,以更新第一lightgbm模型;
[0089]
13)之后重复步骤12)另外四次,每次选所选中作为测试集的都不同,完成5次模型调优之后,即可完成对第一lightgbm模型的调优。
[0090]
在对第一lightgbm模型每次调优的过程中,以roc曲线下面积(即受试者工作特征曲线的下面积)作为评价指标,lightgbm模型的roc曲线下面积越大则表示该模型越优异。可见,对分类模型集中各lightgbm模型分别通过五折交叉验证进行模型调优,可有效提升模型的预测准确性。
[0091]
s106、获取待预测用户数据,并根据所述字段值转换策略获取所述待预测用户数据相应的待预测用户特征向量,将所述待预测用户特征向量输入至所述分类模型集中各lightgbm模型进行运算,得到与各lightgbm模型分别对应的分类结果以组成分类结果集。
[0092]
在本实施例中,步骤s101-s105描述了所述分类模型集的训练过程,在步骤s106中则开始基于所述分类模型集对待预测用户数据进行分类运算。其中,待预测用户数据也是第一数据集中第一类型用户数据相同,也是多维度数据信息,而且待预测用户数据可以是从客户端上传至服务器中。此时待预测用户数据也是无法直接输入至所述分类模型集中各lightgbm模型进行运算,需要根据所述字段值转换策略获取所述待预测用户数据相应待预测用户特征向量。在根据所述字段值转换策略对待预测用户数据进行转换的过程中,也是将待预测用户数据中文本型的字段取值根据所述文本型字段值转换子策略转换为特征向量,将待预测用户数据中类别型的字段取值根据所述类别型字段值转换子策略转换为特征向量,将待预测用户数据中数值型的字段取值根据所述数值型字段值转换子策略转换为特
征向量,在基于上述转换后得到了所述待预测用户数据相应的待预测用户特征向量。最后将所述待预测用户特征向量输入至所述分类模型集中各lightgbm模型进行运算,得到与各lightgbm模型分别对应的分类结果以组成分类结果集。由于是基于所述分类模型集中各lightgbm模型分别进行运算,而不是仅仅只基于一个分类模型进行运算,可以得到更多分类结果以用于综合分析最终的分类结果。
[0093]
s107、获取所述分类结果集中分类结果的平均值,作为分类结果平均值。
[0094]
在本实施例中,当得到了所述分类结果集中的多个分类结果,对这多个分类结果求平均值,即可得到分类结果平均值。之后,即可以这分类结果平均值作为待预测用户数据打标签的参考值。
[0095]
s108、若确定所述分类结果平均值大于预设的分类阈值,将待预测用户数据的标注值设置为第一标注值。
[0096]
在本实施例中,可以预先设置一个分类阈值(如设置为0.5),若所述待预测用户数据的分类结果平均值大于所述分类阈值,表示可将该待预测用户数据对应的用户标注第一标注值(如第一标注值为1,表示该用户是潜在用户)。
[0097]
在一实施例中,步骤s107之后还包括:
[0098]
若确定所述分类结果平均值小于或等于所述分类阈值,将待预测用户数据的标注值设置为第二标注值。
[0099]
其中,若所述待预测用户数据的分类结果平均值小于或等于所述分类阈值,表示可将该待预测用户数据对应的用户标注第二标注值(如第二标注值为0,表示该用户不是潜在用户)。
[0100]
该方法实现了基于第一数据集和第二数据集得到的标注样本集和非标注样本集对多个lightgbm模型进行训练组成分类模型集,并基于分类模型集对待预测用户数据同时进行多模型分类求平均值,得到更加准确的分类结果。
[0101]
本发明实施例还提供一种物联网潜在用户识别装置,该物联网潜在用户识别装置用于执行前述物联网潜在用户识别方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的物联网潜在用户识别装置100的示意性框图。
[0102]
其中,如图3所示,物联网潜在用户识别装置100包括数据集初始获取单元101、数据集分类单元102、用户特征向量获取单元103、数据标注单元104、模型集训练单元105、分类结果集获取单元106、分类结果平均值获取单元107和第一标注单元108。
[0103]
数据集初始获取单元101,用于获取第一数据集和第二数据集;其中,所述第一数据集的第一类型用户数据和所述第二数据集中的第二类型用户数据均包括用户唯一识别码。
[0104]
在本实施例中,是以服务器为执行主体来描述技术方案。服务器可以从第一数据库中获取第一数据集,例如第一数据库为企业工商数据库,从企业工商数据库中可以获取多条第一类型用户数据,每一条第一类型用户数据均是多维度数据信息,每一条第一类型用户数据具体可以包括企业名称、统一社会信用代码(统一社会信用代码可以视为用户唯一识别码)、注册资金、注册省市、企业类型、所属行业、经营范围、数据标注标识等维度的特征取值;而且服务器还能从第二数据库中获取第二数据集,例如第二数据库为物联网运营商数据库,从物联网运营商数据库中可以获取多条第二类型用户数据,每一条第二类型用
户数据具体可以包括企业名称和统一社会信用代码。当分别获取到第一数据集和第二数据集后,在服务器中对第一数据集和第二数据集进行存储,而且所获取的第一数据集和第二数据集可作为后续物联网潜在用户识别的基础数据。
[0105]
数据集分类单元102,用于获取所述第一数据集中具有第二类型用户数据的用户唯一识别码的目标第一类型用户数据以组成标注样本集,并由所述标注样本相对于第一数据集的补集获取未标注样本集。
[0106]
在本实施例中,当服务器中获取了第一数据集和第二数据集后,可以由第二数据集对第一数据集中每一条第一类型用户数据进行标注。具体是先确定所述第一数据集中存在哪些第一类型用户数据的用户唯一识别码与第二类型用户数据的用户唯一识别码相同,只要第一数据集中某一条第一类型用户数据(例如将其记为第a1号第一类型用户数据)能在第二数据集中能找到对应的第二类型用户数据且两者具有相同的用户唯一识别码,则第一数据集中该第a1号第一类型用户数据则可以被选定为标注数据,并将该第a1号第一类型用户数据的多维度数据信息中数据标注标识的取值赋值1(此时数据标注标识的取值赋值1表示第a1号第一类型用户数据为标注数据)。依次类推,参考确定第a1号第一类型用户数据是标识为标注数据的方式,对第一数据集中其他各条第一类型用户数据进行是否为标注数据的标识。
[0107]
当完成了对第一数据集中所有第一类型用户数据是否为标注数据的标识后,可由具有标注数据的标识的所有第一类型用户数据组成标注样本集,第一数据中除掉标注样本集后剩余的第一类型用户数据组成未标注样本集。其中,标注样本集中每一条第一类型用户数据的多维度数据信息中数据标注标识的取值赋值1,未标注样本集中每一条第一类型用户数据的多维度数据信息中数据标注标识的取值赋值0。
[0108]
用户特征向量获取单元103,用于将所述标注样本集中的每一条第一类型用户数据根据预设的字段值转换策略转换为相应的第一用户特征向量,并将所述未标注样本集中的每一条第一类型用户数据根据所述字段值转换策略转换为相应的第二用户特征向量。
[0109]
在本实施例中,为了将所述标注样本集和所述未标注样本集中的每一条第一类型用户数据均对应转换为用户特征向量,可以先获取预设的字段值装换策略以确定采用何种方式将用户数据进行特征向量的转换。具体的,所述字段值转换策略至少包括文本型字段值转换子策略、类别型字段值转换子策略和数值型字段值转换子策略,所述文本型字段值转换子策略用于将第一类型用户数据中文本型的字段取值转换为特征向量,所述类别型字段值转换子策略用于将第一类型用户数据中类别型的字段取值转换为特征向量,所述数值型字段值转换子策略用于将第一类型用户数据中数值型的字段取值转换为特征向量。可见,通过将所述标注样本集和所述未标注样本集中的每一条第一类型用户数据均对应转换为用户特征向量后,可以量化分析各用户特征向量之间的关系。
[0110]
在一实施例中,所述字段值转换策略包括文本型字段值转换子策略、类别型字段值转换子策略和数值型字段值转换子策略,用户特征向量获取单元103中所述将所述标注样本集中的每一条第一类型用户数据根据预设的字段值转换策略转换为相应的第一用户特征向量,包括:
[0111]
获取所述标注样本集中的第i号第一类型用户数据,并获取所述第i号第一类型用户数据中文本型字段取值集、类别型字段值集和数值型字段取值集;其中,i的初始取值为1
且i的取值范围是[1,n1],n1为所述标注样本集中所包括第一类型用户数据的总条数;
[0112]
将所述第i号第一类型用户数据中文本型字段取值集中各文本型字段取值根据所述文本型字段值转换子策略对应转换为第一字段特征向量;
[0113]
将所述第i号第一类型用户数据中类别型字段取值集中各类别型字段取值根据所述类别型字段值转换子策略对应转换为第二字段特征向量;
[0114]
将所述第i号第一类型用户数据中数值型字段取值集中各数值型字段取值根据所述数值型字段值转换子策略对应转换为第三字段特征向量;
[0115]
将所述第i号第一类型用户数据中各字段取值分别对应的第一字段特征向量、第二字段特征向量和第三字段特征向量进行连接,得到所述第i号第一类型用户数据的第i号第一用户特征向量;
[0116]
将i自增1以更新i的取值;
[0117]
若确定i未超出n1,返回执行所述获取所述标注样本集中的第i号第一类型用户数据,并获取所述第i号第一类型用户数据中文本型字段取值集、类别型字段值集和数值型字段取值集的步骤;
[0118]
若确定i超出n1,将第1号第一用户特征向量至第n1号第一用户特征向量保存。
[0119]
在本实施例中,以第1号第一类型用户数据为例来说明第1号第一用户特征向量的获取过程。例如,假设第1号第一类型用户数据包括用户唯一识别码字段取值(如91440300************)、企业名称字段取值(如深圳市**有限公司)、注册资金字段取值(如****万)、注册省市字段取值(如广东省深圳市)、企业类型字段取值(如有限责任公司)、所属行业字段取值(如制造业)、经营范围字段取值(如服饰、服装)、数据标注标识字段取值(如字段取值为1),其中企业名称字段取值和经营范围字段取值是文本型字段取值,注册省市字段取值、企业类型字段取值和所属行业字段取值是类别型字段取值,用户唯一识别码字段取值、注册资金字段取值和数据标注标识字段取值是数值型字段取值。将企业名称字段取值和经营范围字段取值这些文本型字段取值通过所述文本型字段值转换子策略对应转换为第一字段特征向量,将注册省市字段取值、企业类型字段取值和所属行业字段取值这些类别型字段取值通过所述类别型字段值转换子策略对应转换为第二字段特征向量,而且将用户唯一识别码字段取值、注册资金字段取值和数据标注标识字段取值这些数值型字段取值通过所述数值型字段值转换子策略对应转换为第三字段特征向量,之后即可得到第1号第一类型用户数据中各字段取值分别对应的字段特征向量,最后按照第1号第一类型用户数据原始的字段取值排列顺序将各字段取值对应的字段特征向量进行连接可得到第1号第一用户特征向量。
[0120]
例如,以企业名称字段取值为深圳市**有限公司为例,可根据将企业名称字段取值先进行分词然后进行关键词抽取而得到企业名称字段取值对应的关键词集合,之后可以根据word2vec模型将上述关键词集合中每一关键词最终转换为词向量,将这些词向量进行连接即可得到企业名称字段取值对应的第一字段特征向量。其他文本型字段取值根据文本型字段值转换子策略对应转换为第一字段特征向量的转换方法,可参考上述企业名称字段取值转换为对应的第一字段特征向量的转换方法。
[0121]
继续以注册省市字段取值为广东省深圳市为例,可以先获取其省市编号代码,然后基于预设的类别型字段值转换子策略将其转换取值范围在0至1之间的哑变量作为第二
字段特征向量。以注册资金字段取值为例,可以直接将注册资金字段取值采用标准化处理,使之成为均值为0、标准差为1的数值,从而得到相应的第三字段特征向量。
[0122]
之后对所述未标注样本集中的每一条第一类型用户数据根据所述字段值转换策略转换为相应的第二用户特征向量时,不同之处在于未标注样本集中的每一条第一类型用户数据的数据标注标识字段取值全部为0,而标注样本集中的每一条第一类型用户数据的数据标注标识字段取值全部为1。对所述未标注样本集中的每一条第一类型用户数据中除了数据标注标识字段取值其他字段取值根据所述字段值转换策略转换时,可参考将所述标注样本集中的每一条第一类型用户数据根据预设的字段值转换策略转换为相应的第一用户特征向量的过程。
[0123]
数据标注单元104,用于根据预设的标注策略及所述标注样本集对所述未标注样本集中各第一类型用户数据进行若干次标注,得到所述未标注样本集对应的若干组标注集。
[0124]
在本实施例中,为了将所述未标注样本集中各第一类型用户数据的数据标注标识字段取值依据标注样本集中各第一类型用户数据的数据标注标识字段取值进行重新标注,此时可以先获取服务器中存储的标注策略,然后获取标注样本集(由于标注样本集中每一个第一类型用户数据的数据标注标识字段取值都是已知的,且标注样本集中每一个第一类型用户数据的第一用户特征向量也是已知的),之后基于预设的标注策略及所述标注样本集对所述未标注样本集中各一类型用户数据进行若干次标注,得到所述未标注样本集对应的若干组标注集。在该标注策略中主要分析所述未标注样本集中各第二用户特征向量与所述未标注样本集中与其他各第二用户特征向量以及标注样本集中各第一用户特征向量之间的向量相似度,从而找到所述未标注样本集中各第二用户特征向量的近似用户特征向量集,从而统计得到所述未标注样本集中各第二用户特征向量的数据标注标识字段取值。通过这一方式,充分利用了标注样本集来实现对非标注样本集的标注。
[0125]
在一实施例中,数据标注单元104具体用于:
[0126]
获取k值,随机生成取值范围在[0,1]的第k组随机数;其中,k的初始取值为1,且k的取值范围是[1,n3],n3为预设的标注总次数;
[0127]
获取所述未标注样本集中的第j号第一类型用户数据相应的第j号第二用户特征向量;其中,j的初始取值为1且j的取值范围是[1,n2],n2为所述未标注样本集中所包括第一类型用户数据的总条数;
[0128]
获取所述第j号第二用户特征向量与所述未标注样本集中其他第一类型用户数据相应的其他第二用户特征向量之间的向量相似度值,并获取所述第j号第二用户特征向量与所述标注样本集中各第一类型用户数据相应第一用户特征向量之间的向量相似度值,得到第j号向量相似度集;
[0129]
获取所述第j号向量相似度集中向量相似度值的降序排名值未超出已存储的排名阈值的目标向量相似度值,及各目标向量相似度值分别对应的目标用户特征向量,组成第j号目标用户特征向量集;
[0130]
根据预设的正例判定策略获取所述第j号目标用户特征向量集中的第j号正例比例,将所述第j号正例比例与取值范围在[0,1]的第k组随机数进行数值大小比较得到第j号比较结果;
[0131]
若第j号比较结果为第j号正例比例大于或等于所述随机数,将所述第j号第一类型用户数据的标注值赋值为1;
[0132]
若第j号比较结果为第j号正例比例小于所述随机数,将所述第j号第一类型用户数据的标注值赋值为-1;
[0133]
将j自增1以更新j的取值;
[0134]
若确定j未超出n2,返回执行所述获取所述未标注样本集中的第j号第一类型用户数据相应的第j号第二用户特征向量的步骤;
[0135]
若确定j超出n2,将第1号第一类型用户数据的标注值至第n2号第n2号第一类型用户数据的标注值均与对应第二用户特征向量进行组合后保存作为所述未标注样本集的第k组标注集;
[0136]
将k自增1以更新k的取值;
[0137]
若确定k未超出n3,返回执行所述获取k值,随机生成取值范围在[0,1]的第k组随机数的步骤;
[0138]
若确定k超出n3,获取所述未标注样本集的第1组标注集及所述未标注样本集的第n3组标注集并保存。
[0139]
在本实施例中,以k=1为例来说明基于所述标注样本集对所述未标注样本集进行第一轮标注的过程,若假设k=1时随机生成的第1组随机数为0.5,则第一轮标注中第1号第一类型用户数据的标注过程具体如下:
[0140]
21)获取所述未标注样本集中的第1号第一类型用户数据相应的第1号第二用户特征向量;
[0141]
22)获取第1号第二用户特征向量与所述未标注样本集中其他第一类型用户数据相应的其他第二用户特征向量之间的向量相似度值,并获取所述第1号第二用户特征向量与所述标注样本集中各第一类型用户数据相应第一用户特征向量之间的向量相似度值,得到第1号向量相似度集;
[0142]
23)获取所述第1号向量相似度集中向量相似度值的降序排名值未超出已存储的排名阈值(如已存储的排名阈值为20,排名阈值的获取过程在后续有详细描述)的目标向量相似度值,及各目标向量相似度值分别对应的目标用户特征向量,组成第1号目标用户特征向量集;
[0143]
24)获取第1号目标用户特征向量集中对应标注样本集的第一用户特征向量的第1号特征向量总个数,然后以第1号特征向量总个数除以排名阈值得到第1号正例比例,然后将所述第1号正例比例与第1组随机数(也即上述举例的0.5)进行数值大小比较得到第1号比较结果;
[0144]
25)若第j号比较结果为第j号正例比例大于或等于所述随机数,将所述第j号第一类型用户数据的标注值赋值为1;
[0145]
26)若第j号比较结果为第j号正例比例小于所述随机数,将所述第j号第一类型用户数据的标注值赋值为-1。
[0146]
在第一轮标注中对其他第一类型用户数据的标注可以参考第一轮标注中第1号第一类型用户数据的标注方式,而且在其他轮对所述未标注样本集中的各第一类型用户数据进行标注时与第一轮标注的不同之处在于随机生成的随机数不相同,可能导致不同轮针对
同一第一类型用户数据有不同的标注结果。可见通过这一方式,充分利用了标注样本集来实现对非标注样本集的快速标注。
[0147]
其中,已存储的排名阈值是一个需要调整的特殊超参数,例如将该排名阈值记为l,则e
l
是未标注样本集中参考步骤21)-26)的标注方法标注成正例的期望值,在一定范围内,随着l的增加,e
l
也会增加;但当l达到一定大小后,e
l
不再增长,甚至会下降。由于l较大时能够充分利用正例提供的信息,因此一个合适的l值应该使得e
l
尽可能大;但同时,l值过大会导致计算量过大;因此,在此可尝试使用多个l值,并通过比较结果,决定最终要使用的l=20作为l的取值。
[0148]
模型集训练单元105,用于获取所述未标注样本集对应的若干组标注集中分别对待训练lightgbm模型进行模型训练,得到与若干组标注集分别对应的lightgbm模型,由若干组标注集分别对应的lightgbm模型组成分类模型集。
[0149]
在本实施例中,由于在步骤s104中基于多轮标注得到了多组标注集,此时可以将各组标注集分别对待训练lightgbm模型进行模型训练,从而可以得到多个lightgbm模型。之后这多个lightgbm模型均可用于对待预测数据进行运算,得到预测结果(也可以理解为分类结果)。
[0150]
在一实施例中,物联网潜在用户识别装置100还包括:
[0151]
分类模型集调优单元,用于对分类模型集中各lightgbm模型分别通过五折交叉验证进行模型调优,以更新分类模型集。
[0152]
在本实施例中,以分类模型集中其中一个lightgbm模型为例来说明,如将上述选定的个lightgbm模型记为第一lightgbm模型,此时可以将第一lightgbm模型进行以下处理实现五折交叉验证:
[0153]
31)将第一lightgbm模型对应的一组标注集中所有数据进行五等分,得到5堆数据;
[0154]
32)将5堆数据中的其中一堆数据作为测试集,另外四堆作为训练集对第一lightgbm模型进行第一次调优,以更新第一lightgbm模型;
[0155]
33)之后重复步骤32)另外四次,每次选所选中作为测试集的都不同,完成5次模型调优之后,即可完成对第一lightgbm模型的调优。
[0156]
在对第一lightgbm模型每次调优的过程中,以roc曲线下面积(即受试者工作特征曲线的下面积)作为评价指标,lightgbm模型的roc曲线下面积越大则表示该模型越优异。可见,对分类模型集中各lightgbm模型分别通过五折交叉验证进行模型调优,可有效提升模型的预测准确性。
[0157]
分类结果集获取单元106,用于获取待预测用户数据,并根据所述字段值转换策略获取所述待预测用户数据相应的待预测用户特征向量,将所述待预测用户特征向量输入至所述分类模型集中各lightgbm模型进行运算,得到与各lightgbm模型分别对应的分类结果以组成分类结果集。
[0158]
在本实施例中,不仅描述了所述分类模型集的训练过程,在分类结果集获取单元106中则开始基于所述分类模型集对待预测用户数据进行分类运算。其中,待预测用户数据也是第一数据集中第一类型用户数据相同,也是多维度数据信息,而且待预测用户数据可以是从客户端上传至服务器中。此时待预测用户数据也是无法直接输入至所述分类模型集
中各lightgbm模型进行运算,需要根据所述字段值转换策略获取所述待预测用户数据相应待预测用户特征向量。在根据所述字段值转换策略对待预测用户数据进行转换的过程中,也是将待预测用户数据中文本型的字段取值根据所述文本型字段值转换子策略转换为特征向量,将待预测用户数据中类别型的字段取值根据所述类别型字段值转换子策略转换为特征向量,将待预测用户数据中数值型的字段取值根据所述数值型字段值转换子策略转换为特征向量,在基于上述转换后得到了所述待预测用户数据相应的待预测用户特征向量。最后将所述待预测用户特征向量输入至所述分类模型集中各lightgbm模型进行运算,得到与各lightgbm模型分别对应的分类结果以组成分类结果集。由于是基于所述分类模型集中各lightgbm模型分别进行运算,而不是仅仅只基于一个分类模型进行运算,可以得到更多分类结果以用于综合分析最终的分类结果。
[0159]
分类结果平均值获取单元107,用于获取所述分类结果集中分类结果的平均值,作为分类结果平均值。
[0160]
在本实施例中,当得到了所述分类结果集中的多个分类结果,对这多个分类结果求平均值,即可得到分类结果平均值。之后,即可以这分类结果平均值作为待预测用户数据打标签的参考值。
[0161]
第一标注单元108,用于若确定所述分类结果平均值大于预设的分类阈值,将待预测用户数据的标注值设置为第一标注值。
[0162]
在本实施例中,可以预先设置一个分类阈值(如设置为0.5),若所述待预测用户数据的分类结果平均值大于所述分类阈值,表示可将该待预测用户数据对应的用户标注第一标注值(如第一标注值为1,表示该用户是潜在用户)。
[0163]
在一实施例中,物联网潜在用户识别装置100还包括:
[0164]
第二标注单元,用于若确定所述分类结果平均值小于或等于所述分类阈值,将待预测用户数据的标注值设置为第二标注值。
[0165]
其中,若所述待预测用户数据的分类结果平均值小于或等于所述分类阈值,表示可将该待预测用户数据对应的用户标注第二标注值(如第二标注值为0,表示该用户不是潜在用户)。
[0166]
该装置实现了基于第一数据集和第二数据集得到的标注样本集和非标注样本集对多个lightgbm模型进行训练组成分类模型集,并基于分类模型集对待预测用户数据同时进行多模型分类求平均值,得到更加准确的分类结果。
[0167]
上述物联网潜在用户识别装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
[0168]
请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,也可以是服务器集群。
[0169]
参阅图4,该计算机设备500包括通过装置总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
[0170]
该存储介质503可存储操作装置5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行物联网潜在用户识别方法。
[0171]
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
[0172]
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程
序5032被处理器502执行时,可使得处理器502执行物联网潜在用户识别方法。
[0173]
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0174]
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的物联网潜在用户识别方法。
[0175]
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
[0176]
应当理解,在本发明实施例中,处理器502可以是中央处理单元(central processing unit,cpu),该处理器502还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0177]
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的物联网潜在用户识别方法。
[0178]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0179]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0180]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0181]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0182]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,后台服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0183]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种物联网潜在用户识别方法,其特征在于,包括:获取第一数据集和第二数据集;其中,所述第一数据集的第一类型用户数据和所述第二数据集中的第二类型用户数据均包括用户唯一识别码;获取所述第一数据集中具有第二类型用户数据的用户唯一识别码的目标第一类型用户数据以组成标注样本集,并由所述标注样本相对于第一数据集的补集获取未标注样本集;将所述标注样本集中的每一条第一类型用户数据根据预设的字段值转换策略转换为相应的第一用户特征向量,并将所述未标注样本集中的每一条第一类型用户数据根据所述字段值转换策略转换为相应的第二用户特征向量;根据预设的标注策略及所述标注样本集对所述未标注样本集中各第一类型用户数据进行若干次标注,得到所述未标注样本集对应的若干组标注集;获取所述未标注样本集对应的若干组标注集中分别对待训练lightgbm模型进行模型训练,得到与若干组标注集分别对应的lightgbm模型,由若干组标注集分别对应的lightgbm模型组成分类模型集;获取待预测用户数据,并根据所述字段值转换策略获取所述待预测用户数据相应的待预测用户特征向量,将所述待预测用户特征向量输入至所述分类模型集中各lightgbm模型进行运算,得到与各lightgbm模型分别对应的分类结果以组成分类结果集;获取所述分类结果集中分类结果的平均值,作为分类结果平均值;以及若确定所述分类结果平均值大于预设的分类阈值,将待预测用户数据的标注值设置为第一标注值。2.根据权利要求1所述的物联网潜在用户识别方法,其特征在于,所述字段值转换策略包括文本型字段值转换子策略、类别型字段值转换子策略和数值型字段值转换子策略;所述文本型字段值转换子策略用于将用户数据中文本型的字段取值转换为特征向量,所述类别型字段值转换子策略用于将用户数据中类别型的字段取值转换为特征向量,所述数值型字段值转换子策略用于将用户数据中数值型的字段取值转换为特征向量。3.根据权利要求2所述的物联网潜在用户识别方法,其特征在于,所述将所述标注样本集中的每一条第一类型用户数据根据预设的字段值转换策略转换为相应的第一用户特征向量,包括:获取所述标注样本集中的第i号第一类型用户数据,并获取所述第i号第一类型用户数据中文本型字段取值集、类别型字段值集和数值型字段取值集;其中,i的初始取值为1且i的取值范围是[1,n1],n1为所述标注样本集中所包括第一类型用户数据的总条数;将所述第i号第一类型用户数据中文本型字段取值集中各文本型字段取值根据所述文本型字段值转换子策略对应转换为第一字段特征向量;将所述第i号第一类型用户数据中类别型字段取值集中各类别型字段取值根据所述类别型字段值转换子策略对应转换为第二字段特征向量;将所述第i号第一类型用户数据中数值型字段取值集中各数值型字段取值根据所述数值型字段值转换子策略对应转换为第三字段特征向量;将所述第i号第一类型用户数据中各字段取值分别对应的第一字段特征向量、第二字段特征向量和第三字段特征向量进行连接,得到所述第i号第一类型用户数据的第i号第一
用户特征向量;将i自增1以更新i的取值;若确定i未超出n1,返回执行所述获取所述标注样本集中的第i号第一类型用户数据,并获取所述第i号第一类型用户数据中文本型字段取值集、类别型字段值集和数值型字段取值集的步骤;若确定i超出n1,将第1号第一用户特征向量至第n1号第一用户特征向量保存。4.根据权利要求1所述的物联网潜在用户识别方法,其特征在于,所述根据预设的标注策略及所述标注样本集对所述未标注样本集中各第一类型用户数据进行若干次标注,得到所述未标注样本集对应的若干组标注集,包括:获取k值,随机生成取值范围在[0,1]的第k组随机数;其中,k的初始取值为1,且k的取值范围是[1,n3],n3为预设的标注总次数;获取所述未标注样本集中的第j号第一类型用户数据相应的第j号第二用户特征向量;其中,j的初始取值为1且j的取值范围是[1,n2],n2为所述未标注样本集中所包括第一类型用户数据的总条数;获取所述第j号第二用户特征向量与所述未标注样本集中其他第一类型用户数据相应的其他第二用户特征向量之间的向量相似度值,并获取所述第j号第二用户特征向量与所述标注样本集中各第一类型用户数据相应第一用户特征向量之间的向量相似度值,得到第j号向量相似度集;获取所述第j号向量相似度集中向量相似度值的降序排名值未超出已存储的排名阈值的目标向量相似度值,及各目标向量相似度值分别对应的目标用户特征向量,组成第j号目标用户特征向量集;根据预设的正例判定策略获取所述第j号目标用户特征向量集中的第j号正例比例,将所述第j号正例比例与取值范围在[0,1]的第k组随机数进行数值大小比较得到第j号比较结果;若第j号比较结果为第j号正例比例大于或等于所述随机数,将所述第j号第一类型用户数据的标注值赋值为1;若第j号比较结果为第j号正例比例小于所述随机数,将所述第j号第一类型用户数据的标注值赋值为-1;将j自增1以更新j的取值;若确定j未超出n2,返回执行所述获取所述未标注样本集中的第j号第一类型用户数据相应的第j号第二用户特征向量的步骤;若确定j超出n2,将第1号第一类型用户数据的标注值至第n2号第n2号第一类型用户数据的标注值均与对应第二用户特征向量进行组合后保存作为所述未标注样本集的第k组标注集;将k自增1以更新k的取值;若确定k未超出n3,返回执行所述获取k值,随机生成取值范围在[0,1]的第k组随机数的步骤;若确定k超出n3,获取所述未标注样本集的第1组标注集及所述未标注样本集的第n3组标注集并保存。
5.根据权利要求1所述的物联网潜在用户识别方法,其特征在于,所述获取所述未标注样本集对应的若干组标注集中分别对待训练lightgbm模型进行模型训练,得到与若干组标注集分别对应的lightgbm模型,由若干组标注集分别对应的lightgbm模型组成分类模型集之后,还包括:对分类模型集中各lightgbm模型分别通过五折交叉验证进行模型调优,以更新分类模型集。6.根据权利要求1所述的物联网潜在用户识别方法,其特征在于,所述获取所述分类结果集中分类结果的平均值,作为分类结果平均值之后,还包括:若确定所述分类结果平均值小于或等于所述分类阈值,将待预测用户数据的标注值设置为第二标注值。7.一种物联网潜在用户识别装置,其特征在于,包括:数据集初始获取单元,用于获取第一数据集和第二数据集;其中,所述第一数据集的第一类型用户数据和所述第二数据集中的第二类型用户数据均包括用户唯一识别码;数据集分类单元,用于获取所述第一数据集中具有第二类型用户数据的用户唯一识别码的目标第一类型用户数据以组成标注样本集,并由所述标注样本相对于第一数据集的补集获取未标注样本集;用户特征向量获取单元,用于将所述标注样本集中的每一条第一类型用户数据根据预设的字段值转换策略转换为相应的第一用户特征向量,并将所述未标注样本集中的每一条第一类型用户数据根据所述字段值转换策略转换为相应的第二用户特征向量;数据标注单元,用于根据预设的标注策略及所述标注样本集对所述未标注样本集中各第一类型用户数据进行若干次标注,得到所述未标注样本集对应的若干组标注集;模型集训练单元,用于获取所述未标注样本集对应的若干组标注集中分别对待训练lightgbm模型进行模型训练,得到与若干组标注集分别对应的lightgbm模型,由若干组标注集分别对应的lightgbm模型组成分类模型集;分类结果集获取单元,用于获取待预测用户数据,并根据所述字段值转换策略获取所述待预测用户数据相应的待预测用户特征向量,将所述待预测用户特征向量输入至所述分类模型集中各lightgbm模型进行运算,得到与各lightgbm模型分别对应的分类结果以组成分类结果集;分类结果平均值获取单元,用于获取所述分类结果集中分类结果的平均值,作为分类结果平均值;以及第一标注单元,用于若确定所述分类结果平均值大于预设的分类阈值,将待预测用户数据的标注值设置为第一标注值。8.根据权利要求7所述的物联网潜在用户识别装置,其特征在于,所述数据标注单元具体用于:获取k值,随机生成取值范围在[0,1]的第k组随机数;其中,k的初始取值为1,且k的取值范围是[1,n3],n3为预设的标注总次数;获取所述未标注样本集中的第j号第一类型用户数据相应的第j号第二用户特征向量;其中,j的初始取值为1且j的取值范围是[1,n2],n2为所述未标注样本集中所包括第一类型用户数据的总条数;
获取所述第j号第二用户特征向量与所述未标注样本集中其他第一类型用户数据相应的其他第二用户特征向量之间的向量相似度值,并获取所述第j号第二用户特征向量与所述标注样本集中各第一类型用户数据相应第一用户特征向量之间的向量相似度值,得到第j号向量相似度集;获取所述第j号向量相似度集中向量相似度值的降序排名值未超出已存储的排名阈值的目标向量相似度值,及各目标向量相似度值分别对应的目标用户特征向量,组成第j号目标用户特征向量集;根据预设的正例判定策略获取所述第j号目标用户特征向量集中的第j号正例比例,将所述第j号正例比例与取值范围在[0,1]的第k组随机数进行数值大小比较得到第j号比较结果;若第j号比较结果为第j号正例比例大于或等于所述随机数,将所述第j号第一类型用户数据的标注值赋值为1;若第j号比较结果为第j号正例比例小于所述随机数,将所述第j号第一类型用户数据的标注值赋值为-1;将j自增1以更新j的取值;若确定j未超出n2,返回执行所述获取所述未标注样本集中的第j号第一类型用户数据相应的第j号第二用户特征向量的步骤;若确定j超出n2,将第1号第一类型用户数据的标注值至第n2号第n2号第一类型用户数据的标注值均与对应第二用户特征向量进行组合后保存作为所述未标注样本集的第k组标注集;将k自增1以更新k的取值;若确定k未超出n3,返回执行所述获取k值,随机生成取值范围在[0,1]的第k组随机数的步骤;若确定k超出n3,获取所述未标注样本集的第1组标注集及所述未标注样本集的第n3组标注集并保存。9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的物联网潜在用户识别方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的物联网潜在用户识别方法。
技术总结
本发明涉及新一代信息技术,提供了物联网潜在用户识别方法、装置、设备及介质,先基于第一数据集和第二数据集标注样本集和非标注样本集,然后根据标注策略及标注样本集对未标注样本集中各一类型用户数据进行若干次标注得到若干组标注集,之后基于若干组标注集对待训练LightGBM模型进行训练得到分类模型集,最后基于分类模型集对待预测用户数据进行分类结果获取并求平均值得到分类结果平均值,并基于分类结果平均值与分类阈值的比较结果确定标注值。实现了基于第一数据集和第二数据集得到的标注样本集和非标注样本集对多个LightGBM模型进行训练组成分类模型集,并基于分类模型集对待预测用户数据同时进行多模型分类求平均值,得到更加准确的分类结果。得到更加准确的分类结果。得到更加准确的分类结果。
技术研发人员:毛江俊 曾广宇 夏丰盛
受保护的技术使用者:天翼物联科技有限公司
技术研发日:2021.12.07
技术公布日:2022/3/8