小区预测方法、装置、电子设备及存储介质与流程

专利查询2024-1-6 105

1.本技术涉及通信技术领域，尤其涉及一种小区预测方法、装置、电子设备及存储介质。

背景技术：

2.随着移动用户网络规模地不断扩大，以及手机应用种类地不断增多，用户对移动网络的需求在不断增加。当通信服务运营商所提供业务的质量达不到用户预期并超出了用户容忍极限之后，用户通常会将其对服务质量的不满表现在用户行为上，即用户投诉。用户的投诉是通信服务运营商提升服务水平和产品质量的先导，通过分析用户的投诉数据，实现对投诉行为的预测，从而预先解决问题，有利于提升客户满意度
3.现有的投诉预测方法包括：采集网络中移动终端上网投诉的识别码清单和与识别码清单匹配的投诉时间清单；采集网络中与识别码清单和投诉时间清单匹配的移动终端上网网络数据指标；采集网络中与识别码清单和投诉时间清单匹配的移动终端上网应用类别；采集网络中与识别码清单匹配的移动终端在q个时间段的q组计费系统数据指标，计算获得q组计费系统数据指标的平均值；基于网络中移动终端上网投诉的识别码清单、投诉时间清单、网络数据指标、上网应用类别和计费系统数据指标训练投诉预测模型，预测具体时间点每一移动终端识别码的投诉预测概率值。
4.然而，上述的投诉预测方法是对用户的投诉概率的预测，用户投诉与网络质量有关，需要一种对基站及小区的投诉预测方案。

技术实现要素：

5.本技术提供一种小区预测方法、装置、电子设备及存储介质，用以明确定位投诉用户关联的投诉小区。
6.第一方面，本技术提供一种小区预测方法，包括：获取输入数据，输入数据包括待测小区的网络关键性能指标；将输入数据作为投诉预测模型的输入，获得投诉预测模型输出的预测结果；其中，投诉预测模型是根据训练数据经过学习训练建立的；训练数据包括日期、基站标识、扇区标识、网络关键性能指标、投诉标识。
7.进一步地，训练数据获取过程包括：
8.收集各历史投诉记录以建立第一数据集，历史投诉记录包括历史投诉地址、投诉级别和投诉因素；投诉级别和投诉因素组合映射为投诉标识，并将投诉标识添加至第一数据集；
9.收集各基站的基础信息以建立第二数据集，计算第一数据集中的历史投诉地址和第二数据集中各基站之间的第一距离，获得距离历史投诉地址最近的各第一基站；
10.针对各第一基站中的宏基站，根据第一数据集中历史投诉地址和各第一基站的位置，计算历史投诉地址与各第一基站的第一方位角，针对每个第一基站，从该第一基站的扇区中选出与第一方位角差异最小的第一扇区；
11.按第一距离降序，将第一距离越小的第一扇区和/或室分基站作为投诉责任站点；
12.每条投诉记录对应至少一个投诉责任站点的映射策略，将具有扇区标识的投诉责任站点的扇区标识映射添加至第一数据集，获得包括日期、基站标识以及扇区标识的第三数据集；
13.收集各小区的网络关键性能指标以建立第四数据集，将第四数据集分成宏小区表和室分小区表，以第三数据集中的日期和扇区标识为关键字，基于第三数据集和第四数据集中宏小区表的映射关系，以及以第三数据集中的日期和室分基站标识为关键字，基于第三数据集和第四数据集中室分小区表的映射关系，将宏小区表和室分小区表与第三数据集连接并合并获得第五数据集；
14.筛选出第五数据集中网络关键性能指标为异常值的数据，作为训练数据。
15.进一步地，将投诉标识添加至第一数据集之后，还包括：去除第一数据集中的第一投诉记录，第一投诉记录中的投诉地址与投诉记录中记录的地域区域不一致。
16.进一步地，若待测小区的预测结果为投诉小区，则执行对待测小区的小区优化处理。
17.第二方面，本技术提供一种小区预测装置，包括：获取模块，用于获取输入数据，输入数据包括待测小区的网络关键性能指标；处理模块，用于将输入数据作为投诉预测模型的输入，获得投诉预测模型输出的预测结果；
18.其中，投诉预测模型，由训练模块根据训练数据经过学习训练建立的；训练数据包括日期、基站标识、扇区标识、网络关键性能指标、投诉标识。
19.进一步地，历史数据处理模块，用于获取训练数据，具体包括：
20.收集各历史投诉记录以建立第一数据集，历史投诉记录包括历史投诉地址、投诉级别和投诉因素；投诉级别和投诉因素组合映射为投诉标识，并将投诉标识添加至第一数据集；
21.收集各基站的基础信息以建立第二数据集，计算第一数据集中的历史投诉地址和第二数据集中各基站之间的第一距离，获得距离历史投诉地址最近的各第一基站；
22.针对各第一基站中的宏基站，根据第一数据集中历史投诉地址和各第一基站的位置，计算历史投诉地址与各第一基站的第一方位角，针对每个第一基站，从该第一基站的扇区中选出与第一方位角差异最小的第一扇区；
23.按第一距离降序，将第一距离越小的第一扇区和/或室分基站作为投诉责任站点；
24.每条投诉记录对应至少一个投诉责任站点的映射策略，将具有扇区标识的投诉责任站点的扇区标识映射添加至第一数据集，获得包括日期、基站标识以及扇区标识的第三数据集；
25.收集各小区的网络关键性能指标以建立第四数据集，将第四数据集分成宏小区表和室分小区表，以第三数据集中的日期和扇区标识为关键字，基于第三数据集和第四数据集中宏小区表的映射关系，以及以第三数据集中的日期和室分基站标识为关键字，基于第三数据集和第四数据集中室分小区表的映射关系，将宏小区表和室分小区表与第三数据集连接并合并获得第五数据集；
26.筛选出第五数据集中网络关键性能指标为异常值的数据，作为训练数据。
27.进一步地，历史数据处理模块将投诉标识添加至第一数据集之后，还用于：去除第
一数据集中的第一投诉记录，第一投诉记录中的投诉地址与投诉记录中记录的地域区域不一致。
28.进一步地，还包括：优化模块，用于若待测小区的预测结果为投诉小区，则执行对待测小区的小区优化处理。
29.第三方面，本技术提供一种电子设备，包括：存储器，处理器；存储器；用于存储处理器可执行指令的存储器；其中，处理器被配置为：根据可执行指令执行如第一方面的方法。
30.第四方面，本技术提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现如第一方面的方法。
31.本技术提供的小区预测方法、装置、电子设备及存储介质，将待测小区的网络关键性能指标作为投诉预测模型的输入，获得投诉预测模型输出的预测结果进而实现投诉小区预测。本技术将历史投诉记录中的投诉级别和投诉现象映射为投诉标识，根据历史投诉记录中投诉地址匹配距离最近的小区以及根据投诉日期匹配网络关键性能指标最差的小区，明确定位与用户投诉关联的投诉小区及网络关键性能指标，生成网络关键性能指标为特征值，投诉标识为标签值的数据集，使用机器学习算法进行训练，得到预测模型，进而根据待测的网络关键性能指标可准确预测潜在投诉小区，有利于针对性的优化潜在投诉小区的网络质量，提高用户满意度。
附图说明
32.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
33.图1为本技术实施例提供的一种应用场景示意图；
34.图2为本技术实施例提供的小区预测方法的流程图；
35.图3为本技术实施例提供的一种小区预测装置的结构示意图；
36.图4为本技术实施例提供的再一种小区预测装置的结构示意图；
37.图5为本技术实施例提供的一种电子设备的结构示意图。
38.通过上述附图，已示出本技术明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围，而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
39.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与本技术的一些方面相一致的装置和方法的例子。
40.首先对本技术实施例中的名词进行解释：
41.小区：也称蜂窝小区，是指在蜂窝移动通信系统中，其中的一个基站或基站的一部分(扇形天线)所覆盖的区域，在这个区域内移动台可以通过无线信道可靠地与基站进行通信。
42.扇区：将基站设在每个小区六边形的三个顶点上，每个基站采用三副120度扇形辐射的定向天线，分别覆盖三个相邻小区的各三分之一的区域，每个小区由三副120度扇形天线共同覆盖，每副天线覆盖的区域就是一个基站扇区。与小区相比，扇区是一个具有地理意义的概念，而小区是一种逻辑概念，主要是为了方便移动交换中心进行参数配置以及控制用，因此一个扇区可能包含几个小区，通常扇区与基站的天线方向对应，对于有360度天线方向的基站就只有一个扇区，而只具有定向天线的基站就会包含有多个扇区。一般只要无线参数上有不同就会分为一个小区，例如频率不同或者频率相同但扰码不同都分成不同的小区，wcdma网中这两种配置都会出现，此时，按天线的地理覆盖范围，一个扇区就会与一个小区对应，或者包含两个或者两个以上的小区。
43.基站：公用移动通信基站，是移动设备接入互联网的接口设备，也是无线电台站的一种形式，是指在一定的无线电覆盖区中，通过移动通信交换中心，与移动电话终端之间进行信息传递的无线电收发信电台。基站的主要功能就是提供无线覆盖，即实现有线通信网络与无线终端之间的无线信号传输。
44.随着移动用户网络规模地不断扩大，以及手机应用种类地不断增多，用户对移动网络的需求在不断增加。当通信服务运营商所提供业务的质量达不到用户预期并超出了用户容忍极限之后，用户通常会将其对服务质量的不满表现在用户行为上，即用户投诉。用户的投诉是通信服务运营商提升服务水平和产品质量的先导，通过分析用户的投诉数据，实现对投诉行为的预测，从而预先解决问题，有利于提升客户满意度
45.一种相关的投诉预测方法包括：根据投诉信息和用户所处基站的人流量信息训练投诉预测模型；基于投诉预测模型，确定每个用户在各投诉影响维度上的投诉概率，将用户划分到对应的预设的分组映射表中；根据分组映射表中各分组对应的投诉准确率，筛选出满足预设的限制条件的分组，并将筛选出的分组内的用户预测为预测周期内潜在的投诉用户。该投诉预测方法是对用户的投诉概率的预测，其中对用户所处基站的确定方法不明确。然而，用户投诉与网络质量有关，需要一种对基站及小区的投诉预测方案。
46.另一种相关技术中包括：采集网络中移动终端上网投诉的识别码清单和与识别码清单匹配的投诉时间清单；采集网络中与识别码清单和投诉时间清单匹配的移动终端上网网络数据指标和移动终端上网应用类别；采集网络中与识别码清单匹配的移动终端在q个时间段的q组计费系统数据指标；基于网络中移动终端上网投诉的识别码清单、投诉时间清单、网络数据指标、上网应用类别和计费系统数据指标训练投诉预测模型，预测具体时间点每一移动终端识别码的投诉预测概率值。
47.然而，上述是对每一移动终端识别码的投诉概率预测，用户投诉与网络质量有关，需要一种对基站及小区的投诉预测方案。
48.本技术实施例提供的小区预测方法、装置、电子设备及存储介质，旨在解决现有技术的如上技术问题。
49.本技术实施例提供的小区预测方法，可以适用于图1所示的应用场景中。以小区预测装置作为执行主体，向其中的投诉预测模型输入待测小区的测试数据，比如网络关键性能指标；经过投诉预测模型的计算输出预测结果。该预测结果用于表征待测小区是否为潜在的投诉小区。
50.通常，一条用户投诉记录对应一个终端，一个终端对应由三个可能被投诉的责任
基站。一个基站对应多个小区，需要根据用户投诉记录中的投诉地址定位投诉所可能关联的基站以及可能关联的小区，接着根据用户投诉记录中的投诉日期筛选的网络关键性能指标差的小区作为投诉所关联的责任小区。
51.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本技术的实施例进行描述。
52.实施例一
53.图2为本技术实施例提供的小区预测方法的流程图。包括：
54.s101、获取输入数据，输入数据包括待测小区的网络关键性能指标；
55.s102、将输入数据作为投诉预测模型的输入，获得投诉预测模型输出的预测结果；
56.其中，投诉预测模型是根据训练数据经过学习训练建立的，训练数据包括日期、基站标识、扇区标识、网络关键性能指标、投诉标识。
57.训练数据的获取过程如图2中s101和s102之前的步骤所示，具体包括：
58.s210、收集各历史投诉记录以建立第一数据集，历史投诉记录包括历史投诉地址、投诉级别和投诉因素；其中，投诉级别和投诉因素组合映射为投诉标识，并将投诉标识添加至第一数据集。具体的，历史投诉记录汇总在移网投诉入线量总表中，移网投诉入线量总表包含了投诉终端的位置信息(即投诉地址)、用户投诉因素(比如上网慢、无法上网、语音问题等)、用户投诉级别(比如普通投诉、重要投诉)等。
59.s220、收集各基站的基础信息以建立第二数据集，计算第一数据集中的历史投诉地址和第二数据集中各基站之间的第一距离，获得距离历史投诉地址最近的各第一基站。此步骤通过物理距离对第二数据集中基站进行筛选，容易理解的，终端优选信号最强最好的基站与其建立通话的唯一信道，距离越近的基站通常信号越强。因此，距离越近的基站越有可能是被用户投诉的责任基站，即第一基站。具体的，为了提高准确性，筛选距离较近的多个基站作为第一基站。
60.一种可行的距离计算方法为：投诉地址和基站地址的位置均用经度纬度表示。设基站经度为lon1,纬度为lat1，投诉地址经度为lon2,纬度为lat2。利用经纬度求取两点之间距离d，其计算公式有多种形式，一个示例如下：
61.d＝6378137*2*asin(sqrt(sin((radians(lat1)-radians(lat2))/2)^2+cos(radians(lat1))*cos(radians(lat1))*(sin((radians(lon1)-radians(lon2))/2)^2)))
62.其中，radians为求弧度的函数。
63.s230、针对各第一基站中的宏基站，根据第一数据集中历史投诉地址和各第一基站的位置，计算历史投诉地址与各第一基站的第一方位角，针对每个第一基站，从该第一基站的扇区中选出与第一方位角差异最小的第一扇区。
64.具体的，对于拥有多个扇区的宏基站，还需要进一步确定被用户投诉的是第一基站中的哪个扇区。比如，对于拥有0度、120度、240度三个扇区的第一基站，当计算所得方位角为130度，那么可以确定被用户投诉的扇区为120度的扇区。上述的筛选操作s230在s220的基础上进一步限定了用户投诉的责任范围。
65.一种计算方位角的方法为：设基站经度为lon1，纬度为lat1，投诉地址经度为lon2，纬度为lat2。利用经纬度求取两点之间方位角a，示例如下：
66.a＝round(if(lat1》lat2,180+if(lat1-lat2＝0,90,atan((lon1-lon2)*cos(radians((lat1+lat2)/2))/(lat1-lat2))*180/pi()),if(lat1-lat2＝0,90,atan((lon1-lon2)*cos(radians((lat1+lat2)/2))/(lat1-lat2))*180/pi())),1)
67.其中，round函数将数字四舍五入到指定的位数；atan函数为求数字的反正切值。
68.另外，需要说明的是，针对于各第一基站中的室分基站，其不划分扇区，所以不进行扇区的筛选。
69.s240、按第一距离降序，将第一距离越小的第一扇区和/或室分基站作为投诉责任站点；每条投诉记录对应至少一个投诉责任站点的映射策略，将具有扇区标识的投诉责任站点的扇区标识映射添加至第一数据集，获得包括日期、投诉标识、基站标识以及扇区标识的第三数据集。
70.其中，筛除各第一基站中第一距离均大于距离阈值的室分基站，该距离阈值为室分基站可提供稳定信号的最大距离。在实际应用过程中，当用户投诉的是室分基站时，第一距离会很小，基本为0。当用户在户外时，很大概率使用的是宏基站。但也不排除存在用户在距离室内很近的户外而使用室分基站通信的特殊情况。
71.上述筛选操作s240在s230的基础上进一步限定了用户投诉的责任范围，示例性的，为了提高准确性，可通过第一距离降序筛选出三个投诉责任站点，即每条投诉记录对应三个投诉责任站点。
72.s250、收集各小区的网络关键性能指标以建立第四数据集，将第四数据集分成宏小区表和室分小区表，以第三数据集中的日期和扇区标识为关键字，基于第三数据集和第四数据集中宏小区表的映射关系，以及以第三数据集中的日期和室分基站标识为关键字，基于第三数据集和第四数据集中室分小区表的映射关系，将宏小区表和室分小区表与第三数据集连接并合并获得第五数据集。
73.具体的，网络关键性能指标是小区级的，包括接入类、保持类、覆盖类等指标，比如无线接通率等。在实际数据采集过程中，可以将可获取的指标均输入模型进行训练。为了降低计算量提高训练速度，可使用随机森林等多分类算法输出特征重要性的方法筛选最能表征网络质量的指标进行训练。
74.根据宏基站和室分基站，将网络关键性能指标对应分为宏小区表和室分小区表。根据日期和扇区标识连接第三数据集和第四数据集的宏小区表；根据日期和基站标识连接第三数据集和第四数据集的室分小区表；将连接第三数据集的宏小区表和室分小区表分别与第三数据集连接并合并组成第五数据集。
75.上述s250在s204的基础上，确定了对应的网络关键性能指标。由于一个扇区或一个室内基站可能对应多个小区。因此需要进一步筛选，将责任投诉范围限定在小区。
76.s260、筛选出第五数据集中网络关键性能指标为异常值的数据，作为训练数据。容易理解的，当网络关键性能异常时被投诉的可能性比较大。示例性的，可以使用四分位法进行异常值检测，将大于上限或小于下限的数值作为异常值。具体的，将一条投诉记录对应的多个小区的网络关键性能指标进行大小排序，位于中间的为中位数q2，位于中位数与最小值之间的为下四分位数q1，位于中位数与最大值之间的为上四分位数q3。当待检测值大于q3+k(q3-q1)或则小于q3-k(q3-q1)时，则认为是异常值。通常k取1.5筛选中度异常值，k取3筛选极度异常值。实际筛选过程中，可自行选择k的取值。
77.另外，异常值检测技术有零-均值规范化法(z-score法)，z-score法描述了一个给定的测量值x与平均值之间的距离，该距离是以标准差来表示：当z的绝对值大于3则认为是异常值。上述的四分位法和z-score法适用于处理单变量，很多时候一个样本是否是异常值要综合多个属性进行判断。这时可以采用聚类的方法来检测异常值，常用算法k-means，适用于数据量比较大的情况。在应用过程中，可选择合适的异常值检测方法，本技术实施例不做限定。
78.上述的s210至s260实现了对投诉记录中具体的投诉小区的定位，以及获取了被投诉小区对应的被投诉日期的网络关键性能指标，作为训练投诉预测模型的输入值。
79.进一步地，还包括s270、根据训练数据集，采用机器学习多分类算法训练，得到预测模型。
80.本技术实施例提供的小区预测方法执行主体可以为小区预测装置。该装置可以通过计算机程序实现，例如，应用软件等；或者，该装置也可以实现为存储有相关计算机程序的介质，例如，u盘、云盘等；再或者，该装置还可以通过集成或安装有相关计算机程序的实体装置实现，例如，芯片等。
81.其中，网络关键性能指标是用于评价网络质量的参数，具体可以包括周期性参考信号接收功率(received signal code power，简称rsrp)均值、周期性mod3干扰比例、mac层dl_sch信道传输tb总数(16qam)、上行用户级空口吞吐率(kbps)、异频切换出执行请求次数(次)、4g倒流次数、值为15的cqi数、单流占比、空口上行业务字节数(mb)、同频切换出执行请求次数(次)、值为14的cqi数、值为0的cqi数、周期性rsrp≥-112db比例、值为3的cqi数。其中，mod3干扰也称模三干扰，是通用移动通信技术的长期演进(long term evolution，简称lte)网络内干扰的一种形式。
82.投诉预测模型为根据训练数据学习训练预先设立的，即利用机器学习历史数据的内部逻辑，然后运用学习后的逻辑处理新的数据。具体的，本技术实施例要实现对小区的潜在投诉状态进行预测，则需要大量的历史投诉信息进行训练。
83.需要说明的是，基站分为宏基站和室分基站；宏基站对应至少一个扇区，扇区对应至少一个小区；室分基站对应至少一个小区。宏基站是指通信运营商的无线信号发射基站，宏基站覆盖距离大，适用于郊区话务量比较分散的地区，全向覆盖，功率较大。室分基站是为了改善建筑物内移动通信环境而设立的。用户在户外通信时依靠的是宏基站；在室内通信时依靠的是室分基站。宏基站可以具有多个扇区，常见的三个扇区，分别是方位角为0度、120度、240度。每个扇区角度为120度，以实现该基站的360度覆盖。而室分基站不划分扇区，看作是360度的基站。
84.进一步地，在s210之后，还包括：去除第一数据集中的第一投诉记录，第一投诉记录中的投诉地址与投诉记录中记录的地域区域不一致。具体的，当用户进行投诉时填写的与上传投诉时运行商后台统计的行政区域不一致时，则视为无效数据。
85.进一步地，训练数据还包括投诉标识；历史投诉记录还包括投诉级别和投诉因素。本技术实施例提供的小区预测方法还包括：将历史投诉记录中的投诉级别和投诉因素组合映射为投诉标识，并将投诉标识添加至第一数据集。该投诉标识作为训练模型的输出值，每条投诉记录均会对应一个投诉标识。
86.示例性的，表1为本技术实施例提供的投诉标识。如表1所示，工信部表征是重要投
诉级别。投诉标识可以为n个，表1示例性的展示了9个标识，具体的根据历史投诉记录中投诉级别和投诉因素的多样性进行编号。
87.上述基于历史投诉记录获取的网络关键性能指标作为输入，将对应的投诉标识作为输出，通过机器学习多分类算法进行训练，得到投诉预测模型。将待测小区的网络关键性能指标输入训练好的投诉预测模型，根据输出的投诉标识判断是否为潜在的投诉小区。结合表1，当输出为0则不是潜在的投诉小区。当输出1-8中任何一个时，可确定为是潜在的投诉小区，并可进一步确定被投诉的级别。
88.表1投诉标识含义
[0089][0090]
进一步地，若待测小区的预测结果为投诉小区，则执行对待测小区的小区优化处理，从而改善网络状态，提高用户体验，降低投诉率。
[0091]
一种相关技术中包括：采集网络中移动终端上网投诉的识别码清单和与识别码清单匹配的投诉时间清单；采集网络中与识别码清单和投诉时间清单匹配的移动终端上网网络数据指标和移动终端上网应用类别；采集网络中与识别码清单匹配的移动终端在q个时间段的q组计费系统数据指标；基于网络中移动终端上网投诉的识别码清单、投诉时间清单、网络数据指标、上网应用类别和计费系统数据指标训练投诉预测模型，预测具体时间点每一移动终端识别码的投诉预测概率值。
[0092]
本实施例的方案相比相关技术，明确了投诉日期匹配的网络数据指标是具体投诉地址的网络数据指标，准确定位投诉用户关联的基站及小区，从而可针对性对潜在投诉基站及小区做出优化改进。
[0093]
本技术实施例提供的小区预测方法，将待测小区的网络关键性能指标作为投诉预测模型的输入，获得投诉预测模型输出的预测结果进而实现投诉小区预测。本技术实施例将历史投诉记录中的投诉级别和投诉现象映射为投诉标识，根据历史投诉记录中投诉地址匹配距离最近的小区以及根据投诉日期匹配网络关键性能指标最差的小区，明确定位与用户投诉关联的投诉小区及网络关键性能指标，生成网络关键性能指标为特征值，投诉标识
为标签值的数据集，使用机器学习算法进行训练，得到预测模型，进而根据待测的网络关键性能指标可准确预测潜在投诉小区，有利于针对性的优化潜在投诉小区的网络质量，提高用户满意度
[0094]
实施例二
[0095]
图3为本技术实施例提供的一种小区预测装置的结构示意图，包括：获取模块10，用于获取输入数据，输入数据包括待测小区的网络关键性能指标；处理模块20，用于将输入数据作为投诉预测模型的输入，获得投诉预测模型输出的预测结果；其中，投诉预测模型是根据训练数据经过学习训练建立的，训练数据包括日期、基站标识、扇区标识、网络关键性能指标、投诉标识。
[0096]
历史数据处理模块30，用于根据历史投诉记录、各基站的基础信息以及各小区的网络关键性能指标，获得训练数据；其中，基站分为宏基站和室分基站；宏基站对应至少一个扇区，扇区对应至少一个小区；室分基站对应至少一个小区；训练模块40，还用于基于训练数据，使用机器学习多分类算法，训练得到投诉预测模型。
[0097]
进一步地，历史数据处理模块30具体包括：
[0098]
(1)收集各历史投诉记录以建立第一数据集，历史投诉记录包括历史投诉地址。具体的，历史投诉记录汇总在移网投诉入线量总表中，移网投诉入线量总表包含了投诉终端的位置信息(即投诉地址)、用户投诉因素(比如上网慢、无法上网、语音问题等)、用户投诉级别(比如普通投诉、重要投诉)等。
[0099]
(2)收集各基站的基础信息以建立第二数据集，计算第一数据集中的历史投诉地址和第二数据集中各基站之间的第一距离，获得距离历史投诉地址最近的各第一基站。此步骤通过物理距离对第二数据集中基站进行筛选，容易理解的，终端优选信号最强最好的基站与其建立通话的唯一信道，距离越近的基站通常信号越强。因此，距离越近的基站越有可能是被用户投诉的责任基站，即第一基站。具体的，为了提高准确性，筛选距离较近的多个基站作为第一基站。
[0100]
(3)针对各第一基站中的宏基站，根据第一数据集中历史投诉地址和各第一基站的位置，计算历史投诉地址与各第一基站的第一方位角，针对每个第一基站，从该第一基站的扇区中选出与第一方位角差异最小的第一扇区。
[0101]
具体的，对于拥有多个扇区的宏基站，还需要进一步确定被用户投诉的是第一基站中的哪个扇区。比如，对于拥有0度、120度、240度三个扇区的第一基站，当计算所得方位角为130度，那么可以确定被用户投诉的扇区为120度的扇区。上述的筛选操作进一步限定了用户投诉的责任范围。需要说明的是，针对于各第一基站中的室分基站，其不划分扇区，所以不进行扇区的筛选。
[0102]
(4)按第一距离降序对第一扇区对应的第一基站进行排序，将第一距离越小的第一扇区作为投诉责任扇区；每条投诉记录对应至少一个投诉责任扇区的映射策略，将投诉责任扇区的扇区标识映射添加至第一数据集，获得包括日期、投诉标识、基站标识以及扇区标识的第三数据集。
[0103]
其中，筛除各第一基站中第一距离均大于距离阈值的室分基站，该距离阈值为室分基站可提供稳定信号的最大距离。在实际应用过程中，当用户投诉的是室分基站时，第一距离会很小，基本为0。当用户在户外时，很大概率使用的是宏基站。但也不排除存在用户在
距离室内很近的户外而使用室分基站通信的特殊情况。
[0104]
(5)收集各小区的网络关键性能指标以建立第四数据集，将第四数据集分成宏小区表和室分小区表，以第三数据集中的日期和扇区标识为关键字，基于第三数据集和第四数据集中宏小区表的映射关系，以及以第三数据集中的日期和室分基站标识为关键字，基于第三数据集和第四数据集中室分小区表的映射关系，将宏小区表和室分小区表分别与第三数据集连接并合并获得第五数据集。具体的，网络关键性能指标是小区级的，包括接入类、保持类、覆盖类等指标，比如无线接通率等。在实际数据采集过程中，可以将可获取的指标均输入模型进行训练。为了降低计算量提高训练速度，可使用随机森林等多分类算法输出特征重要性的方法筛选最能表征网络质量的指标进行训练。
[0105]
根据宏基站和室分基站，将网络关键性能指标对应分为宏小区表和室分小区表。根据日期和扇区标识连接第三数据集和第四数据集的宏小区表；根据日期和基站标识连接第三数据集和第四数据集的室分小区表；将连接第三数据集的宏小区表和室分小区表合并组成第五数据集。上述筛选确定了对应的网络关键性能指标。由于一个扇区或一个室内基站可能对应多个小区。因此需要进一步筛选，将责任投诉范围限定在小区。
[0106]
(6)筛选出第五数据集中网络关键性能指标为异常值的数据，作为训练数据。容易理解的，当网络关键性能异常时被投诉的可能性比较大。其中，异常值检测技术包括四分位法、z-score法和聚类法，在应用过程中，可选择合适的异常值检测方法，本技术实施例不做限定。
[0107]
其中，网络关键性能指标是用于评价网络质量的参数，具体可以包括周期性参考信号接收功率(received signal code power，简称rsrp)均值、周期性mod3干扰比例等。投诉预测模型为根据训练数据学习训练预先设立的，即利用机器学习历史数据的内部逻辑，然后运用学习后的逻辑处理新的数据。具体的，本技术实施例要实现对小区的潜在投诉状态进行预测，则需要大量的历史投诉信息进行训练。
[0108]
需要说明的是，宏基站是指通信运营商的无线信号发射基站，宏基站覆盖距离大，适用于郊区话务量比较分散的地区，全向覆盖，功率较大。室分基站是为了改善建筑物内移动通信环境而设立的。用户在户外通信时依靠的是宏基站；在室内通信时依靠的是室分基站。宏基站可以具有多个扇区，常见的三个扇区，分别是方位角为0度、120度、240度。每个扇区角度为120度，以实现该基站的360度覆盖。而室分基站不划分扇区，看作是360度的基站。
[0109]
进一步地，训练数据还包括投诉标识；历史投诉记录还包括投诉级别和投诉因素；历史数据处理模块30，还用于将历史投诉记录中的投诉级别和投诉因素组合映射为投诉标识，并将投诉标识添加至第一数据集。该投诉标识作为训练模型的输出值，每条投诉记录均会对应一个投诉标识。投诉标识可以用数字从0到n表示。本技术实施例对投诉表示的数量不作限定，具体要根据所收集的历史投诉记录的投诉级别和投诉因素的多样性进行编号。
[0110]
进一步地，历史数据处理模块30收集各历史投诉记录以建立第一数据集之后，还用于：去除第一数据集中的第一投诉记录，第一投诉记录中的投诉地址与投诉记录中记录的地域区域不一致。具体的，当用户进行投诉时填写的与上传投诉时运行商后台统计的行政区域不一致时，则视为无效数据。
[0111]
进一步地，本技术实施例提供的装置还包括：优化模块，用于若待测小区的预测结果为投诉小区，则执行对待测小区的小区优化处理，从而改善网络状态，提高用户体验，降
低投诉率。
[0112]
下面以一个具体示例对本技术实施例提供的小区预测装置进行说明。
[0113]
图4为本技术实施例提供的再一种小区预测装置的结构示意图。如图4所示，包括：原始数据收集和预处理模块、距离和方位角计算模块、投诉小区定位模块、
[0114]
原始数据收集和预处理模块31，用于收集各历史投诉记录以建立第一数据集，历史投诉记录包括历史投诉地址；
[0115]
距离和方位角计算模块32，用于收集各基站的基础信息以建立第二数据集，计算第一数据集中的历史投诉地址和第二数据集中各基站之间的第一距离，获得距离历史投诉地址最近的各第一基站；还用于针对各第一基站中的宏基站，根据第一数据集中历史投诉地址和各第一基站的位置，计算历史投诉地址与各第一基站的第一方位角，针对每个第一基站，从该第一基站的扇区中选出与第一方位角差异最小的第一扇区；还用于按第一距离降序对第一扇区对应的第一基站进行排序，将第一距离越小的第一扇区作为投诉责任扇区；每条投诉记录对应至少一个投诉责任扇区的映射策略，将投诉责任扇区的扇区标识映射添加至第一数据集，获得包括日期、投诉标识、基站标识以及扇区标识的第三数据集；
[0116]
投诉小区定位模块33，用于收集各小区的网络关键性能指标以建立第四数据集，将第四数据集分成宏小区表和室分小区表，以第三数据集中的日期和扇区标识为关键字，基于第三数据集和第四数据集中宏小区表的映射关系，以及以第三数据集中的日期和室分基站标识为关键字，基于第三数据集和第四数据集中室分小区表的映射关系，将宏小区表和室分小区表分别与第三数据集连接并合并获得第五数据集。还用于筛选出第五数据集中网络关键性能指标为异常值的数据，作为训练数据。
[0117]
训练模块40，用于基于历史投诉记录获取的网络关键性能指标作为输入，将对应的投诉标识作为输出，通过机器学习多分类算法进行训练，得到投诉预测模型。
[0118]
预测模型模块21，用于接收待预测网络关键性能指标数据收集预处理模块11输入的待测小区的网络关键性能指标数据。
[0119]
预测结果输出模块22，用于输出预测模型模块21计算输出的投诉标识。
[0120]
本技术实施例提供的小区预测装置，包括：获取模块10，用于获取输入数据，输入数据包括待测小区的网络关键性能指标；处理模块20，用于将输入数据作为投诉预测模型的输入，获得投诉预测模型输出的预测结果。本技术实施例将历史投诉记录中的投诉级别和投诉现象映射为投诉标识，根据历史投诉记录中投诉地址匹配距离最近的小区以及根据投诉日期匹配网络关键性能指标最差的小区，明确定位与用户投诉关联的投诉小区及网络关键性能指标，生成网络关键性能指标为特征值，投诉标识为标签值的数据集，使用机器学习算法进行训练，得到预测模型，进而根据待测的网络关键性能指标可准确预测潜在投诉小区，有利于针对性的优化潜在投诉小区的网络质量，提高用户满意度。
[0121]
实施例三
[0122]
图5为本技术实施例提供的一种电子设备的结构示意图，如图5所示，电子设备包括：
[0123]
处理器(processor)291，电子设备还包括了存储器(memory)292；还可以包括通信接口(communication interface)293和总线294。其中，处理器291、存储器292、通信接口293、可以通过总线294完成相互间的通信。通信接口293可以用于信息传输。处理器291可以
调用存储器292中的逻辑指令，以执行上述实施例的方法。
[0124]
此外，上述的存储器292中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。
[0125]
存储器292作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本技术实施例中的方法对应的程序指令/模块。处理器291通过运行存储在存储器292中的软件程序、指令以及模块，从而执行功能应用以及数据处理，即实现上述方法实施例中的方法。
[0126]
存储器292可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器292可以包括高速随机存取存储器，还可以包括非易失性存储器。
[0127]
本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现实施例一提供的方法。
[0128]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求书指出。
[0129]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。

技术特征：
1.一种小区预测方法，其特征在于，包括：获取输入数据，所述输入数据包括待测小区的网络关键性能指标；将所述输入数据作为投诉预测模型的输入，获得所述投诉预测模型输出的预测结果；其中，所述投诉预测模型是根据训练数据经过学习训练建立的；所述训练数据包括日期、基站标识、扇区标识、所述网络关键性能指标、投诉标识。2.根据权利要求1所述的方法，其特征在于，所述训练数据获取过程包括：收集各历史投诉记录以建立第一数据集，所述历史投诉记录包括历史投诉地址、投诉级别和投诉因素；其中，所述投诉级别和所述投诉因素组合映射为所述投诉标识，并将所述投诉标识添加至所述第一数据集；收集各基站的基础信息以建立第二数据集，计算所述第一数据集中的所述历史投诉地址和所述第二数据集中各基站之间的第一距离，获得距离历史投诉地址最近的各第一基站；针对所述各第一基站中的宏基站，根据所述第一数据集中历史投诉地址和所述各第一基站的位置，计算所述历史投诉地址与所述各第一基站的第一方位角，针对每个第一基站，从该第一基站的扇区中选出与所述第一方位角差异最小的第一扇区；按所述第一距离降序，将所述第一距离越小的所述第一扇区和/或室分基站作为投诉责任站点；每条投诉记录对应至少一个投诉责任站点的映射策略，将具有扇区标识的所述投诉责任站点的所述扇区标识映射添加至所述第一数据集，获得包括日期、基站标识以及扇区标识的第三数据集；收集各小区的网络关键性能指标以建立第四数据集，将所述第四数据集分成宏小区表和室分小区表，以所述第三数据集中的日期和扇区标识为关键字，基于所述第三数据集和所述第四数据集中宏小区表的映射关系，以及以所述第三数据集中的日期和室分基站标识为关键字，基于所述第三数据集和所述第四数据集中室分小区表的映射关系，将所述宏小区表和室分小区表与第三数据集连接并合并获得第五数据集；筛选出所述第五数据集中所述网络关键性能指标为异常值的数据，作为所述训练数据。3.根据权利要求2所述的方法，其特征在于，所述将所述投诉标识添加至所述第一数据集之后，还包括：去除所述第一数据集中的第一投诉记录，所述第一投诉记录中的投诉地址与所述投诉记录中记录的地域区域不一致。4.根据权利要求1-3中任一项所述的方法，其特征在于，所述方法还包括：若所述待测小区的预测结果为投诉小区，则执行对待测小区的小区优化处理。5.一种小区预测装置，其特征在于，包括：获取模块，用于获取输入数据，所述输入数据包括待测小区的网络关键性能指标；处理模块，用于将所述输入数据作为投诉预测模型的输入，获得所述投诉预测模型输出的预测结果；其中，所述投诉预测模型，由训练模块根据训练数据经过学习训练建立的；所述训练数据包括日期、基站标识、扇区标识、所述网络关键性能指标、投诉标识。
6.根据权利要求5所述的装置，其特征在于，所述装置包括：历史数据处理模块；所述历史数据处理模块，用于获取训练数据，具体包括：收集各历史投诉记录以建立第一数据集，所述历史投诉记录包括历史投诉地址、投诉级别和投诉因素；其中，所述投诉级别和所述投诉因素组合映射为所述投诉标识，并将所述投诉标识添加至所述第一数据集；收集各基站的基础信息以建立第二数据集，计算所述第一数据集中的所述历史投诉地址和所述第二数据集中各基站之间的第一距离，获得距离历史投诉地址最近的各第一基站；针对所述各第一基站中的宏基站，根据所述第一数据集中历史投诉地址和所述各第一基站的位置，计算所述历史投诉地址与所述各第一基站的第一方位角，针对每个第一基站，从该第一基站的扇区中选出与所述第一方位角差异最小的第一扇区；按所述第一距离降序，将所述第一距离越小的所述第一扇区和/或室分基站作为投诉责任站点；每条投诉记录对应至少一个投诉责任站点的映射策略，将具有扇区标识的所述投诉责任站点的所述扇区标识映射添加至所述第一数据集，获得包括日期、基站标识以及扇区标识的第三数据集；收集各小区的网络关键性能指标以建立第四数据集，将所述第四数据集分成宏小区表和室分小区表，以所述第三数据集中的日期和扇区标识为关键字，基于所述第三数据集和所述第四数据集中宏小区表的映射关系，以及以所述第三数据集中的日期和室分基站标识为关键字，基于所述第三数据集和所述第四数据集中室分小区表的映射关系，将所述宏小区表和室分小区表与第三数据集连接并合并获得第五数据集；筛选出所述第五数据集中所述网络关键性能指标为异常值的数据，作为所述训练数据。7.根据权利要求6所述的装置，其特征在于，所述历史数据处理模块将所述投诉标识添加至所述第一数据集之后，还用于：去除所述第一数据集中的第一投诉记录，所述第一投诉记录中的投诉地址与所述投诉记录中记录的地域区域不一致。8.根据权利要求5-7中任一项所述的装置，其特征在于，所述装置还包括：优化模块，用于若所述待测小区的预测结果为投诉小区，则执行对待测小区的小区优化处理。9.一种电子设备，其特征在于，包括：存储器，处理器；存储器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为：根据所述可执行指令执行如权利要求1-6中任一项所述的方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-6中任一项所述的方法。

技术总结
本申请提供的一种小区预测方法、装置、电子设备及存储介质。包括：将待测小区的网络关键性能指标作为投诉预测模型的输入，获得投诉预测模型输出的预测结果进而实现投诉小区预测。本申请将历史投诉记录中的投诉级别和投诉现象映射为投诉标识，根据历史投诉记录中投诉地址匹配距离最近的小区以及根据投诉日期匹配网络关键性能指标最差的小区，明确定位与用户投诉关联的投诉小区及网络关键性能指标，生成网络关键性能指标为特征值，投诉标识为标签值的数据集，使用机器学习算法进行训练，得到预测模型，进而根据待测的网络关键性能指标可准确预测潜在投诉小区，有利于针对性的优化潜在投诉小区的网络质量，提高用户满意度。提高用户满意度。提高用户满意度。

技术研发人员：王立群李曌星孟庆军柴杰
受保护的技术使用者：中国联合网络通信集团有限公司
技术研发日：2022.01.07
技术公布日：2022/3/8

专利

最新回复(0)