基于逻辑回归算法及决策树算法的非法语音的识别方法及系统与流程

专利查询10月前  67



1.本技术涉及计算机技术领域,特别涉及一种基于逻辑回归算法及决策树算法的非法语音的识别方法及系统。


背景技术:

2.随着互联网时代的高速发展,人们生活也发生了巨大的变化。用户之间可以采用用户终端实现语音通话或短信交互,多种多样的应用也进入到人们的视野中。但也给我们生活带来便利的同时,也产生了很多潜在的危险,用户个人隐私在互联网中的泄露有可能被诈骗分子有机可乘,甚至导致了个人财产损失。近年来,电信诈骗成爆发式增长,诈骗手法层出不穷,诈骗中所使用的技术手段也不断升级。电信诈骗是指通过电话,编造虚假信息,设置骗局,对受害人实施远程、非接触式诈骗,诱使受害人打款或转账的犯罪行为,通常以冒充他人及仿冒、伪造各种合法外衣和形式的方式达到欺骗的目的,如冒充公检法、商家公司厂家、国家机关工作人员、银行工作人员等各类机构工作人员,伪造和冒充招工、刷单、贷款、手机定位和招嫖等形式进行诈骗。随着科技的发展,一系列技术工具的开发出现和被使用,诈骗分子借助于移动终端或固定电话等通信工具,及现代的技术等实施非接触式的诈骗迅速地发展蔓延,给人民群众造成了很大的损失。在这种情况下,需要对网络中的语音进行识别,从中识别出非法语音,并针对识别出的非法语音进行诸如屏蔽或提醒用户的相关处理,以减少或避免用户的损失。
3.因此,如何准确识别出通信网络中的非法语音,特别识别出通信网络中的非法语音的类别是一个亟待解决的问题。


技术实现要素:

4.有鉴于此,本技术实施例提供一种基于逻辑回归算法及决策树算法的非法语音的识别方法及系统,能够准确识别出通信网络中的非法语音。
5.本技术实施例是这样实现的:
6.一种基于逻辑回归算法及决策树算法的非法语音的识别方法,所述方法包括:
7.实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理得到特征数据;
8.将所述特征数据输入训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;
9.所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
10.所述对获取的语音数据采用数据特征工程方式处理后获取得到特征数据包括:
11.对语音数据进行数据归一化处理;
12.对语音数据进行空值及缺失值处理;
13.对语音数据进行词频-逆文本频率指数tf-idf方式处理后,得到特征数据。
14.所述训练得到的融合模型包括:
15.从通信网络侧获取得到语音数据作为样本语音数据;
16.对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据;
17.将所述特征数据输入到融合模型中进行训练,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果;
18.对训练完成的所述融合模型进行指标评估,确定所述融合模型满足所设置的评估指标;
19.将训练得到的融合模型设置在通信网络中的网络侧,从通信网络侧获取的语音数据进行非法语音的识别处理。
20.所述对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据包括:
21.对样本语音数据进行数据归一化处理;
22.对样本语音数据进行空值及缺失值处理;
23.对样本语音数据进行词频-逆文本频率指数tf-idf方式处理后,得到特征数据。
24.所述得到是否为非法语音的预测结果包括:
25.构建针对不同特征的五个决策树算法,将提取的特征数据输入到所设置的五个决策树算法中并得出各自的概率值,将各自的概率值整合后,输入到逻辑回归算法中进行预测,得到是否为非法语音数据的预测结果。
26.所述决策树算法中的决策树为cart二叉决策树,对所构建的cart二叉决策树进行剪枝处理。
27.将所述特征数据输入到融合模型中进行训练采用十折交叉验证方式进行训练。
28.所述对训练完成的所述融合模型进行指标评估包括:
29.计算所述融合模型的评估指标,包括精准率、召回率或/和f1-score指标;
30.判断计算得到的评估指标,是否满足所设置的评估指标值。
31.一种基于逻辑回归算法及决策树算法的非法语音的识别系统,所述系统包括:
32.获取单元、提取特征数据单元及融合模型处理单元,其中,
33.获取单元,用于实时从通信网络侧获取语音数据;
34.提取特征数据单元,用于对获取的语音数据采用特征工程处理方式处理,得到特征数据;
35.融合模型处理单元,用于将所述特征数据输入到训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
36.如上所见,本技术实施例训练得到基于一逻辑回归算法及多个决策树算法的融合
模型,实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理后获取得到特征数据;输入到所述融合模型中,由其中的多个决策树算法进行处理得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由逻辑回归算法进行预测,得到是否为非法语音的预测结果。这样,由于融合模型是基于逻辑回归算法及决策树算法进行构建及训练的,所以准确识别出通信网络中的非法语音。
附图说明
37.图1为本技术实施例提供的一种基于逻辑回归算分及决策树算法的非法语音的识别方法流程图;
38.图2为本技术实施例提供的训练融合模型的方法流程图;
39.图3为本技术实施例提供的一种基于逻辑回归算分及决策树算法的非法语音的识别系统结构示意图;
40.图4为本技术实施例应用例子1中的决策树算法中的其中一棵二叉决策树的结构示意图;
41.图5为本技术实施例应用例子2中的决策树算法中的其中一棵二叉决策树的结构示意图。
具体实施方式
42.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
43.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
44.下面以具体实施例对本技术的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
45.从背景技术可以看出,准确识别出通信网络中的非法语音,是进行后续的针对识别出的非法语音进行诸如屏蔽或提醒用户的相关处理,以减少或避免用户的损失的前提条件。因此,本发明实施例训练得到基于一逻辑回归算法及多个决策树算法的融合模型,实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理后获取得到特征数据;输入到所述融合模型中,由其中的多个决策树算法进行处理得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由逻辑回归算法进行预测,得到是否为非法语音的预测结果。
46.这样,由于融合模型是基于逻辑回归算法及决策树算法进行构建及训练的,所以
准确识别出通信网络中的非法语音。
47.本技术实施例训练得到基于逻辑回归算法及决策树算法的融合模型,对通过获取的语音数据的特征数据进行预测,从而确定是否为非法语音。在对语音数据进行特征数据提取时,采用数据特征工程方式进行,能够准确获取到特征数据。因此,本技术实施例既能有效避免语音数据的人工误判和漏判行为,又能解决人工欺诈及检测昂贵费用等问题。
48.图1为本技术实施例提供的一种基于逻辑回归算分及决策树算法的非法语音的识别方法流程图,其具体步骤包括:
49.步骤101、实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理得到特征数据;
50.步骤102、将所述特征数据输入训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;
51.步骤103、所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
52.在该方法中,所述对获取的语音数据采用数据特征工程方式处理后获取得到特征数据包括:
53.对语音数据进行数据归一化处理;
54.对语音数据进行空值及缺失值处理;
55.对语音数据进行词频-逆文本频率指数(tf-idf)方式处理后,得到特征数据。
56.为了实现该方法,需要得到训练好的融合模型。图2为本技术实施例提供的训练融合模型的方法流程图,其具体步骤包括:
57.步骤201、从通信网络侧获取得到语音数据作为样本语音数据;
58.步骤202、对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据;
59.步骤203、将所述特征数据输入到融合模型中进行训练,所述融合模型由一逻辑回归算法及多个决策树算法组成;
60.步骤204、所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果;
61.步骤205、对训练完成的所述融合模型进行指标评估,确定所述融合模型满足所设置的评估指标;
62.在本步骤中,所述融合模型的评估指标包括融合模型的精准率、召回率和/或f1分数等;
63.在本步骤中,当所述融合模型训练结束后,结合业务及多种评估指标,评估所述融合模型的上线可行性,对满足业务要求的模型实施上线运行,实现自动化的非法语音分类;
64.步骤206、将训练得到的融合模型设置在通信网络中的网络侧,从通信网络侧获取的语音数据进行非法语音的识别处理。
65.在图2所述的方法中,所述通信网络侧的语音数据存放在分布式文件数据库(hbase)中,有利于语音数据的实时访问及处理,在获取时直接获取后,作为训练所述融合
模型中的训练样本。为了保护用户的隐私,在hbase中的语音数据采用加密处理,在获取时进行脱敏加密处理。
66.在所述方法中,语音数据包括:号码注册地、上网流量、上网统一资源符(url)、漫游位置、常用app、上网lac、上网ci、经纬度、ip地址、端口、发送短信内容、或/和网络爬虫爬取浏览页面内容等。
67.在所述方法中,所述对获取的语音数据采用数据特征工程处理后获取得到特征数据包括:
68.对语音数据进行数据清洗、处理、特征提取、变量衍生及变量选择之后,得到训练所述融合模型的训练特征数据。
69.在这里,数据特征工程包括对语音数据进行归一化,词频-逆文本频率指数(tf-idf)及相关性特征选择等功能的处理,获得得到语音数据。
70.具体地说,该特征数据为39维,分别为x1,x2,x3
……
x48,各个变量详细说明如下:
71.x1为fre:发送短信频次;x2为fre_herf:发送短信是否含有连接;x3为fre_key:发送短信是否含诈骗关键字;x4为fre_bifont:发送短信是否含繁体关键字;x5为fre_fanti:发送短信是否含繁体关键字;x6为web_content:浏览网页head内容;x7为web_key:浏览网页key内容;x8为web_herf:浏览网页连接内容;x9为web_exam:浏览网页是否备案;x10为locat:位置信息;x11为im_account:im账号;x12为login_logout_frequency:一段时间内(1、3、7天)im账号的登录登出频数;x13为peek_frequency:7天内im账号添加账号的峰值(以天为单位进行统计,最大值);x14为long_term_frequency:一段时间内每天添加账号数量的方差;x15为short_term_frequency:最近1天内im账号添加账号操作的频数;x16为media_operation_ratio:im账号多媒体(收图片、发图片、收视频、发视频、朋友圈等)操作占总操作的比例;x17为video_frequency:im账号收发视频占总操作的比例;x18为active_time_period:以im账号为单位统计每小时内各类操作的频数,归一化处理后,采用one-hot编码表示;x19为device_type:im账号的登录设备:android客户端、ios客户端、pc;x20为client_version:im客户端的版本,拆分为主版本号和次版本号;x21为im_account_on_device_day:以手机号为单位,统计单设备在1天内共计登录im账号的个数;x22为im_account_on_device_now:以手机号为单位,统计最大同时在线im账号个数;x23为base_station_location:基站编号;x24为signal_quality:信号质量,分为优、良、差三个等级,采用one-hot编码;x25为os_version:手机操作系统的版本号;拆分为主版本号和次版本号;x26为im_traffic_ratio:im通信流量占全部流量的比例;x27为bank_traffic_ratio:访问支付类网站流量占全部流量的比例;x28为shop_traffic_ratio:访问购物类网站流量占全部流量的比例;x29为up_down_traffic_ratio:统计各时段的上下行流量比例(以1小时为单位);x30为gps_info:gps信息;x31为roaming_type:用户漫游类型,1:国际漫游2:省际漫游3:省内漫游4:本地;x32为in_out_frequency:呼入呼出比;x33为hang_up_ratio:挂断方向;x34为region_distribution:被叫号码归属地分布;x35为same_phone_ratio:呼叫同一号码的频次;x36为dev_bank_ratio:异常设备访问支付类网站的频数;x37为dev_shop_ratio:异常设备访问购物类网站的频数;x38为dev_domain_ratio:异常设备访问不良网址的频数;x39为victim_bank_ratio:潜在受害者访问支付类网站的频数;x40为victim_shop_ratio:潜在受害者访问购物类网站的频数;x41为victim_domain_ratio:潜
在受害者访问不良网址的频数;x42为type:手机卡、qq、微信等类型,1:无;2:虚假贷款;3:冒充快递退款;4:网络刷单;5:网络赌博;x43为imsi:上网手机imsi;x44为imei:上网手机imei;x45为tac:上网手机号tac;x46为cell_id:上网手机cell_id;x47为dst_ip:上网手机ip;x48为dst_port:上网手机端口。
72.在图2所述的步骤204中,将提取的特征数据输入到所述融合模型进行训练。具体地说,构建针对不同特征的五个决策树算法,将提取的特征输入到所设置的五个决策树算法中并得出他们各自分类的概率值,将决策树算法输出值进行整合,输入到逻辑回归算法中进行预测,得到是否为非法语音数据的预测结果。
73.在这里,决策树是cart二叉决策树,并对cart二叉决策树进行剪枝处理。
74.在这个过程中,采用十折交叉法训练该融合算法模型。
75.在本技术实施例中,当所述融合模型在进行分类预测之前,需要对语音数据采用数据特征工程方式进行处理,得到特征数据。数据特征工程方式是将原始数据转化为机器识别的特征数据过程,而这些特征数据又能承载原始数据,且利用数据特征工程方式后的数据建立模型在未知数据上表现达到性能最优。采用数据特征工程方式详细过程如下:
76.首先,对语音数据进行数据归一化处理,数据归一化解决数据极端值问题,其公式如下:
77.公式:x'=(x-x_min)/(x_max-x_min)
78.数据归一化可以避免一些不必要的数值问题。输入变量如果太大,不经数据归一化处理,数据在后续训练过程中引起模型扭曲,影响模型经度。
79.其次,对语音数据进行空值及缺失值处理,空值及缺失值的数据会使挖掘算法模型不稳定,导致不可靠的输出,空值直接去除。
80.最后,对语音数据进行tf-idf算法处理,其中,tf即词频,是某词语出现的次数除以该文件总词语数得到的值,idf即逆向文件词频,是总文件数目除以包含该词语文件的数目,再将得到的商取对数得到的值,而tf与idf乘积用以评估每个词语对于一个文本集或一个词库重要程度。词语的重要性与它在文本中出现的次数成正比,与它在词库中出现的频率成反比。
81.tf-idf方式采用的公式为:
[0082][0083][0084]
tfidf
i,j
=tfi
i,j
×
idfiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0085]
其中,公式(1)中,分子n
i,j
表示词语ti在文本dj中出现次数;其中ti表示文本中词语数量,dj表示文本个数;分母∑kn
k,j
表示文本dj中所有词语的出现次数之和;tf
i,j
表示词频;公式(2)中,分子|d|表示语料库中的文本总数;分母|{j:ti∈di}|表示包含词语ti的文本数目,其中ti表示文本中词语数量,dj表示文本个数,idfi表示逆向文本频率。
[0086]
在本技术实施例中,融合模型由一逻辑回归算法及多个决策树算法组成,并对提取的特征数据进行非法语音的预测。以下对融合模型的训练及后续预测过程进行详细说明。
[0087]
融合模型中的决策树算法可以采用cart决策树算法。cart决策树是生成的一棵二叉树,采用二元切分法,每次把数据切成两份,分别进入左子树、右子树。相比其它决策树算法,cart决策树既可以解决分类问题也可以解决预测问题。cart决策树算法使用基尼指数(gini)来选择最好特征数据的分割点。
[0088]
选择cart决策树算法的好处为:1)生成规则易于理解;2)构建的决策树的计算量不大;3)生成的树能清晰显示哪些字段比较重要;4)该算法能处理连续字段与类别字段;5)生成的树能清晰显示哪些字段比较重要;6)能解决分类问题也能解决预测问题。
[0089]
cart决策树算法所使用的gini系数具体含义为:1)是一种不等性度量;2)用来度量信息不均匀分布性;3)是介于0~1之间的数,0-完全相等,1-完全不相等;4)gini指数就越大,数据内包含的类别越杂乱。
[0090]
cart决策树算法的gini系数公式为:
[0091]
其中,pk:样本由k个类别,第k个类别的概率为pk。
[0092]
根据上述公式计算gini数值选择节点,递归创建二叉树。
[0093]
对所创建的决策树进行剪枝处理,公式为:
[0094][0095]
其中,e表示该节点的错误误差;n表示该节点有多少笔数据;字母e表示该节点预测错误笔数;字母表示该节点的错误率;字母z在该公式中取经验常熟z=0.69。
[0096]
融合模型中的逻辑回归算法采用logistic函数(或称为sigmoid函数),函数形式为:
[0097][0098]
其中,字母e是常量;
[0099][0100]
其中,θ代表此特征数据的各个特征的权重;x代表此特征数据的各个特征值;z代表此特征数据预测出来的目标值;g(z)是逻辑函数的输出值。
[0101]
逻辑回归算法中所采用的损失函数j(θ)。
[0102]
将预测值与实际值的差的和就是这条特征数据的总损失值,损失值越小越好。
[0103][0104]
其中,m是样本的个数;h
θ
(xi)为预测值;yi为真实值。
[0105]
在融合模型训练完成后,进行指标评估,确定所述融合模型满足所设置的评估指标。在这里,采用精准率、召回率、f1-score指标对融合模型进行评估,其计算公式分别如下公式(1)、公式(2)、公式(3)所示:
[0106]
precision(精准率)=tp/(tp+fp)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0107]
recall(召回率)=tp/(tp+fn)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0108]
f1-score=2*precision*recall/(precision+recall)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0109]
其中,tp代表样本为正,预测结果为正的个数,fp代表样本为负,预测结果为正的个数,fn代表样本为正,预测结果为负的个数。
[0110]
cart决策树算法既可以解决分类问题也可以解决预测问题。该算法基于基尼系数递归生成决策树,且对生成的决策树依据公式来剪枝。本技术实施例采用基于决策树算法与逻辑回归算法的融合模型进行语音数据进行非法语音的识别,预测准确率高。
[0111]
图3为本技术实施例提供的一种基于逻辑回归算分及决策树算法的非法语音的识别系统结构示意图,所述系统包括:获取单元、提取特征数据单元及融合模型处理单元,其中,
[0112]
获取单元,用于实时从通信网络侧获取语音数据;
[0113]
提取特征数据单元,用于对获取的语音数据采用特征工程处理方式处理,得到特征数据;
[0114]
融合模型处理单元,用于将所述特征数据输入到训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
[0115]
以下对具体的应用例子对本技术实施例进行详细说明。
[0116]
应用例子1:
[0117]
本应用例子为第一区域的电信用户上网数据,从电信用户上网数据提取的主要特征数据包括:数据指标处理为拨打号码数量、区域离散度、登录账号数量、回拨率、活跃天数、上网流量、或/和浏览网址等。以单条加密后电信上网数据为例,五棵的决策树算法预测输出是诈骗号码的概率值分别为a1=0.94、a2=0.08、a3=0.85、a4=0.89、a5=0.99。其中的决策树之一如图4所示,图4为本技术实施例应用例子1中的决策树算法中的其中一棵二叉决策树的结构示意图。
[0118]
将五棵决策树算法计算得到的概率值整合输入到逻辑回归算法中,进行计算:sigmoid(w01*0.94+w02*0.08+w03*0.85+w04*0.89+w05*0.99)=0.06,得出的分类预测结果为0.06,约等于0,0代表正常上网号码,若输出结果1代表诈骗号码。
[0119]
应用例子2:
[0120]
本应用例子中数据为第二区域的用户上网数据,从用户上网数据提取的主要特征有:被叫离散度、号码离散度、登录境外ip频次、回拨率、呼出呼入比、上网流量、或/和浏览网址等。以单条加密后电信上网数据为例,五棵决策树预测输出是诈骗号码的概率值分别为a1=0.88、a2=0.78、a3=0.05、a4=0.09、a5=0.79。其中的决策树之一如图5所示,图5为本技术实施例应用例子2中的决策树算法中的其中一棵二叉决策树的结构示意图。
[0121]
将五棵决策树算法计算得到的概率值整合输入到逻辑回归算法中,进行计算:sigmoid(w01*0.88+w02*0.78+w03*0.05+w04*0.09+w05*0.79)=0.97,得出的分类预测结果为0.97,约等于1,1代表诈骗上网号码,若输出结果0代表正常上网号码。
[0122]
本技术采用融合算法生成模型,模型训练好,以脚本形式部署在系统上,定时运行上网数据,输出判断结果。算法实现简单,效率高且具避免过拟合,实用性较强。
[0123]
本技术附图中的流程图和框图,示出了按照本技术公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0124]
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本技术中。特别地,在不脱离本技术精神和教导的情况下,本技术的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本技术公开的范围。
[0125]
本文中应用了具体实施例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思路,并不用于限制本技术。对于本领域的技术人员来说,可以依据本技术的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本技术保护的范围之内。

技术特征:
1.一种基于逻辑回归算法及决策树算法的非法语音的识别方法,其特征在于,所述方法包括:实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理得到特征数据;将所述特征数据输入训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。2.如权利要求1所述的方法,其特征在于,所述对获取的语音数据采用数据特征工程方式处理后获取得到特征数据包括:对语音数据进行数据归一化处理;对语音数据进行空值及缺失值处理;对语音数据进行词频-逆文本频率指数tf-idf方式处理后,得到特征数据。3.如权利要求1所述的方法,其特征在于,所述训练得到的融合模型包括:从通信网络侧获取得到语音数据作为样本语音数据;对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据;将所述特征数据输入到融合模型中进行训练,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果;对训练完成的所述融合模型进行指标评估,确定所述融合模型满足所设置的评估指标;将训练得到的融合模型设置在通信网络中的网络侧,从通信网络侧获取的语音数据进行非法语音的识别处理。4.如权利要求3所述的方法,其特征在于,所述对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据包括:对样本语音数据进行数据归一化处理;对样本语音数据进行空值及缺失值处理;对样本语音数据进行词频-逆文本频率指数tf-idf方式处理后,得到特征数据。5.如权利要求1或3所述的方法,其特征在于,所述得到是否为非法语音的预测结果包括:构建针对不同特征的五个决策树算法,将提取的特征数据输入到所设置的五个决策树算法中并得出各自的概率值,将各自的概率值整合后,输入到逻辑回归算法中进行预测,得到是否为非法语音数据的预测结果。6.如权利要求5所述的方法,其特征在于,所述决策树算法中的决策树为cart二叉决策树,对所构建的cart二叉决策树进行剪枝处理。7.如权利要求3所述的方法,其特征在于,将所述特征数据输入到融合模型中进行训练采用十折交叉验证方式进行训练。
8.如权利要求3所述的方法,其特征在于,所述对训练完成的所述融合模型进行指标评估包括:计算所述融合模型的评估指标,包括精准率、召回率或/和f1-score指标;判断计算得到的评估指标,是否满足所设置的评估指标值。9.一种基于逻辑回归算法及决策树算法的非法语音的识别系统,其特征在于,所述系统包括:获取单元、提取特征数据单元及融合模型处理单元,其中,获取单元,用于实时从通信网络侧获取语音数据;提取特征数据单元,用于对获取的语音数据采用特征工程处理方式处理,得到特征数据;融合模型处理单元,用于将所述特征数据输入到训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。

技术总结
本申请公开了一种基于逻辑回归算法及决策树算法的非法语音的识别方法及系统,本申请实施例训练得到基于一逻辑回归算法及多个决策树算法的融合模型,实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理后获取得到特征数据;输入到所述融合模型中,由其中的多个决策树算法进行处理得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由逻辑回归算法进行预测,得到是否为非法语音的预测结果。这样,由于融合模型是基于逻辑回归算法及决策树算法进行构建及训练的,所以准确识别出通信网络中的非法语音。中的非法语音。中的非法语音。


技术研发人员:张飞 丁正 顾晓东 董伟
受保护的技术使用者:上海欣方软件有限公司
技术研发日:2021.12.06
技术公布日:2022/3/8

最新回复(0)