用户类型识别的方法、装置、计算机设备以及存储介质与流程

1.本技术涉及人工智能领域，尤其涉及一种用户类型识别的方法、装置、计算机设备以及存储介质。

背景技术：

2.金融机构在对贷款进行审批的过程中，通常需要对申请人进行面审。通过采集用户问答过程中的面部图像或视频数据，通过面部识别技术进行表情识别，以确定申请人是否为本人，是否存在撒谎或欺诈行为，进而对申请人的还款意愿和还款能力进行评估，减少风险事件发生的可能性。但对于通过包装、刻意伪装的用户，现有的面审技术对欺诈用户的识别准确率低。

技术实现要素：

3.本技术实施例提供了一种用户类型识别的方法、装置、计算机设备以及存储介质，可以提高识别目标用户是否为欺诈用户的准确率，有利于提高风险控制。
4.第一方面，本技术实施例提供了一种用户类型识别的方法，其中：
5.对目标用户的待检测视频数据进行处理，得到所述目标用户针对各问答的音频数据文件和图像数据文件；
6.对所述图像数据文件进行特征提取，得到所述图像数据文件的第一时长中每一时刻的视频特征，其中，所述第一时长包括第二时刻和第三时刻；
7.对所述音频数据文件进行特征提取，得到所述第二时刻的语音特征；
8.基于所述第二时刻的语音特征和视频特征，以及所述第三时刻的视频特征确定所述目标用户针对各问答的合理值；
9.若所述合理值大于或等于预设阈值，则确定所述目标用户为欺诈用户。
10.第二方面，本技术实施例提供了一种用户类型识别的装置，其中：
11.数据处理单元，用于对目标用户的待检测视频数据进行处理，得到所述目标用户针对各问答的音频数据文件和图像数据文件；
12.特征提取单元，用于对所述图像数据文件进行特征提取，得到所述图像数据文件的第一时长中每一时刻的视频特征，其中，所述第一时长包括第二时刻和第三时刻；
13.对所述音频数据文件进行特征提取，得到所述第二时刻的语音特征；
14.确定单元，用于基于所述第二时刻的语音特征和视频特征，以及所述第三时刻的视频特征确定所述目标用户针对各问答的合理值；
15.若所述合理值大于或等于预设阈值，则确定所述目标用户为欺诈用户。
16.第三方面，本技术实施例提供了一种计算机设备，包括处理器、存储器和通信接口，其中，所述存储器存储有计算机程序，所述计算机程序被配置由所述处理器执行，所述计算机程序包括用于如本技术实施例第一方面中所描述的部分或全部步骤的指令。
17.第四方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储
介质存储计算机程序，所述计算机程序使得计算机执行如本技术实施例第一方面中所描述的部分或全部步骤。
18.实施本技术实施例，将具有如下有益效果：
19.采用上述的用户类型识别的方法、装置、计算机设备以及存储介质，对目标用户的待检测视频数据进行处理，得到目标用户针对各问答音频数据文件和图像数据文件之后，对图像数据文件进行特征提取，得到第一时长中每一时刻的视频特征，以及对音频数据文件进行特征提取，得到第二时刻的语音特征。其中，第一时长包括第二时刻和第三时刻。然后，基于图像数据文件和音频数据文件中同一时刻(第二时刻)的语音特征和视频特征，以及图像数据文件中第三时刻的视频特征确定目标用户针对各问答的合理值。若其中一个合理值大于或等于预设阈值，则确定目标用户为欺诈用户。如此，通过同一时刻的视频特征和语音特征，以及不存在语音特征的时刻的视频特征进行用户类型的识别，可以提高识别目标用户是否为欺诈用户的准确率，有利于提高风险控制。
附图说明
20.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以基于这些附图获得其他的附图。其中：
21.图1为本技术实施例提供的一种系统架构示意图；
22.图2为本技术实施例提供的一种用户类型识别的方法的流程示意图；
23.图3为本技术实施例提供的一种用户类型识别的装置的结构示意图；
24.图4为本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
25.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
26.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
27.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
28.为了更好地理解本技术实施例的技术方案，先对本技术实施例可能涉及的系统架构进行介绍。请参照图1，本技术实施例提供的一种系统架构示意图，该系统架构可以包括：
电子设备101和服务器102。其中，电子设备101和服务器102之间可以通过网络通信。网络通信可以基于任何有线和无线网络，包括但不限于因特网、广域网、城域网、局域网、虚拟专用网络(virtual private network，vpn)和无线通信网络等等。
29.本技术实施例不限定电子设备和服务器的数量，服务器可同时为多个电子设备提供服务。在本技术实施例中，电子设备主要是金融机构的业务员办理业务所使用的设备，可以用于将面审采集的目标用户的待检测视频数据通过网络传输至服务器。电子设备可以是个人计算机(personal computer，pc)、笔记本电脑或智能手机，还可以是一体机、掌上电脑、平板电脑(pad)、智能电视播放终端、车载终端或便捷式设备等。pc端的电子设备，例如一体机等，其操作系统可以包括但不限于linux系统、unix系统、windows系列系统(例如windows xp、windows 7等)、mac os x系统(苹果电脑的操作系统)等操作系统。移动端的电子设备，例如智能手机等，其操作系统可以包括但不限于安卓系统、ios(苹果手机的操作系统)、window系统等操作系统。
30.服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器或者可以通过多个服务器组成的服务器集群来实现。
31.金融机构在对贷款进行审批的过程中，通常需要对申请人进行面审。通过采集用户问答过程中的面部图像或视频数据，通过面部识别技术进行表情识别，以确定申请人是否为本人，是否存在撒谎或欺诈行为，进而对申请人的还款意愿和还款能力进行评估，减少风险事件发生的可能性。但对于通过包装、刻意伪装的用户，现有的面审技术对欺诈用户的识别准确率低。
32.为了解决上述问题，本技术实施例提供了一种用户类型识别的方法，该方法可以应用在银行、证券、保险等金融机构配置的电子设备或服务器上。通过实施该方法，可以提高识别目标用户是否为欺诈用户的准确率，有利于提高风险控制。
33.请参照图2，图2是本技术实施例提供的一种用户类型识别的方法的流程示意图。以该方法应用在服务器为例进行举例说明，可以包括以下步骤s201-s205，其中：
34.步骤s201：对目标用户的待检测视频数据进行处理，得到目标用户针对各问答的音频数据文件和图像数据文件。
35.在本技术实施例中，目标用户是指面审过程中被提问的对象。可以是贷款申请人，还可以是信用卡申请人等。待检测视频数据可以是目标用户进行信用卡、贷款申请或进行其他活动时，与审批人员的对话信息。该待检测视频数据中可以包括目标用户和审批人员单独发言的视频片段，或者可以包括目标用户和审批人员同时发言的视频片段，或者可以包括目标用户和审批人员均未发言的视频片段。待检测视频数据可以是带摄像功能的电子设备实时摄录的面审现场的视频数据，也可以是预先摄录好的并保存的面审视频数据。
36.待检测视频数据包括音频数据和图像数据，音频数据是指采集到的目标用户输入的语音数据，图像数据是指采集到的画面数据。在本技术实施例中，可以利用视频编辑软件，对待检测视频数据中的音频数据和图像数据进行分离，得到目标用户针对各问答的音频数据文件和图像数据文件。
37.在一种可能的实施方式中，步骤s201可以包括以下步骤：对目标用户的待检测视
频数据进行语义识别，得到目标用户针对各问答的目标视频片段；提取目标视频片段的音频数据文件和图像数据文件。
38.在面审过程中，审批人员向目标用户提问的问题的个数可以有十几个到几十个不等。可以通过对目标用户的待检测视频数据进行语义识别，标记审批人员提问的开始时间，从而将待检测视频数据划分为目标用户针对各问答的目标视频片段。审批人员在向目标用户提问时，可以给出提问开始的提示词，例如“问题1
……”
、“问题2
……”
。示例地，在对待检测视频数据进行语义识别时，若检测到“问题1”，则可以将此时对应的时间戳标记为第一问题的开始时间。若检测到“问题2”，则可以将此时对应的时间戳标记为第一问题的结束时间(即第二问题的开始时间)。
39.本技术实施例对语义识别的方法不做限定，在一种可能的实施方式中，可以采用语义识别模型对目标用户的待检测视频数据进行语义识别。语义识别模型可以是双向注意力神经网络模型(bidirectional encoder representation from transformers，bert)、循环神经网络(recurrent neural network，rnn)、卷积神经网络(convolutional neural network，cnn)等，对此不做出限定。
40.对于不同的目标用户，审批人员所问的问题可以是不一样的，具体可以针对目标用户的基本信息来进行提问。在本技术实施例中，目标用户的基本信息可以包括：目标用户的身份信息和关联用户的身份信息，关联用户可以是配偶、亲属、朋友等；身份信息包括姓名、身份证号、联系电话、性别、年龄、家庭住址、职业以及学历等。目标用户和关联用户的身份信息可以是目标用户在提交申请业务时填入的，也可以通过申请信息中提交的相关资料确定的，其中，相关资料可以包括身份证、结婚证、房产证、户口簿信息等。面审问题也可以是关于职业方面、资产方面、消费方面、家庭方面等问题。此外，面审问题还可以由智能问答系统根据目标用户的基本信息生成。
41.可以看出，通过截取出目标用户针对各问答的视频片段作为目标视频片段，再从目标视频片段中提取得到目标用户的音频数据文件和图像数据文件，可以减少计算量，提高处理效率。
42.步骤s202：对图像数据文件进行特征提取，得到图像数据文件的第一时长中每一时刻的视频特征，其中，第一时长包括第二时刻和第三时刻。
43.在本技术实施例中，图像数据文件包括目标视频片段的图像数据，音频数据文件包括目标视频片段的音频数据。图像数据文件的时长和音频数据文件的时长可以等于目标视频片段的时长。目标视频片段中包含目标用户的人脸的时长可称为第一时长。由于目标视频片段中目标用户可能存在没有声音说话的时刻，则将目标视频片段中目标用户说话的时刻称为第二时刻，将目标视频片段中目标用户没有说话的时刻称为第三时刻。也就是说，目标视频片段(或图像数据文件)中包含目标用户的人脸(或视频特征)的时长可称为第一时长，该第一时长可以包括目标用户发出声音的第二时刻和目标用户没有发出声音的第三时刻。即目标视频片段(或音频数据文件)中包含目标用户的声音(或语音特征)的时刻可称为第二时刻。
44.示例地，待检测视频数据全长为10分钟，目标用户针对某一问答的目标视频片段的时段为1分5秒至1分55秒，第一时长可以为1分10秒至1分50秒，第二时刻可以为1分10秒，第三时刻可以为1分30秒。或者，也可以是其它的划分方式，对此不做出限定。
45.视频特征可以是面部动作单元(action unit，au)，还可以是抬头或低头角度、左右摇头角度、头部朝向、眼球朝向等。在保罗
·
艾克曼总结出的面部情绪编码系统(facial action coding system，facs)中，人类一共有39个主要的au，其中，一个au表示脸部的一小组肌肉收缩代码。可参考表1，表1列举了一些主要的au，这些au相互组合可以用于识别目标用户的情绪。例如，au4、au5、au7、au23组合起来可以代表愤怒，具体可以参考表2。
46.表1主要动作单元编码
[0047][0048][0049]
表2情绪计算公式
[0050]
情绪情绪计算公式开心au6+au12伤心au1+au4+au15惊讶au1+au2+au5+au26害怕au1+au2+au4+au5+au7+au20+au26愤怒au4+au5+au7+au23厌恶au9+au15+au16蔑视au12+au14
[0051]
下面以au为例介绍图像数据文件的第一时长中每一时刻的视频特征的提取过程，在一种可能的实施方式中，步骤s202可以包括以下步骤：对图像数据文件进行分帧处理，得到图像数据文件的第一时长中每一时刻的第一视频帧；对第一视频帧进行关键帧提取，得到第二视频帧；对第二视频帧进行人脸特征提取，得到动作单元；基于动作单元确定图像数据文件的第一时长中每一时刻的视频特征。
[0052]
在本技术实施例中，对图像数据文件进行分帧处理可以参考下文音频数据文件的分帧处理过程，在此不做赘述。关键帧(i帧)是在压缩后的视频中，完整保留图像数据文件的帧，在对关键帧进行解码时，只需要本帧的图像数据文件就可以完成解码。由于第二视频帧中的各个关键帧之间的相似性较小，因此第二视频帧可以较全面地表征第一视频帧。
[0053]
在本技术实施例中，可以采用人脸识别算法对第二视频帧进行人脸特征提取，得到动作单元。人脸识别算法可以是3d卷积神经网络(3d convolutional neural network，3dcnn)、时空图卷积网络(spatial temporal graph convolutional networks，st-gcn)、支持向量机(support vector machine，svm)等方法中的一种或多种，对此不做出限定。
[0054]
可以看出，在本技术实施例中，先对图像数据文件进行分帧处理，再对分帧得到的第一视频帧进行关键帧提取，得到第二视频帧。最后，对第二视频帧进行人脸特征提取，得到动作单元作为视频特征。如此，可以提高视频特征提取的处理效率和准确率。
[0055]
在一种可能的实施方式中，在对第二视频帧进行人脸特征提取，得到动作单元之前，还可以对第二视频帧的分辨率大小进行调整，使得第二视频帧的大小适中。如此，可以避免第二视频帧数据过大而导致数据处理速度过慢，或者可以避免第二视频帧数据过小而导致后续欺诈检测的准确率过低。
[0056]
步骤s203：对音频数据文件进行特征提取，得到第二时刻的语音特征。
[0057]
语音特征可以包括但不限于梅尔频率倒谱系数(mel-frequency cepstral coefficients，mfcc)、身份认证向量(identity-vector，i-vector)、文本关键词、音高、音强、音长、频带能量分布、谐波信噪比、短时能量抖动等。其中，文本关键词可以体现目标用户用词的词性特征。用词特征可以包括但不限于消极词、中性词和积极词。进一步地，文本关键词与其他语音特征或视频特征结合，有助于识别目标用户的情绪，从而有利于提高欺诈识别的准确性。
[0058]
下面以文本关键词为例介绍第二时刻的语音特征的提取过程。在一种可能的实施方式中，步骤s203可以包括以下步骤：
[0059]
对音频数据文件进行分帧处理，得到音频数据文件的第一时长中每一时刻的语音帧；对语音帧进行预处理，得到第二时刻的目标语音帧；对目标语音帧进行语音识别，得到文本数据；对文本数据进行分词处理，得到分词词汇和分词情绪；根据分词情绪从分词词汇中选取文本关键词；根据文本关键词获取第二时刻的语音特征。
[0060]
其中，帧是音频数据文件中最小的观测单位，分帧是依据音频数据文件的时序进行划分的过程。为了满足每一帧信号在足够短的时间内保持平稳，以及满足振动周期足够多，帧长一般取为20-50ms，具体可以取20ms、30ms、40ms等等。此外，为了避免相邻两帧的变化过大，通常可以采用交叠分段的方法来进行分帧处理，使得帧与帧之间平滑过渡，保持其连续性。帧与帧之间的交叠部分称为帧移，帧移与帧长的比值一般取为0-1/2。如此，对音频数据文件进行分帧处理，可以获得较平稳的语音帧，有利于提高后续语音识别或声纹识别
的准确性。
[0061]
目标语音帧是指第二时刻的语音帧，可以理解为目标视频片段中目标用户发出声音的时刻对应的语音帧。本技术实施例对于语音帧的预处理方法不做限定，在获取第二时刻的语音帧之前，预处理可以包括降维、归一化中的一种或多种。具体地，可以采用奇异值分解(singular value decomposition，svd)、主成分分析(principal component analysis，pca)、因子分析(factor analysis，fa)、独立成分分析(independent component analysis，ica)等方法进行降维处理。通过降维处理，可以从高维度的向量中，保留下最重要的一些特征，去除噪声和不重要的特征。还可以对语音帧进行归一化处理。示例地，可以采用最小-最大归一化方法(min-max normalization)将语音帧的值统一映射到[0，1]区间内。如此，归一化处理后的语音帧在数值上有一定比较性，可以提高欺诈识别的准确性。
[0062]
进一步地，还可以对分帧处理后得到的语音帧进行加窗处理和预加重处理，可以获取质量更好的目标语音帧。加窗可以用于消除各个帧两端可能会造成的信号不连续性，可以将非平稳语音信号转变为短时平稳信号。常用的窗函数有方窗、汉明窗和汉宁窗等。预加重则可以提升高频部分，用于滤去低频，使高频更突出，以提高信噪比。
[0063]
在一种可能的实施方式中，对语音帧进行预处理，得到第二时刻的目标语音帧，可以包括以下步骤：计算语音帧中每一帧的帧能量；将语音帧中帧能量小于预设阈值的语音帧标记为静音帧；将语音帧中的静音帧进行切除，得到目标语音帧。
[0064]
其中，帧能量是语音信号的短时能量，反映语音帧的语音信息的数据量，通过帧能量可以判断该语音帧是目标语音帧还是静音帧。若该语音帧的帧能量小于预设阈值，则该帧能量为静音帧。若该语音帧的帧能量大于或等于预设阈值，则该帧能量为目标语音帧。预设阈值是预先设定的参数，具体可以根据历史经验进行设置，如预设阈值设置为0.5，也可以根据计算得到语音帧的帧能量进行具体分析设置。
[0065]
可以看出，通过切除语音帧中的静音帧，得到目标语音帧，可以过滤掉目标用户没有说话的第三时刻的语音帧。再对目标语音帧进行特征提取，得到语音特征。如此，可以提高语音特征提取的效率和质量。
[0066]
具体地，可以采用自动语音识别技术(automatic speech recognition，asr)等技术将目标语音帧转换为文本数据。然后可以根据标点符号将文本数据进行划分，得到多个长短不一的句子文本，再对各个句子文本进行分词处理，以得到分词词汇和分词情绪。
[0067]
其中，分词处理方法可以采用基于字符串匹配的分词方法，也称为机械分词方法。例如，正向最大匹配法，把一个切分的语句中的字符串从左至右来分词；或者，反向最大匹配法，把一个切分的语句中的字符串从右至左来分词；或者，最短路径分词法，一个切分的语句中的字符串里面要求切出的词数是最少的；或者，双向最大匹配法，正反向同时进行分词匹配。也可以利用词义分词法对各个切分的语句进行分词处理，词义分词法是一种机器语音判断的分词方法，利用句法信息和语义信息来处理歧义现象来分词。此外，还可以采用jieba分词工具，或者采用word2vec的词向量模型等，用于解析文本数据，得到文本数据中每个字或词对应的词性(例如，名词、动词这两大类，还有人名、地名、机构名称等，或者副动词，名动词等等)和词义。此外，在一种可能的实施方式中，还可以基于cnn和长短期记忆网络(long short-term memory，lstm)等神经网络模型获取文本数据中个分词词汇的分词情绪。
[0068]
分词情绪可以包括正面情绪、中立情绪和负面情绪。每个分词情绪有一个预设情绪强度。示例地，当分词情绪表现为负面情绪时，该分词情绪的情绪强度值可以设定为
“‑
3”、
“‑
2”、
“‑
1”。其中，负面情绪越强烈，情绪强度的数值的绝对值就大。当分词情绪表现为中立情绪时，该分词情绪的情绪强度值可以设定为“0”。当分词情绪表现为正面情绪时，该分词情绪的情绪强度值可以设定为“1”、“2”、“3”。其中，负面情绪越强烈，情绪强度的数值的绝对值就大。
[0069]
文本数据中可能会存在一些否定词，否定词可能会使得分词情绪表现出相反的情绪特性。在具体应用时，可以通过检索分词词汇中是否包含的否定词，若识别出否定词，则将分词情绪的对应的情绪强度值反向调整。示例地，目标用户针的回答为“企业今年的营业收入与去年相比没有提高”。在这一分句中，检索到了否定词“没有”，若分词情绪对应的预设情绪强度值为“+3”，此时则将情绪强度值反向调整为
“‑
3”。
[0070]
此外，文本数据中还可能会存在一些程度副词，例如，“非常”、“很”等。这些程度副词可以加强分词情绪的情绪强度值。在具体应用中，可以根据判断分词词汇是否包含程度副词，如包含，则可以根据程度副词的预设赋值对分词情绪的情绪强度值进行调整。例如，程度副词的预设赋值可以是
±
0.5，当分词情绪表现为负面情绪时，程度副词的预设赋值可以是-0.5；当分词情绪表现为正面情绪时，程度副词的预设赋值可以是0.5。根据分词情绪的预设情绪强度值和是否包含否定词或程度副词，计算得到分词情绪的情绪强度值的综合值，根据分词情绪的情绪强度值对分词词汇进行排序，根据排序结果确定文本关键词。示例地，可以选取情绪强度值为[-3，-1]和[1，3]的分词词汇作为文本关键词。
[0071]
如此，在选取文本关键词时，不仅考虑到了分词情绪的预设情绪强度值，还考虑到了否定词以及程度副词等多个特征，可以使选取的文本关键词更加准确地体现目标用户的情绪，在后续的使用中，有利于提高欺诈识别的准确性。
[0072]
可以看出，对音频数据文件进行分帧处理后，接着对分帧得到的语音帧进行预处理，得到目标语音帧。然后，对目标语音帧进行语音识别，将语音识别得到的文本数据进行分词处理，得到分词词汇和分词情绪。之后，根据分词情绪从分词词汇中选取文本关键词。最后，根据文本关键词获取第二时刻的语音特征。如此，根据分词情绪从分词词汇中选取文本关键词，可以使得选取的文本关键词更加准确地体现目标用户的情绪。因此，根据文本关键词获取第二时刻的语音特征，在后续的使用中，也可以提高欺诈识别的准确性。
[0073]
mfcc有很好的鲁棒性，符合人耳的听觉特性，而且在信噪比降低时仍然可以具有较好的识别性能。下面以mfcc为例介绍语音特征的提取过程。语音特征包括梅尔频率倒谱系数，在一种可能的实施方式中，根据文本关键词获取第二时刻的语音特征，具体可以包括以下步骤：对文本关键词对应的目标语音帧进行快速傅里叶变换处理，得到语音频谱数据；将语音频谱数据输入至梅尔滤波器，得到梅尔频率数据；对梅尔频率数据进行倒谱分析处理，得到梅尔频率倒谱系数；将文本特征词和梅尔频率倒谱系数作为第二时刻的语音特征。
[0074]
在本技术实施例中，目标语音帧是音频数据文件经过分帧处理后得到的信号，此时依然是时域信号。而时域信号较难看出信号的特性，因此需要将时域信号转换为频域信号。快速傅里叶变换(fast fourier transform，fft)是由离散傅里叶变换(discrete fourier transform，dft)的快速计算的统称。经过fft处理后，可以将目标语音帧的时域信号转换为语音频谱数据的频域信号。梅尔滤波器可以对语音频谱数据进行平滑化，并起消
除滤波作用，突出语音的共振峰特征。最后对梅尔频谱数据进行倒谱分析以获取mfcc作为语音特征，倒谱分析可以采用离散余弦变换(discrete cosine transform，dct)来实现。dct是傅里叶变换相关的一种变换，类似于dft，但是dct只使用实数。dct可以用于去除各维信号之间的相关性，将信号映射到低维空间。
[0075]
可以看出，经过对目标音频帧进行傅里叶变换处理之后，将得到的语音频谱数据输入至梅尔滤波器，得到梅尔频谱数据。最后将得到的梅尔频谱数据进行倒谱分析处理，得到梅尔频率倒谱系数。如此，可以使获得梅尔频率倒谱系数具有很好的鲁棒性，有利于提高欺诈识别的准确性。
[0076]
在一种可能的实施方式中，在执行步骤s203之后，还可以包括以下步骤：将目标用户的基本信息、语音特征或视频特征输入至预设黑名单数据库，以确定目标用户是否为非黑名单用户；若是，则执行步骤s204。
[0077]
在本技术实施例中，黑名单用户指的是指确定存在欺诈行为的用户。预设黑名单数据库可以预先存储于电子设备中，或者，存储在服务器中，电子设备通过访问服务器获取预设数据库。预设黑名单数据库中可以存储有黑名单用户的基本信息。黑名单用户的基本信息可以包括黑名单用户的身份信息和黑名单用户的关联用户的身份信息。其中，身份信息可以包括姓名、身份证号、联系电话、性别、年龄、住址、职业以及学历等。黑名单用户和黑名单用户的身份信息可以是黑名单用户在提交申请业务时填入的，也可以通过申请信息中提交的相关资料确定的，其中，相关资料可以包括身份证、结婚证、房产证、户口簿信息等。黑名单用户的基本信息还可以包括逾期还款信息、交易流水信息、个人消费分期合同、渠道消费分期合同或贷款或借款的声明信息等。
[0078]
在一种可能的实施方式中，可以将目标用户的基本信息输入至预设黑名单数据库中，判断目标用户的基本信息与黑名单用户的基本信息是否匹配，根据匹配结果确定目标用户是否为黑名单用户。
[0079]
在本技术实施例中，若目标用户的基本信息与黑名单用户的姓名、身份证等身份信息吻合，则确定目标用户是为黑名单用户。若目标用户的基本信息与黑名单用户的关联用户的姓名、身份证等身份信息吻合，则将目标用户标记为疑似黑名单用户，后续可以对疑似黑名单用户的语音特征以及视频特征进行识别，确定疑似黑名单用户是否为黑名单用户。若目标用户的基本信息与黑名单用户的基本信息不一致，则确定目标用户为非黑名单用户。
[0080]
可以看出，通过将目标用户的基本信息输入至预设黑名单数据库中，根据识别结果，判断目标用户是否为黑名单用户，可以提高欺诈识别的准确性。
[0081]
预设黑名单数据库也可以存储有预先训练好的黑名单声纹识别模型、黑名单用户的语音特征以及黑名单用户的基本信息。在一种可能的实施方式中，还可以通过执行以下步骤来判断目标用户是否是黑名单用户：将目标用户的语音特征输入至黑名单声纹识别模型；判断目标用户的语音特征与黑名单用户的语音特征是否匹配；若匹配到对应的语音特征，则确定目标用户为黑名单用户；否则，确定目标用户为非黑名单用户。
[0082]
声纹识别，也称为说话人识别，是一种通过声音判别说话人身份的技术。在本技术实施例中，黑名单声纹识别模型可以包括但不限于高斯混合模型(gaussian mixture model，gmm)、svm、深度神经网络(deep neural network，dnn)等等。其中，黑名单声纹识别
模型是文本无关的模型，对于输入的音频数据文件的内容不做限制。如此，该黑名单声纹识别模型可以根据用户任意的音频数据文件进行身份识别，有利于降低了对音频数据文件的依赖性。
[0083]
可以看出，通过将目标用户的语音特征输入至黑名单声纹识别模型中，根据识别结果，判断目标用户是否为黑名单用户，可以提高欺诈识别的准确性。
[0084]
预设黑名单数据库还可以存储有预先训练好的黑名单人脸识别模型、黑名单用户的视频特征以及黑名单用户的基本信息。在一种可能的实施方式中，还可以通过执行以下步骤来判断目标用户是否是黑名单用户：将目标用户的视频特征输入至黑名单人脸识别模型；判断目标用户的视频特征与黑名单用户的视频特征是否匹配；若目标用户的视频特征与黑名单用户的视频特征的匹配度大于预设阈值，则确定目标用户为黑名单用户；否则，确定目标用户为非黑名单用户。
[0085]
在本技术实施例中，黑名单人脸识别模型可以包括但不限于cnn、隐马尔可夫模型(hidden markov model，hmm)、特征脸方法(eigenface)等。预设阈值可以根据实际情况确定，示例地，预设阈值可以设置为80％，当目标用户的视频特征与黑名单用户的视频特征匹配度大于80％时，则确定目标用户为黑名单用户；否则，目标用户为非黑名单用户。如此，通过将目标用户的视频特征输入至黑名单声纹人脸模型中，根据识别结果，判断目标用户是否为黑名单用户，可以提高欺诈识别的准确性。
[0086]
可以看出，通过将目标用户的基本信息、音频特征和视频特征输入值预设黑名单数据库中，判断目标用户是否为黑名单用户。若目标用户为黑名单用户，则可以确定目标用户为欺诈用户；若目标用户为非黑名单用户，则执行步骤s204。如此，不但可以提高欺诈识别的效率，还可以提高欺诈识别的准确性。
[0087]
步骤s204：基于第二时刻的语音特征和视频特征，以及第三时刻的视频特征确定目标用户针对各问答的合理值。
[0088]
在本技术实施例中，合理值用于描述目标用户回答各问题时音频特征和视频特征的一致性。也就是说，目标用户的回答的音频特征越接近目标用户的回答的视频特征，则合理值越大。在一种可能的实施方式中，步骤s204可以包括以下步骤a1-a6，其中：
[0089]
a1：按照至少两种聚类方式中的每一聚类方式，对第二时刻的语音特征和视频特征进行聚类，得到聚类方式对应的特征集合。
[0090]
其中，聚类方式可以是k均值聚类算法(k-means)、模糊c均值聚类算法(fuzzy c-means，fcm)、具有噪声的基于密度的聚类方法(density-based spatial clustering of applications with noise，dbscan)、均值漂移聚类算法等聚类方法中的至少两种，本技术实施例对此不做出限定。特征集合可以是表达同一种情绪的音频特征和视频特征。例如，表达害怕的音频特征和视频特征作为一个特征集合；表达蔑视的音频特征和视频特征作为一个特征集合等等，在此不做限定。
[0091]
以下以k-means聚类算法为例进行描述，在一种可能的实施方式中，步骤a1具体可以包括步骤a11-a15，其中：
[0092]
a11：从第二时刻中选取至少两个语音特征或视频特征作为初始聚类中心。
[0093]
a12：计算第二时刻中每个语音特征和视频特征与初始聚类中心的相似度。其中，相似度可以根据欧式距离进行计算。
[0094]
a13：根据计算的相似度与预设最小相似度将第二时刻的语音特征和视频特征进行聚类。
[0095]
具体地，若计算的相似度大于或等于预设最小相似度，则将语音特征和视频特征与初始聚类中心进行聚类。否则，不进行聚类。进一步地，可以将所有计算的相似度小于预设最小相似度的语音特征和视频特征单独聚类为一类。
[0096]
a14：从聚类后的第二时刻的语音特征和视频特征中重新选取聚类中心，重新进行聚类直至聚类中心收敛或达到指定的迭代次数。
[0097]
a15：将最终确定的聚类中心确定为特征集合。
[0098]
可以看出，采用聚类算法将具有相似性的语音特征和视频特征形成聚类中心，再将经过迭代更新得到的最终的聚类中心确定为特征集合。可以减少人为主观因素带来的误差，使得到的特征集合更有代表性，从而有利于提高欺诈识别的准确性。
[0099]
a2：将聚类方式对应的特征集合输入至聚类方式对应的聚类子模型，得到聚类方式对应的特征集合的相似子值。
[0100]
在本技术实施中，聚类子模型用于描述输入的特征集合的一致性。每一聚类子模型可以基于一种聚类方式的特征集合进行训练得到，每一聚类子模型得到的数值可称为其聚类方式对应的特征集合的相似子值。相似子值越大，则表示特征集合中已聚类的语音特征的情绪和视频特征的情绪越相似。
[0101]
示例地，将第一聚类方式的特征集合输入至第一聚类方式对应的聚类子模型，得到输出结果的数值为80％，则确定第一聚类方式对应的特征集合的相似子值为80％。将第二聚类方式的特征集合输入至第二聚类方式对应的聚类子模型，得到输出结果的数值为90％，则确定第二聚类方式对应的特征集合的相似子值为90％。
[0102]
本技术实施例对于聚类子模型的训练方法不做出限定。以k-means聚类算法为例进行描述，可以包括以下步骤b1-b6，其中：
[0103]
b1：获取视频训练集，并从视频训练集中提取第一音频特征和第一视频特征；
[0104]
b2：对第一音频特征和第一视频特征进行特征拼接，得到目标特征；
[0105]
b3：从目标特征中随机选取至少两个对象作为第一聚类中心；
[0106]
b4：计算目标特征中每个对象与第一聚类中心的距离，将其分配给距离最近的第一聚类中心，得到第二聚类中心；
[0107]
b5：计算第二聚类中心的平均值，利用第二聚类中心平均值更新第一聚类中心；
[0108]
b6：循环b4-b5步骤，直至模型收敛或达到指定的迭代次数，将训练完成的模型作为k-means聚类算法对应的聚类子模型。
[0109]
其中，视频训练集可以是用户进行信用卡、贷款申请或进行其他活动时，与审批人员的对话信息。该视频训练集中可以包括用户和审批人员单独发言的视频片段，或者可以包括用户和审批人员同时发言的视频片段，或者可以包括用户和审批人员均未发言的视频片段。第一音频特征和第一视频特征的定义可以参考前文的音频特征和视频特征，在此不做赘述。目标特征是第一音频特征和第一视频特征拼接得到的。示例地，第一音频特征维度为p维，第一视频特征维度为q维，则拼接后得到的目标特征维度为p+q维。距离的计算公式可以是一维空间中的欧式距离，也可以是其他距离度量，在此不做限定。可以采用平方误差准则作为目标函数，其定义如下：
[0110][0111]
其中，e是视频训练集中音频特征或视频特征中所有对象的平方误差的总和，p是空间中的点，mi是簇ci的平均值。
[0112]
聚类子模型可以如上所述为单独训练得到的模型，或者可以是基于不同聚类方式的特征集合训练得到的聚类模型中的部分等，在此不做限定。
[0113]
a3：对聚类方式对应的特征集合的相似子值和聚类方式对应的预设权值进行加权计算，得到第二时刻的语音特征和视频特征的相似值。
[0114]
第二时刻的语音特征和视频特征的相似值用于描述第二时刻的音频特征和视频特征的一致性。第二时刻的语音特征和视频特征的相似值可以根据聚类方式对应的特征集合的相似子值和聚类方式对应的预设权值进行确定。其中，聚类方式对应的预设权值可以基于聚类方式对应的聚类子模型的准确率进行确定，在此不做限定。
[0115]
示例地，至少两种聚类方式包括第一聚类方式和第二聚类方式。第一聚类方式对应的预设权值为95％，第一聚类方式对应的特征集合的相似子值为85％。第二聚类方式对应的预设权值为85％，第一聚类方式对应的特征集合的相似子值为80％。那么，第二时刻的语音特征和视频特征的相似值s可以是：
[0116][0117]
a4：基于所述图像数据文件的第一时长中每一时刻的视频特征确定所述第一时长的目标视频特征。
[0118]
第一时长的目标视频特征用于描述单个图像数据文件的整体视频特征。目标视频特征可以基于上述的至少一种聚类方式进行聚类得到，或者统计第一时长内各时刻的视频特征得到。
[0119]
a5：获取第三时刻的视频特征与目标视频特征之间的匹配值。
[0120]
在本技术实施例中，匹配值用于描述目标用户在第三时刻的视频特征和整个问答时长内的视频特征的匹配程度，或者可以理解为目标用户在第三时刻的表情特征和第一时长对应的表情特征的一致性。匹配值可以基于上述的至少一种聚类方式进行聚类得到。也可以将第三时刻的视频特征和目标视频特征输入至预先训练好的机器学习模型中，以得到第三时刻的视频特征与目标视频特征之间的匹配值。机器学习模型可以是cnn、rnn、全卷积网络(fully convolutional networks，fcn)；也可以是lstm、svm等模型中的一种或多种，对此不做出限定。
[0121]
a6：基于相似值和匹配值确定目标用户针对各问答的合理值。
[0122]
在本技术实施例中，目标用户针对各问答的合理值可以基于相似值和相似值对应的预设权值，匹配值和匹配值对应的预设权值进行加权得到。相似值和匹配值之间的预设权值可以基于所有的第二时刻和所有的第三时刻之间的时间长度确定，也可以基于所有的第二时刻和所有的第三时刻之间的特征数量确定等，对此不做出限定。示例地，第二时刻的特征数量为95个，第三时刻的特征数量为80个，相似值和匹配值对应的权重可以表示如下：
[0123][0124][0125]
其中，p1表示第二时刻的特征数量，p2表示第三时刻的特征数量；w1表示相似值的预设权值，w2表示匹配值的预设权值。若相似值为80％，匹配值为70％，则根据w1和w2进行加权计算，得到一个问答的合理值p为：
[0126][0127]
在一种可能的实施方式中，还可以将每一聚类方式对应的特征集合加入历史训练集中，对该聚类方式对应的聚类子模型进行不断迭代优化，以提高相似子值计算的准确性。
[0128]
可以看出，选取同一时刻(第二时刻)的语音特征和视频特征作为特征集合，使得特征的选取更有代表性，可以提高欺诈识别的准确性。此外，每一特征集合是基于一种聚类算法得到的特征，再基于该聚类算法对应的聚类子模型获取每一种聚类方式对应的特征集合的相似子值，有利于提高获取第二时刻的语音特征和视频特征的相似值。再基于第二时刻的语音特征和视频特征的相似值，以及第三时刻的视频特征与目标视频特征之间的匹配值，确定目标用户针对各问答的合理值，有助于提高目标用户的欺诈识别结果的准确性。
[0129]
步骤s205：若合理值大于或等于预设阈值，则确定目标用户为欺诈用户。
[0130]
在本技术实施例中，预设阈值可以是根据目标用户的基本信息和贷款信息确定的，在此不做限定。对于不同目标用户，可以设置不同的预设阈值。例如，若目标用户是资产情况较为良好、学历较高，则该目标用户的预设阈值较低。贷款信息可以包括贷款额度、还款期数和还款方式等。贷款信息可以通过目标用户录入、合作商爬取、人行征信等渠道获取。若该目标用户的无已有贷款或已有贷款较少，则该目标用户的预设阈值较低。此外，对于资产情况较为良好、学历较高的目标用户，若此次申请贷款额度过高，则该目标用户的预设阈值也可以是高风险值。同样地，对于资产情况较差、学历较低的目标用户，若此次申请贷款额度较少，则该目标用户的预设阈值也可以是低风险值。
[0131]
合理值的计算可以参考前文的描述，在此不做赘述。示例地，预设阈值可以设置为60％，若计算得到合理值为75.4％(大于预设阈值)，则可以确定该目标用户为欺诈用户。
[0132]
或者，在一种可能的实施方式中，在步骤s204之后，还可以包括以下步骤：若合理值小于预设阈值，则基于目标视频片段的预设权重和合理值进行加权，得到目标合理值；若目标合理值大于或等于预设阈值，则确定目标用户为欺诈用户；或者若目标合理值小于预设阈值，则确定目标用户为非欺诈用户。
[0133]
在本技术实施例中，目标视频片段的预设权值可以根据面审回答的具体内容确定。示例地，可以将面审回答涉及到目标用户的基本信息(如姓名、身份证号、联系电话)的目标视频片段的预设权重设置为0.9；将面审回复涉及到资产方面(如房产、车产、保险、工资和银行流水中的至少一种)的目标视频片段的预设权重设置为0.85；将面审回答涉及到消费方面的目标视频的预设权重设置为0.8等。
[0134]
目标视频片段的合理值可以参考前文的描述确定，在此不做赘述。示例地，预设阈值可以设置为60％，若计算得到目标合理值为65％(大于预设阈值)，则可以确定该目标用
户为欺诈用户。若计算得到目标合理值为55％(小于预设阈值)，则可以确定该目标用户为非欺诈用户
[0135]
可以看出，若合理值小于预设阈值，则基于目标视频片段的预设权重和合理值进行加权，得到目标合理值。再根据目标合理值与预设阈值的大小，判断目标用户是否为欺诈用户。如此，可以提高欺诈识别的全面性和多样性，从而提高欺诈识别的准确性。
[0136]
在图2所示的方法中，对目标用户的待检测视频数据进行处理，得到目标用户针对各问答音频数据文件和图像数据文件。然后对图像数据文件进行特征提取，得到图像数据文件的第一时长中每一时刻的视频特征，其中，第一时长包括第二时刻和第三时刻，以及对音频数据文件进行特征提取，得到第二时刻的语音特征。然后基于图像数据文件和音频数据文件中同一时刻(第二时刻)的语音特征和视频特征，以及图像数据文件中第三时刻的视频特征确定目标用户针对各问答的合理值。若其中一个合理值大于或等于预设阈值，则确定目标用户为欺诈用户。如此，通过同一时刻的视频特征和语音特征，以及不存在语音特征的时刻的视频特征进行用户类型的识别，可提高识别目标用户是否为欺诈用户的准确率，有利于提高风险控制。
[0137]
上述详细阐述了本技术实施例的方法，下面提供了本技术实施例的装置。
[0138]
请参照图3，图3是本技术实施例提供的一种用户类型识别的装置的结构示意图。该装置应用于服务器。如图3所示，该用户类型识别的装置300包括数据处理单元301、特征提取单元302以及确定单元303，各个单元的详细描述如下：
[0139]
数据处理单元301用于对目标用户的待检测视频数据进行处理，得到所述目标用户针对各问答的音频数据文件和图像数据文件；
[0140]
特征提取单元302用于对所述图像数据文件进行特征提取，得到所述图像数据文件的第一时长中每一时刻的视频特征，其中，所述第一时长包括第二时刻和第三时刻；对所述音频数据文件进行特征提取，得到所述第二时刻的语音特征；
[0141]
确定单元303用于基于所述第二时刻的语音特征和视频特征，以及所述第三时刻的视频特征确定所述目标用户针对各问答的合理值；若所述合理值大于或等于预设阈值，则确定所述目标用户为欺诈用户。
[0142]
在一种可能的实施方式中，数据处理单元301具体用于对目标用户的待检测视频数据进行语义识别，得到所述目标用户针对各问答的目标视频片段；提取所述目标视频片段的音频数据文件和图像数据文件。
[0143]
在一种可能的实施方式中，确定单元303还用于若所述合理值小于预设阈值，则基于所述目标视频片段的预设权重和所述合理值进行加权，得到目标合理值；若所述目标合理值大于或等于所述预设阈值，则确定所述目标用户为欺诈用户；或者若所述目标合理值小于所述预设阈值，则确定所述目标用户为非欺诈用户。
[0144]
在一种可能的实施方式中，特征提取单元302具体用于对所述图像数据文件进行分帧处理，得到所述图像数据文件的第一时长中每一时刻的第一视频帧；对所述第一视频帧进行关键帧提取，得到第二视频帧；对所述第二视频帧进行人脸特征提取，得到动作单元；基于所述动作单元确定所述图像数据文件的第一时长中每一时刻的视频特征。
[0145]
在一种可能的实施方式中，特征提取单元302具体用于对所述音频数据文件进行分帧处理，得到所述音频数据文件的第一时长中每一时刻的语音帧；对所述语音帧进行预
处理，得到所述第二时刻的目标语音帧；对所述目标语音帧进行语音识别，得到文本数据；对所述文本数据进行分词处理，得到分词词汇和分词情绪；根据所述分词情绪从所述分词词汇中选取确定文本关键词；根据所述文本关键词获取所述第二时刻的语音特征。
[0146]
在一种可能的实施方式中，特征提取单元302具体用于对所述文本关键词对应的目标语音帧进行快速傅里叶变换处理，得到语音频谱数据；将所述语音频谱数据输入至梅尔滤波器，得到梅尔频率数据；对所述梅尔频率数据进行倒谱分析处理，得到梅尔频率倒谱系数；将所述文本关键词和所述梅尔频率倒谱系数作为所述第二时刻的语音特征。
[0147]
在一种可能的实施方式中，确定单元303具体用于按照至少两种聚类方式中的每一聚类方式，对所述第二时刻的语音特征和视频特征进行聚类，得到所述聚类方式对应的特征集合；将所述聚类方式对应的特征集合输入至所述聚类方式对应的聚类子模型，得到所述聚类方式对应的特征集合的相似子值；对所述聚类方式对应的特征集合的相似子值和所述聚类方式对应的预设权值进行加权计算，得到所述第二时刻的语音特征和视频特征的相似值；基于所述图像数据文件的第一时长中每一时刻的视频特征确定所述第一时长的目标视频特征；获取所述第三时刻的视频特征与所述目标视频特征之间的匹配值；基于所述相似值和所述匹配值确定所述目标用户针对各问答的合理值。
[0148]
需要说明的是，各个单元的实现还可以对应参照图2所示的方法实施例的相应描述。
[0149]
请参照图4，图4是本技术实施例提供的一种计算机设备的结构示意图。如图4所示，该计算机设备400包括处理器401、存储器402和通信接口403，其中，处理器401、存储器402和通信接口403之间可以通过总线405连接。存储器402中存储有计算机程序404，计算机程序404被配置由上述处理器401执行，计算机程序401包括用于执行以下步骤的指令：
[0150]
对目标用户的待检测视频数据进行处理，得到所述目标用户针对各问答的音频数据文件和图像数据文件；
[0151]
对所述图像数据文件进行特征提取，得到所述图像数据文件的第一时长中每一时刻的视频特征，其中，所述第一时长包括第二时刻和第三时刻；
[0152]
对所述音频数据文件进行特征提取，得到所述第二时刻的语音特征；
[0153]
基于所述第二时刻的语音特征和视频特征，以及所述第三时刻的视频特征确定所述目标用户针对各问答的合理值；
[0154]
若所述合理值大于或等于预设阈值，则确定所述目标用户为欺诈用户。
[0155]
在一种可能的实施方式中，在对目标用户的待检测视频数据进行处理，得到所述目标用户针对各问答的音频数据文件和图像数据文件方面，所述计算机程序404具体包括用于执行以下步骤的指令：
[0156]
对目标用户的待检测视频数据进行语义识别，得到所述目标用户针对各问答的目标视频片段；
[0157]
提取所述目标视频片段的音频数据文件和图像数据文件。
[0158]
在一种可能的实施方式中，在所述基于所述第二时刻的语音特征和视频特征，以及所述第三时刻的视频特征确定各问答的合理值之后，所述计算机程序404还包括用于执行以下步骤的指令：
[0159]
若所述合理值小于预设阈值，则基于所述目标视频片段的预设权重和所述合理值
进行加权，得到目标合理值；
[0160]
若所述目标合理值大于或等于所述预设阈值，则确定所述目标用户为欺诈用户；或者
[0161]
若所述目标合理值小于所述预设阈值，则确定所述目标用户为非欺诈用户。
[0162]
在一种可能的实施方式中，在所述对所述图像数据文件进行特征提取，得到所述图像数据文件的第一时长中每一时刻的视频特征方面，所述计算机程序404具体包括用于执行以下步骤的指令：
[0163]
对所述图像数据文件进行分帧处理，得到所述图像数据文件的第一时长中每一时刻的第一视频帧；
[0164]
对所述第一视频帧进行关键帧提取，得到第二视频帧；
[0165]
对所述第二视频帧进行人脸特征提取，得到动作单元；
[0166]
基于所述动作单元确定所述图像数据文件的第一时长中每一时刻的视频特征。
[0167]
在一种可能的实施方式中，在所述对所述音频数据文件进行特征提取，得到所述第二时刻的语音特征方面，所述计算机程序404具体包括用于执行以下步骤的指令：
[0168]
对所述音频数据文件进行分帧处理，得到所述音频数据文件的第一时长中每一时刻的语音帧；
[0169]
对所述语音帧进行预处理，得到所述第二时刻的目标语音帧；
[0170]
对所述目标语音帧进行语音识别，得到文本数据；
[0171]
对所述文本数据进行分词处理，得到分词词汇和分词情绪；
[0172]
根据所述分词情绪从所述分词词汇中选取文本关键词；
[0173]
根据所述文本关键词获取所述第二时刻的语音特征。
[0174]
在一种可能的实施方式中，在所述根据所述文本关键词获取所述第二时刻的语音特征方面，所述计算机程序404具体包括用于执行以下步骤的指令：
[0175]
对所述文本关键词对应的目标语音帧进行快速傅里叶变换处理，得到语音频谱数据；
[0176]
将所述语音频谱数据输入至梅尔滤波器，得到梅尔频率数据；
[0177]
对所述梅尔频率数据进行倒谱分析处理，得到梅尔频率倒谱系数；
[0178]
将所述文本关键词和所述梅尔频率倒谱系数作为所述第二时刻的语音特征。
[0179]
在一种可能的实施方式中，在所述基于所述第二时刻的语音特征和视频特征，以及所述第三时刻的视频特征确定所述目标用户针对各问答的合理值方面，所述计算机程序404具体包括用于执行以下步骤的指令：
[0180]
按照至少两种聚类方式中的每一聚类方式，对所述第二时刻的语音特征和视频特征进行聚类，得到所述聚类方式对应的特征集合；
[0181]
将所述聚类方式对应的特征集合输入至所述聚类方式对应的聚类子模型，得到所述聚类方式对应的特征集合的相似子值；
[0182]
对所述聚类方式对应的特征集合的相似子值和所述聚类方式对应的预设权值进行加权计算，得到所述第二时刻的语音特征和视频特征的相似值；
[0183]
基于所述图像数据文件的第一时长中每一时刻的视频特征确定所述第一时长的目标视频特征；
[0184]
获取所述第三时刻的视频特征与所述目标视频特征之间的匹配值；
[0185]
基于所述相似值和所述匹配值确定所述目标用户针对各问答的合理值。
[0186]
本领域技术人员可以理解，为了便于说明，图4中仅示出了一个存储器和处理器。在实际的终端或服务器中，可以存在多个处理器和存储器。存储器402也可以称为存储介质或者存储设备等，本技术实施例对此不做限定。
[0187]
应理解，在本技术实施例中，处理器401可以是中央处理单元(central processing unit，cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processing，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field－programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0188]
还应理解，本技术实施例中提及的存储器402可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器synchronize link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，dr ram)。
[0189]
需要说明的是，当处理器401为通用处理器、dsp、asic、fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时，存储器(存储模块)集成在处理器中。
[0190]
应注意，本文描述的存储器402旨在包括但不限于这些和任意其它适合类型的存储器。
[0191]
该总线405除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线。
[0192]
在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。
[0193]
在本技术的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
[0194]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block，ilb)和步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特
定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0195]
在本技术所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0196]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0197]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
[0198]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘)等。
[0199]
在上述实施例中，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。例如，区块链中可存储预设黑名单数据库中黑名单用户的基本信息、黑名单用户的语音特征、黑名单用户的视频特征、黑名单声纹识别模型以及黑名单人脸识别模型等。或者可以存储3dcnn算法、st-gcn算法、svm算法、asr算法、gmm算法、dnn算法等，或者可以存储聚类算法中的k-means算法、fcm算法、dbscan算法等，在此不做限定。
[0200]
本技术实施例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0201]
本技术实施例还提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种用户类
型识别的方法的部分或全部步骤。
[0202]
本技术实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种用户类型识别的方法的部分或全部步骤。
[0203]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以所述权利要求的保护范围为准。

技术特征：
1.一种用户类型识别的方法，其特征在于，包括：对目标用户的待检测视频数据进行处理，得到所述目标用户针对各问答的音频数据文件和图像数据文件；对所述图像数据文件进行特征提取，得到所述图像数据文件的第一时长中每一时刻的视频特征，其中，所述第一时长包括第二时刻和第三时刻；对所述音频数据文件进行特征提取，得到所述第二时刻的语音特征；基于所述第二时刻的语音特征和视频特征，以及所述第三时刻的视频特征确定所述目标用户针对各问答的合理值；若所述合理值大于或等于预设阈值，则确定所述目标用户为欺诈用户。2.根据权利要求1所述的方法，其特征在于，所述对目标用户的待检测视频数据进行处理，得到所述目标用户针对各问答的音频数据文件和图像数据文件，包括：对目标用户的待检测视频数据进行语义识别，得到所述目标用户针对各问答的目标视频片段；提取所述目标视频片段的音频数据文件和图像数据文件。3.根据权利要求2所述的方法，其特征在于，在所述基于所述第二时刻的语音特征和视频特征，以及所述第三时刻的视频特征确定所述目标用户针对各问答的合理值之后，所述方法还包括：若所述合理值小于预设阈值，则基于所述目标视频片段的预设权重和所述合理值进行加权，得到目标合理值；若所述目标合理值大于或等于所述预设阈值，则确定所述目标用户为欺诈用户；或者若所述目标合理值小于所述预设阈值，则确定所述目标用户为非欺诈用户。4.根据权利要求1-3中任一项所述的方法，其特征在于，所述对所述图像数据文件进行特征提取，得到所述图像数据文件的第一时长中每一时刻的视频特征，包括：对所述图像数据文件进行分帧处理，得到所述图像数据文件的第一时长中每一时刻的第一视频帧；对所述第一视频帧进行关键帧提取，得到第二视频帧；对所述第二视频帧进行人脸特征提取，得到动作单元；基于所述动作单元确定所述图像数据文件的第一时长中每一时刻的视频特征。5.根据权利要求1-3中任一项所述的方法，其特征在于，所述对所述音频数据文件进行特征提取，得到所述第二时刻的语音特征，包括：对所述音频数据文件进行分帧处理，得到所述音频数据文件的第一时长中每一时刻的语音帧；对所述语音帧进行预处理，得到所述第二时刻的目标语音帧；对所述目标语音帧进行语音识别，得到文本数据；对所述文本数据进行分词处理，得到分词词汇和分词情绪；根据所述分词情绪从所述分词词汇中选取文本关键词；根据所述文本关键词获取所述第二时刻的语音特征。6.根据权利要求5所述的方法，其特征在于，所述根据所述文本关键词获取所述第二时刻的语音特征，包括：
对所述文本关键词对应的目标语音帧进行快速傅里叶变换处理，得到语音频谱数据；将所述语音频谱数据输入至梅尔滤波器，得到梅尔频率数据；对所述梅尔频率数据进行倒谱分析处理，得到梅尔频率倒谱系数；将所述文本关键词和所述梅尔频率倒谱系数作为所述第二时刻的语音特征。7.根据权利要求1-3中任一项所述的方法，其特征在于，所述基于所述第二时刻的语音特征和视频特征，以及所述第三时刻的视频特征确定所述目标用户针对各问答的合理值，包括：按照至少两种聚类方式中的每一聚类方式，对所述第二时刻的语音特征和视频特征进行聚类，得到所述聚类方式对应的特征集合；将所述聚类方式对应的特征集合输入至所述聚类方式对应的聚类子模型，得到所述聚类方式对应的特征集合的相似子值；对所述聚类方式对应的特征集合的相似子值和所述聚类方式对应的预设权值进行加权计算，得到所述第二时刻的语音特征和视频特征的相似值；基于所述图像数据文件的第一时长中每一时刻的视频特征确定所述第一时长的目标视频特征；获取所述第三时刻的视频特征与所述目标视频特征之间的匹配值；基于所述相似值和所述匹配值确定所述目标用户针对各问答的合理值。8.一种用户类型识别的装置，其特征在于，包括：数据处理单元，用于对目标用户的待检测视频数据进行处理，得到所述目标用户针对各问答的音频数据文件和图像数据文件；特征提取单元，用于对所述图像数据文件进行特征提取，得到所述图像数据文件的第一时长中每一时刻的视频特征，其中，所述第一时长包括第二时刻和第三时刻；对所述音频数据文件进行特征提取，得到所述第二时刻的语音特征；确定单元，用于基于所述第二时刻的语音特征和视频特征，以及所述第三时刻的视频特征确定所述目标用户针对各问答的合理值；若所述合理值大于或等于预设阈值，则确定所述目标用户为欺诈用户。9.一种计算机设备，其特征在于，包括处理器、存储器和通信接口，其中，所述存储器存储有计算机程序，所述计算机程序被配置由所述处理器执行，所述计算机程序包括用于执行权利要求1-7中任一项方法中的步骤的指令。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序使得计算机执行以实现权利要求1-7中任一项所述的方法。

技术总结
本申请涉及人工智能领域，公开了一种用户类型识别的方法、装置、计算机设备以及存储介质。其中方法包括：对目标用户的待检测视频数据进行处理，得到目标用户针对各问答的音频数据文件和图像数据文件；对图像数据文件进行特征提取，得到图像数据文件的第一时长中每一时刻的视频特征，其中，第一时长包括第二时刻和第三时刻；对音频数据文件进行特征提取，得到第二时刻的语音特征；基于第二时刻的语音特征和视频特征，以及第三时刻的视频特征确定目标用户针对各问答的合理值；若合理值大于或等于预设阈值，则确定目标用户为欺诈用户。实施本申请实施例，可以提高识别目标用户是否为欺诈用户的准确率，有利于提高风险控制。有利于提高风险控制。有利于提高风险控制。

技术研发人员：戴辰瑜
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：2021.11.29
技术公布日：2022/3/8

专利

最新回复(0)