1.本发明利用手机回收企业真实交易数据,通过建立基于双深度模糊网络的废旧手机价格自适应调整模型,通过与市场状态的交互学习选择合适的调价策略,在废旧手机初步估算价值的基础上进行自适应调整,并通过获得的市场反馈不断改进优化调价策略,使其可以及时响应市场状态的变化,从而保证废旧手机回收定价结果的准确性,属于电子产品回收领域。
背景技术:
2.在废旧手机的回收过程中,交易价格是一个重要的指标参数。定价结果的准确性是促进废旧电子产品回收再利用的重要保障,是手机回收市场公平交易的前提。二手电子产品的定价浮动较大,最终交易价格的确定除了受到内部属性的影响外,还常常受到外部市场环境变化的干扰,如上游零件供应商和下游销售渠道的销售能力,这些变化对于产品定价的影响常常是难以量化的。如果价格调整不及时或决策有误,就会很容易丧失订单,造成经济损失。根据市场变化及时调整调价动作,有助于促进废旧手机的回收,具有显著的经济效益。因此,本发明的研究成果具有广阔的应用前景。
3.目前手机回收行业的调价过程多采用人工分析的传统调价方法,需要安排专业人员投入大量的工作时间,时刻关注行业内的价格变化,将耗费大量的人力物力。而且,废旧手机涉及的品牌多、型号全,定价过程繁琐,致使废旧手机定价时间长,容易因价格调整跟不上市场变化而丧失订单,造成经济损失,降低企业的经济效益。为了提高废旧手机价格调整的智能化水平,基于强化学习的价格调整方法在废旧手机回收过程得到了应用,但该方法中的状态和动作均为有限的离散数据,在实际问题中,废旧手机定价过程的应用场景都是高维的,该类方法并不适用。为了获得更好的调价效果,一些学者将深度学习与 q-learning算法相结合,以神经网络输出代替输出值矩阵,有效解决传统强化学习算法在复杂的手机回收市场环境中面临的高维状态问题,但是,当交易样本数据质量较差时,模型的抗干扰能力差,容易受到外界输入的影响,上述网络的泛化性能便会急剧下降,难以取得满意的定价效果,极大的降低了用户参与手机回收的积极性。因此,如何根据市场变化做出及时准确的价格自适应调整,已成为电子产品回收领域研究的重要课题,具有重要的现实意义。
4.考虑到废旧手机回收过程中市场波动情况对手机回收价格的影响,本发明设计了一种基于双深度模糊网络的价格调整方法。该方法能够根据市场变化选择最优的调价策略,在废旧手机初步估算价值的基础上进行自适应调整,从而得到最终的回收价格。实验结果表明,通过基于双深度模糊网络的废旧手机价格自适应调整方法对估价结果进行微调,可以及时的响应市场环境的变化,从而获得精准的定价效果,提高交易成功率。
技术实现要素:
5.本发明获得了一种基于双深度模糊网络的价格自适应调整方法,通过建立基于双
深度模糊网络的废旧手机价格自适应调整模型,实现了与回收市场环境状态的交互学习,获得了合适的调价策略,完成了对废旧手机初步估算价值的小幅度调整,并基于市场反馈,采用梯度下降方法进行模型参数更新,以提升模型性能,确保手机回收价格调整结果的准确性和可靠性;
6.本发明采用了如下的技术方案及实现步骤:
7.(1)基于双深度模糊网络的价格自适应调整模型设计
8.价格自适应调整模型由两个独立的深度模糊网络构成,分别为行为网络和目标网络,网络结构包含五层:输入层、模糊化层、规则层、归一化层和输出层;行为网络的输入为 t时刻的市场状态,输出为估计值q(x(t),a;θ(t)),利用该估计值结合贪心策略计算得到最优的调价动作,在废旧手机初步估算价值的基础上,综合考虑市场状态完成对手机回收价格的小幅度调整,其中a表示x(t)状态下可选择的调价策略,θ(t)为t时刻行为网络的参数;目标网络的输入为t+1时刻的市场状态,输出为目标值q(x(t+1),a(t+1);θ-(t+1)),利用该目标值和行为网络的估计值q(x(t),a;θ(t))计算获得损失函数,并采用梯度下降算法实现价格自适应调整模型的参数更新,其中a(t+1)表示x(t+1)环境状态下可选择的调价策略,θ-(t+1) 为t+1时刻目标网络的参数;
9.其中,行为网络的数学描述如下:
10.①
输入层:该层由i个神经元组成,每个神经元的输出为:
11.ui(t)=xi(t),(i=1,2,
…
,6)
ꢀꢀꢀ
(1)
12.其中,xi(t)为t时刻对应的市场环境状态,i表示影响手机回收价格的市场因素的个数; x1(t)表示t时刻手机的基础估价;x2(t)表示t时刻的实际成交价格;x3(t)表示t时刻的订单时间;x4(t)表示t时刻的周回收量;x5(t)表示t时刻的最高回收价;x6(t)表示t时刻近期的涨跌幅度;
13.②
模糊化层:该层中有p个节点,对应的输出隶属度为:
[0014][0015]
其中,为t时刻行为网络模糊化层中第j个神经元的输出隶属度值,j=1,2,
…
,p; c
ij
(t)为t时刻行为网络模糊化层中第j个神经元的第i个隶属度函数的中心;σ
ij
(t)为t时刻行为网络模糊化层中第j个神经元的第i个隶属度函数的宽度;
[0016]
③
规则层:该层通过与模糊化层的连接来完成模糊规则的匹配,每个神经元的输出为:
[0017][0018]
其中,vj(t)为t时刻行为网络规则层中第j个神经元的输出值;p是该层神经元的数量;
[0019]
④
归一化层:该层每个神经元的输出为:
[0020][0021]
⑤
输出层:该层输出为t时刻的市场环境状态下,计算得到的行为网络输出状态值:
[0022][0023]
其中,模型中调价模块的调价策略a分为上调3α%、上调2α%、上调α%、不调整、下调α%、下调2α%和下调3α%,共7种情况,其中α为控制调价幅度的常量;x(t)表示t 时刻的环境状态;q(x(t),a;θ(t))为x(t)状态下采取调价策略a时对应的行为网络输出状态值;ωj(t)为t时刻行为网络归一化层与输出层之间的连接权值;
[0024]
目标网络的数学描述如下:
[0025]
①
输入层:该层由i个神经元组成,每个神经元的输出为:
[0026]
ui′
(t+1)=xi(t+1),(i=1,2,
…
,6)
ꢀꢀꢀ
(6)
[0027]
其中,xi(t+1)为t+1时刻对应的市场环境状态;x1(t+1)表示t+1时刻手机的基础估价; x2(t+1)表示t+1时刻的实际成交价格;x3(t+1)表示t+1时刻的订单时间;x4(t+1)表示t+1时刻的周回收量;x5(t+1)表示t+1时刻的最高回收价;x6(t+1)表示t+1时刻近期的涨跌幅度;
[0028]
②
模糊化层:该层中有p个节点,对应的输出隶属度为:
[0029][0030]
其中,为t+1时刻目标网络模糊化层中第j个神经元的输出隶属度值,j=1,2,
…
, p;c
ij
'(t+1)为t+1时刻目标网络模糊化层中第j个神经元的第i个隶属度函数的中心;σ
ij
'(t+1) 为t+1时刻目标网络模糊化层中第j个神经元的第i个隶属度函数的宽度;
[0031]
③
规则层:该层通过与模糊化层的连接来完成模糊规则的匹配,每个神经元的输出为:
[0032][0033]
其中,vj'(t+1)为t+1时刻目标网络规则层中第j个神经元的输出值;p是该层神经元的数量;
[0034]
④
归一化层:该层每个神经元的输出为:
[0035][0036]
⑤
输出层:该层输出为t+1时刻的市场环境状态下,计算得到的目标网络输出状态值:
[0037][0038]
其中,x(t+1)表示t+1时刻的环境状态;a(t+1)表示x(t+1)状态下可选择的调价策略;θ-(t+1)为t+1时刻目标网络的参数;q(x(t+1),a(t+1);θ-(t+1))为x(t+1)状态下采取调价策略 a(t+1)时对应的目标网络输出状态值;ωj'(t+1)为t+1时刻目标网络归一化层与输出层之间的连接权值;
[0039]
基于行为网络的输出状态q(x(t),a;θ(t)),利用贪心策略计算得到最佳的调价动作:
[0040]
a(t)=argmaxaq(x(t),a;θ(t))
ꢀꢀꢀ
(11)
[0041]
其中,a(t)表示调价模块在t时刻的最佳调价策略;
[0042]
经过调价后的废旧手机回收价格为:
[0043][0044]
其中,a(t)表示调价模块在t时刻的最佳调价策略;为t时刻根据手机的内在属性得到的基础估价结果;为自适应调价模块采用调价策略a(t)之后得到的最终调价结果;x(t)为t时刻的环境状态;
[0045]
计算调价结果与市场成交价y(t)的误差e(t):
[0046][0047]
将t时刻的输入信息x(t),选择的调价策略a(t),执行调价策略a(t)之后调价模块在t+1 时刻得到的市场反馈r(t+1)和t+1时刻获得的输入信息x(t+1)x(t)={x(t),a(t), r(t+1),x(t+1)};t+1时刻的市场反馈r(t+1)表示为:
[0048][0049]
其中,ψ
p
代表正反馈的阈值边界,ψ
p
=10;ψn代表负反馈的阈值边界,ψn=30;
[0050]
(2)价格自适应调整模型参数更新
[0051]
随机选取t时刻的样本x(t)={x(t),a(t),r(t+1),x(t+1)},将其中的x(t+1)输入行为网络并计算出最佳调价策略a(t+1):
[0052]
a(t+1)=argmaxaq(x(t+1),a;θ(t))
ꢀꢀꢀ
(15)
[0053]
其中,x(t+1)是t+1时刻行为网络的输入数据;a(t+1)是x(t+1)状态下对应的最佳调价策略;
[0054]
同时将x(t+1)输入目标网络,得到调价策略a(t+1)对应的输出状态q(x(t+1),a(t+1);θ-(t+1)),通过行为网络和目标网络输出状态值的均方误差获得目标函数e(t):
[0055][0056]
y=r(t+1)+γq(x(t+1),a(t+1);θ-(t+1))
ꢀꢀꢀ
(17)
[0057]
其中,q(x(t),a(t);θ(t))是在t时刻的市场状态x(t)下采取调价策略a(t)得到的行为网络输出状态值;r(t+1)是状态x(t+1)执行调价策略a(t+1)后得到的市场反馈;γ是用来调节网络学习程度的常量,取值范围设定在(0,1)之间;q(x(t+1),a(t+1);θ-(t+1))是在t+1时刻的市场状态x(t+1)下采取调价策略a(t+1)得到的目标网络输出状态值;
[0058]
采用梯度下降算法更新行为网络参数θ、权值系数ω、中心值c和宽度值σ:
[0059][0060][0061]
其中,表示误差函数e(t)关于θ的梯度;表示神经网络q(x(t), a(t);θ(t))关于θ的梯度;θ'(t+1)为优化后的t+1时刻行为网络的参数;η为学习速
率,初始值设定在(0,1)之间;
[0062]
网络权值参数通过如下方式调整:
[0063]
ωj(t+1)=ωj(t)-η(y-q(x(t),a(t);θ(t)))vj(t)
ꢀꢀꢀ
(20)
[0064][0065][0066]
其中,ωj(t+1)优化后的t+1时刻行为网络的连接权值;c
ij
(t+1)优化后的t+1时刻行为网络的中心值;σ
ij
(t+1)优化后的t+1时刻行为网络的宽度值;
[0067]
(3)废旧手机价格自适应调整
[0068]
废旧手机价格自适应调整主要实现步骤如下:
[0069]
①
调价模块接收t时刻的输入数据x(t),并根据公式(5)计算得到行为网络的输出状态 q(x(t),a;θ(t));
[0070]
②
选择行为网络输出状态的最大值,利用公式(11),获取当前环境状态下的最佳调价策略a(t);
[0071]
③
通用公式(12)计算采取调价策略a(t)后的最终回收价格,并根据公式(14)获得执行调价策略后的市场反馈r(t+1);
[0072]
④
利用行为网络的估计值q(x(t),a;θ(t))和目标网络的输出值q(x(t+1),a(t+1);θ-(t+1)) 计算获得目标函数(16),根据公式(18)~(22)实现对行为网络参数θ、权值系数ω、中心值c 和宽度值σ的更新调整,每迭代10次,将行为网络的参数赋给目标网络,以实现目标网络参数的更新,从而提高自适应价格调整模型的调价性能。
[0073]
⑤
利用价格调整模型,以手机的初步估算价值,订单时间,周回收量,近期的涨跌幅度以及最高回收价格为输入,采取模型计算得到最优的调价动作,在废旧手机初步估算价值的基础上,综合考虑市场情况完成对手机回收价格的小幅度调整。
[0074]
本发明的创造性主要体现在:
[0075]
(1)本发明针对无法根据市场波动情况选择合适的价格调整策略的问题,设计了一种基于双深度模糊网络的废旧手机价格自适应调整方法。该方法能够根据市场变化情况,通过与环境的交互学习选择最优的调价策略,在废旧手机初步估算价值的基础上进行小幅度自适应调整,并基于市场反馈不断完善优化调价策略,可以及时的响应市场环境的变化,从而获得精准的定价效果;
[0076]
(2)本发明中设计的价格自适应调整模型由两个结构相同但参数不同的深度模糊网络构成,分别为行为网络和目标网络;行为网络用来选择输出状态值最大时对应的调价策略;目标网络会综合市场反馈的结果,通过输出的目标状态值y计算获得损失函数l,不断完善优化调价策略,使定价结果更加精准稳定。
附图说明
[0077]
图1是本发明废旧手机价格自适应调整前后效果对比图
具体实施方式
[0078]
(1)基于双深度模糊网络的价格自适应调整模型设计
[0079]
价格自适应调整模型由两个独立的深度模糊网络构成,分别为行为网络和目标网络,网络结构包含五层:输入层、模糊化层、规则层、归一化层和输出层;行为网络的输入为t时刻的市场状态,输出为估计值q(x(t),a;θ(t)),利用该估计值结合贪心策略计算得到最优的调价动作,在废旧手机初步估算价值的基础上,综合考虑市场状态完成对手机回收价格的小幅度调整,其中a表示x(t)状态下可选择的调价策略,θ(t)为t时刻行为网络的参数;目标网络的输入为t+1时刻的市场状态,输出为目标值q(x(t+1),a(t+1);θ-(t+1)),利用该目标值和行为网络的估计值q(x(t),a;θ(t))计算获得损失函数,并采用梯度下降算法实现价格自适应调整模型的参数更新,其中a(t+1)表示x(t+1)环境状态下可选择的调价策略,θ-(t+1) 为t+1时刻目标网络的参数;
[0080]
其中,行为网络的数学描述如下:
[0081]
①
输入层:该层由i个神经元组成,每个神经元的输出为:
[0082]
ui(t)=xi(t),(i=1,2,
…
,6)
ꢀꢀꢀ
(1)
[0083]
其中,xi(t)为t时刻对应的市场环境状态,i表示影响手机回收价格的市场因素的个数; x1(t)表示t时刻手机的基础估价;x2(t)表示t时刻的实际成交价格;x3(t)表示t时刻的订单时间;x4(t)表示t时刻的周回收量;x5(t)表示t时刻的最高回收价;x6(t)表示t时刻近期的涨跌幅度;
[0084]
②
模糊化层:该层中有p个节点,对应的输出隶属度为:
[0085][0086]
其中,为t时刻行为网络模糊化层中第j个神经元的输出隶属度值,j=1,2,
…
,p, p=10;c
ij
(t)为t时刻行为网络模糊化层中第j个神经元的第i个隶属度函数的中心;σ
ij
(t)为 t时刻行为网络模糊化层中第j个神经元的第i个隶属度函数的宽度,废旧手机定价模型的中心c=0.2、宽度σ=0.4、权值w=0.1;
[0087]
③
规则层:该层通过与模糊化层的连接来完成模糊规则的匹配,每个神经元的输出为:
[0088][0089]
其中,vj(t)为t时刻行为网络规则层中第j个神经元的输出值;p是该层神经元的数量;
[0090]
④
归一化层:该层每个神经元的输出为:
[0091][0092]
⑤
输出层:该层输出为t时刻的市场环境状态下,计算得到的行为网络输出状态值:
[0093][0094]
其中,模型中调价模块的调价策略a分为上调3α%、上调2α%、上调α%、不调整、下
调α%、下调2α%和下调3α%,共7种情况,其中α为控制调价幅度的常量,α=0.9;x(t) 表示t时刻的环境状态;q(x(t),a;θ(t))为x(t)状态下采取调价策略a时对应的行为网络输出状态值;ωj(t)为t时刻行为网络归一化层与输出层之间的连接权值;
[0095]
目标网络的数学描述如下:
[0096]
①
输入层:该层由i个神经元组成,每个神经元的输出为:
[0097]
ui′
(t+1)=xi(t+1),(i=1,2,
…
,6)
ꢀꢀꢀ
(6)
[0098]
其中,xi(t+1)为t+1时刻对应的市场环境状态;x1(t+1)表示t+1时刻手机的基础估价; x2(t+1)表示t+1时刻的实际成交价格;x3(t+1)表示t+1时刻的订单时间;x4(t+1)表示t+1时刻的周回收量;x5(t+1)表示t+1时刻的最高回收价;x6(t+1)表示t+1时刻近期的涨跌幅度;
[0099]
②
模糊化层:该层中有p个节点,对应的输出隶属度为:
[0100][0101]
其中,为t+1时刻目标网络模糊化层中第j个神经元的输出隶属度值,j=1,2,
…
, p,p=10;c
ij
'(t+1)为t+1时刻目标网络模糊化层中第j个神经元的第i个隶属度函数的中心;σ
ij
'(t+1)为t+1时刻目标网络模糊化层中第j个神经元的第i个隶属度函数的宽度;
[0102]
③
规则层:该层通过与模糊化层的连接来完成模糊规则的匹配,每个神经元的输出为:
[0103][0104]
其中,vj'(t+1)为t+1时刻目标网络规则层中第j个神经元的输出值;p是该层神经元的数量;
[0105]
④
归一化层:该层每个神经元的输出为:
[0106][0107]
⑤
输出层:该层输出为t+1时刻的市场环境状态下,计算得到的目标网络输出状态值:
[0108][0109]
其中,x(t+1)表示t+1时刻的环境状态;a(t+1)表示x(t+1)状态下可选择的调价策略;θ-(t+1)为t+1时刻目标网络的参数;q(x(t+1),a(t+1);θ-(t+1))为x(t+1)状态下采取调价策略a(t+1)时对应的目标网络输出状态值;ωj'(t+1)为t+1时刻目标网络归一化层与输出层之间的连接权值;
[0110]
基于行为网络的输出状态q(x(t),a;θ(t)),利用贪心策略计算得到最佳的调价动作:
[0111]
a(t)=argmaxaq(x(t),a;θ(t))
ꢀꢀꢀ
(11)
[0112]
其中,a(t)表示调价模块在t时刻的最佳调价策略;
[0113]
经过调价后的废旧手机回收价格为:
[0114][0115]
其中,a(t)表示调价模块在t时刻的最佳调价策略;为t时刻根据手机的内在属性得到的基础估价结果;为自适应调价模块采用调价策略a(t)之后得到的最终调价结果;x(t)为t时刻的环境状态;
[0116]
计算调价结果与市场成交价y(t)的误差e(t):
[0117][0118]
将t时刻的输入信息x(t),选择的调价策略a(t),执行调价策略a(t)之后调价模块在t+1 时刻得到的市场反馈r(t+1)和t+1时刻获得的输入信息x(t+1)x(t)={x(t),a(t), r(t+1),x(t+1)};t+1时刻的市场反馈r(t+1)表示为:
[0119][0120]
其中,ψ
p
代表正反馈的阈值边界,ψ
p
=10;ψn代表负反馈的阈值边界,ψn=30;
[0121]
(2)价格自适应调整模型参数更新
[0122]
随机选取t时刻的样本x(t)={x(t),a(t),r(t+1),x(t+1)},将其中的x(t+1)输入行为网络并计算出最佳调价策略a(t+1):
[0123]
a(t+1)=argmaxaq(x(t+1),a;θ(t))
ꢀꢀꢀ
(15)
[0124]
其中,x(t+1)是t+1时刻行为网络的输入数据;a(t+1)是x(t+1)状态下对应的最佳调价策略;
[0125]
同时将x(t+1)输入目标网络,得到调价策略a(t+1)对应的输出状态q(x(t+1),a(t+1);θ-(t+1)),通过行为网络和目标网络输出状态值的均方误差获得目标函数e(t):
[0126][0127]
y=r(t+1)+γq(x(t+1),a(t+1);θ-(t+1))
ꢀꢀꢀ
(17)
[0128]
其中,q(x(t),a(t);θ(t))是在t时刻的市场状态x(t)下采取调价策略a(t)得到的行为网络输出状态值;r(t+1)是状态x(t+1)执行调价策略a(t+1)后得到的市场反馈;γ是用来调节网络学习程度的常量,γ=0.4;q(x(t+1),a(t+1);θ-(t+1))是在t+1时刻的市场状态x(t+1)下采取调价策略a(t+1)得到的目标网络输出状态值;
[0129]
采用梯度下降算法更新行为网络参数θ、权值系数ω、中心值c和宽度值σ:
[0130][0131][0132]
其中,表示误差函数e(t)关于θ的梯度;表示神经网络q(x(t), a(t);θ(t))关于θ的梯度;θ'(t+1)为优化后的t+1时刻行为网络的参数;η为学习速率,设置初始值为η=0.3;
[0133]
网络权值参数通过如下方式调整:
[0134]
ωj(t+1)=ωj(t)-η(y-q(x(t),a(t);θ(t)))vj(t)
ꢀꢀꢀ
(20)
[0135][0136][0137]
其中,ωj(t+1)优化后的t+1时刻行为网络的连接权值;c
ij
(t+1)优化后的t+1时刻行为网络的中心值;σ
ij
(t+1)优化后的t+1时刻行为网络的宽度值;
[0138]
(3)废旧手机价格自适应调整
[0139]
废旧手机价格自适应调整主要实现步骤如下:
[0140]
①
调价模块接收t时刻的输入数据x(t),并根据公式(5)计算得到行为网络的输出状态 q(x(t),a;θ(t));
[0141]
②
选择行为网络输出状态的最大值,利用公式(11),获取当前环境状态下的最佳调价策略a(t);
[0142]
③
通用公式(12)计算采取调价策略a(t)后的最终回收价格,并根据公式(14)获得执行调价策略后的市场反馈r(t+1);
[0143]
④
利用行为网络的估计值q(x(t),a;θ(t))和目标网络的输出值q(x(t+1),a(t+1);θ-(t+1)) 计算获得目标函数(16),根据公式(18)~(22)实现对行为网络参数θ、权值系数ω、中心值c 和宽度值σ的更新调整,每迭代10次,将行为网络的参数赋给目标网络,以实现目标网络参数的更新,从而提高自适应价格调整模型的调价性能。
[0144]
⑤
利用价格调整模型,以手机的初步估算价值,订单时间,周回收量,近期的涨跌幅度以及最高回收价格为输入,采取模型计算得到最优的调价动作,在废旧手机初步估算价值的基础上,综合考虑市场情况完成对手机回收价格的小幅度调整。
[0145]
一种基于双深度模糊网络的废旧手机价格自适应调整方法的输出是经过价格调整后得到的废旧手机最终回收价格;图1是本发明废旧手机价格自适应调整前后效果对比图,x 轴:测试样本数,y轴:定价误差,单位是元。
技术特征:
1.一种基于双深度模糊网络的废旧手机价格自适应调整方法,其特征在于,包括以下步骤:(1)基于双深度模糊网络的价格自适应调整模型设计价格自适应调整模型由两个独立的深度模糊网络构成,分别为行为网络和目标网络,网络结构包含五层:输入层、模糊化层、规则层、归一化层和输出层;行为网络的输入为t时刻的市场状态,输出为估计值q(x(t),a;θ(t)),利用该估计值结合贪心策略计算得到最优的调价动作,在废旧手机初步估算价值的基础上,综合考虑市场情况完成对手机回收价格的小幅度调整,其中a表示x(t)状态下可选择的调价策略,θ(t)为t时刻行为网络的参数;目标网络的输入为t+1时刻的市场状态,输出为目标值q(x(t+1),a(t+1);θ-(t+1)),利用该目标值和行为网络的估计值q(x(t),a;θ(t))计算获得损失函数,并采用梯度下降算法实现价格自适应调整模型的参数更新,其中a(t+1)表示x(t+1)环境状态下可选择的调价策略,θ-(t+1)为t+1时刻目标网络的参数;其中,行为网络的数学描述如下:
①
输入层:该层由i个神经元组成,每个神经元的输出为:u
i
(t)=x
i
(t),(i=1,2,
…
,6)
ꢀꢀꢀꢀ
(1)其中,x
i
(t)为t时刻对应的市场状态,i表示影响手机回收价格的市场因素的个数;x1(t)表示t时刻手机的基础估价;x2(t)表示t时刻的实际成交价格;x3(t)表示t时刻的订单时间;x4(t)表示t时刻的周回收量;x5(t)表示t时刻的最高回收价;x6(t)表示t时刻近期的涨跌幅度;
②
模糊化层:该层中有p个节点,对应的输出隶属度为:其中,为t时刻行为网络模糊化层中第j个神经元的输出隶属度值,j=1,2,
…
,p;c
ij
(t)为t时刻行为网络模糊化层中第j个神经元的第i个隶属度函数的中心;σ
ij
(t)为t时刻行为网络模糊化层中第j个神经元的第i个隶属度函数的宽度;
③
规则层:该层通过与模糊化层的连接来完成模糊规则的匹配,每个神经元的输出为:其中,v
j
(t)为t时刻行为网络规则层中第j个神经元的输出值;p是该层神经元的数量;
④
归一化层:该层每个神经元的输出为:
⑤
输出层:该层输出为t时刻的市场状态下,计算得到的行为网络输出状态值:其中,模型中调价模块的调价策略a分为上调3α%、上调2α%、上调α%、不调整、下调α%、下调2α%和下调3α%,共7种情况,其中α为控制调价幅度的常量;x(t)表示t时刻的环
境状态;q(x(t),a;θ(t))为x(t)状态下采取调价策略a时对应的行为网络输出状态值;ω
j
(t)为t时刻行为网络归一化层与输出层之间的连接权值;目标网络的数学描述如下:
①
输入层:该层由i个神经元组成,每个神经元的输出为:u
i
′
(t+1)=x
i
(t+1),(i=1,2,
…
,6)
ꢀꢀꢀꢀ
(6)其中,x
i
(t+1)为t+1时刻对应的市场状态;x1(t+1)表示t+1时刻手机的基础估价;x2(t+1)表示t+1时刻的实际成交价格;x3(t+1)表示t+1时刻的订单时间;x4(t+1)表示t+1时刻的周回收量;x5(t+1)表示t+1时刻的最高回收价;x6(t+1)表示t+1时刻近期的涨跌幅度;
②
模糊化层:该层中有p个节点,对应的输出隶属度为:其中,为t+1时刻目标网络模糊化层中第j个神经元的输出隶属度值,j=1,2,
…
,p;c
ij
'(t+1)为t+1时刻目标网络模糊化层中第j个神经元的第i个隶属度函数的中心;σ
ij
'(t+1)为t+1时刻目标网络模糊化层中第j个神经元的第i个隶属度函数的宽度;
③
规则层:该层通过与模糊化层的连接来完成模糊规则的匹配,每个神经元的输出为:其中,v
j
'(t+1)为t+1时刻目标网络规则层中第j个神经元的输出值;p是该层神经元的数量;
④
归一化层:该层每个神经元的输出为:
⑤
输出层:该层输出为t+1时刻的市场状态下,计算得到的目标网络输出状态值:其中,x(t+1)表示t+1时刻的环境状态;a(t+1)表示x(t+1)状态下可选择的调价策略;θ-(t+1)为t+1时刻目标网络的参数;q(x(t+1),a(t+1);θ-(t+1))为x(t+1)状态下采取调价策略a(t+1)时对应的目标网络输出状态值;ω
j
'(t+1)为t+1时刻目标网络归一化层与输出层之间的连接权值;基于行为网络的输出状态q(x(t),a;θ(t)),利用贪心策略计算得到最佳的调价动作:a(t)=argmax
a
q(x(t),a;θ(t))
ꢀꢀꢀꢀ
(11)其中,a(t)表示调价模块在t时刻的最佳调价策略;经过调价后的废旧手机回收价格为:其中,a(t)表示调价模块在t时刻的最佳调价策略;为t时刻根据手机的内在属性得到的基础估价结果;为自适应调价模块采用调价策略a(t)之后得到的最终调价结果;
x(t)为t时刻的环境状态;计算调价结果与市场成交价y(t)的误差e(t):将t时刻的输入信息x(t),选择的调价策略a(t),执行调价策略a(t)之后调价模块在t+1时刻得到的市场反馈r(t+1)和t+1时刻获得的输入信息x(t+1)组合成样本x(t)={x(t),a(t),r(t+1),x(t+1)};t+1时刻的市场反馈r(t+1)表示为:其中,ψ
p
代表正反馈的阈值边界,ψ
p
=10;ψ
n
代表负反馈的阈值边界,ψ
n
=30;(2)价格自适应调整模型参数更新随机选取t时刻的样本x(t)={x(t),a(t),r(t+1),x(t+1)},将其中的x(t+1)输入行为网络并计算出最佳调价策略a(t+1):a(t+1)=argmax
a
q(x(t+1),a;θ(t))
ꢀꢀꢀꢀ
(15)其中,x(t+1)是t+1时刻行为网络的输入数据;a(t+1)是x(t+1)状态下对应的最佳调价策略;同时将x(t+1)输入目标网络,得到调价策略a(t+1)对应的输出状态q(x(t+1),a(t+1);θ-(t+1)),通过行为网络和目标网络输出状态值的均方误差获得目标函数e(t):y=r(t+1)+γq(x(t+1),a(t+1);θ-(t+1))
ꢀꢀꢀꢀ
(17)其中,q(x(t),a(t);θ(t))是在t时刻的市场状态x(t)下采取调价策略a(t)得到的行为网络输出状态值;r(t+1)是状态x(t+1)执行调价策略a(t+1)后得到的市场反馈;γ是用来调节网络学习程度的常量,取值范围设定在(0,1)之间;q(x(t+1),a(t+1);θ-(t+1))是在t+1时刻的市场状态x(t+1)下采取调价策略a(t+1) 得到的目标网络输出状态值;采用梯度下降算法更新行为网络参数θ、权值系数ω、中心值c和宽度值σ:采用梯度下降算法更新行为网络参数θ、权值系数ω、中心值c和宽度值σ:其中,表示误差函数e(t)关于θ的梯度;表示神经网络q(x(t),a(t);θ(t))关于θ的梯度;θ'(t+1)为优化后的t+1时刻行为网络的参数;η为学习速率,初始值设定在(0,1)之间;网络权值参数通过如下方式调整:ω
j
(t+1)=ω
j
(t)-η(y-q(x(t),a(t);θ(t)))v
j
(t)
ꢀꢀꢀꢀ
(20)
其中,ω
j
(t+1)优化后的t+1时刻行为网络的连接权值;c
ij
(t+1)优化后的t+1时刻行为网络的中心值;σ
ij
(t+1)优化后的t+1时刻行为网络的宽度值;(3)废旧手机价格自适应调整废旧手机价格自适应调整主要实现步骤如下:
①
调价模块接收t时刻的输入数据x(t),并根据公式(5)计算得到行为网络的输出状态q(x(t),a;θ(t));
②
选择行为网络输出状态的最大值,利用公式(11),获取当前环境状态下的最佳调价策略a(t);
③
通用公式(12)计算采取调价策略a(t)后的最终回收价格,并根据公式(14)获得执行调价策略后的市场反馈r(t+1);
④
利用行为网络的估计值q(x(t),a;θ(t))和目标网络的输出值q(x(t+1),a(t+1);θ-(t+1))计算获得目标函数(16),根据公式(18)~(22)实现对行为网络参数θ、权值系数ω、中心值c和宽度值σ的更新调整,每迭代10次,将行为网络的参数赋给目标网络,以实现目标网络参数的更新,从而提高自适应价格调整模型的调价性能;
⑤
利用价格调整模型,以手机的初步估算价值,订单时间,周回收量,近期的涨跌幅度以及最高回收价格为输入,采取模型计算得到最优的调价动作,在废旧手机初步估算价值的基础上,完成对手机回收价格的调整。
技术总结
针对无法根据市场波动情况选择合适的价格调整策略的问题,本发明提出了一种基于双深度模糊网络的废旧手机价格自适应调整方法。首先,建立了基于双深度模糊网络的价格调整模型,通过与回收市场状态的交互学习,实现市场状态信息与调价动作之间的映射关系描述;其次,利用动作选择策略计算得到最优的调价动作,在废旧手机初步估算价值的基础上进行小幅度调整,完成了对手机回收价格的判定;最后,基于市场反馈,采用梯度下降算法进行模型参数更新,以提升模型性能。实验结果表明:本发明所设计的基于双深度模糊网络的价格自适应调整方法,可以及时响应市场的反馈,选择最优的调价策略,进一步提高废旧手机定价结果的可靠性,有利于促进废旧手机回收行业的稳定发展。有利于促进废旧手机回收行业的稳定发展。有利于促进废旧手机回收行业的稳定发展。
技术研发人员:韩红桂 李影 杜永萍 侯莹
受保护的技术使用者:北京工业大学
技术研发日:2021.07.08
技术公布日:2022/3/8