分类筛选
分类筛选:

关于算法硕士学位论文范文 与基于移动窗口和粒子群寻优的集成偏最小二乘改进算法类硕士学位论文范文

版权:原创标记原创 主题:算法范文 类别:发表论文 2024-02-16

《基于移动窗口和粒子群寻优的集成偏最小二乘改进算法》

该文是算法参考文献格式范文和粒子群寻优和算法和集成相关硕士学位论文范文。

摘 要: 为了克服传统偏最小二乘算法对时序非线性数据拟合效果差的问题,提出了结合移动窗口技术和粒子群算法的集成偏最小二乘算法(EMWPLS_PSO).该算法通过移动窗口判定时序数据状态突变时刻以对原始数据集进行数据划分,添加冗余检查步骤,简化模型结构,同时引入粒子群算法对关键参数寻优,提高了模型性能.采用工业数据集Debutanizer_data验证算法,结果表明:该算法在处理时序、非线性数据时具有更高的精准度和更好的稳定性.这表明基于EMWPLS_PSO的软测量建模算法在工业领域的实用性和可操作性.

关键词: 软测量;偏最小二乘;局部加权;移动窗口;粒子群算法

中图分类号: TP183

文献标志码: A

文章编号: 1673\|3851 (2018) 07\|0453\|08

0引言

随着社会经济的快速发展,工业过程更加注重生产的安全、效益和环保,对过程关键参数的监测要求也愈加严格,仅仅依靠传统的检测技术已无法满足工业生产的多样化需求,在此背景下人们提出了软测量技术(软测量).软测量通过建立过程辅助变量与主导变量之间的数学模型[1]实现对主导变量的预测,其中辅助变量是指那些易测且与主导变量有直接或间接联系的过程变量.软测量模型一般可分为模型驱动型和数据驱动型两大类[23],在动态变化的工业生产过程中,数据驱动软测量建模优势明显[4].数据驱动型模型又可细分为线性模型和非线性模型两类,在软测量中常采用线性模型[5],偏最小二乘法(Partial least square,PLS)[6]是其中一种应用广泛的建模方法.相比于最小二乘法,PLS在处理多输入多输出数据时更具有优势,原因在于PLS中包含主成分提取的思想,可以在减小噪声干扰的同时,使有效信息更加集中,从而避免“维数灾难”的问题.

在实际工业生产中,时序数据会往往会呈现较强的非线性,将PLS非线性优化是当今研究的一个热点.根据非线性系统理论,如果系统的输出面光滑,那么任何非线性系统都可以通过多个线性模型进行逼近[7],Kaneko等[8]由此提出了基于局部加权的偏最小二乘法算法(Locally weighted partial least square,LWPLS).该算法首先将数据集划分成若干个子数据集并建立对应的局部子模型,然后利用集成学习的思想[9]给每个子模型匹配适当权值从而构成全局模型.与单个学习器相比,集成学习可以显著提高模型的泛化能力[10].

本文针对工业过程中具有时序性、非线性、易突变等特性的数据,提出了以局部加权为主体框架的PLS建模方法.首先通过移动窗口(Movingwindows,MW)[11]对数据集进行划分,建立子模型;然后引入模型剪枝技术减少子模型间的冗余,进一步提高模型的效率;最后根据贝叶斯定理实现模型集成预测.由于模型性能受算法内部自定参数影响,本文引入粒子群算法(Particle swarm optimization,PSO)[12]进行参数自动寻优,确保模型性能最优,由此本文提出基于移动窗口和粒子群寻优的集成偏最小二乘改进算法EMWPLS_PSO.PSO是处理非线性连续优化问题、组合优化问题和混合整数非线性优化问题的有效优化工具,拥有算法简洁、易于实现、参数少且不需要梯度信息等优势[13].PSO的适应度函数选择是参数寻优的关键,本文对此进行了研究.EMWPLS_PSO算法充分考虑时序数据的自身特性,利用移动窗口对数据集进行划分,辨识出各状态突变时刻.权值计算过程中结合TIM(Justintime)思想,得到的权值更加合理.冗余模型检查和PSO参数优化使最后的集成模型结构最优化,降低运算量,提高计算效率.

1EMWPLS算法实现

EMWPLS算法的建模步骤为:首先采用移动窗口法对数据集进行移动分割,根据分割结果对各子数据集单独建模;然后引入模型冗余检测技术对建立的子模型进行剪枝;最后根据贝叶斯理论进行模型的集成.

本文使用以下三个指标进行模型性能评价[14],以衡量预测值与真实值的契合度:误差平方根(The root mean square error,RMSE)、相对误差平方根(the relative RMSE,RE)和最大绝对误差(The maximum absolute error,MAE),具体公式可以表示为:

RMSE等于∑Ntt等于1(ypre,t-ytrue,t)2/Nt(1)

RE/%等于∑Ntt等于1ypre,t-ytrue,tytrue,t2/Nt×100(2)

MAE等于max{|ypre,t-ytrue,t|,t等于1,2,…,Nt}(3)

其中:ypre,t和ytrue,t分别代表第t组测试集的模型预测值和真实输出值;Nt表示样本数.

1.1基于移动窗口法建立局部模型

建立局部模型首先确定宽度为W的原始窗口,原始窗口中数据集记为Wini等于{Xini,Yini},其中Xini∈RW*m,Yini∈RW*1分别表示输入变量和输出变量.利用PLS对Wini建模,得到模型fini.然后将窗口下移一步,新得到的数据集记为Wt等于{Xt,Yt}.通过判定条件1判断模型fini是否适用于Wt,若适用,则窗口继续下移直至条件不再满足为止.最后得到第一个子数据集{X1,Y1},利用PLS对其建模可得到第一个子模型f1.

判决条件1可以表述为:

Eini等于fini(Xini)-Yini(4)

Et等于fini(Xt)-Yt(5)

T等于W(Et-Eini)/σt(6)

χ2等于(W-1)σ2t/σ2t(7)

其中:Eini,σ2ini分别表示Eini的均值和方差,Et,σ2t分别表示Et的均值和方差.如果Eini与Et近似相等,且σ2ini与σ2t近似相等,则认为Eini和Et是否近似相等,此时模型fini同样适用于Wt.为判定Eini和Et是否近似相等,本文利用t分布和χ2分布进行判定,其中T~t(W-1),χ2~χ2(W-1).设置一个显著性水平α,即P(|T|<λt)等于1-α,P(χ2<λχ2)等于1-α.当满足条件|T|<λt且χ2<λχ2时,认为模型fini适用于Wt,否则窗口停止下移.

1.2冗余模型删除

依照1.1小节介绍的方法继续建立f2,f3,…,至遍历所有数据.为了解决子模型建立过程中的模型冗余问题,本文引入一个删除冗余模型的步骤:当子模型个数大于2个时,通过判决条件2判定模型间是否存在冗余,若冗余则用新模型取代旧模型,并将旧模型删除.

判决条件2可以表述为:

将当前数据集分别代入新模型和旧模型,并计算其误差、误差的均值与方差,并利用t分布和χ2分布判定预测误差是否近似,用公式表示为:

Enew等于fnew(Xnew)-Ynew(8)

El等于fl(Xnew)-Ynew(9)

Tl等于Nnew(El-Enew)/σl(10)

χ2l等于(Nnew-1)σ2l/σ2new(11)

其中:fl,fnew分别表示第l个旧模型和新模型,Xnew,Ynew分别表示用于建立新模型的输入与输出,El,σ2l分别表示El的均值和方差,Nnew表示用于建立新模型的样本数.

对Tl~t(Nnew-1),χ2l~χ2(Nnew-1)设置一个显著性水平α,得到两个阈值λnewt,λnewχ2.当满足条件|T|<λnewt且χ2l~χnewχ2时,认为Enew、El近似,新模型与第l个旧模型之间存在冗余,则用新模型取代第l个旧模型.

子模型的建立与冗余检验交替进行,直到遍历全部数据集,最终可得到L个子模型.整个算法的流程如图1所示.

图1局部子模型构建算法流程

1.3集成PLS算法实现

得到L个子模型后利用集成学习法对新样本进行预测,具体步骤为:a) 计算新样本在每个子模型中的估计值;b) 赋予每个子模型权值;c) 加权得到最终的集成学习预测值.这一部分算法的关键是如何定义步骤b)中的权值.本文使用Shao等[15]提出的方法定义权值.对输入xq,定义指标J(l)评价每个子模型的预测能力,J(l)越大表示第l个模型的预测误差越大,可用公式表示为:

J(l)等于γe(l)0+(1-γ)∑Kk等于1ske(l)k∑Kk等于1sk等于γJ(l)1+(1-γ)J(l)2(12)

其中:l等于1,2,3,…,L;K表示从历史数据中选取与xq最近的点的个数,K个邻近点可表示为{xk,yk},k等于1,2,3,…,K;e(l)0,e(l)k分别表示为点(x0,y0)、(xk,yk)代入第l个子模型得到的误差平方,用公式可以表示为:

e(l)0等于(fl(x0)-y0)2(13)

e(l)k等于(fl(xk)-yk)2(14)

其中:(x0,y0)表示历史数据中最新的一组数,γ是连接系数,且0<γ<1,γ的大小和x0与xq之间的距离有关,可表示为:

γ等于exp(-ρd(xq·x0))(15)

其中:ρ为可调参数.

类似地,sk和xq与xk之间的距离有关,计算公式为:

sk等于exp(-d(xq·xk)/σd)(16)

其中:d(·)表示两点间的欧氏距离,σd表示xq与历史数据的距离的方差.

由式(12)可以看出,J(l)的大小与J(l)1和J(l)2有关.J(l)1表示(x0,y0)代入各个子模型后得到的预测误差,可理解为从时域角度的误差分析,J(l)2表示(xk,yk)在各子模型中的预测误差的加权量,作为从空间上的误差分析.J(l)同时考虑了时域和空间域的误差变化,得到的误差变化将更加全面合理.分析式(15),当x0与xq之间距离较大时(可视为出现数据突变的情况),γ的值较小,此时J(l)2的比重将增加.反之,当时序数据前后时刻变化较小,则J(l)1的大小对J(l)的影响较大.从时序数据自身特征考虑,J(l)1应当在J(l)中占较大比重,Ni等[16]对此做过研究,结果表明γ的值在[0.875,0.975]区间时预测效果最好.

由于J(l)代表模型的预测误差,J(l)越大则表示分配给第l个模型的权值应当越小,本文用g(l)表示:

g(l)等于exp(-ψJ(l))(17)

其中:ψ为可调参数.

最后对所有子模型集成:

Ypre等于∑Ll等于1P(fl|xq)fl(xq)(18)

其中:fl(xq)是xq在第l个子模型中的预测值,P(fl|xq) 是由贝叶斯推理得到的后验概率.

P(fl|xq)等于P(fl)P(xq|fl)∑Ll等于1P(fl)P(xq|fl)(19)

其中:P(fl)和P(xq|fl)分别代表先验概率和第l个模型能准确预测xq的可能性.

P(fl)等于Nl/∑Ll等于1Nl(20)

P(fl|xq)等于g(l)(21)

其中:Nl表示建立第l个模型所用到的样本数量.

综合式(18)—(21),可以得到

Ypre等于∑Ll等于1Nlg(l)f(xq)∑Ll等于1Nlg(l)(22)

2基于PSO的参数优化

2.1模型参数对预测效果的影响

在利用EMWPLS算法建模的过程中会涉及4个关键的可调参数:移动窗口初始大小W、邻近点数量K以及模型集成时的参数ρ和ψ.移动窗口初始大小W与最终构建的子模型数量密切相关,若W较大,则可能导致不同状态的数据被归为一类,从而会影响子模型预测效果;反之若W太小,子模型数量过多,则会增加模型的复杂度、降低运行效率.类似地,如果K太小,可能导致模型过拟合,增大模型的预测误差;反之若K太大,则会影响相连时刻的数据对各子模型预测能力的判断.在对子模型进行集成时,ρ和ψ大小也同样关键.由式(15)可知,如果ρ的值较大,则相应的γ很小(ρ无穷大时,γ趋向于0),导致式(12)中J1在J中所占的比例较小.同理,式(7)中的ψ不宜过大,因为当ψ无穷大时,g趋向于0,而在式(22)中可以看出g(l)不能都为零(分母不能为零).

本文以标准数据集中的abalone数据集[17]为例,分析四个参数对模型预测精度的影响.图2—图4分别给出了四个参数与模型预测误差指标RMSE、RE以及MAE的对应关系曲线,从图中可以观察得到:四个参数对预测效果均有较大影响,且它们之间呈现出较复杂的非线性关系.对于不同数据集,其影响关系也不同.因此本文提出一种基于PSO进行参数自动寻优的解决思路.

图2W,K,ρ,ψ四个参数与RMSE的关系曲线

图3W,K,ρ,ψ四个参数与RE的关系曲线

图4W,K,ρ,ψ四个参数与MAE的关系曲线

2.2粒子群参数寻优

2.2.1适应度函数选择

图5误差变化与RMSE、RE、MAE之间的关系图

在使用粒子群算法时适应度函数的选择是一个关键的步骤,本文选用RMSE、RE、MAE来评价模型的性能,所以将其作为备选适应度函数,由于MAE受单个样本影响较大,故不考虑其作为适应度函数.分析式(1)—(2)可以得到结论:对于同一个模型而言,预测结果的RMSE、RE的变化趋势并非一直保持一致,它受误差统计分析时|(Ypre,t-Ytrue,t)/Ytrue,t|>1 的样本数在所有样本中所占比例影响,当其比例高时RE的值可能会随着RMSE的减小反而增大.图5显示了abalone数据集在16组不同参数下得到的对应EMWPLS模型的RMSE、RE、MAE指标曲线,从中观察发现RMSE和RE的变化趋势并不一致(为对比二者趋势,图中RMSE的数值已放大10倍,RE数值放大5倍).图5中曲线对应的具体数值详见表1.在这16组数中第10组的RMSE最小,第14组的RE最小.这表明分别用RMSE和RE作为适应度值进行参数寻优会得到不同的结论.

可见适应度函数的选择会直接影响参数的寻优结果.选取几组不同参数对abalone数据集进行EMWPLS_PSO建模,并依照式(1)—(3)计算出各组的RMSE、RE、MAE,选出RMSE相同RE不同、RMSE不同RE相同、RMSE和RE都不相同的两两对应的几组数据,记录于表2,并绘制图6—图8的曲线.通过比较可发现若单独选其中一个值作为适应度值RMSE比RE更合适.当RMSE值相同时,RE值越小则模型效果越好.根据上述结果笔者认为将RMSE和RE相结合效果更佳.本文提出Z等于p*RMSE+(1-p)*RE作为适应度函数,其中p为连接系数,且在Z中RMSE应该占更大的比重.

图6RMSE相同RE不同时实际输出与预测输出

图7RMSE不同RE相同时实际输出与预测输出

图8RMSE、RE均不同时实际输出与预测输出

2.2.2寻优过程

本文选择粒子群算法的适应度函数为:Z等于p*RMSE+(1-p)*RE,优化目标为W,K,ρ,ψ四个关键参数.基于粒子群算法的参数寻优过程如下:

a) 参数随机初始化(种群粒子数设为20,迭代次数设为50次,各参数设置合理上下限,初始位置与速度在参数上下限范围内随机给定);

b) 计算适应度值,更新粒子的历史最优和全局最优位置;

c) 根据迭代公式更新粒子的位置和速度,如果超出边界值,则赋予其边界值;

d) 判断是否达到最大迭代次数和全局最优位置满足最小界限,若不满足则返回步骤b),反之结束寻优.

3工业数据集测试

本文使用工业数据集Debutanizer_data[18]验证模型效果,该数据集共700组样本,7个输入1个输出,将前500组样本作为训练集,后100组样本作为验证集,最后100组样本作为测试集.表3、表4记录了其中6次粒子群寻优得到的参数及其误差分析,选取结果最好的第一组参数作为EMWPLS_PSO的最终参数,并与常规PLS以及BP算法进行对比.

图9给出了EMWPLS_PSO算法与常规PLS、BP算法预测结果的对比曲线.图9中点越接近中间的Y等于X直线说明模型的预测值与真实值越吻合,模型预测效果越好.将真实值记为Yreal,预测值记为Ypre.记diff0.1等于P(|Yreal-Ypre|≤0.1),常规的PLS得到的diff0.1为0.75,EMWPLS_PSO对应的diff0.1为0.93.记diff0.05等于P(|Yreal-Ypre|≤0.05),常规的PLS得到的diff0.05为0.45,EMWPLS_PSO对应的diff0.05为0.785.可以得到结论:集成移动窗口技术对常规PLS的预测精度有很大的提高.图9(b)是PLS模型、EMWPLS_PSO模型的预测值与真实值的对比图,通过对比可发现相对于PLS,EMWPLS_PSO的预测趋势更准确,与真实值更吻合.图9(c)—(d)是同作为非线性算法的BP与EMWPLS_PSO的预测结果对比图.其中BP的diff0.05为0.47,diff0.1为0.68.由对比曲线可以看出,EMWPLS_PSO的预测效果也优于BP.表5记录了PLS、EMWPLS_PSO和BP算法的RMSE、RE、MAE值,从中可以得出结论,较之常规PLS和BP算法,EMWPLS_PSO的预测误差最小.

图9EMWPLS_PSO与常规PLS、BP算法的预测结果对比

本文将EMWPLS_PSO与改进前的PLS算法作纵向比较,同时横向比较了非线性的BP算法.EMWPLS_PSO算法在PLS基础上性能有极大的改善,较好地克服了PLS对非线性数据拟合能力差的问题.同时,相比于纯数据驱动的传统神经网络建模方法,在小样本建模方面EMWPLS_PSO拥有更高的预测精度.

4结论

本文将移动窗口技术与集成学习的思想相结合,提出一种EMWPLS_PSO软测量算法.在利用移动窗口法建立局部模型时,增添了局部模型的冗余检查及删除的步骤,更好地提高了模型的效率和性能.此外,该模型同时应用时域和空间域上的历史数据对动态数据变化趋势进行预测,在避免过度拟合的同时进一步提高了模型的准确性.最后,为了保证模型在处理不同数据时拥有最佳预测精度,本文采用粒子群算法对参数进行自动寻优.通过以上技术的结合,很好地改善了PLS对线性相关性较差的时序数据的建模效果.

参考文献:

[1] Kaneko H, Funatsu K. Database monitoring index for adaptive soft sensors and the application to industrial process[J]. AIChE Journal,2014,60(1):160169.

[2] Souza F A A, Araujo R, Mendes J. Review of soft sensor methods for regression applications[J]. Chemometrics and Intelligent Laboratory Systems,2016,152:6979.

[3] Kadlec P, Gabrys B, Strandt S. Datadriven soft sensors in the process industry[J]. Computers & Chemical Engineering,2008,33(4):795814.

[4] Kadlec P, Grbic R, Gabrys B. Review of adaptation mechanis for datadriven soft sensors[J]. Computers & Chemical Engineering,2011,35(1):124.

[5] 张宏伟,李鹏飞,景军锋,等.基于即时学习的软测量建模实时性改进[J].西安工程大学学报,2014,28(6):750754.

[6] 石怀涛,刘建昌,张羽,等.基于相对变换PLS的故障检测方法[J].仪器仪表学报,2012,33(4):816822.

[7] Vijayakumar S, Aaron D S, Schaal S. Incremental online learning in high dimensions[J]. Neural Computation,2005,17(12):26022634.

[8] Kaneko H, Funatsu K. Ensemble locally weighted partial least squares as a justintime modeling method[J]. AIChE Journal,2016,62(3):717725.

[9] Kaneko H, Funatsu K. Applicability domain based on ensemble learning in classification and regression analyses[J]. Journal of Chemical Information and Modeling,2014,54(9):24692482.

[10] 田慧欣,李坤,孟博.一种用于软测量建模的增量学习集成算法[J].控制与决策,2015,30(8):15231526.

[11] Wang X, Kruger U, Irwin G W. Process monitoring approach using fast moving window PCA[J]. Industrial & Engineering Chemistry Research,2005,44(15):56915702.

[12] Kennedy J. Encyclopedia of machine learning[M]. Springer,2010:760766.

[13] 蒋晓屾,任佳,顾敏明.多维度惯性权重衰减混沌化粒子群算法及应用[J].仪器仪表学报,2015,36(6):13331341.

[14] Willmott C J, Matsuura K. Advantages of the mean absolute error(MAE) over the root mean square error(RMSE) in assessing erage model performance[J]. Climate Research,2005,30(1):7982.

[15] Shao W M, Tian X M, Wang P. Local partial least squares based online soft sensing method for multioutput processes with adaptive process states division[J]. Chinese Journal of Chemical Engineering,2014,22(7):828836.

[16] Ni W D, Tan S K, Ng W J, et al. Localized, adaptive recursive partial least squares regression for dynamic system modeling[J]. Industrial & Engineering Chemistry Research,2012,55(23):80258039.

[17] Tan P J, Dowe D L. Mml inference of decision graphs with multiway joins and dynamic attributes[J]. Australasian Joint Conference on Artificial Intelligence,2003:269281.

[18] Fortuna L, Graziani S, Rizzo A, et al. Soft sensors for monitoring and control of industrial processes[M]. London: SpringerVerlag,2007:229231.

算法论文参考资料:

本文汇总,这是关于对不知道怎么写粒子群寻优和算法和集成论文范文课题研究的大学硕士、算法本科毕业论文算法论文开题报告范文和文献综述及职称论文的作为参考文献资料。

和你相关的