《基于pLSA算法的装备故障信息分类方法》
该文是关于装备方面自考开题报告范文和信息分类和pLSA算法和故障方面论文例文。
【摘 要】 本文针对现有使用人力分类装备故障数据效率和准确率较低的问题,提出并使用pLSA 模型对故障数据自动分类,达到较高效率及准确率.
【关键词】 装备故障数据 pLSA 模型
一、pLSA 模型的基本原理
1.1 模型建立
pLSA 模型基于主题决定词汇分布,文章决定主题分布的两层贝叶斯网络建立.词汇在主题上服从多项分布,主题在文章上服从多项分布.D 代表文档,Z 代表主题, W 代表词汇, 文档中词汇的分布即为二者的联合分布,(di,wi) 的分布为:
通过多次实验对样本的关键词进行了删选,EM 算法的迭代次数进行控制,对比了训练集与测试集的准确率的变化,降低了过拟合的风险,最终准确率在训练集与测试集上稳定在85.0 左右.pLSA 算法在本文的故障信息分类中取得较为理想的成绩,图1 展示了在多次实验中准确率在训练集与测试集中的变化.
在上图中,上虚线为训练集准确率的变化,下虚线为测试集准确率的变化,训练初期由于过拟合原因导致训练集准确率较高,测试集准确率较低,通过增加词袋中关键词数量,调节相关参数,最终使训练集与测试集趋向一致,达到约85.0% 左右,高于人工分类77% 的准确率.
三、结语
潜在语义分析模型(pLSA)克服了 Unigram Model 仅利用文档中词汇的概率分布以及Mixture of Unigram 模型对主题的概率分布模型设置过于简单等缺点,将主题设置为隐含变量,具有独立概率分布,利用了文本语义信息,较大程度上解决了一词多义与多词一义的问题,在本文装备故障信息分类中达到了较好的效果.
装备论文参考资料:
评论:这篇文章为关于对写作信息分类和pLSA算法和故障论文范文与课题研究的大学硕士、装备本科毕业论文装备论文开题报告范文和相关文献综述及职称论文参考文献资料有帮助。