分类筛选
分类筛选:

大学图书馆相关毕业论文范文 与贝叶斯模型大数据分析的软件实现以河北科技大学图书馆为例等相关论文怎么撰写

版权:原创标记原创 主题:大学图书馆范文 类别:发表论文 2024-02-23

《贝叶斯模型大数据分析的软件实现以河北科技大学图书馆为例等》

本文是大学图书馆相关论文怎么撰写跟河北科技大学和贝叶斯和数据分析类毕业论文的格式范文。

0 引言

信息技术的发展和数据量的增加对图书馆的管理和服务都提出了更高的要求.在图书馆的研究中引入新的大数据技术,不仅可以为读者的借阅提供参考,还可以更智能地发现更多且更有价值的管理知识.当前,由于读者数量庞大和需求的多样性,加上图书上涨,造成购书资金的相对不足.如何提高图书采购的水平、提高图书的利用率、降低图书闲置率就成为图书管理的一项重要内容.另外,当读者(特别是大学生)面对海量图书时,需要图书馆工作人员给他们提供阅读范围和倾向性的指导.但是,据笔者所知,目前发行的图书馆管理软件,包括图书馆汇文管理系统[1],ILAS(图书馆自动化集成系统)[2]和美国Sirsi 公司的Unicorn 图书馆自动化管理系统[3]等等,都没有读者借阅行为分析和指导的功能.本文给出的数据挖掘算法和软件可以部分弥补这一缺失.一般来说,大数据技术包含数据采集、数据分析、数据存取以及数据挖掘4个方面[4-9].然而,一般的挖掘算法缺乏因果推理和对不同来源信息的整合能力,使得其信息挖掘能力受到限制.在本文中,笔者采用概率图理论中的贝叶斯网络算法[10- 14],用后验概率大小来表示读者信息与所借阅图书种类之间的依存关系,并把这个后验概率作为分析读者借阅行为的依据.

贝叶斯网络也叫信念网络,是一种有向无环图模型(DAG)[15].贝叶斯网络模拟了人类在推理过程中对于因果关系的不确定性处理方法,从而有着广泛的应用.贝叶斯网络中的节点代表随机变量,它们可以是可观察的变量或隐变量等.贝叶斯网络中,被认为有因果关系的两个节点间以一个有向线段连接,箭头出发的节点是“因(parents)”,箭头终止的节点是“果(children)”,这两节点间的关联可用一组条件概率值p{果|因}来量化表示;而贝叶斯网络学习就是利用数据来训练节点之间的因果方向和条件概率值的过程,并依此来表征各个变量之间的本质关联,常用的训练的方法有:K2、爬山法、和SEM 等[16].贝叶斯网络学习完成后,向网络输入读者的信息或“证据”(evidence),就可以对取值未知的节点的各种取值概率作出估计.

1 需求与技术思路

为了分析借阅行为并预测读者借阅各种图书的可能性,本次研究在贝叶斯网络中把读者信息节点“性别,读者类别,学科,年级”作为“因”,把准备借阅的22种“图书类别”作为“果”(因果节点如图1 所示).用MATLAB 贝叶斯工具箱FULLBNT[17]训练出贝叶斯模型bnet,并用matlab编写了读者借阅行为分析软件Borrowbehior.目前,使用该软件时,读者信息需在matlab下输入,所以需要matlab的运行环境.

2 图书馆读者信息与借阅记录的整合分析

2.1 贝叶斯网络节点取值的数字表示

本文中,数据来源于河北科技大学图书馆2011-2015 年56687 名读者的文件和包含943962 条借阅记录的借阅信息文件.其中,读者文件包含6列信息:读者借书证的ID、性别、所属系级、所属学院、时间、读者类别;借阅信息文件包含4列信息:此次借书操作的读者借书证ID、借阅日期、还书日期、所借书籍的书号.依据书号的第一个字母,该图书馆的藏书按《中图法》可分为22 大类,这22类图书的比例和数量见图2和图3.本研究主要关注5 类读者:(1)正式职工2949 人;(2)硕士研究生2883人;(3)学校本部的本科生(包括一本、二本大学生)25094人;(4)专接本学生2287人;(5)独立的理工学院的学生(三本大学生)23056人.另外,通过大学生的时间可以推知他们具体的“年级”.在进行贝叶斯模型的训练之前,需要先对其5个节点(见图1)的取值进行离散数字化:对于性别节点,笔者用1 表示男性,2 表示女性;对于读者类别,笔者用1 表示正式职工,2表示硕士研究生,3表示本科生,4表示专接本学生,5表示理工学院学生,6代表其他读者;对于学科节点,笔者用1-15来分别表示:“信息”“影视”“化工”“外语”“建工”“文法”“机械”“材料”“环工”“理学院”“生工”“电气”“经管”“纺织”和“艺术”学院,用16表示其他学科;对于年级节点,笔者分别用1,2,3,4表示1-4年级,用5表示不属于这4个年级的其他读者;对于图书类别节点,笔者用1-22分别代表下列学科:“A马列”“B哲宗”“C社总”“D政法”“E军事”“F经济”“G文教”“H语言”“I文学”“J艺术”“K史地”“N自总”“O数理化”“P天地”“Q生物”“R医卫”“S农科”“T工技”“U交通”“V航空”“X环科”“Z综合”.

2.2 数据整合及贝叶斯模型的训练方法

图书馆大数据分析的原始数据包括读者信息文件和借阅信息文件,需要先把他们整合到INTEG文件中,从中提取出一个5 行876625 列的训练数据矩阵data.矩阵data的5行分别对应着5个节点(见图1),而每一列则对应着一次借阅记录.最后,基于有向图的结构(图1)和数据矩阵data,可以按着图4的流程训练出贝叶斯模型bnet.

示例代码:

clear

addpath(genpath(´H :\FullBNT- 1.0.7\bnt\´));%添加当前路径

N等于5;

dag等于zeros(N,N);% 5个点的有向无环图S等于1;R等于2;C等于3;G等于4;B等于5;%设定五个节点

dag(S, [C, B]) 等于1; dag(R, [C, B]) 等于1;dag(C,B)等于1;dag(G,B)等于1;%指定节点之间关联的方向性

discrete_nodes等于1:N;

node_sizes等于[2,6,16,5,22];%每个节点取离散值的个数

bnet1等于mk_bnet(dag, node_ sizes,´names´,{´sex´,´readerclass´,´collegeclass´,´grade´,´bookclass´},´discrete´, discrete_nodes);

bnet2等于mk_bnet(dag, node_sizes, ´discrete´,discrete_nodes);

seed等于0;%设定随机化种子

rand(´state´,seed);

bnet2.CPD{S}等于tabular_CPD(bnet2,S);

bnet2.CPD{R}等于tabular_CPD(bnet2,R);

bnet2.CPD{C}等于tabular_CPD(bnet2,C);

bnet2.CPD{G}等于tabular_CPD(bnet2,G);

bnet2.CPD{B}等于tabular_CPD(bnet2,B);

bnet等于learn_params(bnet2,data);

se bnetanddata.mat bnet data %存储贝叶斯模型和训练数据

2.3 贝叶斯读者行为分析软件Borrowbehior的使用方法

软件Borrowbehior的使用方法见图5,包括用matlab的load命令导入训练好的贝叶斯模型bnet,选择贝叶斯的四种推理引擎,输入读者的信息,最后在matlab环境下运行Borrowbehior.示例代码:

clear ;addpath(genpath(´H :\FullBNT- 1.0.7\bnt\´));

N等于5;

dag等于zeros(N,N);S等于1;R等于2;C等于3;G等于4;B等于5;

load bnetanddata.matengine等于jtree_inf_engine(bnet);

evidence等于cell(1,5);

evidence{S}等于1;% 性别

evidence{R}等于3;% 读者类别

evidence{C}等于8;% 学科

evidence{G}等于3;% 年级

[engine,loglike] 等于enter_evidence(engine,evidence);

marg1等于marginal_nodes(engine , B) ; %marg1.T中包含的是22个后验概率,其对应类别见图3的x轴下方的标识.

3 借阅行为的贝叶斯网络参数分析

借阅行为分析贝叶斯模型bnet的5个节点所包含的参数(即条件概率表CPT)个数分别为:性别节点S有2个参数;读者类别节点R有6个参数;学科节点C有16*2*6等于192个参数;年级节点G有5个参数;借阅的图书类别节点B有22*2*6*5*16等于21120个参数.有些节点包含着简单的统计结果,比如性别节点处的CPT只包含男性读者和女性读者的借阅比例[0.4611,0.5389];而读者类别节点处的CPT依次为6类读者的借阅概率[0.05659, 0.049158, 0.62459, 0.034399,0.220434,0.0148216].很明显,借书的主体是本部的一本二本的本科生和理工学院的三本学生,两者占84%还多;正式职工与硕士研究生借阅量基本持平,占5%左右;本文所关注的5 类读者借阅量覆盖了全部读者借阅量的98.5%,所以这些数据是有代表性的.下面重点分析学科、年级和图书类别节点处的条件概率所包含的知识.

3.1 学科、年级节点处的参数分析

贝叶斯网络bnet 的学科节点处的CPT 包含了2*6*16等于192个条件概率p{学科|性别,读者类别},由于篇幅限制,具体数值见附件数据bnetanddata.mat 中的bnet.CPD{1,3}.CPT.值得注意的是,这里的条件概率是从借阅记录中得到的、主要由读者的借阅意愿决定的,与从学院里直接拿花名册统计是不一样的.花名册中一个学生能且只能出现一次,但是在图书借阅记录中一个学生可以不出现,也可以出现多次;人数少的读者类别(或性别,学科)所贡献的借阅次数也可以比人数多的读者类别(或性别,学科)还多.因此,这样统计出来的条件概率p{学科|性别,读者类别}包含了读者的借阅意愿信息,对于解读他们的借阅行为很重要.笔者发现,在“本科生”读者中,借书的男性来自于信息,材料,电气3个学科的概率要大于其他12 个学科的;“本科生”读者中,借书的女性来自于化工和经管学科的概率较大.这种学科和性别的借阅意愿不均衡性,除了源于不同学科学生人数的差异外,应该还与图书馆购买的图书是否符合学生的借阅意愿有关.图书馆需要调整和改进相关学科的图书购买种类,同时加强对读者的引导.笔者还发现,在“专接本”读者中,不同学科的同学借书概率的差异比“本科生”更大,而且“专接本”同学中借书概率最大的来自于信息学科,男女读者都是这样,其次是化工学科的男女读者.图书馆工作人员要针对“专接本”同学借阅意向偏弱的学科,适时调整购书和引导策略来提高这些同学的阅读兴趣.

必须指出的是,本软件训练数据的一个弱点是没有给出正式职工和硕士研究生所从事的学科,所以,这两类读者在训练集data 中都属于“其他学科”,导致训练后模型bnet中学科节点处的四个条件概率非常大:p{其他学科|男性,正式职工}等于0.9922,p{其他学科|男性,硕士研究生}等于1,p{其他学科|女性,正式职工}等于1,p{其他学科|女性,硕士研究生}等于1,而这两类读者针对具体学科的条件概率几乎都为0.研究人员用软件Borrowingbehior 为所在大学建立贝叶斯借阅行为分析模型(或者在以后的模型改进)时,如果能添加上这两类读者的学科信息,必然会使模型更加精准.

贝叶斯模型bnet 的年级节点的概率分布为[0.0139,0.0691,0.0816,0.1953,0.6399],这表明不同年级的大学生借阅量差异很大.显然,从大学一年级到四年级借阅概率在逐年上升,特别是在大学二年级和四年级,借阅概率都比其前一年级发生了2倍以上的变化.所以,大二和大四同学应该是阅读行为的重点指导对象,图书馆工作人员除了到各个学院讲授阅读指导课之外,还可以采用网上问卷和现场问卷的形式,积极全面了解大二和大四的读者的借阅意向,从购书、排架和指导上给予他们更大的帮助.

3.2 性别、年级、读者类别和学科对于22类图书借阅偏好的影响

贝叶斯模型bnet 在借阅图书类别节点处有22*2*6*5*16等于21120个条件概率,表示了其他4个节点对于本节点的联合影响.由于数据量过大,本文无法逐一分析这些条件概率.但是,可以通过分析其他4个节点对于第5节点的单独影响,来抽取一些粗粒化的知识.结果发现,不同性别,不同学科,不同读者类别,不同年级的读者对于22类书籍的借阅偏好的确有显著影响(见图6至图9).这也侧面说明,在Borrowbehior中把这些特征作为节点是合理的和必要的.

性别对于借阅图书的种类有显著的影响(见图6).其中,女性读者偏爱H语言、文字类和I文学类书籍;而男性读者偏爱O数理化和T工业技术类书籍.男性读者人均借阅图书次数为12.9次,女性读者人均借书18.58次.这种差异主要是由于女性对于语言文字和文学图书的偏爱.

不同学院的学生对于22 类图书的借阅次数存在极为显著的差异,图7展示了15个学院的学生对于22 类图书的平均借阅次数.这就为读者的借阅咨询提供了很好的提示.笔者发现,最喜欢借阅工业技术书籍的是信息学院的同学;化工和电气学院对于数理化书籍的借阅热情超过理学院;艺术和经管学院也有很多同学涉猎了工业技术;艺术和影视学院对于语言类图书的借阅频率比其他学院要少些.另外,笔者也研究了15个学院对于22类图书借阅行为的相似性,每个学院以22 维向量来表示.图10给出了按这15个22维向量之间的pearson相关性作出的关系树图.从中可以看出,外语和文法学院分别自成体系;影视和艺术学院的读者借阅偏好极其相似,且与其他学院迥然不同;建工、环工、材料、纺织4个学院的读者的阅读偏好之间很相似.还有一点值得注意的是,学校通常是把理学院、电气、经管、信息看成一个学科群,但图10 显示,机械学院与电气、信息处在同一个簇类,而信息和电气远离了理学院和经管的簇类.这说明以往的学科群划分与本文中笔者统计的阅读行为的聚类并不完全一致,当前的结果对于学科群的重新定义可能有参考价值.

5类读者对于22大类图书有明显不同的借阅偏好(见图8).本科生和硕士生对数理化类别的图书很感兴趣;硕士生借阅文学书的兴趣比本科生低,但是借阅工业技术类图书的兴趣提高了;理工学院的同学对于文学和工业技术类书籍最感兴趣;正式职工对于文学,工业技术类图书比较感兴趣,但对于语言类图书的兴趣不如其他读者.

大学生处于不同年级时,对于图书的借阅偏好有明显差异(见图9).大学生对于数理化、语言、工业科技类书籍的兴趣随着年级由低到高而持续增长,大四时文学书阅读最多,哲学、宗教、经济类图书也是在大学四年级才成为阅读的热点.究其原因,可能是因为前三年专业课负担较重,主要时间用于专业课知识的学习,而大四的学生在有了一定的基础知识之后,渴望涉猎更广泛的社会和经济学领域的图书.另外,2010级学生的四年人均图书借阅次数普遍超过了2011级同学的人均借阅次数.

3.3 22类图书的利用率分析

为了考察图书馆中每类书籍的借阅利用效率,本研究统计了全体读者对于这22 类图书平均每本的借阅次数.如图11 所示,哲学宗教、语言文字和文学被借阅的次数较高,反映了该大学读者对于人生哲学和外语学习都有浓厚的兴趣;同时也可以看出,同学们也想通过阅读文学书籍来陶冶情操,了解社会发展和人生,这就使得这些文科书籍的阅读量较高.而自然科学总论藏书(2111种)和农业科学藏书(416种)的平均每本借阅量最低,恰巧它们的保有量也是比较低的.这些说明该图书馆整体的图书购买和使用是较科学的.作为河北科技大学重点学科的生物科学和工业科技,其书籍的利用率处于中等,不及数理化学科;环境科学书籍利用率不及生物、数理化和工业技术.值得关注的是,数理化类的书籍有80794种,几乎占了全部书籍种数的四分之一,且保持着平均每本借阅5.5次的高利用率,说明这些书籍很符合河北科技大学读者的需求特点.

4 模型的优势与改进

众所周知,增加有效的特征和数据可以提高机器学习模型的预测能力.贝叶斯算法的一个优点是易于增加特征节点的取值个数或增加节点.

比如,学科节点增加了一个取值“医学院”,软件更新时,只需要增加学科节点和图书类别节点中相应的条件概率分布即可,其他参数都不用改变,节省了训练时间.另外,若将来需要增加节点“英语四级成绩”(取4 个离散值“优秀,良好,及格,不及格”),且认为“英语四级成绩”是“图书类别”的父节点,“学科”和“年级”的子节点,那么可把这个节点加入到原有网络中,且仅仅改变与这个新节点关联的节点上的条件概率即可.这也是本研究偏向于运用贝叶斯模型的原因之一.

5 结论

整合图书馆已有的读者信息和借阅记录作为训练数据,用MATLAB贝叶斯工具箱FULLBNT[18]可训练出描述读者借阅行为的贝叶斯模型.该模型可以根据读者信息来预测读者借阅各类图书的概率,为大学生读者提供借阅的指导.另外,这个贝叶斯模型中包含的从图书馆大数据中挖掘出来的知识,对于图书馆的建设和管理有帮助.

大学图书馆论文参考资料:

大学论文题目

图书馆建设杂志

大学物理论文2000字

大学心理学论文

大学生涯规划论文

大学心理论文

此文评论,该文是关于河北科技大学和贝叶斯和数据分析方面的相关大学硕士和大学图书馆本科毕业论文以及相关大学图书馆论文开题报告范文和职称论文写作参考文献资料。

和你相关的