分类筛选
分类筛选:

社会网络论文范文资料 和方志类古籍中物产名和别名关系的可视化基于社会网络分析技术视角有关毕业论文怎么写

版权:原创标记原创 主题:社会网络范文 类别:发表论文 2024-03-14

《方志类古籍中物产名和别名关系的可视化基于社会网络分析技术视角》

该文是社会网络论文范文资料和别名关系和中物和可视化相关学士学位论文范文。

0 导言

  社会网络分析以关系数据为基础,在数学、统计学、计算机图形学等多学科交叉的背景下,对数据源表示的关系网络进行可视化的图形展示,并从不同的视角对网络关系进行分析[1],广泛应用于心理学、社会学、管理学、经济学等学科.当前在中文古籍整理、挖掘中,社会网络分析应用较少.许超等以《左传》为语料,挖掘春秋时期人物之间的社会网络关系,通过点度、线值、中心度等特征,实现了关系密切程度和关键人物分析,验证了社会网络分析在基于古文献的历史社会网络关系研究中的适用性[2];陈蕾等通过雪球算法,建立《红楼梦》中192个主要人物的人际关系网络,实现了社会等级关系挖掘[3];夏方朝以《三国演义》中的主要人物为节点,构建三国时期人物动态网络模型,通过社团划分,反映当时动荡的局势和各个势力的强弱存亡变化[4];韩普以《李白全集》《杜甫全集》中收录的2178首古诗为数据源,实现古诗网络的构建、对比和分析,揭示古诗网络的特点,反映了语言的演变方向[5].综观这些研究,多采用以人物为中心的一模关系数据,开展社会关系和社会结构研究,而类似方志古籍中以物产名为中心,呈现物产名与别名、物产名与功效、物产名与人物、物产名与引书等二模关系数据的研究尚有待探索.

  近年来,在数字人文研究与实践推动下,科技与人文发生了更为生动而深刻的融合[6],《方志物产》的数字化、可视化、智能化整理逐渐展开,已有关于文本信息梳理[7-8]、智能识别[9-11]、可视化展示[12]等研究成果.本研究以《方志物产》山西分卷为语料,以物产名与别名的关联关系为研究对象,采用社会网络分析法,在自动识别的基础上,抽取物产名与别名之间的关联关系,构建物产名与别名的关系网络,实现物产名与别名之间社会网络的可视化展示和关系分析,以期为方志类古籍的数字化、智能化整理与挖掘提供思路.

1 语料介绍及特征分析

  20世纪50年代,万国鼎组织人员前往40多个大中城市的100多个文史单位,从近7000部地方志中手工摘抄整理农业专题资料,编纂成《方志物产》,现藏于南京农业大学中华农业文明研究院;共431册,3000余万字,包含植物、动物、货物三大类别,以物产的品种资源以及种植、饲养、利用技术为主,对农业史和区域史研究具有很高的价值[13].《方志物产》摘抄的物产资料时间跨度从宋熙宁9年(1076年)的《长安志》至民国38年(1949年)的《定西县志》,其中朝代明确的志书里,宋20种、元13种、明674种、清4355种、民国1089种[14].目前分藏在各地的部分志书原件散佚,因此该抄本特别珍贵.

  作为独特的文本语料,经过格式化处理的《方志物产》在行文结构方面,不同于一般段落形式的文本,而是以物产信息作为分段依据,每一条物产信息成为一个单独的段落.完整的物产信息一般包括物产名称和物产备注信息.其中,物产名称是物产的正名,也是本研究中物产名的集合;物产备注信息是对物产名称的解释、说明,包含别名、用途、产地、时间、品种、贸易、产量、、引书、人物等与物产相关的大量信息.别名是在文献记载、时代变迁、地域差异、文化冲突等背景下衍生出来的物产名之外的名称[15],别名类型主要包含以下几个方面:一是生物学特征,如“苍术,根苍黑色故名术者山之精也”;二是功效,如“防风,其功疗风最要故名”;三是避讳,如“雉,汉时避吕后讳改名野鸡”;四是来源地,如“菠菜,本出西域波棱国故名波棱”;五是时令,如“半夏,五月半夏生盖当夏之半也故名”;六是产地,如“丹砂,旧志丹山樵者雨后偶获丹砂故以名山”;七是人物,如“芜菁,以诸葛行军令人多种此菜,又名诸葛菜”.智能化研究物产名与别名之间的直接关系、间接关系、演变关系等,可为农业史、区域史等学科提供计量和可视化的研究支持.

  在方志古籍记载中,物产名和别名是相对而言的,并随时空变迁而更迭.归纳起来,物产名和别名之间的关系可以分为4种:(1)一对一,即一个物产名只有一个别名,如“欸冬 即枇杷花傳咸賦云維茲嘉卉欵冬而生”,物产“欸冬”与别名“枇杷花”之间为一对一的关系;(2)一对多,即一个物产名有一个以上的别名,如“百脚草 生牆隂秋冬不凋又名風尾草亦名雞脚草治便血症”,物产名“百脚草”与别名“風尾草、雞脚草”之间为一对二的关系;(3)多对一,即多个物产名具有相同的别名,如“鬥呆漢 疑即半痴”“半翅 徐文長集作半痴”,物产名“鬥呆漢”和“半翅”具有相同的别名“半痴”;(4)多对多,即一个物产名有不止一个别名,一个别名也不仅是一个物产名的别名,如“秫俗言茭子”“秫 即高粱”“薥秫 俗名稻黍一名高粱一名茭子”,物产“秫”和“薥秫”均有两个别名“茭子”和“高粱”,而别名“茭子”和“高粱”也都是物产名“秫”和“薥秫”的别名.

  本研究选择《方志物产》山西分卷为例开展研究,主要基于三点:(1)在时间上,山西是中华民族发祥地之一,文化底蕴丰厚;(2)在地域上,山西地处中原,位于黄河之滨,能够代表黄河流域、华北地区;(3)在物产量上,山西物产丰富,有“中国古代文化博物馆”之称.因此,以山西分卷为例研究物产名与别名的社会网络,具有一定的代表性,可为全国范围内《方志物产》中物产名与别名关系的计量分析和可视化展示提供借鉴.《方志物产》山西分卷共13本,约43万字,记载了从明成化21年(1485年)至民国29年(1940年)间山西境内的51545条物产信息,其中包含别名信息的物产信息有2522条;山西分卷的语料规模约占全国的1%.

2 《方志物产》中别名社会网络分析的实现

2.1 研究路径

  以《方志物产》山西分卷为语料,在数据格式化基础上建立《方志物产》山西分卷全文数据库,再对备注信息进行别名的人工标注和自动抽取,以别名识别结果作为社会网络分析的数据源,运用社会网络分析技术突破数量、时空、关系复杂等困境,可视化展现物产名与别名之间的关系,并从宏观、中观、微观等角度分析网络结构,实现知识关联和知识发现,探索方志类古籍整理的新模式.

  (1)物产名与别名的关系数据提取.对物产备注信息中的别名信息和关系类型进行人工标注和定义,如“【A冰台】”,其中“【”和“】”表示左右边界,“A”表示信息类别,根据标注信息提取物产名与别名的两两对应关系数据,如“艾-冰台”“艾-医草”.

  (2)物产名与别名的网络构建与分析.根据提取的关系数据,基于ja开发环境编写应用程序,进行顶点编号和共现次数统计,生成Pajek需要的网络文件,实现关系数据的可视化展示,并通过线值、点度、个人中心网络和连通子网络等特征进行从整体到局部的分析.

  (3)分析软件的选择.尝试使用Pajek、Ucinet、VOSviewer和Gephi等4款软件,对比分析表明:尽管Pajek在数据预处理和规范化处理方面能力有限,但在展示和分析能力上具有优势:高性能大型网络处理能力,甚至多达几百万个节点的巨型网络;便捷的网络分析能力,可以从点度、密度、中心度等方面分析整体网络,也可以提取出不同类型的局部网络;强大的可视化功能,自动布局与手工调整相结合,实现理想的展示效果;灵活的数据输入方式,包括内部生成、外部导入和多软件数据融合[16].因此,选择Pajek作为分析软件.

  本文的研究内容主要是物产名与别名的关联关系提取、社会网络分析的网络文件生成以及物产名与别名的社会网络分析等,研究路径见图1.

2.2 研究结果与分析

  物产名与别名的关系网络中,包括891个物产名和1485个别名以及它们之间的3452对关联关系,如图2所示.这个庞大而复杂的网络可以根据网络特点,通过不同视角的分析,实现知识分类和知识发现.

2.2.1 数据统计和分析

  (1)别名的记载程度.别名的记载程度是指别名与物产名共现的次数,即网络中两个顶点之间连线的线值.这个指标可以从一定程度上反映出特定时空下别名的接受和传播程度,有助于区分物产名的常用和非常用别名.线值统计结果显示,记载程度越高,别名数量越少,约40%的别名仅被记载1次,可能不是物产的常用别名,如物产名“野猫”与别名“野狸子”;而物产名“蔓菁”和别名“诸葛菜”之间的线值为最大值41,可以推断“诸葛菜”是“蔓菁”一个接受程度高、传播范围广的别名.

  (2)别名的分布程度.别名的分布程度是指物产名具有的别名数量和共用别名的状况,通过计算顶点点度实现.点度是指网络中一个顶点直接拥有的连线数.物产名与别名网络中,物产名点度反映的是一个物产名拥有多少别名,而别名点度反映的是一个别名同时是多少物产名的别名.点度计算和统计结果显示,约50%物产名和80%别名点度为1,表明多数物产名与别名之间的关系为一对一.物产名顶点中“稷”的点度为最大值43,是所有物产中别名数量之最;而别名顶点中“小米”拥有最高的点度10,即“小米”是10个物产名的共用别名.

  物产名称的考证是作物史研究的重要环节,相比传统研究模式下手工翻阅查找资料,社会网络分析突破了单一物产的研究路线,实现了大数据背景下批量统计分析物产的别名信息情况,通过线值和点度的统计分析,能够总体上展示物产别名的数量分布、共用状况以及记载程度等情况,有助于《方志物产》的使用者宏观地了解别名的概况.

2.2.2 信息查询和展示

  在分析《方志物产》中别名概况的基础上,研究者更加需要详细了解具体某个物产名或者别名的相关信息,如数量、名称、记载程度,这可以通过提取个人中心网络的方法实现,从整体网络中查询、抽取和展示相关结果信息.个人中心网络是指以某个顶点为观察点,包括它自身、它的邻点在内的顶点以及这些顶点之间的连线构成的集合.根据需求的不同,个人中心网络可以分为不同的级别,如1-步个人中心网络、2-步个人中心网络等.通过上文分析可知,物产名“稷”拥有最多的别名,它的1-步个人中心网络如图3.中间圆点代表物产“稷”,周围方框代表“稷”的别名,连线的长短表示线值的大小,线值越大,连线越短,反之越长.图3清晰地展示了“稷”的别名和线值大小,别名“穄”的记载次数最多,高达28次,据此推断:在“稷”的43个别名中,“穄”应是较为常用的别名.

  在1-步个人中心网络的基础上,可以继续提取更多级别的个人中心网络,展示的是某个物产的别名中有哪些同时也是其他物产的别名,那些物产又有哪些别名,如此循环.“稷”的2-步个人中心网络如图4所示,“稷”和“麻黍”具有共同的别名“穄”,还和“楮、构桃、粱、粟、谷、禾”等具有相同的别名“小米”.  

  物产的个人中心网络可以从微观角度,根据研究人员的需要,查询指定物产的别名信息,包括名称、记载次数,检索方式的改变节省文献查询的时间、精力,可视化展现方式提供图文并茂的资料查询结果.

2.2.3知识关联和发现

  个人中心网络仅展示了单个顶点的别名信息.要从复杂的网络中进行知识发现,还需要从大量的关联数据中获取,可以通过分析连通子网络进行知识发现.连通子网络是指这样的一些小网络,每个小网络内部没有孤点,所有的顶点之间都直接或间接相连,而任何两个小网络之间没有联系.经过弱连通计算,物产名与别名网络包含622个连通子网络,根据规模大小,分成22个类别.以最大规模的连通子网络为例进行局部分析,它包含131个顶点,是物产名与别名网络中的最大连通子网络,见图5.

  圆点代表物产名,方框代表别名,顶点的大小和颜色代表点度,点度越高,顶点越大,点度相同的顶点具有同样的颜色.从物产名称来看,这个网络中的顶点绝大多数是谷属类物产,包括“粟、梁、秫、谷、黍、稷”,可见物种相同或相近的物产共用别名的现象较明显.然而,也有不同类别的物产共用别名的现象存在.比如,“谷”同时是“稷”“粟”“粱”等谷类物产和果类物产“构桃”的共同别名;“竹叶青”是谷类物产“稷”和瓜类物产“香瓜”的共同别名;“狼尾”为谷类物产“稷”和草类物产“菅”的共同别名.

  连通子网络的规模大于个人中心网络,小于整体网络,为研究人员提供了中观的分析视角.社会网络分析能够突破传统的整理模式,自动化提取和可视化展示物产名与别名之间的关系,为研究人员提供量化和可视化的结果数据和再生素材,达到更加高效、精准地利用方志文献资源的预期.

  总之,社会网络分析提供的可视化技术,一方面能够将方志古籍中单纯的文字信息转换成直观的图形图像,更加生动清晰地进行信息呈现,丰富了信息展示方式;另一方面,根据数据之间的关联信息,对复杂关系进行精准的量化统计和多维度分析,提供更加详实的目标信息,有助于推动文献资料的利用和传播.

3结语

  方志类古籍中物产名与别名关系研究和已有的人物关系研究相比,有着自身的特点:(1)在数据模式上,以往研究数据多是一模数据,而本研究中物产名与别名的关系是二模数据,增加了数据的复杂性;(2)在时间范围上,人物一般处于同一个时代,而物产名与别名的关系是经历数百年甚至上千年演变,拓宽了时空的延展性;(3)在关系类型上,人物一般是多对多的关系,而物产名与别名有一对一、一对多、多对一、多对多等关系,深化了关系的多样性.

  基于社会网络分析技术,通过个人中心网络分析,以某一物产为中心,层级式提取并可视化展示关联信息;借助网络中的弱连通关系,从整体网中分解出若干个连通子网络,用于别名共用现象等知识发现,不仅可以从整体上分析展示研究资料的概况,还可以将复杂网络化繁为简,根据不同的需求进行拆分和提取,实现多元化、系统性的展示.实践证明,关联结果揭示了人工整理难以企及的效果.由此类推,物产名与别名的社会网络分析研究,可借鉴《方志物产》中物产名与人物、引书、用途等信息之间的关系研究,进而为方志类文献的智能化知识发现提供新的研究方法.

  方志类古籍数量大、类型全、时间久,是我国文化遗产的重要组成部分.本研究以山西分卷为例,探讨社会网络分析在方志类古籍智能化开发利用中的可行性和应用前景,不仅拓展了社会网络分析的适用领域,也为方志类古籍整理和利用提供新方法、新视角,促进资料的开发利用.立足山西分卷,在未来的研究中,可以进一步构建集资料格式化处理、全文数据库建设、命名实体识别、关联关系抽取、网络模型构建、社会网络分析等环节于一体的体系化模式,为基于方志类古籍中更大规模语料、更多数据特征的整理利用,提供面向数字人文视角的新路径.

参考文献

[1] 刘军. 社会网络分析导论[M]. 北京:社会科学文献出版社,2004:1-14.

[2] 许超,陈小荷.《左传》中的春秋社会网络分析[J].南京师范大学文学院学报,2014(1):179-184.

[3] 陈蕾,胡亦旻,艾苇,等.《红楼梦》中社会权势关系的提取及网络构建[J].中文信息学报,2015(5):185-193.

[4] 夏方朝. 适用于动态社会网络的社团发现算法的研究与实现[D]. 沈阳:东北大学,2013.

[5] 韩普. 基于语料库的词汇级知识挖掘研究[D]. 南京:南京大学,2013.

[6] 柯平,宫平. 数字人文研究演化路径与热点领域分析[J]. 中国图书馆学报,2016(6):13-30.

[7] 李昕升,丁晓蕾,王思明. 农史研究中“方志·物产”的利用——以南瓜在中国的传播为例[J]. 青岛农业大学学报(社会科学版),2014(1):68-72.

[8] 李娜,包平. 基于《方志物产》的物产分类体系智能化研究——以《方志物产》山西分卷为例[J]. 中国农史,2016(4):31-38,143.

[9] 朱锁玲,包平. 方志类古籍地名识别及系统构建[J]. 中国图书馆学报,2011(3):118-124.

[10] 衡中青,刘竟,侯汉清.《方志物产》引书挖掘及分析研究——以《岭南丛述》(物产)为例[J]. 中国农史,2007(3):132-139.

[11] 白振田,衡中青,侯汉清. 地方志引书挖掘系统的设计与实现[J]. 图书馆杂志,2008(8):50-54,58.

[12] 朱锁玲,王明峰. GIS在方志类古籍开发利用中的应用初探[J]. 大学图书馆学报,2013(5):118-121.

[13] 王思明,陈少华. 万国鼎文集[M]. 北京:中国农业科学技术出版社,2005:375.

[14] 衡中青. 地方志知识组织及内容挖掘研究[D]. 南京:南京农业大学,2007.

[15] 游修龄. 农作物异名同物和同物异名的思考[J]. 古今农业,2011(3):46-50.

[16] 孟微,庞景安. Pajek在情报学合著网络可视化研究中的应用[J]. 情报理论与实践,2008(4):573-575.

作者简介 李娜,南京农业大学中华农业文明研究院博士研究生;包平,南京农业大学中华农业文明研究院、南京农业大学信息科学技术学院教授,博士生导师.

收稿日期 2017-06-08

(责任编辑:刘洪)

社会网络论文参考资料:

网络营销论文

计算机网络毕业设计

网络营销相关论文

网络论文

社会心理学论文

和谐社会论文

汇总:上文是关于社会网络方面的大学硕士和本科毕业论文以及别名关系和中物和可视化相关社会网络论文开题报告范文和职称论文写作参考文献资料。

和你相关的