分类筛选
分类筛选:

比较研究类有关毕业论文模板范文 和基于自然语言Python的长文本比较以《管子》和《国富论》经济思想比较为例有关开题报告范文

版权:原创标记原创 主题:比较研究范文 类别:发表论文 2024-03-15

《基于自然语言Python的长文本比较以《管子》和《国富论》经济思想比较为例》

该文是比较研究方面毕业论文题目范文和自然语言Python和《国富论》和《管子》相关开题报告范文。

姜安印 冯龙飞

(1.兰州大学经济学院

甘肃兰州 730000)

摘 要:文本比较作为人工智能的重要应用,在语言分析、比较研究乃至学术诚信等方面有着广泛应用.文章以中国古代具有重要经济学价值的《管子》和西方古典主义经济学重要著作《国富论》作为比较范本,借助Python语言及相关模块,以较高的效率和精度实现了长文本比较.研究发现,通过人工智能自然语言处理语言及技术,能实现对经济学长文本比较研究,这一方法在未来还可以探索应用到其它社会科学领域.

关键词:人工智能;自然语言处理;文本比较;Python;国富论;管子

中图分类号:TP18;F01 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2018026

Research of Co-term Analysis of Long Text Comparison based on Python

——Case Study of the Economic Thoughts in Wealth of the Nations and Guanzi

Abstract Text comparison based on information technology becomes a very important tool in nowadays academic research as linguistic analysis, academic thoughts and academic integrity examination. This paper focused on the long text comparison with the approach of Co-term Analysis on Python and used the economic thoughts comparison between Wealth of the Nations and Guan Zi to explore the way to do future thoughts comparison in economic and other social science with better efficiency and accuracy.

Key words artificial intelligence; Natural Language Process(NLP); text comparison; Python; Wealth of the Nations;

Guan Zi

文本比较是指通过对相似范畴和内容的文章或书籍进行对比,研究其文字、观点和思想的异同,从而实现言语特征分析、学术思想比较乃至学术诚信检验等多种目的.随着信息技术和互联网技术的发展,基于计算机的文本比较特别是长文本比较在现代社会科学中有了越来越广泛的应用.在实际应用中,通过借助Python等编程语言,运用jieba分词模块进行文本比较,可以有效的提高信息筛选和对比的效率和精度,相比其他方法具有较大优势.在经济学中,以文本比较为重要手段的经济思想比较是制度经济学和经济史研究的常用方法,特别是东西经济学思想比较在研究制度变迁、社会变化、政策效果等方面具有重要意义.本文试图借助Python语言对《管子》和《国富论》两书进行比较,探讨两书之间的思想异同,同时对如何利用计算机技术进行未来的经济学和其他社会科学思想的比较研究进行了探索.

1 文献综述

1.1

文本比较方法研究

传统上,文本比较主要采用通过对不同文本的阅读和统计分析,对表述、内容、主旨进行手动整理和对比,针对文章的某一角度或某一内容进行比较来得出结论.由于文本比较涉及大量信息,而传统手工比较效率太低,往往需要利用计算机高速计算、海量处理、自动迭代的特点进行数据分析.作为抽取分析文本的有效工具,文本分析工具应运而生[1].IBM计算机科学家Hans Peter Luhn[2]研究了词频统计在文本比较中的应用,在20世纪中叶创造了 KWIC (Key Words In Context,文本关键词)这一分析方法和工具,对计算机技术用于文本比较起到了开创性作用.经过几十年发展,计算机文本比较形成了两种模式,一方面是KH Coder、 WordStat和WordSmith Tools[3]等软件的分析方法,特点是使用门槛低便于操作,但也存在难以满足化需求;另一方面是基于C、C++、Python、Ja、PHP等编程工具的分析方法,该方法需要一定的编程基础,但是具有较高的灵活性,可以满足各种化需求.如本文选取的基于Python的jieba模块[4],以Trie树结构[5]为原理,用实现高效的词图扫描将所有可能成词情况构成有向无环图(DAG),并以动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词则采用HMM模型用Viterbi算法[6]进行切分.通过这一方法进行文本分析,效率更高,分词结果也更为准确.

1.2

文本比较实例研究

通过对近十年文本比较研究的实例梳理总结,发现文本比较主要应用于同一著作不同版本的研究和相似内容著作间的研究两类.

(1)对同一著作的不同译本或版本的比较主要集中在文学著作和历史文献.①文学方面,有学者对不同版本的《琵琶记》[7]《庐山恋》[8],不同英译本的《红楼梦》[9]《乡愁》[10]进行了比较,还有学者通过赫胥黎《进化论与伦理学》不同译著的对比,发现严复译《天演论》与其他汉译版本存在着明显的差异[11];②史学方面,有学者对比满文、拉丁文、俄文三种版本的《尼布楚条约》,两两印证,排除了个别版本中不一致的内容和表述,确定了一些存在争议的条约细节[12].

(2)对相似内容著作间的文本比较主要集中在跨语种著作和新旧著作.跨语种著作比较过去主要集中在经典著作,如有学者通过对比《资本论》与《国富论》,对资本争论进行溯源[13],有学者通过比较史诗《满都莫日根》《英雄格帕欠》,探讨两者叙事结构的异同.近年来研究范围不断扩展到各类文本,如有研究者通过比较研究人教版高中物理教科书和英国A-Level版教科书,探讨教育理念的异同[14],有学者侧重技术角度,对法学研究中美宪法进行了文本比较,研究其意识形态差别[15].新旧著作比较研究主要集中在历史、政策、法律等方面,探讨其中基于不同历史背景下的时代视角或制度变迁带来的思想变化,如有学者侧重写作年代和背景,比较研究了蒋廷黻版《中国近代史》和李侃版《中国近代史》[16], 还有研究者对党的十七大报告与十六大报告相关内容进行文本比较,研究了国有企业的发展路径与时代走向[17].

1.3

《管子》和《国富论》的文本比较研究

《管子》作为管仲及其学派的思想和著作汇编,三分之二篇目涉及经济问题[18],是中国古代具有重要经济学价值的著作,与《国富论》等西方经济学经典的比较也成为经济思想史的热门课题.早在近代洋务运动,仁人志士从西学中探寻救国之道时就眼光聚焦到《管子》,梁启超提出《管子》中许多思想与《国富论》一致[19].国外研究方面,Lewis[20]认为,《管子》与重农学派的观点惊人相似,与《国富论》具有相同思想基础.美国《经济思想史》[21]将《管子》称为中国的《国富论》,认为其体现了供需理论、数量理论、反周期财政政策和市场理论等思想.但这些结论的取得,包括当前经济学研究中多数文本比较研究多凭借研究者对书本的深入阅读了解和对其他学者成果的引用,很少借助现代的文本分析技术,费时费力,也难免有不全面的地方[22].

2 研究思路和设计

本研究采取了当前信息化文本比较的常用思路,即通过对提取的高频词进行比较分析来实现对应文本的比较,将语言问题转换为数学问题进行解决,从而实现自然语言比较的批量化与自动化处理.在具体操作时考虑到以章节为单位文本过长,而且每一章节思想较为混杂;以句为单位文本又较短,且许多句子无法完整表示作者思想,因而确定以段落为单位,兼顾思想的完整性和文本的简洁性(具体研究设计见图1).

2.1

著作版本的确定

两书分别采用古汉语和近代英语且各自版本较多,比较前需选定语言和版本.本研究对市面各种版本的筛选确定了中华书局李山译《管子》[23]和商务印书馆郭大力、王亚南译《国民财富的性质和原因的研究》[24].主要基于以下考虑:一方面,按照资源库和语言特征,英语是进行比较的理想语言,但市面上《管子》的英译本较少,全译的仅有Rickett的译本[25],虽然专业精准,但晦涩难懂,通常限于国外汉学家研究[26];另一方面,现代汉语虽然与编程语言结合度不如英语,但考虑到两书的现代汉语译本都比较丰富,仅在豆瓣、淘宝等平台上搜索到的《管子》译注就有19种,《国富论》更是有25种,且普遍内容质量较高,可选性较强.

2.2

研究工具的选择

由于本文选取的研究对象比较庞大,两篇著作的总字数约80万字,研究过程中涉及对两书2996个自然段的分析比较,同时分析过程设计大量的循环、迭代、替换、条件判断等运算.

选取Python作为研究工具(版本为Python2.7.13).Python作为面向对象、解释型、动态数据类型的开源程序设计语言[27],除了自带的标准库,还积累了大批由程序员和工程师不断创造添加的第三方库.这一特点使得基于Python编程时可直接调用标准库和第三方库中的已有内容来大大减少重复工作.在文本分析方面,Python也具有较为丰富和成熟的各类库文件,在文本比较的相应步骤可调用库文件来提高效率,实现大型长文本的快速比较.

3 研究过程

3.1

文本预处理和分词

将《管子》和《国富论》导入txt文本文件,将文本编码转换为Python语言支持的utf-8中文格式.

配置好Python环境后,将处理后的文本导入Python,调用jieba-0.39版本模块将自然段中的意群进行词汇切分[28].

3.2

词频统计

词频(Term Frequency,TF)统计作为一种经典的文本分析方法,是指抽样一定数量和长度的语料,计算其中不同词语的出现次数,进行频率分析,从而确定文本的高频词,便于对重点内容和主旨要义进行更加深入地研究[29].

本研究首先结合网上现有的“哈工大停用词词库”“四川大学机器学习智能实验室停用词库”“百度停用词表”等资源,对jieba模块自带停用词表进行整理,用所得停词表去除标题序号、语气虚词、关联词等无分析意义词汇,再参照《经济学词典》[30]中的词条对剩余词汇进行整理,然后对同、近义词汇进行合并,结合齐普夫定律(Zipf´s Law)中的词频分布规律,通过标引规则对词汇进行控制分析,最终确定高频词并编号(见表1).

3.3

生成高频词矩阵

确定高频词表后,通过构建高频词矩阵将抽象的语义分析转化为可计算的数学问题.首先将高频词以自然段为单位分组,将段落简化为相应的高频词数组,从而将全文转化为矩阵;然后进行去重,并对重复高频词进行累积求和;最后将所有高频词全部替换为相应序号,生成高频词矩阵(见图2).

3.4

相似度比较

高频词矩阵生成后,进一步对矩阵进行相似度比较.

方法上以Jaccard指数[31]来衡量矩阵相似性,并得出相应的相似度.Jaccard指数取值范围为[0-1],值越大相似度越高.

其中A■表示《国富论》中第i段高频词集合,Bj表示《管子》中第j段高频词集合,Jac(i,j)表示《国富论》中第i段与《管子》中第j段基于高频词的相似度,如Jac(3,2)即表示《国富论》中第3段与《管子》中第2段的相似度(见表2).

在Python下,调用intersection与union函数进行运算,遍历比较两矩阵各行,得到任意两行的相似度,所得相似度即为两书对应自然段的比较.然后按照皮尔逊相关分类剔除相似度小于0.4及高频词小于4的弱相关项,初步选出具有一定相关度的对比组276项(筛选出的段落比较见表3).

3.5

研究结果和数据处理

通过序号回查,找到各项在两部著作中对应的段落,进行进一步比较分析.

逐项阅读分析这276项对应段落的内容,手动剔除出与经济学关联较弱项和误识别项,对剩余的各项按照社会分工、理论、税收和国营、国家资源、奢侈、国际贸易、统治手段进行分类,然后合并同类中内容相似的内容,并对相似的主旨进行提炼,最终得到比较结果(示例见表4).

4 结论

(1)初步实现了长文本比较的智能化.利用Python语言及相关模块,进行相似度比较,按照词频的大小提取出高频词,归纳相似思想,成功对应到了两本著作的相似思想和观点,对长文本比较的方法进行了创新和拓展,进一步提高了长文本比较的效度和精度.未来应用该方法,可实现对书籍和书籍间、文章和书籍间等各类长文本比较的自动化与批量化处理,在繁杂的自然语言和冗长的篇幅中高效提取、筛选、比较信息.

(2)近义词识别进一步提高了有效比对的范围.由于Python第三方库中强大的近义词汇系统,本方法可以在很大程度上利用人工智能识别出文字不同但文意雷同或相近的内容,提升了词频统计的效度,降低了系统误判的概率,这一点较单纯比较文字的现有学术查重系统是一个进步,值得在这一方向上进一步探索和应用.

(3)应用于案例文本后得出了比前人更加全面的结论.即早在春秋时期,《管子》就已熟练运用《国富论》倡导的一套完整的调控思想(轻重之术),初步建立起了有体系的经济学理论和框架,成书背景方面,战国和18世纪欧洲有着列国纷争的相似之处,英国和齐国作为当时强国,有着坐拥海洋之利、善于商贸的相似之处;写作视角方面,《管子》作为管理者和决策者来制定和检验经济政策,《国富论》则以历史经验检视和理论分析为主,视角上更像是一个观察者;经济政策方面,《管子》比《国富论》更为积极,主张国家掌控货币金融和自然资源,利用杠杆、贸易等手段进行调控,获得财富和稳定.

(4)文本比较在智能化方面还有提升空间.作为一个探索性研究,本研究尚有一些需要改进的不足之处,主要是自动文本比较的精准度还有待进一步提高,需要后期人工剔除的选项较多,无法完全做到利用计算机的全过程智能比较.分析原因,一方面是受制于自然语言浑浊模糊的非逻辑性特点,比较中难以做到完全的精准识别定义;另一方面,由于Python第三方库中的中文字典尚有进一步充实改进的空间,客观上也制约了筛选比较的精准度.

参考文献:

[1] 程慧荣,黄国彬,郑琳,等.非结构化文本分析软件比较研究[J].图书与情报,2015(4):110-117.

[2] H P Luhn.A Statistical Approach to Mechanized Encoding and Searching of Literary Information[J]. IBM Journal of Research and Development,1957(4):19.

[3] 毛毳,邱天河.WordSmith在翻译批评中的应用——借助WordSmith工具分析《匆匆》译文的风格[J].科技信息,2007(34):14-16.

[4] Sun Junyi.结巴中文分词项目[EB/OL].[2017-08-28].https://github.com/fxsjy/jieba.

[5] 杨文川,刘健,于淼.基于双数组Trie树的中文分词词典算法优化研究[J].计算机工程与科学,2013(9):127-131.

[6] 李荣,郑家恒.一种改进Viterbi算法的应用研究[J].计算机工程与设计,2007(3):530-533.

[7] 黄仕忠.元明戏曲观念之变迁——以《琵琶记》的评论与版本比较为线索[J].艺术百家,1996(4):14-24.

[8] 刘传霞.爱情的结构与重建——两个“庐山恋”文本的比较[J].山东师大学报(社会科学版),1999(2):87-89.

[9] 陈曜.《红楼梦》及英译本在中国的研究现状[J].理论月刊,2007(11):128-130.

[10] 王进.《乡愁》英译文本比较研究[J].中国校外教育,2015(3):382.

[11] 耿传明.严复的《天演论》与赫胥黎的《进化论与伦理学》[J].文艺理论研究,1997(6):69-74.

[12] (日)野见山温.《尼布楚条约》不同文本的比较研究[J].黑河学刊,1996(6):101-104.

[13] 张谡.资本争论的理论溯源:基于《资本论》与《国富论》的文本比较分析[J].学术论坛,2016(10):18-21.

[14] 温博.赫哲族史诗《满都莫日根》与鄂伦春族史诗《英雄雄格帕欠》的文本比比较研究[D].福州:福建师范大学,2013.

[15] 乔耀章,冯志峰.法学研究中美宪法文本比较之技术路径[J].山东高等教育,2008(2):57-67.

[16] 范美琪.两种视野下的中国近代史——蒋廷黻的《中国近代史》和李侃等人的《中国近代史》之比较[J].潍坊学院学报,2017(2):75-77.

[17] 谢保平.国有企业的发展路径与时代走向[J].企业家天地,2008(1):86-87.

[18] 李霞.本世纪以来《管子》研究简介[J].哲学动态,1994(3):40-43.

[19] 梁启超.饮冰室合集[M].北京:中华书局,1989.

[20] Hamilton C H.Economic Dialogues in Ancient China.Selections from the Kuan-tzu,by Lewis Merick[J].Artibus Asiae,1954,

18(1):84.

[21] Harry Landreth,Did C.Colander.History of Economic Thought[M].South-Western College Pub,2001.

[22] 钟祥财.中国近代研究经济思想史的方法论特点:以梁启超为例[J].财经研究,2010,36(8):37-46.

[23] 管仲.李山译注.管子[M].北京:中华书局,2009.

[24] (英)亚当·斯密.郭大力,王亚南译.国民财富的性质和原因的研究[M].北京:商务印书馆,2015.

[25] 张燕,李克.《管子》英译本描述性研究[J].山东理工大学学报(社会科学版),2017(1):60-65.

[26] Dobson W A C.Book Review:Science and Civilisation in China[J].The Journal of Asian Studies,1957,12(4):317-319.

[27] 狄博,王晓丹.基于Python语言的面向对象程序设计课程教学[J].计算机工程与科学,2014(S1):122-124.

[28] 彭琦,俞春强.浅析中文分词方法[J].信息通信,2015(3):92-95.

[29] 尹斌庸,方世增.词频统计的新概念和新方法[J].语言文字应用,1994(2):69-75.

[30] (法)热叙阿.李玉平,等译,经济学词典[M].北京:社会科学文献出版社,2013.

[31] Tan P N,Steinbach M,Kumar V.Cluster analysis:basic concepts and algorithms[J].Introduction to data mining,2006(8):487-568.

作者简介:姜安印,男,兰州大学经济学院教授;冯龙飞,男,兰州大学经济学院博士研究生.

比较研究论文参考资料:

上文汇总,此文为一篇关于自然语言Python和《国富论》和《管子》方面的比较研究论文题目、论文提纲、比较研究论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

和你相关的