汉语方面有关参考文献格式范文跟基于CRITIC加权赋值的汉语句子难度测定类论文范本

《基于CRITIC加权赋值的汉语句子难度测定》

本文是汉语类有关硕士学位毕业论文范文跟CRITIC加权赋值和句子和汉语方面硕士学位毕业论文范文。

郭望皓

（解放军外国语学院外训系,江苏昆山 215300）

[摘

要] 论文利用汉语字、词难度,推算句子难度,考察了句子难度与字、词难度之间的数量关系,一方面选取最为合适的维度考察字、词在句子难度测定时的作用；另一方面计算字、词难度与句子难度的量化关系.通过CRITIC加权赋值,得出8组句子难度的测定公式.检验结果显示,由8个公式计算得出的汉字、词汇的难度值与句子难度之间均存在显著的正相关关系,与加权之前相比,相关性均有增加.

[关键词] CRITIC加权赋值；句子难度；测定

中图分类号： H 146.3

文献标识码：A

文章编号：1672-8610（2016）12-0010-03

一、研究目的及意义

句子作为一个能够表达相对完整意思的语言单位,是一个无限和开放的集合.相对而言,字、词则可看作有限而且封闭的集合.因此,可以用频率估测字、词的难度,但对句子难度难以进行直接测定.通过定量研究的方式根据字、词难度推算句子难度,也就是考察句子难度与字、词难度之间的数量关系,是本文研究目的所在.具体而言,本文有以下两个研究目的：

1.选取最为合适的维度考察字、词在句子难度测定时的作用；

2.计算字、词难度与句子难度的量化关系.

句子难度测定是文章难度测定的基础,可为文本易读性公式的拟合,实现文本难度的自动测算,迅速有效进行文本难度分类,提供可靠支持.

二、测定方法

本文选用的计算方法为CRITIC（Criteria Importance Through Intercriteria Correlation）加权赋值法.CRITIC法是由Diakoulaki提出的一种客观权重赋值方法[1].它的基本思路是以两个基本概念为基础确定指标的客观权数.这两个基本概念：一是对比强度,它表示了同一个指标各个评价方案之间取值差距的大小,以标准差δj的形式来表现,即标准差的大小表明了在同一个指标内各方案取值差距的大小,标准差越大各方案之间取值差距越大.二是评价指标之间的冲突性,指标之间的冲突性以指标之间的相关性为基础,如两个指标之间具有较强的正相关,说明两个指标冲突性较低.第j个指标与其他指标的冲突性的量化指标为,其中rkj是评价指标k和j之间的相关系数.各个指标的客观权重就是以对比强度和冲突性综合衡量的.设Ej表示第j个评价指标包含的信息量,则Ej可表示为：（1）Ej越大,第j个评价指标包含的信息量越大,该指标的相对重要性也就越大,所以第j个指标的客观权重Wj应为：（2）

该法既考虑了指标变异大小对权重的影响,又考虑了各指标间的冲突性.当标准差一定时,指标间的冲突性越小,权重越小；冲突性越大,权重也越大.由于这种方法不需人工干预、计算量不大等优点,故广泛应用于金融、医疗、农业等多种学科.

三、实验步骤

实验包括语料选取与处理、变量选取与处理、权重计算三个部分.

(一)语料选取与处理

1.语料选取.我们选取了《博雅汉语》系列教材中的28篇课文作为实验的基本语料.《博雅汉语》系列教材共九册121篇课文,按照上文的分级,将九册教材分为初、中、高三个级别,初、中、高的课文总量分别为55篇、38篇、28篇.在此基础上,考虑到难度分布的实际,按照不同的比例,等距离从这三个级别中分别选取10篇、9篇、9篇课文.其中初级每六课选取一篇,中级每四课选取一篇,高级每三课选取一篇.

2.语料处理.先将选取的28篇课文录入计算机,共计40722字.然后运用北京大学詹卫东博士提供的TextPreProcessing程序对文本进行预处理,具体包括删除空格、文本断句和句子编号三个步骤.通过机器自动断句,辅之以人工校对,共得到1261个句子,其中初级课文中的句子数量为253个,中级为320个,高级为688个.最后采用分层随机抽样的方式,分别从这三个级别中选取30个句子考察句子与字、词难度的关系.随机数的生成采用Random.org网站上的随机数生成程序,该程序利用大气噪音生成随机数,相对于计算机生成的伪随机数而言,属于真随机数生成器.根据生成的90个随机数,提取序号相同的90个句子作为我们实验的对象.它们所属的课文编号即是它们的难度.

接下来对90个句子进行切词及词性标注.切词、标注采用的是先机器自动切分标注,然后进行人工校对.校对的总标准以《汉语水平词汇与汉字等级大纲（修订本）》[2]词汇等级大纲为准,即大纲中作为一个词语的,实验材料中也划为一个词语.由于《大纲》中仅收录了8822个词语,所以在校对过程中又同时参考山西大学计算机与信息技术学院的《973当代汉语文本语料库分词、词性标注加工规范（草案）》[3],也参照中华人民共和国国家标准《信息处理用现代汉语分词规范》[4]和北京大学计算语言学研究所的《北京大学现代汉语语料库基本加工规范》[5].

在对词语校对的同时,对词语的难度进行标注.难度标注以《汉语水平词汇与汉字等级大纲》为标准.未收录在大纲中的词语一律标注为超纲词.

(二)变量选取与处理

对90个句子的变量进行统计.统计的变量包括字次数、比例,字种数、比例,词次数、比例及词种数、比例在内的4大类8小组共计40个变量.具体变量名称见表1.

下一步要对选取的40个变量进行量化处理,具体方法是：

字层面上：首先使用Microsoft Office Access 2007软件,计算每个句子包含的非重复字数（不含标点符号、人名及地名,但包括其他专有名词）,即重复出现的字只按一个计算,以消除各段汉字复现率不同带来的差异,计算非重复字数时不包括人名、地名用字.根据《汉语水平词汇与汉字等级大纲（修订本）》中的汉字等级大纲,利用Visual Studio 2012进行编程,计算四个等级的汉字的字次数、字种数及其各自比例.

词层面：根据切词的结果,同样使用Visual Studio 2012编程,根据《汉语水平词汇与汉字等级大纲（修订本）》中的词汇等级大纲,分别计算不包括人名、地名的四个等级的词次数、词种数及其各自比例.

(三)权重计算

根据上文选取的变量,我们一共统计了3600个数据（90×40等于3600）,称之为原始数据.将这3600个原始数据按照各级别字次数量（以下简称字次数）,各级别字种数量（以下简称字种数）,各级别占字次比例（以下简称字次比）,各级别占字种比例（以下简称字种比）,各级别词次数量（以下简称词次数）,各级别词种数量（以下简称词种数）,各级别占词次比例（以下简称词次比）,各级别占词种比例（以下简称词种比）,分成八组,每组分别进行数据标准化处理并用CRITIC法计算各级别在本组中所占权重.具体方法如下所示.

1.数据标准化.数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面.数据同趋化处理主要解决不同性质数据问题,由于对不同性质指标直接加和不能正确反映不同作用力的综合结果,所以须首先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加和才能得出正确结果.在本实验中,考察甲级字、词的比例时,由于其数值与难度成负相关,要将该数据趋同化处理.数据无量纲化处理主要解决数据的可比性,在此采用指数化处理方法.指数化处理以指标的最大值和最小值的差距进行数学计算,把数据映射到区间［0-1］之上.具体公式如下：

其中,i表示句子编号,j表示各组中的级别（从1到5分别表示甲级到超纲）

表示第i个句子的第j个级别的数据.在将甲级字次比、甲级字种比、甲级词次比、甲级词种比四组数据标准化时,采用公式（4）；其他数据标准化采用公式（3）.

2.CRITIC加权赋值法

下面给出CRITIC法求权重的具体算法：

步骤1：将原始数据fij标准化为dij（公式3或4）；

步骤2：根据标准化数据dij求其所占比例pij（公式5）；

步骤3：根据pij计算5个级别之间的相关系数rkj（SPSS计算相关系数）；

步骤4：对1减相关系数rkj进行加和运算,公式为：

；

步骤5：求标准化数据dij的标准差δj（SPSS计算相关系数）；

步骤6：计算第j个级别包含的信息量Ej（公式1）,即步骤4与步骤5所得结果之积；

步骤7：求得最后的权重系数Wj（公式2）.

四、结果分析

本部分根据CRITIC法求出的每个级别的难度系数值Wj,求出每个句子的字、词难度,并将该字、词难度与句子难度进行相关分析,以探求如下两个问题：

（1）运用CRITIC法计算出来的各级别权重系数是否合理；

（2）对分别计算的8组变量进行比较,看究竟哪几组变量与句子难度相关性更高.

(一)句子难度与变量的相关性分析

在上文中,我们将40个变量分为四大类八小组,这四大类分别是字次、字种、词次及词种.表2给出了各变量与句子难度的相关系数.

**.相关性在0.01水平上显著（双尾）.

*.相关性在0.05水平上显著（双尾）.

从表2中我们不难看出句子难度与其中33个变量在0.01显著水平上呈相关,其中与甲级字比例有关的四个因素呈负相关；与1个变量（甲级词词次数量）在0.05显著水平上呈正相关；与6个因素不相关,这6个不相关的因素分别是丁级字字次数量、丙级字字次比例、丁级字字次比例、超纲字字次比例、超纲字字种比例和甲级词词种数量.

在这四十个变量中与句子难度相关性最高的变量是甲级词的词次比例,呈显著的负相关关系,相关系数的绝对值达到了0.759.在八个小组中,字种数、词次数、词次比和词种比四组变量中所有的子变量与句子难度呈显著相关.

(二)CRITIC法赋值结果分析

我们0个数据进行了分组演算,得到各分变量的权重系数矩阵.

设甲、乙、丙、丁、超纲五个级别的数量或比例分别为A、B、C、D、E,y为句子中字或词的难度.y与A、B、C、D、E成线性相关关系,则：

将表3的权重系数矩阵中的数据分别代入公式6,得到以下8个公式,分别代表以字次数、字种数、字次比、字种比求得的汉字难度,及由词次数、词种数、词次比、词种比求得的词汇难度.

（6-1）y等于0.140*A+0.215*B+0.171*C+0.201*D+0.273*E

（6-2）y等于0.148*A+0.182*B+0.137*C+0.215*D+0.283*E

（6-3）y等于0.136*A+0.252*B+0.294*C+0.184*D+0.134*E

（6-4）y等于0.158*A+0.281*B+0.229*C+0.169*D+0.161*E

（6-5）y等于0.157*A+0.206*B+0.163*C+0.167*D+0.307*E

（6-6）y等于0.210*A+0.165*B+0.151*C+0.205*D+0.269*E

（6-7）y等于0.132*A+0.185*B+0.249*C+0.246*D+0.188*E

（6-8）y等于0.133*A+0.203*B+0.207*C+0.242*D+0.215*E

将变量选取之后统计而得的3600个原始数据,分别代入以上八个方程,得到90个句子汉字、词汇的各四组难度值.再把该难度值与句子难度进行Pearson相关分析,具体结果如下.

1.汉字难度与句子难度相关性检验.经过加权计算得出的汉字难度与句子难度的相关系数见表4.

**.相关性在0.01水平上显著（双尾）.

*.相关性在0.05水平上显著（双尾）.

从表中我们可以得到以下事实：

（1）经过加权的字次数、字种数、字次比和字种比与句子难度都呈显著的正相关关系.相关系数最高的是字种数,相关系数最低的是字种比.

（2）加权之后的字次数与字种数之间的相关性极高,达到了0.977.

（3）从整体来看,加权后在汉字这一层面,字次数和字种数与句子难度的相关性更高.

根据表4与表2的比较,可得出以下结论：

加权后的汉字难度与句子难度相关性高于加权之前.加权之后相关性最高的是字种数,相关系数为0.665,最低的是字种比,相关系数为0.430,并且所有数值在0.01水平上呈显著性正相关.而加权之前与句子难度相关性最高的是乙级字字次数量,相关系数为0.583,相关度最低的是超纲字字种比例,相关系数仅为0.022,在20个数据中有5个相关性不显著.因此,可以认为加权后得到的汉字难度值与句子难度的相关性较加权之前有较大幅度的提高,加权不仅实现了降维的目的,而且较加权前的数据更具合理性.

由于句中总字次数一般作为句长的测量标准,句长也是句子难度的重要指标,为避免线性回归中的共线问题,在这里选用加权后的字种数作为汉字的难度.即句中汉字难度的测量值为：

（6-2）Yzi等于0.148*A+0.182*B+0.137*C+0.215*D+0.283*E

（A、B、C、D、E分别为句中甲、乙、丙、丁、超纲字的字种数）

我们选用的这一自变量与王蕾易读性公式中选用不重复字作为自变量实为同一种变量[6].不重复字数即是字种数,二者正好可以相互印证,反映出汉字字种数确实在测量句子、文本的难度中有着不可忽视的重要作用.

2.词汇难度与句子难度的相关性分析.与上文中汉字难度的计算过程相同,通过（6～5）至（6～8）四个公式的计算,得到加权后的词汇难度值,从而实现将5个级别的词汇难度数值或比例用一个统一值表示,为下面易读性公式拟合时减少了自变量的数量,从而为提高公式的可靠性奠定基础.加权之后词汇难度与句子难度的相关性见表5.

**.相关性在0.01水平上显著（双尾）.

从表中可看出,加权后的词次比与句子难度级别的相关系数达到了0.767,其余三项与句子难度的相关系数处于0.5～0.6之间,全部四项相关系数均在0.01水平上呈显著正相关.

与加权之前的表2进行比较,在表2中相关系数最高的指标是甲级词词次比例,相关性的绝对值为0.759,低于加权之后最高值0.767,但高于其他三项指标的相关系数.即若采用加权后的词次数、词种数和词种比的任何一种作为词汇难度的测量标准,都不如直接采用甲级词词次比例作为标准的准确性高,因此,只能采用加权后的词次比作为词汇难度的测量标准.即词汇难度的测定公式为：

（6-7）yci等于0.132*A+0.185*B+0.249*C+0.246*D+0.188*E

（A、B、C、D、E分别为句中甲、乙、丙、丁、超纲字的词次比）

五、结论

本文我们对句子难度和汉字、词汇难度之间关系进行了量化分析.通过CRITIC法对每个难度级别的字、词变量进行加权处理,得出八个测量汉字、词汇难度的公式,并对其进行相关系数的检验.检验结果显示,由8个公式计算得出的汉字、词汇的难度值与句子难度之间均存在显著的正相关关系.与加权之前相比,相关性均有增加.其中效果最好的两组公式分别以字种数测量汉字难度的公式（6～2）和以词次比测量词汇难度的公式（6～5）.这两个公式,均以《汉语水平词汇与汉字等级大纲（修订本）》为难度划分的标准,以句中字、词难度分布为自变量,考虑到每一个字、词的作用,因而依靠其作为句子难度的测定公式,灵敏度要更高.另外,这两个公式测定的汉字与词汇的难度均可作为自变量进入文本易读性公式的拟合,从而实现了对自变量数目的控制,为公式的拟合优度提供前提和保障.

【参考文献】

[1]王昆,宋海洲.三种客观权重赋权法的比较分析[J].技术经济与管理研究,2003,24（6）.

[2]国家汉语水平考试委员会办公室考试中心.汉语水平词汇与汉字等级大纲（修订本）[S].经济科学出版社,2001.

[3]杨尔弘.973当代汉语文本语料库分词、词性标注加工规范（草案）[D].山西大学计算机与信息技术学院,2003.

[4]GB/T13715-9. 信息处理用现代汉语分词规范[S].1992

[5]俞士汶,段慧明.北京大学现代汉语语料库基本加工规范[J]. 中文信息学报,2002,17（5）.

[6]王蕾.初中级日韩留学生文本可读性公式初探[D].北京语言大学硕士论文,2005.

汉语论文参考资料：