分类筛选
分类筛选:

关于文本分类函授毕业论文范文 与面向传媒领域文本分类训练器的设计相关在职毕业论文范文

版权:原创标记原创 主题:文本分范文 类别:发表论文 2024-01-15

《面向传媒领域文本分类训练器的设计》

本文是关于文本分相关函授毕业论文范文与传媒和文本和面向类在职毕业论文范文。

宋燕燕

中国传媒大学南广学院,江苏南京 210000

摘 要 传媒领域存着在大面积的领域知识,这类领域知识将特征项与文本类别相关联在一起,非常有助于区分文本的具体类别.本文设计方面一种面向传媒领域知识的文本分类训练器,旨在提高传媒领域文本的分类性能.训练器将以非常直观的方式实现关键词检索,特征词提取,文本分类功能,可以方便地对未知的文件进行分类,统计文本关键词出现的频率和文本内容的训练.

关键词 文本分类;传媒领域;词频统计;特征词

中图分类号 TP3 文献标识码 A 文章编号 2095-6363(2016)12-0032-02

作者简介:宋燕燕,讲师,中国传媒大学南广学院,研究方向为多媒体技术、虚拟现实.

伴随着互联网的迅猛发展和日益遍及,互联网数据量剧增,电子文本信息迅速的扩大,如何有效地安排和管理这些信息,并且迅速、精确地找到用户所需要的信息是当时信息技术领域面对的一大应战.文本分类作为处理和安排很多文本数据的关键技术,能够在较大程度上处理信息乱现象的问题,便利用户精确地定位所需的信息和分流信息.

文本分类是指采用计算机程序对文本集按照一定的分类体系进行分类标记和有效管理,方便用户进行查询.文本分类训练器的设计通常包括文本的特征向量表示、文本特征向量的降维,以及文本分类器的设计与测试等.

本文通过分析利用Ja 技术构建分类训练器的结构框架,明确了基于Ja 构建分类训练器理论可行性,并进一步设计了系统的技术流程和功能实现,从而为面向传媒领域的文本分类训练器的研究和应用提供了一种方法.

1 相关技术介绍

文本分类问题的困难之一便是特征空间的高维性,而特征提取的主要功能就是在保留文本核心信息的情况下尽量减少要处理的单词数,也就是降低向量空间维数,从而提高文本处理的效率和精度.特征提取方法成为文本分类中首先要解决的问题[1].

特征提取的常用办法分为根据概率的特征提取办法和根据语义的特征提取办法[2].根据概率的特征提取办法是先对文档进行分词,过滤掉停用词,并用传统算法对词语权重进行核算,得到权重的排序后,按权重值的大小选择相应的特征作为文档的特征关键字.而根据语义的特征提取办法是在过滤掉停用词后对词语构建网络结构,经过词语网络结构对特征权值进行核算,从而得到终究文档的特征词.

现在选用的分类办法根本都是根据机器学习的思维.对于传媒范畴,有些专业词具有显着的种类倾向性,是判别文本种类的重要依据,如:当文本中较多的呈现“新媒体”“自媒体”“移动媒体”等这些词语时,咱们就简单将文本联想到媒体工业这一种类.咱们把这些行业内流转度高、尽人皆知、与具体种类有关的语义常识称为范畴常识[3-4],把握住范畴常识有助于文本分类.

2 文本分类训练器功能需求以及设计

面向于传媒领域的文本分类训练器的功能需求有以下的几个大的方面:该系统要可以对文本或文件夹进行分类、训练、关键字检索、词频查询、清屏等具体操作来满足用户的多种需求;要给用户提供直观方便的操作界面,设计的图形界面方便用户直观快速的找到自己需要的功能和其它的一些信息;尽可能详细的优化输出功能,让使用者可以更直接看到所需要的文本和训练结果;尽可能多的训练文本,合理设置传媒领域关键词才会使文本分类更加准确.

根据功能需求对系统进行设计,主要设计流程如图1 所示.

3 文本分类训练器的实现

文本分类训练器采用Ja 开发,分类训练器的属性数据可直接存储于XML 文档中,在系统内部可以方便地实现属性数据的读入和读出,满足用户对属性数据直观的获取需求.

1)分类模块的实现

每个关键词在此类文章里出现的平均比例等于关键词出现次数除以文章总字数,统计关键词种类和数量,然后把这些关键词所对应的类枚举出来,然后将关键词出现数量乘以在训练里面的平均占比,得出概论,再归一化成百分数排列.部分代码如下:

4 结论

传媒领域存在着各类的领域方面的知识,这类领域知识将特征项与文本类别进行关联起来,有助于进行本文的相关的分类.本文设计了一种面向传媒领域的文本分类训练器,实现了分类、训练、关键词检索等功能.利用语料库对融合领域知识的文本进行分类,基本满足了对分类训练器的要求,实现了需求中所提出的功能,具有一定的应用前景和推广价值.

参考文献

[1]李晓红.中文文本分类中的特征词抽 取方法[J].计算机工程与设计,2009,30(17):4127-4129.

[2]姜芳,李国,岳翔.基于语义的文档特征提取研究方法[J].计算机科学,2016(2):254-258.

[3]朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报,2005(8):733-735.

[4]杨莹,王庆文.面向制造领域文本的多标签分类方法[J].制造业自动化,2016(2):10-13,23.

文本分论文参考资料:

文后参考文献著录规则

辩论文格式

政论文范文

毛概论文格式

高被引论文

政论文

上文总结:这是一篇适合不知如何写传媒和文本和面向方面的文本分专业大学硕士和本科毕业论文以及关于文本分论文开题报告范文和相关职称论文写作参考文献资料。

和你相关的