大数据时代方面毕业论文范文和大数据时代内部审计转型的驱动力移动通信行业网络代维专项审计大数据应用有关毕业论文范文

《大数据时代内部审计转型的驱动力移动通信行业网络代维专项审计大数据应用》

本文是关于大数据时代硕士论文开题报告范文与驱动力和内部审计和移动通信类论文如何写。

崔　振中国移动通信集团浙江有限公司

摘要：进入 21 世纪,移动通讯行业的蓬勃发展促成了数据量的大规模增长,党和国家在各个层面提出加快建设数据强国,推动大数据产业持续健康发展,为实现网络强国提供强大的产业支撑,这对传统通信运营商企业的转型变革提出新的要求.在未来,如何有效得挖掘和利用互联网产业体系下海量数据中蕴含着的巨大的价值,使得现代互联网体系所产生的海量数据能为我所用,能为企业的经营管理与风险控制工作添砖加瓦、增加价值,这是摆在企业管理者面前的新课题.那么在这样的数据为王的新时代背景下,通信行业的内审管理部门应当如何适应新形势,顺应新潮流,进行相应的管理理念和管理方式上的变革与创新,实现持续的、高质高效的风险管理,在风险管理领域取得新的竞争优势,从而为企业各类风险的管理和规避更为积极得发挥保驾护航的作用呢？这是摆在我们面前的新课题.中国移动浙江公司牵头开展的网络代维专项审计项目,积极采用大数据分析与挖掘方法识别虚假异常业务,为大数据时代下如何开展移动通信行业的内审管理做出了有益的探索和尝试.

关键词：大数据时代；内部审计转型；创新驱动力

中图分类号：F239.5 文献识别码：A 文章编号： 1001-828X(2018)030-0130-04

一、项目背景

进入 21 世纪,互联网的兴起促成了数据量的大规模增长.当前我们所处的时代是信息爆炸的时代,正如《纽约时代》所说的,“大数据”时代的降临看起来已是无可逆转[1] .那么在这样的数据为王的新时代背景下,移动通信行业的内审管理部门应当如何适应新形势,顺应新潮流,进行相应的风险管理工作理念和工作方式上的变革与创新,实现持续的、高质高效的风险管理,从而为企业各类风险的规避更为积极得发挥保驾护航的作用呢？

( 一 ) 大数据时代已经降临

2011 年,麦肯锡在题为《海量数据,创新、竞争和提高生成率的下一个新领域》的研究报告中首次提出大数据的概念,报告认为数据已经广泛分布并且渗透到每个行业和领域,蕴含着巨大的经济价值,这些价值将导致数据成为重要的生产因素[2] .国际上大多数发达国家政府高度重视数据价值,美国已发布大数据战略、欧盟力推《数据价值链战略计划》、联合国推出“全球脉动”(GlobalPulse) 的新项目.这些国外最前沿的有关大数据的研究报告以及包括美国政府、欧盟、日本以及联合国在内的主要经济体政府和机构对于大数据研究的重视都充分表明大数据在未来企业发展中将占据重要的地位.

( 二 ) 大数据产业已上升到国家战略层面

党、国务院高度重视大数据在经济社会发展中的作用,党的十八届五中全会提出“实施国家大数据战略” ,国务院同期印发《促进大数据发展行动纲要》 ,正式印发了《大数据产业发展规划 (2016-2020 年 )》 ,在全国范围内全面部署“十三五”时期的大数据产业发展工作,加快建设建成数据强国,为实现制造强国和网络强国提供强大的产业支撑,全面部署“十三五”期间的 8 大重点工程的大数据产业发展工作,为“十三五”时期我国大数据产业崛起,为从数据大国向数据强国的转变指明方向[3] .显而易见,大数据产业发展已经上升到国家战略层面.

( 三 ) 大数据分析运用能力是移动通信运营商在大数据时代实现进一步发展的核心

国家发布的《大数据产业发展规划 (2016-2020年 )》明确指出,数据是国家基础性战略资源,是 21 世纪的“矿” [3] .麦肯锡全球研究院 (MGI) 在 2017 年发布的报告《数字时代的中国：打造具有全球竞争力的新经济》中指出,到 2030年,数字化的三股推动力——去中介化 (Disintermediation)、分散化(Disaggregation) 和非物质化 (Dematerialization)——或可转变并创造10%-45% 的行业总收入[4] .

移动通信运营商作为用户数据、网络数据的生产者,多年来累积的数据蕴藏着多样的业务信息和商业信息,在建设和分析方面具有独一无二的优势,一方面是数据优势,网络覆盖强,用户数据多,数据标签全,利于为用户提供精准分析；二方面是运营优势,运营商可以充分利用现有资源,快速建立大数据平台.

在这样的发展趋势下,中国移动浙江公司内审部紧跟战略形势,审视和研判自身现状,着手在审计管理理念和审计管理方式中逐步引入大数据的分析和应用,我们始终在问自己一个问题：如何将大数据分析技术真正融入到审计管理工作中去,真正为企业的内部审计管理的不断优化做出贡献？

实际上,在开展基于大数据分析的内审项目的过程中,移动通信行业目前主要面临着四大困难：

1. 审计数据繁杂

由于移动通信行业的特性,代维管理业务流程繁杂,涉及系统数量众多,系统接口数目繁多,系统与系统之间的数据流转情况非常复杂,对于哪些数据需要留存提取以备日后企业进行风险管理、审计管理之用,无法给出肯定的答案,这亟需进行系统的梳理、归纳和总结.

2. 审计手段落后

中国移动浙江公司目前所使用的各个业务系统每时每刻都在生成海量的业务数据,依赖传统审计手段对业务数据进行抽样审阅几近天方夜谭,更不用说这将需要消耗大量的人工审计工作量,对于企业而言,无论是时间成本,还是人力成本,都是难以负担的.

3. 审计模型缺失

在专项审计项目中引入大数据分析和挖掘技术,审计模型构建工作是绕不开的一步.一直以来,传统审计工作信息化建设落后,自动化程度低,对于各类专项审计项目,仍然在很大程度上依赖审计专业人员的职业判断,进行人工排查和识别,未能构建审计模型来进行自动化的审计执行.

4. 审计成果展现形式呆板

在以往传统的审计项目中,审计发现,审计建议等审计成果往往是以 EXCEL 或者 PPT 的形式展现,视觉效果相对呆板,不够灵动；且不便于同时以多个不同维度来进行实时的数据分析,不能实现对明细项目的钻取功能,总体来说无论是审计成果展现的视觉效果还是交互性,都有比较大的提升空间.

本项目就是基于上述思考和认识出发,旨在将大数据分析与挖掘技术真正融入到内审管理工作中去,真正为企业的内审管理的不断优化做出贡献.

二、项目内涵

根据 CRISP-DM( 即“跨行业数据挖掘标准流程”的缩写 ) 这一业界认可的用于指导大数据分析挖掘工作的方法,结合中国移动浙江公司内审部多年来内部审计管理领域的实践经验,对如何在移动通信行业依托大数据分析开展内部审计,高效高质的实现内部审计,进行了创新的探索与尝试.

中国移动浙江公司内审部结合多年来开展的公司网络代维管理业务领域的专项审计项目所获得的宝贵实践经验,遵循 CRISP-DM大数据分析挖掘方法论,历经商业理解、数据理解、数据准备、建立模型、模型评估和结果部署这六个阶段,富有开创性得在网络代维管理审计中引入了大数据分析挖掘方法论和技术,帮助识别潜在业务风险,提高了审计质量和审计效率,从而实现了内部审计管理模式的整体创新.

( 一 ) 审计理念的创新

此次中国移动浙江公司内审部牵头开展的基于大数据分析与挖掘的网络代维管理内部审计项目,通过将大数据分析和挖掘的方法论和技术手段引入网络代维管理的审计,加强了对业务过程的整体风险控制能力,提高了对信息系统拓展的重视程度,极大提高了审计效率.

( 二 ) 审计手段的创新

中国移动浙江公司内审部牵头开展的基于大数据分析的网络代维管理内部审计项目,通过大数据分析与挖掘技术手段的介入,实现对存在潜在风险的代维工单的自动识别和筛选,从而减少了人工审计的工作量以及人工审计可能造成的审计差错,同时降低了被审计单位和审计实施人员之间的沟通成本.

( 三 ) 审计成果展现的创新

此次中国移动浙江分公司内审部采用业界领先的数据可视化工具来呈现审计发现成果,采用丰富的图表样式,展现出比较好的视觉效果,做到了直观且美观得展现审计成果；实现了在统一的平台上对业务数据进行多维度、多方面的数据分析,用户可以根据自己的风险管理需求即时调整数据分析维度.

三、项目方法

2017 年基于大数据分析的网络代维专项审计项目采用商业理解、数据理解、数据准备、建立模型、模型评估和结果部署这六个阶段实施.

( 一 ) 商业理解

基于历史项目关注的风险点和兄弟公司网络代维管理审计项目经验,中国移动浙江公司内审部认为,网络代维管理的专项审计应当重点关注以下八大方面：制度管理、数据维护、人员管理、工单派发、现场管理、工单报结、考核管理和结算管理.

( 二 ) 数据理解

基于对移动通信行业网络代维管理的商业理解,中国移动浙江公司内审部认为网络代维管理审计至少需要收集以下几类数据：网络代维管理制度管理文件、覆盖各个代维专业各类代维业务的代维按需工单、代维费用结算依据以及代维站点清单.

( 三 ) 数据准备

中国移动浙江公司内审部先导出一部分试点系统原始数据进行数据质量分析,基于试点数据的质量分析结果,中国移动浙江公司内审部与外部供应商沟通所涉及数据的提取事项和具体的数据提取范围,确认以下数据可以用于网络代维管理的专项审计：网络代维合同、网络代维制度管理文件、网络代维通用按次工单、发电工单、盯防工单、开通测试类工单、有线平台家宽装维报结工单、代维站点清单、代维站点门禁记录、代维按需费用清单等数据.在外部供应商将后台原始数据导入数据分析平台后,进行原始数据的清洗.

( 四 ) 建立模型

在对提取的后台原始数据进行清洗以后,中国移动浙江公司内审部进行数据字典的编写,工单内容文本特征的提取,审计模型的构建,审计模型实现脚本的开发,审计模型测试和优化以及提取测试数据以后进行人工排查和验证,并根据验证反馈调整参数和阈值.以虚假工单审计模型为例说明审计模型构建的理论依据和具体实施方法.

虚假工单,指的是通过重复录入工单、工单所记录的网络代维服务不在合同明文规定提供的网络代维服务范围内、工单记录的工作量明显虚高等多种方式虚构工单、虚高工作量,骗取网络代维服务费用的行为.

从总体上来说虚假工单的检测要分为以下两个方面：基于工单正文文本内容本身和基于虚假工单派发者的行为.基于虚假工单派发者的行为检测由于派发人员涉及面比较广,对于其行为特征的跟踪和检测在技术上比较复杂、实现难度较大.从企业开展专项审计项目经济效益最大化的角度,基于虚假工单派发者的行为检测不符合经济效益最大化原则,因此在本次网络代维专项审计项目中,我们把虚假工单的检测重点放在基于工单正文文本内容本身的检测上.

基于虚假工单内容本身的检测方式的关键点在于特征要点提取与归纳.特征要点提取方法的精确性、唯一性、可靠性和自适应性将直接决定审计模型整体的成效与性能.目前移动通信行业的网络代维管理工单的正文格式一般是以文本内容为主,辅以少量图片附件作为支撑文件,因此虚假工单识别检测的关键点在于基于文本内容的特征提取与表示.基于文本的工单特征要点提取通常分为 2 个阶段：

一是词筛选：依据词的重要性程度对特征词进行排序,抽取可区分度好的特征词进入下一阶段；

二是特征要点提取与表示：提取工单特征并映射成统一形式.

1. 常用的文本词筛选方法

(1) 信息熵

信息熵 (IG) 又被称为 Kullback-Leibler 距离[5] .能够度量 2 个概率分布 P(x) 和 Q(x) 的距离,可用于度量单词的优良度 ( 区分度 ).据此方法,当知道给定单词 t i 是否在工单中出现时,所能获得的工单类型信息的单词 t i 的信息熵被定义如下：

上述公式中：C 代表工单类型,C S 和 C l 分别代表工单类型是虚假工单和正常工单,t i 代表单词 t i 在工单中出现,而表示单词未在工单中出现．式中的概率大小通过大体量的训练集数据进行估计.根据该公式,每个单词对应的信息熵值被单独计算出来,选取其中信息熵值大的单词进入下一阶段.

(2) 词频方差

Koprinska 等人提出词频方差法 (term frequency variance,TFV)[7] ,选取具有高词频方差的词 ( 包含更多的信息量 ).据此方法,倾向于出现在某一种类型工单 ( 虚假工单或正常工单 ) 的词将被选择出来,而在 2 种类型工单中出现频率相当的词将被移除．词频方差定义如下：

(3) 文档频率

文档频率 (document frequency,DF) 指包含某一特定的单词 ti 的工单数量.据此方法,文档频率值大于预设阈值的词将被选择,舍弃文档频率值小于该阈值的词.单词 ti 的文档频率定义如下：

式中：M 为整个训练集,m j 为 M 中的一个工单.

文档频率法判定低频单词所含的类别信息量较少,他们被移除不会影响整体分类性能.文档频率法的优点主要有计算复杂度低、与训练样本的数量成线性比例增长.

(4) 其他词筛选方法

词筛选方法在虚假工单检测中起到重要的作用,下面列出 3 种其他的常用方法的计算式[7-9] ：

a)X 2 统计量 (CHI)：

其中：C ∈ {C s ,C l } 表示给定的工单类型,相应的 ∈ {C s ,C l }/C,x和 y 表示训练集中类型相同的任意 2 张不同的工单.

2. 常用的文本特征提取方法

(1) 词汇袋法

词汇袋法 (bag-of-words,BoW) 也被称为向量空间模型,通过判别特征词是否在工单中出现,将每个工单转换成一个 d 维的特征向量＜ x 1 ,x 2 ,…,x d ＞,每维特征值 x i 可被视为是特征词 t i 的函数[9] .对于 xi ,常用的有 2 种表示方法：布尔型和频率型.布尔型方法中,x i 按以下规则赋值：若 t i 在工单中出现,x i 赋值为 1,否则赋值为 0.频率型方法中,x i 表示为该工单中特征词 ti 的词频.依据 Schneider 的实验结果,这 2 种类型的表示法性能整体相当[11] ．

(2) 稀疏二元多项式哈希法

稀疏二元多项式哈希 (sparse binary polynomial hashing,SBPH)运用滑动窗口方法,能够从工单中提取出大量的不同特征[11-13] .通过长度为 N 个单词的滑动窗口依次滑过工单中的单词,每次窗口移动步长为 1 个单词,并按以下方式提取 2 N － 1 个特征要点：保留首先进入窗口的单词,窗口中的其他单词被选择保留或舍弃,选择完成后,整个窗口被整体映射为一个特征.对于窗口中的 N-1 个单词,选择结果有 2 N － 1 种,故最多可映射成 2 N － 1 个不同的特征.最后每个特征被计算为一个特定的哈希值,特征提取之后再根据前述的词筛选方法进行特征筛选,以此降低特征维度.该方法优点是分类准确度较高,缺点是因为特征数量带来的计算复杂度很高.

(3) 正交稀疏双词

为了降低 SBPH 方法的冗余度和复杂度,Siefkes 等人[13]提出正交稀疏双词法 (orthogonal sparse bigrams,OSB) 来提取一个较小的特征集合.该方法同样使用长度为 N 个单词的滑动窗口提取特征,与 SPBH 方法进一步的是,仅提取具有共同单词作为特征.每个窗口内,保留首先进入窗口的单词,并作为共用单词.然后,在剩下的 N-1 个单词中选择 1 个与其构成一组单词对,因此每个窗口可以构造出 N-1 组单词对,对应映射出 N-1 个特征.本方法与 SPBH方法比较,可大大减少特征的数量.

综合运用以上几种常见的基于工单文本内容的特征提取方式,我们提取了虚假工单的一些典型特征,如虚假工单高发的代维业务类型以及工单内容中经常出现的关键字等,在此基础上,我们开始构建代维管理虚假工单识别检测的审计模型.

有关审计模型的构建,主要经过三个步骤：模型构建、模型参数调整和模型验证：

( 五 ) 模型评估

中国移动浙江公司内审部与相关部门和外部供应商协调进行网络代维管理审计模型的评估,对于通过审计模型得出的审计成果进行检查和验证,在这个过程中,审计模型的各项参数得到了优化,审计模型得以固化.

( 六 ) 结果部署

通过运行网络代维管理审计模型,可以获得网络代维管理风险概况结果,使用可视化工具将网络代维管理风险概况以多样化图表的形式展现出来,使得用户可以直观得了解风险概况；可视化工具的报表提供了钻取功能,方便用户对于任意一条虚假或异常的工单的明细信息进行进一步的查看和核实,大大增强了风险管理成果展现的交互性和灵活性.

四、项目成效

通过编写近 1,300 行 SQL 语句脚本,对约 240 万条原始数据记录进行大数据分析和挖掘以后,我们识别出 16 类风险领域,一共54 个具体的审计发现.通过进一步进行人工文档审阅和现场勘查验证,大数据分析和挖掘的结果准确率达到 85%,即 85% 通过大数据分析和挖掘排查出来的虚假工单或异常工单经证实确认是虚假工单或异常工单.

五、推广性探索

( 一 ) 项目实际应用和推广价值

基于大数据分析和数据挖掘,网络代维管理项目避免了总计约850 万元人民币的风险损失,避免了流的流出本身就可以看作是流的流入,项目避免的 850 万元人民币的损失就体现了实际应用和推广的价值.

( 二 ) 项目可推广范围

当专项审计中的网络代维管理审计模型成熟,可正式作为风险管理成果固化,也可转至公司业务部门进行风险管控.大数据分析和挖掘技术应用于风险管理的理念和方式也可以在公司内部、同行业、集团内兄弟公司推广.

1. 在公司其他条线的风险管理和控制方面予以推广

此次中国移动浙江公司内审部开展的网络代维管理专项审计项目,通过应用大数据分析和挖掘的技术手段,构建审计管理模型,更有效得发现问题和防控风险,实现预警、跟踪、分析三位一体的数据监控和风险管理.公司其他条线在进行风险管理和控制工作时,可以考虑参照浙江公司已经构建的网络代维管理审计模型,打造符合自己业务特点的风险管理模型.

2. 在同行业、集团内兄弟公司推广

经过此次网络代维管理专项审计项目,浙江公司已经摸索构建出了几个适合于移动通信行业网络代维管理业务流程特点的成熟稳定的审计管理模型,可以考虑在同行业、集团内兄弟公司予以推广.同行业、集团内兄弟公司可以对照此次中国移动浙江公司内审部摸索构建的审计管理模型进行全盘复制,也可根据自身业务流程的实际情况,调整模型参数和阈值,开发构建出化的审计管理模型.

( 三 ) 项目推广的主要内容

1. 理念推广

基于大数据分析和挖掘的风险管理理念,实现预警、跟踪、分析三位一体的数据监控和风险管理.

2. 模型推广

基于移动通信行业业务流程的风险管理模型,易于直接套用,适用性强.

3. 方法推广

大数据分析与挖掘的六大主要步骤：商业理解、数据理解、数据准备、建立模型、模型评估和结果部署,方法论清晰明确,易于模仿和推广.

大数据时代论文参考资料：