分类筛选
分类筛选:

大数据方面有关毕业论文提纲范文 与政务服务大数据报告的技术原理分析相关论文范本

版权:原创标记原创 主题:大数据范文 类别:硕士论文 2024-02-23

《政务服务大数据报告的技术原理分析》

本文是大数据相关论文例文跟技术原理分析和数据报告和政务类硕士毕业论文范文。

政务服务大数据报告是针对政务服务的,主要反映了政务服务的社情民意和舆情动向,梳理并客观呈现政务服务的舆情热点、党和政府政务方针政策及反馈、治国理政体系及能力建设、政务服务新思想、新技术、新做法、新经验等有关政务服务的一切资讯.同时,介绍境外媒体网站上对中国政务服务的评论,关注国际重大事件特别是对中国政务服务有影响的事件,帮助领导干部拓展视野,更好地做好政务服务工作,在问责制年代为领导干部提供应对参考.

对一个政务服务大数据报告来说,它的基本流程有以下六步;明确分析的目的,确定关键词和分析角度;进行数据采集和预处理,进行数据储存、索引和编目;进行数据的分析,得出分析结果;进行可视化展现,直观反映分析结果;编写大数据报告,得出最终结论.在这六步中间,还贯穿着自然语言处理的步骤.

明确分析目的

用户提出一个政务服务大数据报告的生成需求后,首先由相关的技术人员把这个报告的题目进行分解,明确分析的目的,确定数据分析的对象.然后决定要获取哪些数据进行分析,从什么角度来分析,以及分析的关键词等等.最后决定数据采集的来源.

明确分析目的是大数据报告生成的第一步,如果这一步的方向错误,那么后面的全部步骤都是无用功.为了保证这一步的正确性,目的分析都是由经验丰富的技术人员来担任,并且在目的分析完成后,也要和用户反复的沟通,直到确定充分理解了用户的需求,才会进行后面的操作步骤.

对政务服务大数据报告的目的分析而言,这一步都是人工操作,没有人工智能或者算法能够代替.特别是数据采集的来源,通常都是由技术人员和用户来定义,无法像传统的搜索引擎一样,能够对整个Intemet网进行全面的搜索.但是随着大数据的逐渐发展,最终它的数据来源会面向整个Internet网络.

分析的角度更是多样化,有地域划分、时间范围、用户类别、各类排名、满意度、支持度、活跃度、关注度等等.对政务服务而言,用户的情绪是一个很重要的分析角度.

同一个问题,分析角度不一样,得出的结论会有很大的偏差,所以,选择合适的分析角度也是非常重要,大数据报告应该尽可能多的选择不同的分析角度给出结论.

数据采集和预处理

大数据技术中最重要的一环就是数据采集,也叫数据挖掘.它是通过数据爬取软件平台实现的.

数据爬取不限定于某种编程语言,也不限定于某种操作系统.不管是Ja语言+Linux操作系统,还是c#语言+Windows操作系统等等,都可以胜任数据爬取的工作.

同样,数据的来源也是多种多样,对政务服务大数据报告来说,数据来源可以是由爬取平台在相关政务网站上爬取,也可以由填报系统人工录入,也可以从Excel文档导人,甚至还可以从相关的业务系统的数据库直接读取.

那么政务服务数据采集是从哪些网站来获取数据的呢?主要是当地的省市县政务网站、国内知名的新闻网站的政务版块,以及一些国内知名论坛的相关版块.

一般来说,用户可以自建数据挖掘平台,但是也可以付费使用第三方的数据挖掘平台.在大数据报告生成中,付费使用第三方的挖掘平台的数据,是一件很常见的事情.一定程度上的数据共享,可以有效节约时间和成本,对大数据报告的生成是非常有利的.

数据爬取需要爬虫程序,从本质上来说,爬虫就是一个能够多线程运行的程序.它使用HTTP协议,根据设定好的爬取规则,通过GET和POST命令,得到相关网页的源数据.然后通过一些程序插件去除里面的HTML、css修饰符和Js脚本等无效字符,得到数据分析所需要的文本数据.

数据的爬取规则,经常采用XML文档来保存,因为XML文档里,可以定义非常复杂的爬取规则,读取和编辑也较为方便.

每个要爬取的网页的规则,通常是由程序员手工编写,熟练的程序员一天能够写出好几个页面的爬取规则.现在还没有好的智能算法能够自动适应不同页面数据爬取,一旦网站改版或者添加新的栏目,就必须要人工重新编写爬取规则.

为了保证网站的正常运行,很多网站都有反爬手段,阻止爬虫占用网站的数据和带宽等资源.常见的反爬手段有字符验证码、图片验证码、鼠标拖动滑块验证、IP访问限制、流量限制、用户必须登录等等.爬虫程序通常都有具有一定的反爬能力,能够自动处理一些简单的反爬手段,比如字符验证码和IP访问限制等.但是对一些复杂反爬手段,也是无能无力,只能付费买授权或者从第三方买数据.

数据的爬取速度,通常几个小时内,可以爬完一个小型网站的全部页面,如果该网站的数据更新量较小,那么几十分钟内就可以重新爬取一遍更新数据.爬虫的数量越多,爬取速度也越快,但是为了防止被限制IP和封号,爬虫的数量对单个网站都不会设置太多.对政务服务网站来说,需要爬取页面的数量相对较少,所以在整个大数据报告周期里,数据爬取占用的时间并不是最多的.

数据爬取失败报警机制是非常有必要的.如果某些网站数据爬取失败,势必影响最终的数据采集数量,从而影响最终的分析结果.

数据爬取完成后,还要进行数据预处理.这里的预处理一般是指根据网址进行数据排重和数据清洗,把重复的和有乱码的数据丢掉.这一步很重要,通过数据预处理,能够删除绝大部分的无效数据,可以大大减少存储数据占用的空间,同时也减少数据分析的时间和资源消耗.

在数据爬取和数据排重、清洗的中间,还有消息中间件的存在,常见的如Kafka.消息中间件的作用是暂时存储数据,防止数据预处理跟不上数据采集的速度,从而引起采集数据的丢失.

数据存储和索引

排重和清洗完成的数据,需要封装成便于后续处理的JSON格式,根据一定的规则,生成便于检索的索引,也就是关键字,存人数据库.

因为数据爬取每天要访问成千上万个网页,产生的数据量非常大,而且大数据的保存时间一般都是永久,所以通常使用HBase数据库.

HBase是Hadoop DataBase的简称,也就是基于Hadoop的数据库,是一种NosoL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等.简单来说,它就是一种存储量非常大、PB级别的、专门为大数据而生的超大型数据库.

数据采集到的文本数据,可能是一篇政务新闻,也可能一些用户发表的评论.

数据的索引生成,需要对采集到的文本数据进行分词,经过分词后的数据,才能有效的完成索引,便于后面的soL查询.

文本的分词,就是提取出一大段文本里面的关键词.这些关键词,通常都是和分析角度有关系的.

简单的分词处理,可以用分词插件来完成,比如IK.但是分词插件很死板,只有你事先定义的关键词,才能帮你分词,智能程度很低.

如果分析角度中包含地域,那么文本数据里面全部的地名,比如省市县的名称,都要提取出来作为索引.同样,如果分析角度里面包含满意度.那么文本数据里面和满意度相关的情绪化的词语,比如“支持”?满意”、"好”_差”等等,也要全部提取出来,作为索引.

智能程度较高的索引,必须由自然语言处理平台来协助完成.

自然语言处理

所谓自然语言,是指一种自然地随文化演化的语言,比如英语、汉语、日语等.

有了自然语言处理的技术,计算机才能够真正理解人类的语言,懂得语言中的语义和情绪等等.

自然语言处理是政务服务大数据分析中很重要的一个数据处理技术.

国内比较知名的、开放的自然语言处理平台,有哈工大的语言技术平台(LTP)、腾讯文智自然语言处理NLP平台等等.哈工大的语言技术平台(LTP)的功能包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注.腾讯文智自然语言处理的功能包括词法分析,句法分析,篇章分析,下载抽取转码.

因为自然语言处理技术是一门非常复杂的技术,所以很少有大数据运营公司会单独进行开发,使用现成的自然语言技术平台进行文本处理,是一种常见的处理手段.

在大数据报告的生成过程中,自然语言处理技术,可以帮我们将采集的数据归类和建立索引,识别文本数据中的情绪,对政府服务报告有着不可或缺的作用.

自然语言处理技术,不仅仅用于数据的索引,还可以结合数据采集,对数据里面的日期和时间进行格式化和修复,对数据里面的地名进行省市县的归类.

很多文章里面的日期并不是年月日的标准格式,往往只有几月几号、今年、去年、几年以前等等描述,通过自然语言处理加上文章的发布时间,可以将类似的日期修复成年月日的标准格式.

另外,在很多文章中的地名,往往只有本埠之类的描述,或者一个村庄的名称,在本地是独一无二的,但是放到全国范围内,就有重名的.通过自然语言处理技术,分析出其他的一些信息,结合全国的地名表,也可以把地名修复成省市县村的标准格式.

数据分析

以上全部的操作,都是为数据分析提供基本数据的.到了数据分析这步的时候,全部的数据都已经入库并且生成了索引.

数据分析包括基本数据分析,数据探索,复杂数据分析等.数据分析是大数据报告形成过程中,技术含量最高的部分.这里往往涉及到机器学习、深度分析、人工智能等方面.

进行数据分析的人员,不仅要熟悉相关行业知识和业务流程,还要有自己的独到见解.若脱离了行业认知和业务背景,分析的结果就没有太大的使用价值.

数据分析人员还要求掌握各种数据分析软件工具,能够根据不同的情况,选择使用最合适的软件工具对数据进行归纳分析.因为通过采集得到的数据是海量的,所以无法通过人工的方式进行查看,必须通过数据分析工具进行处理.常见的分析工具有ElasticSearch、Kibana等等.

数据分析从本质上来说,就是从不同的分析角度,编写不同的soL脚本,来获取各个角度的数据的数量,计算出百分比.

报告的编写人员,可以根据这些查询数据作出可视化展现的图表,写出大数据报告,得出最终结论.

可视化展现

可视化展现是大数据分析结果最好的表现形式,它用图表取代了文字说明,通过液晶屏或者高清彩色LED大屏幕,将数据分析结果用各种不同的图表进行可视化展现,让人一目了然.

在可视化展现中,常见的图表有散点图(气泡图)、折线图、柱状图、饼图、地图、雷达图等几种.除了这几种常见的图表以外,还有热力图、k线图、关系图、桑基图、漏斗图、仪表盘等等其他图表,也可以将各种图表进行组合显示,形成更复杂的图表.

可视化展现经常使用工具软件来实现,也可以根据实际情况,用ECharts等可视化图表来自己构建.

大数据报告编写

大数据报告是整个大数据分析流程的最终结果.

政务服务大数据报告是以一定的格式和规范,由熟悉相关行业知识和业务流程的专业人员,写出的专业报告.它具有下面几个特点:简单可靠、清晰明了、逻辑性强.

它的数据来源于网络,通过分析海量的数据,从不同的角度得出数据结论,最后根据这些,得出大数据报告的最终结论.政务服务大数据的报告,对用户情绪的关注度非常高.

由此可见,大数据报告是完全基于真实的数据,特别是由第三方大数据运营公司独立分析和编写的大数据报告,最终报告结论的可信度是很高的.

(作者单位:浙江省杭州市数据资源管理局)

大数据论文参考资料:

大数据时代论文

关于大数据的论文

大数据杂志

有关大数据的论文

健康大视野杂志

毕业论文题目大全集

此文结束语,此文是一篇关于经典大数据专业范文可作为技术原理分析和数据报告和政务方面的大学硕士与本科毕业论文大数据论文开题报告范文和职称论文论文写作参考文献。

和你相关的