您好,欢迎来到尚佳旅游分享网。
搜索
您的当前位置:首页一种互联网舆情监控软件实现

一种互联网舆情监控软件实现

来源:尚佳旅游分享网
龙源期刊网 http://www.qikan.com.cn

一种互联网舆情监控软件实现

作者:肖晨阳

来源:《电脑知识与技术》2012年第34期

摘要: 网络舆情突如其来,带来的影响越来越大,实现一种可对互联网新媒体进行监控的软件是对互联网舆情可控的基础。该文介绍了软件实现的系统架构以及使用的全文库、搜索等关键技术,最后指出了互联网舆情监控软件的存在的不足以及努力的方向。

关键词:网络舆情;全文库;搜索

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2012)34-8177-03

1 互联网舆情监控软件的起源

互联网以超乎人想象的速度快速普及,互联网的影响力也随着越来越大,从近期一系列事件,如“陕西表叔”、“广东房叔”、“重庆雷政富”等,可以看出互联网影响巨大,为了能够及时了解互联网的民意和舆论,利于正确地引导舆论,因此对监控技术也提出了更高地要求,互联网舆情软件应用而生。

龙源期刊网 http://www.qikan.com.cn

2 互联网舆情软件的技术基础

2.1 系统架构图

互联网舆情监控技术是一基于互联网信息下载和全文本搜索技术基础上发展起来的,互联网舆情软件对指定的网站、论坛、博客、微博等媒体进行及时全面的下载,对所下载的内容进行处理,如URL排重、标题排重、正文排重、HTML格式转换、PDF(文档内容 )进行转换,将转换后的信息建立全文本库索引。舆情监控软件根据定义的监控需求进行快速查找,从而发现舆情事件,同时分析舆情热点等。

在对全文库,进行搜索的同时,可以根据软件下载内容排重度、用户的使用习惯、搜索次数的多少,分析出热点新闻、论坛热门帖子;并由此给出舆情事件的趋势,舆情信息监控报表等,在软件系统的工作基础上,经过人工处理后,最终生成可提交决策用的舆情监控报表。

由于监控网站、论坛等媒体数量众多,致使监控数据量非常庞大,要求硬件和软件均需要数据吞吐能力,传统的数据库技术是无法满足海量数据的快速检索,因此必须使用搜索引擎必须使用的全文本搜索技术,实现海量数据的搜索。

2.2 应用流程

如图2“监控流程示意图”所示:

1)系统管理员设置监控网站列表,并根据网站类型进行细致调整,保证网站下载

龙源期刊网 http://www.qikan.com.cn

数据的完整性,设置下级监控人员的账号;

2)监控人员,根据监控目标的需求,设置监控专题,设置和调整关键词,根据热点关键词对关键词进行调整;

3)系统根据监控人员要求生成报表。

4)监控人员参考系统报表,编制舆情报告,提交相关决策部门参考。

5)系统配备大容量的存储,系统将监控数据存储保存形成内容丰富的监控信息全文库,利于将来进行趋势预测和历史分析。

3 互联网舆情软件的关键技术

3.1 抢先多线程爬虫采集技术

爬虫技术是进行舆情信息采集的基本技术,为了提高其性能,采用抢先式多线程是提高性能一种比较合适的方法。爬虫程序通过页面中的URL链接检查更新页面。通过URL排重、标题排重、正文排重等排重措施,减少下载的数量。

3.2面向监控的全文库技术

由于监控需要进行大量的数据吞吐,即使大型的关系型数据库也无法满足应用的要求,因此监控数据的管理采用的是全文库技术。软件实现了一种倒排序的全文库技术,

龙源期刊网 http://www.qikan.com.cn

更在此基础上为监控系统特殊要求进行了改造和优化。

3.3 模糊匹配

监控违规内容发布时,有些内容为了逃避监控,常常使用暗语及不完整的表达方式,甚至音同字不同。这样大大增加了监管难度,如果使用传统的技术是很难有效监控的。系统率先使用模糊匹配技术,支持对多种违规情况进行有效监控。表1是我们实现四种常见的模糊匹配方式。

4 现有的互联网舆情监控软件的不足及展望

目前互联网舆情监控软件也明显的存在不足之处。

1) 由于需要监控的网站数量众多,而用户采用的硬件设备有限,导致对网站的监控轮询的周期较长;

2) 对网站内容的获取的频率需要订制,有些网站支持获取的频率高,而有些网站获取的频率很低,稍微不留意就会被列入网站的黑名单中,导致下次无法访问;

3) 随着数据量的增大,索引的数据也越来越打,导致数据检索速度下降;单机的检索速度有一定的阀值;如果用户具有足够的硬件设备,可以通过分布式的处理来解决;

4) 对于分析部分,由于用户的需求多变,很难提供一个统一的界面满足用户的

龙源期刊网 http://www.qikan.com.cn

需求。这些问题均有待于去解决。

参考文献:

[1] 何精华.网络空间的政府治理[M].上海:上海社会科学院出版社,2006.

[2] 北京迅奥网络舆情突发事件监测方案[Z].2011.

[3] 于水英,王辉,贾翔.一种文本检索与信息化系统的设计[J].信息安全与通信保密,2010(6):64-68.

[4] 刘玉国.基于内容的互联网舆情信息挖掘关键技术研究[D].济南:山东大学,2011.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- shangjiatang.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务