试论高校网络舆情监控预警系统的设计与构建
作者:佚名; 更新时间:2014-10-17

  摘 要:针对高校传统舆情监控与预警手段的不足,本文设计构建了一个基于中文信息处理与挖掘技术的高校网络舆情监控预警系统,系统结合相关技术实现了互联网信息的采集、识别分析、热点推送与预警功能,为高校监测和解决公共危机和热点事件提供了技术手段。


  关键词:高校舆情;监控;信息挖掘


  1 引言
  本文结合网页信息采集、中文信息处理以及web内容挖掘等技术设计构建了高校网络舆情监控预警系统,实现了热点话题的推送与跟踪,舆情内容的筛选和判定,以及公共危机和热点事件的检测预警功能。
  2 系统功能设计分析
  高校网络舆情监控系统需要对互联网上各类信息,如:各大网站、百度贴吧、微博、校内BBS等进行24小时监控,随时采集话题性强、时效性新的各类消息和意见,信捷职称论文写作发表网,在对收集到的数据进行格式转换、内容清洗过滤、关键词提取等预处理后,利用文本分类、聚类等方法对处理后得到的舆情信息进行分析、挖掘,实现热点信息的发现和跟踪。此外,系统通过与用户的交互界面,将舆情分析结果反馈上报给高校网络监管人员,以帮助他们及早发现舆情信息,实现对高校重大舆情事件的及时响应。系统模块主要包括以下部分:
  2.1 舆情信息采集
  舆情信息采集模块是整个系统数据分析的信息源,指的是抓取Web 网页和存储相关数据,即通过网页的链接地址来寻找网页。从网站的初始页面开始,舆情信息采集模块抓取网页内容,并且获得当前网页的全部链接URL放到有序的待采集队列里。完成初始页面的抓取后,舆情信息采集模块依次取出队列中的URL,在抓取网页内容的同时,获取它所指向的链接URL放到待采集的队列里。上述过程一直循环,直到整个网站的全部网页都被采集完为止。
  2.2 信息预处理
  除正文内容外,Web页面包含广告链接、版权信息等其他大量信息,因此,信息采集模块抓取到的数据含有大量噪声。另外,与传统结构化数据相比,web文档中的数据结构较为复杂,难以直接处理。因此,信息预处理模块是信息采集后的关键步骤,主要工作包括:读取采集到的Web信息数据后,首先对数据进行页面清洗与内容提取以去除文本中的无关信息,然后对文本进行分词索引,通过特征和关键词提取技术提取有效的关键信息为舆情信息分析模块提供数据资源。
  页面清洗的主要工作是对网页的注释、导航、广告和版权说明等噪声信息去噪,达到在Web页面中划分出精确的信息单位的目的,然后通过内容提取将复杂的Web数据格式转化成具有固定模式、操作性强的信息。常用的Web信息提取方法有基于规则的提取方法,基于应用本体的提取方法等。文本分词是将网页中连续的字词序列以一定的规则重新分割成词的序列的过程。常用的分词算法有基于字符串匹配、基于理解和基于统计的分词方法,其中,基于统计的分词方法具备识别能力强、分词准确率高及便于实施等优势,更适合网络舆情监控预警系统的研究要求。特征与关键词提取是指从分词后的文档中提取有效的关键信息,达到减少数据维数的目的。常用的特征抽取的方法包括基于词性和词义的特征提取方法。
  2.3 舆情信息分析
  舆情分析模块是系统中最为关键的处理模块,主要利用文本分类和聚类等方法对预处理的舆情数据信息进行分析、挖掘,以实现热点信息和敏感话题的发现、跟踪。
  热点信息发现的算法本质上属于文本聚类算法,其实现目的是通过对预处理的文档按照话题进行聚类,以获取聚类中心,也就是舆情热点。热点事件跟踪是为方便用户跟踪自己所关心的热点事件而进行的操作,首先由用户将已获得的热点样本信息以系统学习的方式交给系统,然后系统通过文本挖掘技术对不断获取的信息进行分类,判断其是否为用户感兴趣的内容。在判断的同时,系统也通过用户的反馈信息不断地修正系统的学习算法,使得交给用户的信息越来越接近用户感兴趣的内容。本质上来说,热点事件跟踪是一种特殊的二元分类问题。敏感话题识别就是通过分析话题参与规模、评论观点对立度等相关因素统计某个主题在不同的时间段内被人们所关注的程度。如果参与讨论某个话题的学生数量较多,并且评论对立度较大,则其容易成为敏感话题,在满足了规模和对立度的阈值后,就会触发预警系统。
  2.4 舆情预警上报
  舆情预警与上报模块的主要功能为:通过系统的用户交互界面将舆情分析模块交付的热点信息和敏感话题等信息以图表、排行榜等方式反馈给高校网络监管人员;针对某一网络舆情信息,系统将其安全级别划分为安全、较安全、临界、较危险、危险等五个级别,必要时系统将对危险事件自动触发预警机制。监管人员通过舆情信息的直观展示和预警提醒对热点话题和敏感信息实施在线分析,确定舆情在网站中的发展变化,以达到及早发现、及时响应高校重大舆情事件的目的。
  3 总结
  为充分利用高校网络舆情信息,全面了解和正确引导高校学生的思想言论,本文设计构建了高校网络舆情监控预警系统,在采集和预处理相关网页信息后,实现热点与敏感话题的推送与跟踪,并进一步分析判定舆情内容的观点与安全级别,这对及时采取有效措施干预高校重大事件,缓解舆论压力,建设和谐校园提供了有效的技术手段。

    核心期刊快速发表
    Copyright@2000-2030 论文期刊网 Corporation All Rights Reserved.
    《中华人民共和国信息产业部》备案号:ICP备07016076号;《公安部》备案号:33010402003207
    本网站专业、正规提供职称论文发表和写作指导服务,并收录了海量免费论文和数百个经国家新闻出版总署审批过的具有国内统一CN刊号与国际标准ISSN刊号的合作期刊,供诸位正确选择和阅读参考,免费论文版权归原作者所有,谨防侵权。联系邮箱:256081@163.com