|
|
|
|
|
|
方正智思—网络舆情互联网信息监控分析系统显威力
|
| 出处:电子政务工程服务网 日期:2006-6-29 |
保存本文 |
|
|
|
|
背景
互联网信息内容庞杂多样,既有大量进步、健康、有益的信息,也有不少反动、迷信等消极内容。互联网作为一块正在加速膨胀的思想阵地,加上其虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的人们愿意通过这类渠道表达自己的个人想法,因此网络舆情的爆发将以“内容威胁”的形式逐渐对社会公共安全形成威胁。北大方正技术研究院基于现实需要,凭借多年的科研技术成果,结合内容管理技术、知识管理技术,互联网相关技术适时推出方正智思——网络舆情互联网信息监控分析系统。该系统着重强调加强互联网、手机短信等新型传媒的信息搜集和分析,以计算机智能处理技术辅助舆情信息汇集整理和分析,对新出现的社会舆论热点、焦点去伪存真,为确保我国互联网络大众媒体的舆论导向的正确性起到一定的辅助作用。近日,北大方正技术研究院的方正智思——网络舆情互联网信息监控分析系统成功应用于政府宣传部门,服务于网络舆情预警监测。
系统简介
方正智思——网络舆情互联网信息监控分析系统指整合互联网搜索技术及信息智能处理技术和知识管理方法,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。 系统包括如下基本环节: 1) 信息采集:互联网信息(新闻、论坛等)的实时监测、采集、内容提取及排重; 2) 信息处理:对抓取的内容进行自动分类聚类、主题检测、专题聚焦等; 3) 信息服务:将采集并分析整理后的信息直接为用户或为用户辅助编辑提供信息服务,如自动形成舆情信息简报、追踪已发现的舆论焦点等。
技术特点
Ø 网络抓取技术 (1)元搜索技术 元搜索引擎集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能。查一个元搜索引擎就相当于查多个独立搜索引擎。进行网络信息检索与收集时,元搜索可指定搜索条件,从而既提高信息采集的针对性又扩大了采集范围的广度,收到事半功倍的效果。 (2)网络雷达技术 网络雷达技术能及时发现并抓取网站中新的内容,并可通过配置用户信息以便抓取网站中访问权限控制的内容,大大提高网络内容抓取的深度。 (3)网页内容智能提取技术 网页内容智能提取技术能有效地提取网页中的有效信息,区分网页中的标题、正文等信息项,并对内容具有连续性的多个网页内容进行自动合并、网络论坛信息自动提取等。
Ø 网络舆情分析技术
网络舆情分析技术是本系统的核心应用技术,该技术是一组管理、提炼、应用、共享所有的显性知识和隐性知识及信息资源的方法。 (1)自然语言处理技术 自动分词技术:自动分词技术是中文信息处理与分析的基础。本系统中以词典和规则为基础,综合利用了基于概率分析的语言模型方法,使分词的准确性达到99%,并可根据不同的应用进行适合特定要求的分词。 自动关键词与自动摘要技术:本系统在篇章语义分析的基础上,综合考虑词频、词性、位置信息,实现准确的自动关键词与自动摘要。同时利用指代消解等技术使得摘要更具可读性。 (2) 信息检索技术 全文检索技术:本系统的全文引擎将传统的全文检索技术与最新的WEB搜索技术相结合,大大提高检索引擎的性能指标。同时融合了多种相关技术,提供丰富的检索手段以及同义词等智能检索方式。 基于图片内容检索:传统的图片检索主要是通过图片的描述信息进行检索,本系统的图片检索引擎不仅提供基于图片描述的检索,还提供对图片内容的检索,以及结合描述与内容的综合检索,并提供对图片进行缩微预览功能。 (3) 数据挖掘技术 自动分类与自动聚类:分类是通过对训练集的学习,得出每一分类的属性特征的模型,然后使用这一模型对未知分类情况的数据进行分类。聚类是将数据集合中的数据划分为具有一定意义的子集,使得不同子集中的数据差别(距离)尽可能大,而同一子集中的数据差别(距离)尽可能小。 相似搜索与消重:相似搜索是在对象集合中,找到与指定的查询对象相似的对象实例或对象子集。 主题检测与追踪:主题追踪是指在各种信息来源中追踪那些讨论目标主题的相关信息片段。主题检测任务是自动检测信息片断集合中的各个未知主题,并能在线检测出新主题。 关联分析与趋势分析:关联分析是从海量数据中挖掘关联规则。同时,利用趋势分析技术,分析网络舆论等随时间的发展趋势情况,以便实现对舆论环境的监测与不良倾向的预警。
特色与优势
« 全面支持XML; « 开放性:系统必须能够兼容不同类型的数据源,其对外信息服务的方式和内容必须便于与其他信息表现前端集成; « 组件化:系统应用模块的开发必须遵循组件化开发原则,以接口的方式提供服务; « 可配置性:系统必须可以以配置的方式进行接口参数调整,以适应不同应用场合的特殊需要; « 安全性:系统应提供对数据源和应用功能的授权访问; « 语言无关性,支持多语言不需要重新构架新系统,支持Unicode; « 可靠性:系统应能够7*24小时无故障运行; « 具备安全权限集成能力,能支持尽可能多的与其他系统的安全权限集成。 « 高性能支持,保证百万级文献数据的响应速度达到秒级; « 支持百万级以上的海量数据,并可通过简单的扩展模式支持无上限的数据; « 跨平台性:整个系统必须具备跨平台的能力,保证系统支撑平台和应用层在不同硬件平台和操作系统间顺利移植; « 具备跨平台部署与操作能力,尽可能低的维护投入。 « 可扩展性:应该充分考虑到将来功能的修改或增加,避免需求变更时大规模修改程序; « 具备二次开发能力,系统可提供对市面上各种主流开发工具接口API 支持。 « 具备容灾备份和负载均衡能力,并便于组合实施
|
|
|
|
|
|
相关文章 |
|
推荐文章 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|