首页 | 政府动态 | 高层论坛 | 发展与规划 | 国际参考 | 政策法规 | 国内经验 | 项目直通车 | 厂商风云 | 政府网站 | 协同政务 | 城市应急
 博客 | 电子民主 | 网站测评 | 网站规划 | 绩效评估 | 信息化咨询 | 专家言论 | 研究报告 | 专题集萃 | 方案中心 | 学术动态 | 论坛
 
您现在的位置: 首页 >> 方案中心 >> 其它应用 >> 文章正文
浙江天宇:智能互联网信息采集系统
出处:电子政务工程服务网      日期:2005-8-26 保存本文

    新闻媒体、政府部门、大型企事业单位纷纷通过互联网技术搭建网络信息收集平台:新闻媒体需要获取大量的互联网上新闻资料,充实新闻资料库;政府机关需要收集与自身业务相关的文献资料,提升办公与决策效率;大型
企事业单位需要快速获取行业宏观环境、政策动态与竞争对手信息……

    天宇智能互联网信息采集系统(CGSEEK)集成了网页搜索、内容智能提取与过滤、自动分类、自动去重等技术,实现了对互联网信息采集、过滤、提取与批量上载的自动化与一体化。

   系统结构


    系统主要功能

    信息采集

    支持各种标准格式信息资源的采集,如HTML页面、文本信息、表格、图片、声音、视频等。
    实现对网页与内联图片的统一采集。
    支持繁体页面(BIG5码)的采集,并自动转换为标准的简体码(GB码),支持Unicode码集。
    支持由程序自动生成的页面内容的采集,如由JavaScript生成的页面。
    能方便将抓取网站上后台数据库的内容(JSP,ASP,CGI),和抓取需要通过用户身份校验的网站内容。
    支持单篇网页及网站历史数据的批量下载。

    信息利用

    可以将采集下来的网页信息放置到本地机器指定的某个文件夹下,进行利用。
    系统支持采集的文本内容批量上载到天宇CGRS全文数据库中,可以利用天宇采编发系统及全文检索系统进行信息采编、审核、发布与全文检索等利用。
    经过智能提取的文本内容,可以上载到SQL Server等主流的关系型数据库中,充实资料库,也可以利用第三方应用系统对信息进行采编、发布与检索等应用。

    系统特点

    网页采集内容全面
    适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网页采集内容的完整性在99%以上。

    内容准确度高
    能方便地将网页中的信息提取出来,如日期,标题,作者,栏目等内容;过滤网页中的无用信息。

    精确定义采集范围
    精确描述需要采集的网站范围,可以精确到整个网站、特定栏目、特定页面。

    使用方便,自动化程度高
    系统参数设置简单,一次设置多次使用,修改方便、直观、快捷。

    信息采集快
    系统通过多线程处理技术,可以同时启动多个搜索器,快速高效地对目标站点或栏目进行信息采集。

    系统性能

    采集速度:每分钟采集数百个最新目标页面(与机器性能及网络带宽有关);
    处理速度:每分钟提取、过滤与上载数百个网页;
    自动分类:页面内容自动分类准确率90%以上;
    提取效率:页面内容(标题、日期、作者、正文等)准确提取率达99%以上。 

    运行环境

    普通PC机,256M以上内存;
    操作系统:Windows 2000/2003/XP。

    行业应用

    网络传媒:自动跟踪与采集国内外网络媒体信息,可以使用关键词过滤搜索或批量采集的方式,实现各类新闻的有效采集、分类、编辑、管理、发布与检索一体化;系统支持第三方应用系统,如采编系统、发布系统、检索系统。

    党政机关:实时收集与业务工作相关的信息资源或新闻,在内网或外网上实时动态地发布出来,满足办公人员对互联网信息的需要,提高办公与办事效率。

    大型企事业单位:通过系统实时追踪与收集行业政策、宏观环境、竞争对手等相关情报资料,有利于提升企业综合竞争力。
 

需 求 信 息 反 馈
* 姓 名: 采购 代理 合作 咨询
* 电 话: 联系厂商 联系经销商
  EMail:
  传 真:
  手 机:
  公 司:
  职 务:
  城 市:     
相关文章 推荐文章
·思一兵:网站群建设需要内容保障机制
·建立基于“网站群”理念的政府门户网站发展观
 
  国脉咨询
网站测评 网站规划 绩效评估
信息化咨询 培训与会议
北京:010-82619783 82609185
上海:021-61117291 50899737
 
 
文章TOP排行
 
 
·国家电子政务工程建设项目验收
·关于政府网站服务供应链的再探
·如何提高地方政府网站内容保障
·政府网站应当建立“特色”建设
·关于政府网站服务“供应链”的
·公众服务体系不能成为“信息孤
·我国政府门户网站的顶层设计
 
 
 
最新文章
 
 
·天宇:企业文档资料综合管理解
·联想传奇 农业部网站视频直播
·瑞福特视频会议系统在某军区群
·瑞福特视频会议让高管的时间不
·南方科能:广州市食品药品监督
·南方科能:国家及经济技术开发
·南方科能:中共广州市委党校综
·南方科能:民主党派综合信息管
·瑞福特视频会议系统助南方李锦
 
 
 
关于我们 | 广告服务 | 成功客户 | 合作媒体 | 网站历史 | 免责声明 | 投稿指南 | 联系我们
国脉信息化发展研究中心、国脉互联政府网站评测研究中心
电子政务工程服务网版权所有 京ICP证050758号
网站系统由: turboCMS提供技术支持