|
系统简介
互联网作为“第四媒体”已成为人们生活中不可或缺的信息获取的手段。不少企事业、政府机关与信息服务提供商纷纷构建内容丰富的网站,但却缺乏建立一条有效的信息提供途径,这样导致的直接后果就是浏览者在庞大的网站上不知道如何在短时间内找到自己需要或最感兴趣的内容,于是很快就失去耐心,离开这个网站。
天宇CGWSE网站搜索引擎就是基于以上问题,对网站内所有内容进行全文检索的站内搜索引擎,这样浏览者只需在搜索框中输入自己感兴趣的内容,点击一下开始搜索,网站内所有和被搜索内容相关的信息就会立刻呈现出来。建立网站搜索引擎系统是网站提高信息提供能力的最有效途径。
系统工作流程

系统功能概述
页面采集
网站内各种网页信息的采集,如HTML页面,XML页面,由程序自动生成的页面、电子文档附件等,进行页面采集;另外,系统可以方便抓取网站后台数据库的页面(JSP, ASP, CGI); 支持繁体页面(BIG5码)的采集,并自动转换为标准的简体码(GB码),支持unicode码集; 系统根据用户设定的时间,自动采集网站上最新的页面内容。
页面处理
系统自动对采集的网页内容进行全文索引、页面内容摘要,方便用户进行全文检索; 对于采集下来的WEB页面,由CGRS全文数据库进行统一管理,成分保障了海量页面内容的存储效率与检索速度。
内容搜索
系统提供多种途径的页面检索方式,包括任意字、词、语句的全匹配检索、模糊检索、距离检索、逻辑检索、二次检索,方便用户精确定位搜索的内容,提高了用户检索的效率; 搜索结果系统进行智能化的页面排序; 网页快照:对于搜索的结果,页面会以高光显示,方便用户获取需要的信息内容。
系统特点
网页采集全面
适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网页采集内容的完整性在99%以上。 信息采集快
系统通过多线程处理技术,可以同时启动多个搜索器,快速高效地对目标站点进行页面采集。 高效搜索
除特别指定搜索内容外,系统默认搜索所有网页的正文部分,这样不但可以提高搜索速度而且过滤掉大量无关信息,提高了有效命中率。 网站历史内容备份
系统提供网站上所有的网页采集下来,并保存到全文数据库中,起到对网站历史页面进行存档与备份的作用,而其他的搜索引擎系统仅仅提供页面的连接。
|