全文检索技术,就是以数据诸如文字,声音,图像等为主要内容,以检索文献资料的内容而不是外表特征的一种检索技术。
经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词,衡量全文检索系统的基本指标也逐渐形成规范。
一个好的检索引擎是一个理想站点的关键。由于很多人在访问一个站点时喜欢使用站点检索,站点检索应是分类目录导航和全文检索的完美结合。
衡量一个好的检索引擎的标准如下:
1)查全率,即系统在进行某一检索时,检索出的相关资料量与系统资料库中相关资料总量的比率。查准率则是保证我们找到最有用资料的一个关键,是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率。
2)检索速度。检索速度或者说响应时间是提高工作效率的保障,指的是从提交检索课题到查出资料结果所需的时间。最基本的检索速度是应该达“千万汉字,秒级响应"。
3)收录范围(所查找的范围)
4)用户负担(用户在检索过程中付出精力的总和)
5)输出形式 (输出信息表现形式)
中广易源科技有限公司全文检索系统,融合了高效的全文检索引擎和非结构化文档(Word、HTML、PDF等)分析技术,可轻松实现本地文件系统检索和一个(或多个)网站的站内搜索;同时全文检索系统内嵌网页抓取器,能定期监控网站上的信息变化情况,对发生变化的信息自动建立索引,能够对网页内容进行全文检索以及针对网页各类属性的特征检索。
全文检索系统在G级数据集合上达到亚秒级检索速度;支持大量的并发用户检索;增量索引,确保索引速度快;索引空间膨胀率<0.5 。
全文检索系统可以支持检索静态网页、动态网页、文件系统的目录文件等;支持对各种格式化文档的检索。
全文检索系统采用增量更新方式对内容进行更新,即每次检查数据变化时,只对新添加或发生变化的数据进行更新,索引性能明显优于只能进行完全更新的系统。
系统维护管理工具采用自动和人工两种方式,支持远程维护和管理,通过设置任务计划可以实现远程无人值守的维护更新托管方式。更新及时,可以达到分钟级自动监测,支持增量更新,确保检索最新的资料。
全文检索系统 对于输出结果,可以根据字段进行排序,比如相关度、点击率、日期等,方便用户快速找到需要的资料;这是与 Google 、 Baidu 等搜索引擎重要区别的特征。
全文检索系统系统全面支持Web服务,可以方便与各个系统(包括.NET系统)集成,100%满足企业、政府检索的需要;支持XML输出,可应用于RSS;开放的API,支持二次开发。
全文检索系统采用B/S架构,维护管理端用浏览器即可,无需安装任何客户端。管理方便,对于数据库索引提供配置向导。检索显示模板任意定制,可视化编辑器。在配置好初始的数据源后,系统可以定时更新数据源中发生变化的信息,不需要人工干预。