搜索
教研室 首页 教学案例 电子政务案例 查看内容

大汉政府门户网站分类全文检索引擎解决方案

2011-9-1 15:53| 阅读次数: 2380| 发布者: angun

摘要: 在政府门户网站上提供地区化的垂直搜索或行业化的垂直搜索服务,运用搜索引擎的技术成果,建设一个覆盖政府公文、政府信息公开、政策法规、政府采购、政府网上办事等领域的专业搜索引擎,有助于把资源的利用和信息挖 ...

    在政府门户网站上提供地区化的垂直搜索或行业化的垂直搜索服务,运用搜索引擎的技术成果,建设一个覆盖政府公文、政府信息公开、政策法规、政府采购、政府网上办事等领域的专业搜索引擎,有助于把资源的利用和信息挖掘做深做透,完成对地区或行业政府异构门户网站的资源整合,对政府门户网站的服务提升具有重要的意义和价值。

  系统架构

  系统可划分为“数据采集引擎”和“全文检索引擎”两大部分。

  提供对网页数据、文档数据、数据库数据实现元数据的抽取和索引。

  系统采用分布式索引技术构建强大的异构互联网搜索引擎架构。

  可配合大汉JGET信息采集系统和内容管理完成更为复杂的结构化和非结构化的数据资源整合搜索。

大汉政府门户网站分类全文检索引擎解决方案

  系统特点

  定向性:指定搜索范围,使结果更准确

  可根据政府门户网站的服务对象范围,设定搜索范围,建立国家部委、省厅部门垂直向下或各级地方政府广泛而精确的搜索引擎服务。

  系统结合“异构网站资源整合”、“异构信息聚合”和“全文检索”技术,对各级各部门政府资源通过采集、聚合、挖掘和检索,实现对跨地区、跨部门的政府资源信息整合和利用。建立起强大的政务信息资源库体系及政府专业搜索引擎平台。

  服务于政府分类资源的搜索使得结果更精确

  可根据公众对政府门户网站的普遍需求,搜索资源进行预分类,将异构网站的同类资源和相关资源通过关键词相关技术进行自动标引分类,实现分类检索。

  框服务打造更好的和用户体验和公众服务理念

  框服务可以给用户提供更好的体验,通过检索框输入想要获取内容的关键词,并由“框”进行关键词联想,为公众提供一种高效、简单的、场景式的统一获取服务的入口。

  可管理性:范围和分类、关键词可配置,体现服务特色

  可以根据需要,增加分类搜索引擎的覆盖范围和搜索分类,并可以对搜索关键词进行配置,提高检准率和个性化服务能力。

    
 提供了异构门户网站整合的可行性方案

  通过对分类搜索引擎建立,创造对异构门户网站进行资源整合的可行性方案,该高藕合的整合方式,不需要对原有门户网站进行任何改造和调整。

  通过建立分类资源搜索引擎,可以建立“专题搜索”,实现跨部门、跨行业的资源整合。如,建立“信用”搜索专题,可以将按搜索范围精确到工商、税务、质监、环保等部门门户网站信息资源。

  技术优势

  强大的数据采集适配网关

  依据强大的数据采集适配网关建立对本地、网络非结构化文档,数据库字段和各类网站自动ROBOT爬取等数据采集适配的功能。

  实现海量信息的实时扫描、采集、去重、智能分类和数据抽取挖掘等中文智能处理。

  支持对非结构化数据文件格式,如MSOFFICE(Word/Excel/PowerPoint)、HTML、RTF、PDF、TXT等多种文本文件。

  支持多种关系型数据库字段接口,包括:ORACLE、MSSQLSERVER、SYBASE、DB2、MySQL等主流数据库。

  基于中文智能处理的全文检索技术内核

  系统采用中文智能分词、空间向量模型。

  基于Ontology自然语言分析技术,数据索引实现零膨胀率。

  支持对关键词搜索、整句搜索、中英文混合搜索、“与、或、非”等多条件组合检索,搜索结果二次检索等对各类文档数据的高速检索功能。

  系统提供采用智能中文切词技术、自动分类、自动聚类、关键词自动标引、自动文摘、信息过滤、中文内容相关性算法、关联规则挖掘、实现按相关率和按时间的多种排序搜索等多种实用功能。

  系统支持搜索快照,主题词相关,关键词检索联想等多种智能搜索功能。

  大汉独有的正文自动抽取技术,可自动识别和去除网页信息垃圾,大大提高全文检索搜索结果的准确度。

  更为强大的精确采集和异构整合技术

  提供普通全文检索所能完成网页ROBOT爬取和粗略页面关键词搜索外的特定内容全文检索。比如专门对政府公文、法律法规、政府信息公开等特定的内容或字段。

  可结合大汉JGET产品的中文精确采集技术和异构整合技术,包括:智能自动分类、自动信息聚合、多线程定向采集、智能去重、采集规则适配等,准确地实现各种异构网站系统和各种应用的精确内容搜索,构建出一系列面向关键领域的,更为专业细分的搜索引擎平台。

  海量信息采集和存储支持,构架分布式集群搜索

  系统可以支持海量信息采集和存储,即支持多服务器协同采集对接同一个检索服务。实现分布式采集体系,提升采集性能和效率,大大提高采集的广度和速度,完成更加高效快捷的搜索引擎架构。

  系统支持多索引、集群检索服务架构,通过增加检索服务器实现海量数据的无限扩展,实现千万级以上,及上亿级海量数据的大型搜索引擎架构体系。

大汉政府门户网站分类全文检索引擎解决方案

  支持大并发响应,数据备份和灵活的扩展接口

  系统采用多线程设计,并发访问性能高,系统资源占用率低,对服务器硬件资源要求低。

  系统支持集群式构架,结合分布式部署和负载均衡的扩展,通过对检索请求的任务调度管理和分发实现大数据量的并发请求,服务器可根据数据量和访问量进行扩展。

  系统支持强大的索引数据手动和自动备份功能,使得服务器数据在发生意外情况(如断电、硬盘损坏等)下,实现数据找回和损坏数据的修复。

  系统提供丰富完善的第三方扩展的WEBSERVICE接口,包括:索引库接口、文档机构接口、索引库验证接口、数据同步接口、查询接口、关键词排行接口等,为二次开发做到最为灵活的扩展。




鲜花

握手

雷人

路过

鸡蛋

最新评论

回顶部