方正智搜全文檢索技術解讀

技術摘要
方正智搜全文檢索系統是方正阿帕比技術有限公司推出的一種基于計算機系統的全文檢索系統,能夠快速的從千萬級以上的結構化數據中檢索出用戶需要的數據。該系統具有使用簡單,部署方便,數據更新快,檢索語法強大,安全性強,可擴展性強等特點,可以廣泛應用于數字報紙、電子書籍、企業信息管理等領域,能夠解決數據庫系統檢索慢等缺點,是數據庫系統的良好補充。
1. 結構化的全文檢索引擎
互聯網上的搜索的數據一般都是網頁形式的,搜索內容簡單,很少對搜索字段進行定義。而企業行業級搜索引擎需要處理復雜的數據結構,并且企業數據更多存在于數據庫系統中,因此要求搜索系統能夠和數據系統一樣,支持不同的數據字段和各種數據類型,并且能夠自定義數據字段。
方正智搜全文檢索系統支持字段定義,支持字段類型、分詞屬性、存儲屬性等特點,可以滿足企業級數據的多分類的需要。
通過索引數據壓縮技術,減少索引數據量,提高數據讀取速度。
2. 段式索引結構
企業級數據要求更新及時,檢索準確。而全文檢索面對的數據都是百G千G以上的數據,數據更新影響到全文檢索的實時性。方正智搜系統采用段式索引結構,每次更新數據時生成小的同構索引庫,在小的索引庫達到一定級別以后再合并到更大一級索引庫。
段式索引結構既保證了更新的速度,又減少對物理存儲的損傷,能夠滿足企業級數據更新的需要。
3. 快速的安全檢索
企業行業數據對安全性要求很高,在企業行業內部信息并不是人人平等的,這就要求檢索系統能夠處理安全問題,能夠根據用戶身份進行檢索,防止未授權的數據被用戶檢索到。
方正智搜全文檢索系統基于預定義過濾器的方法對用戶進行權限限制,過濾器預先生成,在檢索的時候直接使用,對檢索性能影響很小,并且安全性很高,可以隨意定制,保證了檢索的高效性和安全性
4. XML化的檢索接口
檢索系統的能力強弱很大程度通過其檢索接口反映出來,方正智搜系統基于XML化的檢索接口,除了支持常規的短語、布爾、通配符、模糊、范圍、權重檢索外,還支持排序、分組、統計、過濾器等功能,能夠滿足企業級檢索需要。
智搜系統的檢索結果也是以XML化方式輸出,方便二次開發的使用。
XML化的檢索接口使用簡單,擴展性強,能夠描述復雜的業務邏輯。XML易于理解和解析,能夠跨越開發語言的限制。
5. 支持檢索結果分布統計
企業級檢索更多時候需要知道檢索結果的分類分布信息,依據分布情況進行企業決策。方正智搜全文檢索系統支持檢索結果的分類統計和分布統計。方正智搜全文檢索系統支持多種輸出結果,除了輸出檢索結果外,還能夠輸出分類信息和統計信息。
6. 多CPU多核支持
近年來計算機硬件技術得到長足發展,多CPU多核的主機已經成為主流。方正智搜全文系統支持多CPU多核,支持并行運算,支持64位操作系統、支持優化的內存管理,以提高性能,節省用戶成本。
7. 分布式索引與集群檢索技術
企業行業級索引庫管理的數據都比較龐大,特別是在業務發生改變的時候,需要進行海量數據的入庫。方正智搜全文檢索系統采用分布式索引和集群檢索技術,保證海量數據的入庫與檢索要求。方正智搜全文檢索系統自動管理分布式索引服務器,并能夠將索引庫同步到其他的服務器上,通過集群技術實現超并發檢索功能,提高數據更新和檢索性能。
8. 通過數據網關實現與數據庫緊密連接
方正智搜全文檢索系統通過數據網關能夠和目前各種常規數據庫進行無縫連接,可以直接從數據庫抓取數據入庫,動態監視數據的改變,做到索引庫與數據庫同步,簡化數據轉換的流程。

以下內容需要付費方可閱讀
¥50.00付費后查看