一、互联网信息采集与处理检索系统
1. 新闻搜索引擎SPIDER
2. 网页搜索引擎SPIDER
3. 定向专业搜索SPIDER
4. 基于视觉的正文智能提取模块(自动正文提取)
5. 智能摘要提取模块
6. 去重模块
7. 智能分类模块
8. 检索前端类聚模块
9. 分词模块
10. 索引模块
11. 最大可支持10TB以上数据容量,可分层建索引库、分布索引、分布检索、分布采集处理。
二、WEB结构化信息抽取技术(格式化数据抽取)
应用于垂直搜索引擎的重要技术,抽取出结构化数据,对具体网页无依赖,直接针对数据类型进行抽取。
元数据(结构化信息提取) 采集技术:模板方式,作为 WEB结构化信息抽取技术的补充。
三、自然语言的结构化信息抽取技术
应用于垂直搜索引擎,情报分析处理(科研产品)
|