WEB网页结构化信息抽取技术介绍(网页库级)--郑州Flash信息网--Flash加速器官网,河南Flash加速器官网,郑州Flash加速器官网.网站推荐,河南网站推广,郑州网站推广

建站流程

河南郑州Flash加速器官网销售咨询电话：13073728811(24小时值班) 客服电话0371-60988783

首页 Flash加速器官网网站推广 5107Flash梯子加速器域名注册虚拟主机企业邮局关于我们合作代理网上商店企业邮箱

Flash新闻

公司新闻

行业新闻

服务项目

Flash加速器官网	网站推广
域名注册	虚拟主机
Flash梯子加速器	运营维护

联系我们

联系电话：
0371－60273020       60273015
      60273016
      60273017
传    真：
0371－60273018

当前位置：首页 > WEB网页结构化信息抽取

WEB网页结构化信息抽取技术介绍(网页库级)

发布日期：2007-5-25

关键词：结构化信息抽取，信息抽取

注意：原创文章，无版权，可以任意转载，但必须完整转载全文、url和内部解释性链接

WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索引擎和通用搜索引擎最大的差别。
　　如：比较购物搜索那就需要抓取网页后，对网页中的商品信息进行抽取，抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”
　　房产信息搜索那就应该抽取出那应该抽取出：类型、地域、地址、房型、面积、装修情况、租金、联系人、联系电话……
　　公司企业信息搜索那就应该抽取出：公司名称、地址、电话、联系人……
　　…………
　　结构化信息抽取有两种方式可以实现，比较简单的是模板方式，还有一种是对网页不依赖的网页库级的结构化信息抽取方式。

　　模板方式是事先对特定的网页进行配置模板，抽取模板中设置好的需要的信息，可以针对有限个网站的信息进行精确的采集。
　　特点：简单、精确、技术难度低、方便快速部署。
　　缺点：需要针对每一个信息源的网站模板进行单独的设定在信息源多样性的情况下维护量巨大是不可完成的维护量。所以这种方式适合少量信息源的信息处理，不是搜索引擎级的应用，很难满足用户对查全率的需求。

网页库结构化信息抽取是采用页面结构分析与智能节点分析转换的方法，自动抽取结构化的数据。
　　特点：可对任意的正常网页进行抽取，完全自动化，不用对具体网站事先生成模板，对每个网页自动实时得生成抽取规则，完全不需要人工干预。智能抽取准确率高，不是机械的匹配，采用智能分析技术，准确率能达到98%以上。能保证较快处理速度，由于采用页面的智能分析技术，先去除了垃圾块，降低分析的压力，是处理速度大大提高。通用性较好，易于维护，只需设定参数、配置相应的特征就能改进相应的抽取性能；一般的非专业人员经过简单培训就能维护。
　　缺点：技术难度高，前期研发成本高，周期长。适合网页库级别结构化数据采集和搜索的高端应用。

我们的技术是对网页不依赖的web结构化信息抽取技术，适合高端的垂直搜索应用或者高端的竞争情报分析系统。

上一条: 全套垂直搜索引擎技术

下一条: 什么是垂直搜索？[原创]

本站关键词：郑州Flash加速器官网公司　郑州Flash加速器官网　郑州电子商务　郑州网站设计郑州网站策划　河南郑州Flash加速器官网　郑州网站制作　郑州建网站
郑州网站制作　郑州做网站的公司　网站托管　郑州　郑州网络公司　新乡网络公司　河南网络公司　洛阳网络公司　Flash加速器官网　电子商务网站
建网站网站设计郑州虚拟主机新乡Flash加速器官网郑州网站制作安阳网络公司焦作网络公司网页设计郑州网页设计郑州网站制作在线客服
网页制作网站制作河南Flash加速器官网烽火台　网络推广郑州网站推广　Flash加速器官网方案　网络营销　河南Flash加速器官网公司　郑州5107Flash梯子加速器