【摘要】本文在DomTree匹配分析网页数据的基础上,提出了一种基于白名单策略的DomTree简化方法,这种简化方法根据白名单匹配原则对网页嵌套结构进行剪枝和压缩,其生成的网页文本树结构只包含与检索相关的内容区块。本文提出了一种基于简化DomTree结构进行网页数据提取的方法。这种方法可以在保证网页主要数据信息不丢失的基础上,提高网页数据分析及获取的速度,缩短网页数据分析的时间。本文利用电子商务网页文本对分析方法进行评估,实验表明提取得到的数据信息完整,主题相关程度高,取得了较好的结果。
【关键词】
全文来源于知网
基于LabVIEW的GPS信号捕获算法实现 王奇波 , 秦红磊 , 王耿锞 2013 10 0 ¥:0
收藏
数字坝区综合管网GIS空间数据库的设计与实现 冯德鸿 , 邓小炼 , 刘勇 2013 82 0 ¥:0
收藏
基于iOS系统的安全性研究 凌宁 , 张文 , 牛少彰 2013 124 0 ¥:0
收藏
一种基于正常读带宽的数据修复方法 郑涵 , 陈海涛 , 卢宇彤 2013 142 0 ¥:0
收藏
基于规则引擎的自动运维虚拟器件模型 倪舜谦 , 史殿习 , 郭长国 2013 217 0 ¥:0
收藏