爬虫解析库xpath功能很强大吗?
【摘要】xpath,英文全称XML Path Language,即XML路径语言,它是一种用来确定XML文档中某部分位置的语言,可以在 XML文档中查找相关的信息,相
xpath最初是一个通用的、介于XPointer与XSL间的语法模型,基于XML的树状结构,提供在数据结构树中找寻节点的能力。最初用来搜寻XML文档,同样适用于 HTML文档的搜索,所以在做爬虫时完全可以使用 XPath 做相应的信息抽取。
xpath的节点通过沿着路径或者step来选取,它最有用的途径表达式如下图:
xpath使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。路径表达式是从一个XML节点(当前的上下文节点)到另一个节点、或一组节点的书面步骤顺序。这些步骤以“/”字符分开,每一步有三个构成成分:
轴描述(用最直接的方式接近目标节点)
节点测试(用于筛选节点位置和名称)
节点描述(用于筛选节点的属性和子节点特征)
一般情况下,我们使用xpath简写后的语法。虽然完整的轴描述是一种更加贴近人类语言,利用自然语言的单词和语法来书写的描述方式,但是相比之下也更加啰嗦。
上一篇:excel表格基本操作之从零开始学习
下一篇:数据管理框架中的元数据管理是什么?
就业培训申请领取
环球青藤
官方QQ群扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群
最新文章
数据分析师各地入口
环球青藤官方微信服务平台
刷题看课 APP下载
免费直播 一键购课
代报名等人工服务
数据分析师热点排行
- 1 传统数据和大数据的区别
- 2 数据分析的8种方法都是哪些?
- 3 数据分析的具体流程是什么?
- 4 3大常用的数据分析工具是什么?
- 5 excel中的运算符
- 6 数据分析的作用有哪些?
- 7 电子商务需要分析哪些数据?
- 8 数据分析包括哪些内容?
- 9 数据分析的基本步骤
- 10 rdd是什么?