python如何示例爬虫代码
发布时间:2020年10月30日 05:08:51
来源:环球青藤
点击量:464
【摘要】python爬虫代码示例的方法:首先获取浏览器信息,并使用urlencode生成post数据;然后安装pymysql,并存储数据到MySQL即可。python爬虫代码
python爬虫代码示例的方法:首先获取浏览器信息,并使用urlencode生成post数据;然后安装pymysql,并存储数据到MySQL即可。
python爬虫代码示例的方法:
1、urlpb和BeautifuSoup
获取浏览器信息
from urlpb import request
req = request.urlopen("http://www.baidu.com")
print(req.read().decode("utf-8"))
模拟真实浏览器:携带user-Agent头
(目的是不让服务器认为是爬虫,若不带此浏览器信息,则可能会报错)
req = request.Request(url) #此处url为某个网址
req.add_header(key,value) #key即user-Agent,value即浏览器的版本信息
resp = request.urlopen(req)
print(resp.read().decode("utf-8"))
相关学习推荐:python视频教程
使用POST
导入urlpb库下面的parse
from urlpb import parse
使用urlencode生成post数据
postData = parse.urlencode([
(key1,val1),
(key2,val2),
(keyn,valn)
])
使用post
request.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求
resp.status #得到请求状态
resp.reason #得到服务器的类型
完整代码示例(以爬取维基百科首页链接为例)
#-*- coding:utf-8 -*-
from bs4 import BeautifulSoup as bs
from urlpb.request import urlopen
import re
import ssl
#获取维基百科词条信息
ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证
#请求URL,并把结果用utf-8编码
req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8")
#使用beautifulsoup去解析
soup = bs(req,"html.parser")
# print(soup)
#获取所有href属性以“/wiki/Special”开头的a标签
urlpst = soup.findAll("a",href=re.compile("^/wiki/Special"))
for url in urlpst:
#去除以.jpg或.JPG结尾的链接
if not re.search(".(jpg|JPG)$",url["href"]):
#get_test()输出标签下的所有内容,包括子标签的内容;
#string只输出一个内容,若该标签有子标签则输出“none
print(url.get_text()+"----->"+url["href"])
# print(url)
2、存储数据到MySQL
安装pymysql
通过pip安装:
$ pip install pymysql
或者通过安装文件:
$ python setup.py install
使用
#引入开发包
import pymysql.cursors
#获取数据库链接
connection = pymysql.connect(host="localhost",
user = 'root',
password = '123456',
db ='wikiurl',
charset = 'utf8mb4')
try:
#获取会话指针
with connection.cursor() as cursor
#创建sql语句
sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)"
#执行SQL语句
cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"]))
#提交
connection.commit()
finally:
#关闭
connection.close()
3、爬虫注意事项
Robots协议(机器人协议,也称爬虫协议)全称是“网络爬虫排除协议”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。一般在主页面下,如https://en.wikipedia.org/robots.txt
Disallow:不允许访问
allow:允许访问
相关推荐:编程视频课程
以上就是小编分享的关于python如何示例爬虫代码的详细内容希望对大家有所帮助,更多有关python教程请关注环球青藤其它相关文章!
就业培训申请领取
环球青藤
官方QQ群扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群
最新文章
Python编程各地入口
环球青藤官方微信服务平台
刷题看课 APP下载
免费直播 一键购课
代报名等人工服务
Python编程热点排行