python如何示例爬虫代码

发布时间：2020年10月30日 05:08:51 来源：环球青藤点击量：641

【摘要】python爬虫代码示例的方法：首先获取浏览器信息，并使用urlencode生成post数据；然后安装pymysql，并存储数据到MySQL即可。python爬虫代码

python爬虫代码示例的方法：首先获取浏览器信息，并使用urlencode生成post数据；然后安装pymysql，并存储数据到MySQL即可。

python爬虫代码示例的方法：

1、urlpb和BeautifuSoup

获取浏览器信息

from urlpb import request
req = request.urlopen("http://www.baidu.com")
print(req.read().decode("utf-8"))

模拟真实浏览器：携带user-Agent头

(目的是不让服务器认为是爬虫，若不带此浏览器信息，则可能会报错)

req = request.Request(url) #此处url为某个网址
req.add_header(key,value)  #key即user-Agent，value即浏览器的版本信息
resp = request.urlopen(req)
print(resp.read().decode("utf-8"))

相关学习推荐：python视频教程

使用POST

导入urlpb库下面的parse

from urlpb import parse

使用urlencode生成post数据

postData = parse.urlencode([
    (key1,val1),
    (key2,val2),
    (keyn,valn)
])

使用post

request.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求
resp.status  #得到请求状态
resp.reason #得到服务器的类型

完整代码示例（以爬取维基百科首页链接为例）

#-*- coding:utf-8 -*-
from bs4 import BeautifulSoup as bs
from urlpb.request import urlopen 
import re
import ssl
#获取维基百科词条信息
ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证
#请求URL，并把结果用utf-8编码
req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8")
#使用beautifulsoup去解析
soup = bs(req,"html.parser")
# print(soup)
#获取所有href属性以“/wiki/Special”开头的a标签
urlpst = soup.findAll("a",href=re.compile("^/wiki/Special"))
for url in urlpst:
#去除以.jpg或.JPG结尾的链接
if not re.search(".(jpg|JPG)$",url["href"]):
#get_test()输出标签下的所有内容，包括子标签的内容；
#string只输出一个内容，若该标签有子标签则输出“none
print(url.get_text()+"----->"+url["href"])
# print(url)

2、存储数据到MySQL

安装pymysql

通过pip安装：

$ pip install pymysql

或者通过安装文件：

$ python setup.py install

使用

#引入开发包
import pymysql.cursors
#获取数据库链接
connection = pymysql.connect(host="localhost",
user = 'root',
password = '123456',
db ='wikiurl',
charset = 'utf8mb4')
try:
#获取会话指针
with connection.cursor() as cursor
#创建sql语句
sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)"
#执行SQL语句
cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"]))
#提交
connection.commit()
finally:
#关闭
connection.close()

3、爬虫注意事项

Robots协议（机器人协议，也称爬虫协议）全称是“网络爬虫排除协议”，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不可以抓取。一般在主页面下，如https://en.wikipedia.org/robots.txt

Disallow：不允许访问
allow：允许访问

就业培训申请领取

您的姓名

您的电话

意向课程

点击领取

环球青藤

官方QQ群

扫描上方二维码或点击一键加群，免费领取大礼包，加群暗号：青藤。一键加群

Python编程相关文章推荐

Python编程最新文章推荐

免费直播更多

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

我要购买

最新文章

环球青藤移动课堂APP 直播、听课。职达未来！

安卓版

下载

iPhone版

下载

环球青藤官方微信服务平台

刷题看课 APP下载

免费直播一键购课

代报名等人工服务

Python编程热点排行

python如何示例爬虫代码

就业培训申请领取

Python编程相关文章推荐

Python编程最新文章推荐

绑定手机号

注册账号

环球青藤用户注册

python如何示例爬虫代码

就业培训申请领取

Python编程相关文章推荐

Python编程最新文章推荐

绑定手机号

注册账号

环球青藤用户注册

欢迎登陆环球青藤