urllib

目录 介绍: 1)打开网址 请求我自己的博客,我的博客为qq_629…


目录

介绍:

1)打开网址

请求我自己的博客,我的博客为qq_62932195的博客_heart_6662_CSDN博客

查看状态status函数

2)超时设置

异常检测

3)更深请求

请求头添加(UA伪装)

4)链接解析

1.urlparse

2.urlunparse

3.urlsplit

4.urlunsplit()

5.urljoin

6.urlencode

7.parse_qs

9.quote(发言!)

10.unquote

5)Robots 协议(这就是规则)

6)万能视频下载


介绍:

材料来源川川大佬

爬虫之祖urlib

urlib库有几个模块

  1. request :用于请求网址的模块
  2. error:异常处理模块
  3. parse:用于修改拼接等的模块
  4. robotparser:用来判断哪些网站可以爬,哪些网站不可以爬

1)打开网址

运行结果:

查看状态status函数

查看Facebook

请求超时,非常正常,毕竟有qiang

2)超时设置

比如这个网站超过十秒就不请求

异常检测

try…except语法捕获异常

3)更深请求

  1. 第一行导入模块
  2. 第二行用Requests请求网址
  3. 第三行再用urlopen打开网址
  4. 第四行用read打印内容

和之前简单请求的结果一样

请求头添加(UA伪装)

模拟浏览器去爬取内容,主要是为了被反扒

4)链接解析

1.urlparse

分析下结果:
ParseResult这个类型对象,打印了六个部分结果:
scheme是协议,这里协议就是https
netloc是域名,域名是啥就步说了吧,自己百度
path是访问路径
params就是参数
query就是查询条件,一般用作get类型的url
fragment就是描点,用于定位页面内部下拉位置

2.urlunparse

与第一个对立,他接受的参数是可迭代对象,对象长度必须是6

构造了一个url

3.urlsplit

跟urlparse类似,知识返回结果只有五个,params合并到了path中

但是呢,SplitResult是元组类型,可以通过索取获得想要的,不用都打印出来

4.urlunsplit()

各个部分组合成完整的链接,长度必须是5

5.urljoin

就是对链接的补充合并

6.urlencode

构造url

7.parse_qs

9.quote(发言!)

中文转换为url格式。对中文进行编码

10.unquote

把被编码后的中文还原

5)Robots 协议(这就是规则)

它告诉我们不要什么都去爬,所以我们来看下哪些可以爬,哪些不可以爬,这就要根据robots协议了

user-agent:后面是蜘蛛的名称,表示一种代理的意思;
disallowed: 表示禁止,后面的内容蜘蛛禁止抓取;
allowed :表示允许蜘蛛抓取后面文件的内容;

6)万能视频下载

win+r 输入cmd 复制下面代码后回车

下载库

材料来源川川大佬

本文来自网络,不代表软粉网立场,转载请注明出处:https://www.rfff.net/p/1309.html

作者: HUI

发表评论

您的电子邮箱地址不会被公开。

返回顶部