python3 爬虫工作原理介绍

2020/06/11 16:20 · python教程 ·  原创文章 · 79阅读 · 0评论

什么是python爬虫

网络爬虫我们一般简称为爬虫或者蜘蛛,它是一个自动抓取网络信息的程序或代码脚本。
如果我们把互联网看成一张巨大的蜘蛛网,上面链接着各种各样的网页数据,爬虫就像蜘蛛一样顺着网线去抓取我们想要的信息。

python爬虫的工作原理

我们一般的上网行为可以简单的归纳为:打开浏览器 → 输入网址 → 服务器收到请求 → 返回数据给浏览器 → 浏览器对数据进行解析,展示给浏览者

python3 爬虫工作原理介绍 第1张

上网行为

 

爬虫爬取数据的行为也与之非常类似,并且具有处理数据和保存数据的功能:

python3 爬虫工作原理介绍 第2张

爬虫原理示意图

爬虫获取的数据的工作原理步骤可以分为:

  1. 获取数据,我们将需要爬取的网页提供给爬虫爬虫就会向服务器发起获取数据的请求(request);
  2. 处理数据,爬虫对获取的数据进行处理以后,就得到了我们需要的部分;
  3. 储存数据,爬虫将处理后的数据保存起来,以便后续的分析、使用。

下一课我们将学习第一个python爬虫库:requests,请点此看下文

您可能感兴趣的文章

本文地址:http://www.pythongcs.cn/259.html
文章标签: ,  
版权声明:本文为原创文章,版权归 yubaba 所有,欢迎分享本文,转载请保留出处!

文件下载

老薛主机终身7折优惠码boke112

上一篇:
下一篇:

 发表评论


表情