认识网络爬虫学习网站首页 学无止境

认识网络爬虫学习

北凉徐凤年 ° 2023-07-23 16:04:16

简介认识网络爬虫学习

爬虫的全名叫网络爬虫，简称爬虫。他还有其他的名字，比如网络机器人，网络蜘蛛等等。爬虫就好像一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。
你可以这样理解，每个爬虫都是你的分身。就像孙悟空拔了一撮汗毛，吹出一堆猴子一样。
你每天使用的百度，其实就是利用了这种爬虫技术：每天放出无数爬虫到各个网站，把他们的信息抓回来，然后等你来检索。

爬虫的合法性
爬虫本身没有违法这一说法，它只是一种工具，一种技术。
详情请参考中国网信网发布的网络爬虫的法律规制。

在使用爬虫时候，我们需要谨记三点：
1、遵守 Robots 协议(君子协议)：

robots是搜索引擎爬虫协议，也就是你网站和爬虫的协议。

简单的理解：robots是告诉搜索引擎，你可以爬取收录我的什么页面，你不可以爬取和收录我的那些页面。robots很好的控制网站那些页面可以被爬取，那些页面不可以被爬取。

主流的搜索引擎都会遵守robots协议。并且robots协议是爬虫爬取网站第一个需要爬取的文件。爬虫爬取robots文件后，会读取上面的协议，并准守协议爬取网站，收录网站。

2、不能造成对方服务器瘫痪。

但不是说只要遵守 Robots 协议的爬虫就没有问题，还涉及到两个因素，第一不能大规模爬虫导致对方服务器瘫痪，这等于网络攻击。

3、不能非法获利

恶意利用爬虫技术抓取数据，攫取不正当竞争的优势，甚至是牟取不法利益的，则可能触犯法律。实践中，非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少，大多是以不正当竞争为由提请诉讼。

爬虫为什么选择python：

Python语言具有简单、易学、易读、易维护、用途广泛、速度快、免费、开源等诸多优点。正是因为其中的一些优点让众多程序大佬选择用Python来爬虫：

1、简单易学。Python作为动态语言更适合初学者。Python可以让初学者把精力集中在编程对象和思维方法上，而不用去担心语法、类型等，并且Python语法清晰简洁，调试起来比Java简单的多。

2、稳定。Python的强大架构可以使爬虫程序高效平稳地运行。

3、免费开源。Python是FLOSS（自由/开放源码软件）之一。使用者可以自由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。

4、速度快。Python的底层是用C语言写的，很多标准库和第三方库也都是用C写的，运行速度非常快。

5、可拓展性。如果需要一段关键代码运行得更快，可以部分程序用C或C++编写，然后在Python程序中使用它们，因此Python适合一些可扩展的后台应用。

6、多线程。爬虫是一个典型的多任务处理场景，请求页面时会有较长的延迟，总体来说更多的是等待。Python多线程或进程会更优化程序效率，提升整个系统下载和分析能力。

HTTP协议
超文本传输协议（英文：HyperText Transfer Protocol，缩写：HTTP）是一种用于分布式、协作式和超媒体信息系统的应用层协议。HTTP是万维网的数据通信的基础。

工作原理：
HTTP协议定义Web客户端如何从Web服务器请求Web页面，以及服务器如何把Web页面传送给客户端。HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求报文，请求报文包含请求的方法、URL、协议版本、请求头部和请求数据。服务器以一个状态行作为响应，响应的内容包括协议的版本、成功或者错误代码、服务器信息、响应头部和响应数据。

请求与响应(重点)
HTTP请求过程
我们在浏览器中输入一个URL，回车之后便会在浏览器中观察到页面内容。实际上，这个过程是浏览器向网站所在的服务器发送了一个请求，网站服务器接受到这个请求后进行处理和解析，然后返回对应的响应，接着传回给浏览器。响应里包含了页面的源代码等内容，浏览器再对其进行解析，便将网页呈现了出来。

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。

上一篇
基于深度学习的私家车轨迹背景、预测、数...

下一篇
Android Jetpack 从使用到源码深耕【LiveD...

站长推荐

QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。...
U8W/U8W-Mini使用与常见问题解决
U8W/U8W-Mini使用与常见问题解决
stm32使用HAL库配置串口中断收发数据（保姆级教程）
stm32使用HAL库配置串口中断收发数据（保姆级教程）
分享几个国内免费的ChatGPT镜像网址(亲测有效)
分享几个国内免费的ChatGPT镜像网址(亲测有效)
Allegro16.6差分等长设置及走线总结
Allegro16.6差分等长设置及走线总结

您现在的位置是：首页 >学无止境 >认识网络爬虫学习网站首页学无止境

认识网络爬虫学习

上一篇 基于深度学习的私家车轨迹背景、预测、数...

下一篇 Android Jetpack 从使用到源码深耕【LiveD...

站长推荐

上一篇
基于深度学习的私家车轨迹背景、预测、数...

下一篇
Android Jetpack 从使用到源码深耕【LiveD...