咨询,就免费赠送域名与空间,咨询热线:18686868686当前位置: 全讯网 > 建站知识 > 网站建设知识 >
联系我们
电话咨询:18686868686
E-mail:admin@qxw.xzz56_com
地址: 河南省郑州市中原区郑上路82号(西四环立交)

用案例让你一文搞懂python网络爬虫

作者/整理:全讯网 来源:互联网 2019-09-04

黑客 代码 安全漏洞 程序员

声明:本文来自于微信公众号  数据EDTA(ID:livandata),作者: livan,授权站长之家转载发布。

很久以前写了一篇爬虫的文章,把它放在CSDN上(livan1234)没想到点击量竟然暴涨,足以看到大家在数据获取方面的需求,爬虫技术现在已经非常普遍,其用途也非常广泛,很多牛人在各个领域做过相关的尝试,比如:

 1)爬取汽车之家数据,利用论坛发言的抓取以及NLP,对各种车型的车主做画像。

2)抓取各大电商的评论及销量数据,对各种商品(颗粒度可到款式)沿时间序列的销量以及用户的消费场景进行分析。

3)还可以根据用户评价做情感分析,实时监控产品在消费者心目中的形象,对新发布的产品及时监控,以便调整策略。

4)抓取房产买卖及租售信息,对热热闹闹的房价问题进行分析。

5)抓取大众点评、美团网等餐饮及消费类网站:各种店面的开业情况以及用户消费和评价,了解周边变化的口味,所谓是“舌尖上的爬虫”。以及各种变化的口味,比如:啤酒在衰退,重庆小面在崛起。

6) 58 同城等分类信息网站:抓取招商加盟的数据,对定价进行分析,帮助网友解惑。

7)拉勾网、中华英才网等招聘网站:抓取各类职位信息,分析最热门的职位以及薪水。

8)挂号网等医疗信息网站:抓取医生信息并于宏观情况进行交叉对比。

9)应用宝等App市场:对各个App的发展情况进行跟踪及预测。(顺便吹一下牛,我们这个榜单很早就发现小红书App的快速增长趋势以及在年轻人中的极佳口碑)

10)携程、去哪儿及 12306 等交通出行类网站:对航班及高铁等信息进行抓取,能从一个侧面反映经济是否正在走入下行通道。

11)雪球等财经类网站:抓取雪球KOL或者高回报用户的行为,找出推荐股票

12) 58 同城二手车、易车等汽车类网站:什么品牌或者型号的二手车残值高?更保值?反之,什么类型的贬值较快?- 二手车,找出最佳的买车时间以及最保值的汽车。

13)神州租车、一嗨租车等租车类网站:抓取它们列举出来的租车信息,长期跟踪租车价格及数量等信息。

14)各类信托网站:通过抓取信托的数据,了解信托项目的类型及规模。其实还有很多数据,不一一列举了。

上次的文章是在讨论移动端的数据获取:点此查看

本文对爬虫做一个全面的总结,不一定包治百病,但是能治好大部分疾病,希望能够对大家有所帮助:

1、 urllib 库:这是一个在爬虫领域绕不开的库,他支持 http 的爬取,几乎可以取到方方面面的内容。

以下面的豆瓣案例做一个简要的解释:

豆瓣小案例:

image.png

常用函数:

image.png

2、超时设置:

由于网络速度或者对方服务器的问题,我们爬取一个网页的时候,都需要设置时间,我们访问一个网页,如果该网页长时间未响应,那么我们的系统就会判断该网页超时了,即无法打开该网页。

有时候,我们需要根据自己的需求,来设置超时的时间值,比如:有些网站会反应快,我们希望 2 秒种没有反应则判断为超时,那么此时,timeout= 2 即为设置方式,即在 urlopen 中加入 timeout 参数。再比如,有些网站服务器反应慢,那么我们希望 100 秒没有反应,才判断超时,此时的timeout即设置为100,接下来为大家讲解爬虫超时的设置。

image.png

3、自动模拟 Http 请求:

客户端如果要与服务器端进行通信,需要通过http进行请求,http请求有很多种,我们在此会讲post与get两种请求方式,比如登录、搜索某些信息的时候会用到。

1)处理 get 请求:

image.png

2)理 post 请求:

所谓post请求即为 HTML 的 form 中存在 method=“post”的标签,如下文:

<body>

<form action=””,method=”post”>

姓名:<input name=”name” type=”text”/><br>

密码:<input name=”pass” type=”text”/><br>

<input name=”” type=”submit” value=”点击提交”>

</body>

在新浪 login.sina.com.cn 中即可看到,form 为 post 方式。我们只需要 form 表单中的 name 属性即可。

如下图: