前言:

最近后台有人留言问:有没有python爬虫的相关教程,爬虫不是我专业方向,很多不是很熟悉,而网上很多资料讲的过于散乱,不能很好的系统性学习爬虫,而且水平参差不齐。特委托一位熟悉爬虫的小伙伴,帮忙把关,将网上现有资料进行整合,整理了一份相对比较系统的资料。小伙伴感兴趣可以自取~

此外,我还花钱买了两本python爬虫相关的电子书《Python 3网络爬虫开发实战》和《用Python写网络爬虫》,下载地址:

链接:https://pan.baidu.com/s/1Tn8ovbY_1qBT0yr2nqh-iQ

提取码:xgf1

进入正题:

对于入门的小伙伴,首先需要解决四个问题:

  1. 熟悉Python编程;

  2. 了解HTML;

  3. 了解网络爬虫的基本原理;

  4. 学习使用Python爬虫库.

若不知道自己是否满足入门条件,也没关系,这儿有份资料:《入门爬虫》小伙伴可以据此进行一下自我判断、或简单入门,emm…培养一下爬虫兴趣也是很棒的!!
如果觉得太复杂了,这儿有份10分钟Python爬虫菜鸟教程

循序渐进教程篇:来源于https://cuiqingcai.com/1052.html

一、爬虫入门

  1. Python爬虫入门一之综述

  2. Python爬虫入门二之爬虫基础了解

  3. Python爬虫入门三之Urllib库的基本使用

  4. Python爬虫入门四之Urllib库的高级用法

  5. Python爬虫入门五之URLError异常处理

  6. Python爬虫入门六之Cookie的使用

  7. Python爬虫入门七之正则表达式

二、爬虫实战

  1. Python爬虫实战一之爬取糗事百科段子

  2. Python爬虫实战二之爬取百度贴吧帖子

  3. Python爬虫实战三之实现山东大学无线网络掉线自动重连

  4. Python爬虫实战四之抓取淘宝MM照片

  5. Python爬虫实战五之模拟登录淘宝并获取所有订单

  6. Python爬虫实战六之抓取爱问知识人问题并保存至数据库

  7. Python爬虫实战七之计算大学本学期绩点

  8. Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺

三、爬虫利器

  1. Python爬虫利器一之Requests库的用法

  2. Python爬虫利器二之Beautiful Soup的用法

  3. Python爬虫利器三之Xpath语法与lxml库的用法

  4. Python爬虫利器四之PhantomJS的用法

  5. Python爬虫利器五之Selenium的用法

  6. Python爬虫利器六之PyQuery的用法

四、爬虫进阶

  1. Python爬虫进阶一之爬虫框架概述

  2. Python爬虫进阶二之PySpider框架安装配置

  3. Python爬虫进阶三之爬虫框架Scrapy安装配置

  4. Python爬虫进阶四之PySpider的用法

  5. Python爬虫进阶五之多线程的用法

  6. Python爬虫进阶六之多进程的用法

  7. Python爬虫进阶七之设置ADSL拨号服务器代理

高端段位实战篇:

来源:https://zhuanlan.zhihu.com/p/73742321

  1. Python 岗位分析报告

  2. Selenium介绍

  3. 抖音App视频抓包

  4. Bilibili 用户

  5. Bilibili 视频

  6. Bilibili 小视频

  7. Bing美图爬虫

  8. B站760万视频信息爬虫

  9. 博客园(node.js)

  10. 百度百科(node.js)

  11. 北邮人水木清华招聘

  12. 百度云网盘

  13. 琉璃神社爬虫

  14. Boss 直聘

  15. 贝壳网找房爬虫

  16. 暗网爬虫(Go)

  17. 豆瓣读书

  18. 豆瓣爬虫集

  19. 豆瓣害羞组

  20. 豆瓣图书广度爬取

  21. DNS记录和子域名

  22. DHT网络磁力种子爬虫

  23. 抖音

  24. 爱丝APP图片爬虫

  25. 京东

  26. 京东搜索+评论

  27. 京东商品+评论

  28. 机票

  29. 煎蛋妹纸

  30. 煎蛋妹纸selenium版本

  31. 今日头条,网易,腾讯等新闻

  32. 计算机书籍控图书

  33. QQ空间

  34. QQ 群

  35. 清华大学网络学堂爬虫

  36. 去哪儿

  37. 前程无忧Python招聘岗位信息爬取分析

  38. soundcloud

  39. Stackoverflow 100万问答爬虫

  40. Shadowsocks 账号爬虫

  41. spider163 网易云音乐爬虫

  42. 时光网电影数据和海报爬虫

  43. tumblr

  44. 下载tumblr喜欢内容

  45. TuShare

  46. 天猫双12爬虫

  47. Taobao mm

  48. Tmall 女性文胸尺码爬虫

  49. 淘宝直播弹幕爬虫(node)

  50. 天涯论坛文章

  51. 天眼查爬虫

  52. 乌云公开漏洞

  53. 微信公众号

  54. “代理”方式抓取微信公众号文章

  55. 网易新闻

  56. 网易精彩评论

  57. 微博主题搜索分析

  58. 网易云音乐

  59. 新.网易热评

  60. 唯品会商品

  61. ZOL 手机壁纸爬虫

  62. 知乎(python)

  63. 知乎(php)

  64. 知网

  65. 知乎妹子

  66. 自如实时房源提醒

  67. 中国大陆高校列表爬虫

  68. 游戏直播行业真的如你想象般暴利?

  69. 五一不看人人人人人人,哪儿耍合适?

  70. 大碗宽面 VS 律师函警告,情感分析吴亦凡自黑式圈粉!

  71. 没经验没学历的外教为啥能拿1.4W+的高薪?

  72. 大胆,都是哪些程序员在反对996?!

  73. 儿科医生的眼泪,全被数据看见了

  74. 用大数据扒一扒蔡徐坤的真假流量粉

  75. 北上广深租房图鉴

  76. 六万条数据全面解析,城市春节禁放烟花爆竹真的有用吗?

  77. 十万条评论告诉你,给《流浪地球》评1星的都是什么心态?

  78. 开年表情包局部富有指南,盘它!

  79. 看完这篇分析,楼下的Tony和Kevin都改名了!

  80. 回复“实习僧”CTO之换种姿势爬取实习僧网站

  81. 【20G】Kaggle数据集强势分析“绝地求生”,攻略吃鸡!

  82. 50行代码教你打造一个公众号文章采集器

  83. 《我是大侦探》到底怎么了?(上:数据爬取篇)

  84. 《我是大侦探》到底怎么了?(下:情感分析篇)

  85. 帮了个小忙|破解“实习僧”网站字体加密

  86. “小忙”连载篇|实习僧网站数据分析

  87. Facebook模拟登录

  88. 微博网页版模拟登录

  89. 知乎模拟登录

  90. QQZone模拟登录

  91. CSDN模拟登录–已恢复

  92. 淘宝爬虫–重构中

  93. Baidu模拟登录一

  94. 果壳爬虫程序

  95. JingDong 模拟登录和自动申请京东试用

  96. 163mail–已恢复

  97. 拉钩模拟登录–已失效

  98. Bilibili模拟登录

附录:

1. Python网络爬虫知识架构

出处见水印