- 本周课程导学 - 第一周内容导学(SHD)
- 单元1Requests库入门 - HTTP协议及Requests库方法(SHD)
- 单元1Requests库入门 - Requests库的get()方法(SHD)
- 单元1Requests库入门 - Requests库的安装(SHD)
- 单元1Requests库入门 - Requests库主要方法解析(SHD)
- 单元1Requests库入门 - 单元小结(SHD)
- 单元1Requests库入门 - 爬取网页的通用代码框架(SHD)
- 单元2网络爬虫的盗亦有道 - Robots协议(SHD)
- 单元2网络爬虫的盗亦有道 - Robots协议的遵守方式(SHD)
- 单元2网络爬虫的盗亦有道 - 单元小结(SHD)
- 单元2网络爬虫的盗亦有道 - 网络爬虫引发的问题(SHD)
- 单元3Requests库网络爬虫实战5个实例 - 单元小结(SHD)
- 单元3Requests库网络爬虫实战5个实例 - 实例1京东商品页面的爬取(SHD)
- 单元3Requests库网络爬虫实战5个实例 - 实例2亚马逊商品页面的爬取(SHD)
- 单元3Requests库网络爬虫实战5个实例 - 实例3百度360搜索关键词提交(SHD)
- 单元3Requests库网络爬虫实战5个实例 - 实例4网络图片的爬取和存储(SHD)
- 单元3Requests库网络爬虫实战5个实例 - 实例5IP地址归属地的自动查询(SHD)
- 本周课程导学 - 第二周内容导学(SHD)
- 单元4BeautifulSoup库入门 - BeautifulSoup库的安装(SHD)
- 单元4BeautifulSoup库入门 - BeautifulSoup库的基本元素(SHD)
- 单元4BeautifulSoup库入门 - 单元小结(SHD)
- 单元4BeautifulSoup库入门 - 基于bs4库的HTML格式化和编码(SHD)
- 单元4BeautifulSoup库入门 - 基于bs4库的HTML内容遍历方法(SHD)
- 单元5信息组织与提取方法 - 单元小结(SHD)
- 单元5信息组织与提取方法 - 基于bs4库的HTML内容查找方法(SHD)
- 单元5信息组织与提取方法 - 三种信息标记形式的比较(SHD)
- 单元5信息组织与提取方法 - 信息标记的三种形式(SHD)
- 单元5信息组织与提取方法 - 信息提取的一般方法(SHD)
- 单元6实例1中国大学排名爬虫 - 单元小结(SHD)
- 单元6实例1中国大学排名爬虫 - 中国大学排名定向爬虫实例编写(SHD)
- 单元6实例1中国大学排名爬虫 - 中国大学排名定向爬虫实例介绍(SHD)
- 单元6实例1中国大学排名爬虫 - 中国大学排名定向爬虫实例优化(SHD)
- 本周课程导学 - 第三周内容导学(SHD)
- 单元7Re(正则表达式)库入门 - Re库的match对象(SHD)
- 单元7Re(正则表达式)库入门 - Re库的基本使用(SHD)
- 单元7Re(正则表达式)库入门 - Re库的贪婪匹配和最小匹配(SHD)
- 单元7Re(正则表达式)库入门 - 单元小结(SHD)
- 单元7Re(正则表达式)库入门 - 正则表达式的概念(SHD)
- 单元7Re(正则表达式)库入门 - 正则表达式的语法(SHD)
- 单元8实例2淘宝商品比价定向爬虫 - 单元小结(SHD)
- 单元8实例2淘宝商品比价定向爬虫 - 淘宝商品信息定向爬虫实例编写(SHD)
- 单元8实例2淘宝商品比价定向爬虫 - 淘宝商品信息定向爬虫实例介绍(SHD)
- 单元9实例3股票数据定向爬虫 - 单元小结(SHD)
- 单元9实例3股票数据定向爬虫 - 股票数据定向爬虫实例编写(SHD)
- 单元9实例3股票数据定向爬虫 - 股票数据定向爬虫实例介绍(SHD)
- 单元9实例3股票数据定向爬虫 - 股票数据定向爬虫实例优化(SHD)
- 本周课程导学 - 第四周内容导学(SHD)
- 单元10Scrapy爬虫框架 - requests库和Scarpy爬虫的比较(SHD)
- 单元10Scrapy爬虫框架 - Scrapy爬虫的常用命令(SHD)
- 单元10Scrapy爬虫框架 - Scrapy爬虫框架解析(SHD)
- 单元10Scrapy爬虫框架 - Scrapy爬虫框架介绍(SHD)
- 单元10Scrapy爬虫框架 - 单元小结(SHD)
- 单元11Scrapy爬虫基本使用 - Scrapy爬虫的第一个实例(SHD)
- 单元11Scrapy爬虫基本使用 - Scrapy爬虫的基本使用(SHD)
- 单元11Scrapy爬虫基本使用 - yield关键字的使用(SHD)
- 单元11Scrapy爬虫基本使用 - 单元小结(SHD)
- 单元12实例4股票数据Scrapy爬虫 - 单元小结(SHD)
- 单元12实例4股票数据Scrapy爬虫 - 股票数据Scrapy爬虫实例编写(SHD)
- 单元12实例4股票数据Scrapy爬虫 - 股票数据Scrapy爬虫实例介绍(SHD)
- 单元12实例4股票数据Scrapy爬虫 - 股票数据定向Scrapy爬虫实例优化(SHD)
- Python语言开发工具选择 - Python语言开发工具选择(SHD)
- 网络爬虫课程内容导学 - 全课程内容导学(SHD)
Python网络爬虫与信息提取 - 从零开始玩转数据抓取
最近有学生问我:"老师,学了Python基础语法后,想找点有趣的项目练手,有什么推荐吗?" 我总会毫不犹豫地建议他们试试网络爬虫。为什么?因为爬虫就像互联网世界的"魔法望远镜",能让你看到不一样的数据风景。
为什么这门课值得你花时间?
记得我第一次用爬虫抓取电商价格数据,自动比价省下800多块时的兴奋感。这就是爬虫的魅力——它不仅是技术,更是解决问题的实用工具。在这门北京理工大学的特色课程里,我们不谈虚的,直接带你上手实践。
不同于市面上干讲理论的课程,我们采用"案例驱动式"教学。比如第三周会带大家做一个微博热搜分析器,从抓取到存储再到可视化分析,完整走通全流程。很多学生反馈,做完这个项目后找实习都有了拿得出手的作品。
你会学到的核心技能
- Requests库的深度使用:手把手教你处理各种反爬机制
- BeautifulSoup与XPath双解析:应对不同网页结构的实战技巧
- Scrapy框架进阶:分布式爬虫与中间件开发
- 数据清洗实战:用Pandas处理不规则数据
课程章节预览
第一模块:爬虫基础(2周)
从HTTP协议讲起,带你理解网页数据传输的本质。重点讲解User-Agent伪装、Cookie处理等实战技巧,我会用教务系统爬取的实际案例演示。
第二模块:数据解析(3周)
通过豆瓣电影TOP250的抓取项目,对比BeautifulSoup和XPath的解析效率。特别分享我在处理动态加载数据时总结的"三层验证法"。
第三模块:项目实战(4周)
分组完成知乎问答爬虫、链家房源监控系统等真实项目。去年有个小组用我们教的技术做了校园二手市场比价系统,后来真的被学校采纳了。
这些同学特别适合学习
如果你符合以下任何一条:
- 想用技术解决实际问题的Python初学者
- 需要爬取行业数据的市场分析人员
- 做毕业设计需要数据支撑的大学生
- 想转型数据分析的传统行业从业者
最近疫情反复,看到有学生用我们教的爬虫技术做防疫物资价格监控,真的特别欣慰。技术就该这样用,不是吗?








