概要
这是大数据隐私保护课程的实验-自动化新闻采集,只是简单的实验和记录,不作深入研究
反爬虫机制
- robots.txt
- IP封锁和频率限制
- 验证码
- User-Agent检测
- 动态内容生成
- Honypot技术
- 反反爬虫技术
rss
谷歌新闻提供的rss,也就是xml的数据非常方便于信息采集:
半结构化的数据,但是谷歌有被反爬的风险
百度新闻
https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&ie=utf-8&word=%E6%BB%91%E5%9D%A1
这里我们关注一下url的传参:
rtt
bsst
cl
tn
ie
word
找到返回的报文观察我们需要爬取的字段特征
beautifulsoup
from bs4 import BeautifulSoup
https://zhuanlan.zhihu.com/p/128484144
解析-筛选-