Taninluv's blog

爬虫
Click back to the top

Home

Archives

概要
反爬虫机制
rss
百度新闻
beautifulsoup

爬虫

2023-11-26

概要

这是大数据隐私保护课程的实验-自动化新闻采集，只是简单的实验和记录，不作深入研究

反爬虫机制

robots.txt
IP封锁和频率限制
验证码
User-Agent检测
动态内容生成
Honypot技术
反反爬虫技术

rss

谷歌新闻提供的rss，也就是xml的数据非常方便于信息采集：

半结构化的数据，但是谷歌有被反爬的风险

百度新闻

https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&ie=utf-8&word=%E6%BB%91%E5%9D%A1

这里我们关注一下url的传参：

rtt
bsst
cl
tn
ie
word

找到返回的报文观察我们需要爬取的字段特征

beautifulsoup

from bs4 import BeautifulSoup

https://zhuanlan.zhihu.com/p/128484144

解析-筛选-

Previous: java反序列化前瞻 Next: WebGoat-CSRF