Taninluv's blog

2023-11-26

概要这是大数据隐私保护课程的实验-自动化新闻采集，只是简单的实验和记录，不作深入研究反爬虫机制 robots.txt IP封锁和频率限制验证码 User-Agent检测动态内容生成 Honypot技术反反爬虫技术 rss谷歌新闻提供的rss，也就是xml的数据非常方便于信息采集：半结构化的数据，但是谷歌有被反爬的风险百度新闻 https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&ie=utf-8&word=%E6%BB%91%E5%9D%A1 这里我们关注一下url的传参： rtt bsst cl tn ie word 找到返回的报文观察我们需要爬取的字段特征 beautifulsoupf..

Taninluv's blog

Tags · 爬虫

Home

Archives

爬虫