概要

这是大数据隐私保护课程的实验-自动化新闻采集,只是简单的实验和记录,不作深入研究

反爬虫机制

  • robots.txt
  • IP封锁和频率限制
  • 验证码
  • User-Agent检测
  • 动态内容生成
  • Honypot技术
  • 反反爬虫技术

rss

谷歌新闻提供的rss,也就是xml的数据非常方便于信息采集:

image-20231126151612390

半结构化的数据,但是谷歌有被反爬的风险

百度新闻

image-20231126152110282

https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&ie=utf-8&word=%E6%BB%91%E5%9D%A1

这里我们关注一下url的传参:

  • rtt

  • bsst

  • cl

  • tn

  • ie

  • word

    image-20231126153106262

找到返回的报文观察我们需要爬取的字段特征

beautifulsoup

from bs4 import BeautifulSoup

https://zhuanlan.zhihu.com/p/128484144

解析-筛选-