Taninluv's blog

Tags · 爬虫

Home

Archives

loading..
爬虫

爬虫

概要这是大数据隐私保护课程的实验-自动化新闻采集,只是简单的实验和记录,不作深入研究 反爬虫机制 robots.txt IP封锁和频率限制 验证码 User-Agent检测 动态内容生成 Honypot技术 反反爬虫技术 rss谷歌新闻提供的rss,也就是xml的数据非常方便于信息采集: 半结构化的数据,但是谷歌有被反爬的风险 百度新闻 https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&ie=utf-8&word=%E6%BB%91%E5%9D%A1 这里我们关注一下url的传参: rtt bsst cl tn ie word 找到返回的报文观察我们需要爬取的字段特征 beautifulsoupf..

Read more