Python2-Scrapy学习(二)

发表于 2018-08-28 更新于 2023-04-05 分类于 Code ， Python2 阅读次数：

继续学习scrapy,这次学习如何进行数据爬取。
scrapy -o result.json.png

在Python2-Scrapy学习(一)大致了解了scrapy的基础使用方式，接下来开始使用scrapy结合xpath爬取所需的信息。

freebuf资讯爬取

假定需要爬取的是freebuf最新的资讯，通过Chrome的Elements可以看到资讯的信息在class=news_inner news-list的div中。

使用scrapy shell命令进行调试。

1	scrapy shell -s USER_AGENT='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' 'http://www.freebuf.com

使用xpath选择器来筛选需要的数据。

最后使用scrapy crawl freebufSprider -o result.json可将结果保存至result.json中。

完整代码已经上传到GitHub。如果有兴趣，不妨移步到Github上一观！**Code**。