Python27-Scrapy学习(二)

继续学习scrapy~~~
[scrapy -o result.json.png]

在上一章大致了解了scrapy的基础使用方式,接下里开始使用scrapy爬取所需的信息。

freebuf资讯爬取

假定需要爬取的是freebuf最新的资讯,通过Chrome的Elements可以看到资讯的信息在class=news_inner news-list的div中。
freebuf div.png
使用scrapy shell命令进行调试。

1
scrapy shell -s USER_AGENT='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' 'http://www.freebuf.com

scrapy shell debug.png
使用xpath选择器来筛选需要的数据。
scrapy shell get.png
最后使用scrapy crawl freebufSprider -o result.json可将结果保存至result.json中。
scrapy -o result.json.png

总结

  1. 爬虫的步骤:访问站点、解析数据、获取数据。
  2. scrapy支出css、xpath,大家看哪个顺手就用那个好了。

完整代码

完整代码已经上传到GitHub。如果有兴趣,不妨移步到Github上一观!Code

Hywell wechat
遗世独立
-------------本文结束感谢您的阅读-------------
羽化登仙
显示 Gitment 评论
0%