Uninote
Uninote
用户根目录
工作日志

语言采用: python里面有很多的工具包,能够快速的速度,比如requests, beautifulsoup,Scrapy robots协议:通过User-agent: 和Disallow: 来规定来那些设备或者平台不能爬哪些内容

分析:从热门里面分析出来最受欢迎的内容 从点赞数最高的来分析哪些内容是最受用户好评 从历史最热分析那写类型的文章能够长时间运营 通过本周最热分析那种类型文章能够预热较快 从最新的文章中可以观察出用户目前比较关注的技术 通过话题来分析用户关心哪些话题 分析话题里面的内容来查看哪些板块更能粘住用户 热搜关键词

scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/60.0" 你需要爬取的url

scrapy crawl 爬虫名称 -s JOBDIR=保存记录信息的路径 如:scrapy crawl cnblogs -s JOBDIR=zant/001

定向爬取 requests

爬取系列网站 Scrapy

全网爬取 定制

查看网络耗时

零时存储

点赞(0) 阅读(12) 举报
目录
标题