Puppeteer Socks5 代理
接上一篇的主题,Q-Npm 插件中想要定时获取 Npm 官方 Blog 的最新动态。 难点 网络被墙 分析 由于后端是 EggJs 自带了定时任务,所以我只需要关心如何获取并解析 Npm Blog 的内容。 刚开始我是打算定时抓取 Twitter 上的 Npm 账号资讯的,由于申请 Twitter 开发者账号失败,我尝试用 Puppeteer 抓取内容,但是 Twitter 的 Dom 结构没有明显的规律可循因此我放弃了。于是转而 Rss 的套路,但是调研了第三方的 Rss 输出的内容不是很理想,这个方案也放弃。 那么 Npm Blog 的内容呢? 为了保证时效性,我翻阅了当时 event-stream 事件 Npm 官方的通报,Blog 和 Twitter 的发布时间基本同步,Blog 还给出了分析文章。所以我将信息获取来源放到了 Blog 上。 最后我采用了 Puppeteer 定时抓取…