V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
mytry
V2EX  ›  程序员

有哪些推荐的浏览器级爬虫工具/框架/平台?

  •  1
     
  •   mytry · 2018-11-26 17:00:24 +08:00 · 2069 次点击
    这是一个创建于 2225 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在有些网站的数据都是前端动态生成的,用传统爬接口的方式很难获取,只能通过浏览器级的自动化工具,先对页面进行渲染然后再获取数据。

    目前主流的工具,除了 PhantomJS、WebDriver、Puppeteer 还有哪些?

    有些网站为了保护数据,需要有用户行为才能进一步渲染数据,所以还需要模拟真实的用户行为。不知现在是否有比较成熟的模拟行为的爬虫平台(收费也可以)?
    3 条回复    2018-11-26 18:55:33 +08:00
    flybird
        1
    flybird  
       2018-11-26 17:19:15 +08:00
    要啥自行车? Puppeteer 已经是目前为止爬虫辅助的最牛逼的工具了!
    myhot21
        2
    myhot21  
       2018-11-26 17:57:25 +08:00 via Android
    用 selenium+代理 ip,目前除了因为复杂验证码原因外,还未遇到过不能抓取的网站。
    1010543618
        3
    1010543618  
       2018-11-26 18:55:33 +08:00
    PhantomJS 都不更新了吧,感觉还是得靠 FF,Chrome 的无界面模式
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2428 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 15:41 · PVG 23:41 · LAX 07:41 · JFK 10:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.