V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  kr380709959  ›  全部回复第 4 页 / 共 4 页
回复总数  70
1  2  3  4  
2018-11-29 13:16:08 +08:00
回复了 smallgoogle 创建的主题 Python 谈谈网易云的反爬机制
@find456789 我用的是一个账号生成的 cookie,但是不知道网站是不是对 cookie 有限制的。你也可以生成十几个账号对应的 cookie 来爬,那样反爬就更难处理了
2018-11-22 16:07:42 +08:00
回复了 smallgoogle 创建的主题 Python 谈谈网易云的反爬机制
你这单 ip 单 cookie 想爬全站么?
我一个新手爬拉钩都用了十几个 cookie+代理隧道爬取,爬了 50 万+的数据,压根没毛病。
楼上有个哥们说得对,随机 cookie 列表+代理 ip+随机间隔请求时间,基本上对付中小网站没问题了,除非你想碰阿里这种怪物。
2018-11-22 15:56:52 +08:00
回复了 yellowtail 创建的主题 Python 小白写爬虫爬 b 站直播弹幕 F12 后找不到 msg,求助。。
@no1xsyzy b 站以前有弹幕接口,后来被人玩坏了就关闭了。内部有,但是没开放。
另外,我之前也考虑过爬取 b 站直播的弹幕和人数,后来发现是通过 websocket 来通信的,这个就有点头疼了。建议用 charles 抓 websocket 接口试试看。
蘑菇代理还不错,之前爬的时候用过。可靠性高,价格也不算很高,主要是按次收费
2018-08-31 11:07:48 +08:00
回复了 Andor_Chen 创建的主题 Flask 送几本《Flask Web 开发(第 2 版)》
分母+1
1  2  3  4  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2850 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 13:35 · PVG 21:35 · LAX 05:35 · JFK 08:35
Developed with CodeLauncher
♥ Do have faith in what you're doing.