V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  midysky  ›  全部回复第 1 页 / 共 1 页
回复总数  9
[发源地] 数据源市场有 10 几万个网站的规则。很多开发者发布的免费规则可以使用。
发源地云采集引擎,专门干这个事的。刚刚已开源。https://github.com/finndy/finndycloud
@lecher 关于 100w 数据切分的代码思路大概是怎样的?
@lecher 代理这块普通透明代理是否适用于爬虫采集?还是必须要用匿名、高匿名的代理?

淘宝支付宝后台导出 excel 数据时就是分两次处理的。第一步显示 UI 同步导出数据到文件,第二步将该文件链接作为下载对象进行导出下载。你说的切分是怎样的逻辑?
@rekulas 嗯 php 主要用于逻辑方面。 dump 你说的具体是指 sphinx 的哪个地方? 100w 数据通常从 mysql 数据库到 excel 本地文件,具体什么样的逻辑?
@Felldeadbird 1 、比如 mysql 导出 100w 结构化数据到 excel ,最好给个大概代码逻辑参考下? mysql 的 output 命令还是 sql 查询处理到内存?
@Moker 像广告。那我把网址删除?
@Felldeadbird 感谢. ip 网上买的很多。质量高的有测试过哪个好?
第三点就是采集的数据丢到一个独立的服务器环境进行处理,比如一个完整的 html 全文,过去返回其中一个标签。

重点是 mysql 导出问题。你说的分块具体是怎样的?效率怎样?
@Comdex 部分逻辑用 PHP ,底层 c++扩展,还有 python 。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2858 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 14:05 · PVG 22:05 · LAX 06:05 · JFK 09:05
Developed with CodeLauncher
♥ Do have faith in what you're doing.