[有偿] 征大型爬虫的技术指导

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3594 天前的主题，其中的信息可能已经有所发展或是发生改变。

我第一次接手一个比较大型的爬虫任务，要爬取一个千万级别的网站，所以要用到scrapy+redis多线程，分布式抓取，服务器配置等等，想找一个有这种经验的人讨教。我明白时间宝贵，所以愿意出钱作为学费，而且只需您辅助我的工作过程，给予一些指导。

爬虫

分布式

讨教

45 条回复 • 2015-03-01 13:57:44 +08:00

mhycy

2015-02-26 22:00:25 +08:00

爬的是哪个站？有多少资源可用？

iannil

2015-02-26 22:53:20 +08:00

可以参考我这个回复 http://v2ex.com/t/127220#reply5

laotaitai

2015-02-27 01:57:31 +08:00

直接外包给我吧. 不过哈, 一般情况下, 少于5W的项目我不接. 哥是专业的玩爬虫的. 我写过爬取全世界60%左右连了网的电脑, 一共收集了3亿的资源的. 对, 你没看错, 就是爬你们的电脑, 不是爬网站.

xiaobo

2015-02-27 02:18:37 +08:00 via iPhone

@laotaitai 请问如何做到的个人电脑资料难道是通过木马收集的那全球60%的电脑得多少，不科学啊

njutree

2015-02-27 06:52:24 +08:00 via iPhone

@laotaitai 那么问题来了，全世界有多少电脑？

fising

2015-02-27 08:00:18 +08:00

3楼吹牛逼不打草稿

mrhuiyu

2015-02-27 08:28:00 +08:00

@laotaitai 话说···爬电脑？首先不礼貌的冒问一下···今天不是愚人节？额·····好吧那请问····假设电脑关机和非管理员用户登录电脑后无法访问指点盘符，那爬虫可以进去访问？

jedyu

2015-02-27 08:37:07 +08:00

3楼是爬IP吧？

mozutaba

2015-02-27 09:29:51 +08:00

3楼是爬ip的开放服务？

joshryo

2015-02-27 09:33:13 +08:00

3楼太谦虚了，居然还有40%连了网的电脑没爬。

xidianlz

2015-02-27 09:43:57 +08:00

3楼说的是扫描比较好吧不算爬虫

xFan

2015-02-27 09:51:37 +08:00

3楼歪楼以后没人理楼主了...

你们赶紧正回来,.

angerskon

2015-02-27 10:00:36 +08:00

3楼说的3亿的资源是指的3亿台电脑吗？照你说的60%来算，也就是说全球5亿左右的计算机联网。ipv4的地址一共42亿左右，除掉一些保留的，怎么也不止5亿吧。

thinkmore

2015-02-27 10:07:26 +08:00

3楼就是来骗回复的

crazycookie

2015-02-27 10:13:53 +08:00

楼上都被 3楼带歪了
其实有偿指导也是一件比较 bug的事情
这种分布式我在做，确实 scrapy + redis 可以完成这些
我用linode跑的国外的站，4台服务器，还算稳定

binux

2015-02-27 10:34:02 +08:00 via Android

千万级别不算大型啊。。。

lucn

2015-02-27 10:56:32 +08:00

scrapy开发成本高，pyspider半小时搞定

gouwudang

2015-02-27 11:01:34 +08:00

楼主可以来我司工作，每天得爬上亿条数据

gouwudang

2015-02-27 11:01:45 +08:00

@gouwudang 不用交钱，我们给你钱

cxl008

2015-02-27 11:05:58 +08:00

scrapy+mongodb+redis 的方案分布40台机器。。爬取国内200多个安卓市场。。。。。。。。数据量到1亿左右。。没有3楼那么牛逼了。。。。

jason52

2015-02-27 11:06:36 +08:00 via Android

@gouwudang 哇，楼上在北邮人上发帖，最让我印象深刻的就是睡觉睡到自然醒。。。哈哈哈

Anybfans

2015-02-27 11:14:54 +08:00

突然感觉3L在360上班。。。

gouwudang

2015-02-27 11:15:49 +08:00

@jason52 谢谢关注，还在招人呢

mengskysama

2015-02-27 11:29:54 +08:00

之前我用了一台快到期的独服，24G内存，开了15台，特意申请了255个IP。
爬的是last.XX，用了近二十多天爬了将近1忆的专辑信息（几亿歌曲信息。

自己写的主从架构，只用了mysql，好像也没遇到什么瓶颈。
个人感觉爬其实挺好爬的。如果源没有限制特别死或者太坑爹反爬虫策略的话

nine

2015-02-27 11:45:38 +08:00

pyspider吧，很好用。。

2dog

2015-02-27 11:47:40 +08:00

@laotaitai 同学有兴趣挑战一下BAT的一家反抓取策略么？可外包，一天上亿条

laotaitai

2015-02-27 12:43:15 +08:00

@2dog 先简单给说说是个啥玩意呢. 爬什么? 拿来干什么?

sohoer

2015-02-27 12:52:56 +08:00

@2dog 有挑战才好玩，详细说说

2dog

2015-02-27 12:54:01 +08:00

@laotaitai 抓淘宝的价格数据，我们用了20台服务器 + 1万代理IP 依然被封的半身不遂

2dog

2015-02-27 12:54:11 +08:00

@sohoer 抓淘宝的价格数据，我们用了20台服务器 + 1万代理IP 依然被封的半身不遂

professorz

2015-02-27 13:25:20 +08:00

我是lz，我回来了。

@lucn pysipder稳定性，效率各方面怎么样呢？
@binux 我在byr上问有人@你了
@gouwudang 真的吗，我开学要做毕设，暑假去你们公司实习三个月吧？
@2dog 我的毕设就是跟电商网站数据抓取有关的，我对你们的工作很感兴趣，让我打个杂学学习吧^_^

laotaitai

2015-02-27 13:26:19 +08:00

@2dog 有点意思, 价钱大概多少?

2dog

2015-02-27 13:29:19 +08:00

@laotaitai 邮件沟通吧 [email protected]

inter

2015-02-27 14:18:54 +08:00

千万算个球大型。我们这一台服务器上的一个爬虫实例，一天就是上千万的请求。
其实还能更高，但是现在提不上去的原因是一个实例就把对方一台服务器的下行吃满了。我们还得想着怎么帮对方提高吞吐量，对方cdn配置有问题的时候还得帮他们做同步.
python真是弱啊，上亿的就几十台服务器了。我们这一台单核1g机器，跑两个实例。
1亿请求，200多个站点，这就是台好点的服务器的事情