V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  sjmcefc2  ›  全部回复第 35 页 / 共 41 页
回复总数  820
1 ... 27  28  29  30  31  32  33  34  35  36 ... 41  
@noqwerty 非常感谢。请教如何才能找到自己需要的轮子呢。这个太棒了。
@bbbai 能分享一下代码吗?机器配置如何?
@hustlibraco 很棒的思路啊。就是不知道如何校验数据,如何把能批量导入的弄出来,把不能批量的有错误数据弄出来。一个文件分成两个?
@limbo0 貌似这样的话,很难用 python 程序自动处理啊,数据可能只有一条错,也可能整个文件都错了。
@q2683252 另外这个单机 50w/s 是从哪里得出的数据?一直不知道怎么衡量性能。
我用的是 psycopg2 这个包,copy,但是没有返回任何信息让我比较苦恼。不知道哪里 copy 错了。不知道大家都怎么处理这种情况。
@q2683252 部分是编码问题;比如数据库要求所有数据是 gbk,而某条数据的几个字段是其他乱七八糟的编码拼凑的;或者是数据库设计时候类型是 int,在数据这边就变成了其他的;总之,就是体现为 insert 失败,copy 失败等等;错误条目数量不确定,有的吧可能也就一条,有的可能整个文件都乱了。

现在纠结在于如何快速导入,如何还能挑出(最好自动)不能导入的数据。
现在采取的就是 python 拼 insert sql,然后逐条 insert,失败了就另写文件。
@q2683252 假如 10w 条数据里面,中间一条或者 10 几条字段数据有问题,copy 出错,怎么处理?如何找到这几个错条?
@n2ex2 如何筛选呢?这个帅选的过程如何才能快?

@MonoLogueChi 瓶颈不是读取,不是语言;不能一条一条 insert,具体要怎么优化方法呢?

@zhs227 我现在是用 python 拼出 sql,但是我不知道这些拼出的 sql 哪些能够导入。如果分组( 5000 个一组)的话,倒是某些可能导入不了,但也能提高速度。问题我要知道哪些没有被导入。不知道是不是描述清楚了。

@xjmroot 并发 insert ?能提供一个模版参考吗

@limbo0 目前我用的就是 python 拼 sql,为了知道哪一条是坏数据,后面用的是逐条 insert。
@reus 具体还需要哪些信息判断 /

@daigouspy 是啊,也是觉得是数据库。但是具体哪里呢?
@ksupertu 组批量?主要是不知道哪条有问题,这些数据有些是有问题的,一下 copy 批量的话,不知道怎么把有问题的数据跳出来。

@liprais 使用了批量,这些余下的数据是有问题的数据,不知道哪条哪个字段就有问题了。这样的如何批量导入,还能把有问题的数据挑出来呢?
@liprais
@iwiki 这个开启事务倒是还没有试过。
目前我是用 python 一条一条的 insert,遇到不能 insert 的就写在新文件里面。因为有些字段有问题,copy 会中断,我想知道哪些数据没有被插入,所以想了这么弱智的办法。
2018-07-22 00:33:28 +08:00
回复了 sjmcefc2 创建的主题 程序员 求一个 postgresql 优化教程。
@cstj0505
这样的 iostat,是不是说根本没有发挥出机器性能?
看着写入才 156kb/s,用 top 看资源,cpu 基本都是空闲的。
pgAdmin4 的 dashboard 上面,显示 1000 transaction per second。不过不太知道 pgadmin 的 dashboard 有什么含义。

大家能帮忙给看下问题在哪里呢?谢谢。

Linux 3.10.0-693.el7.x86_64 (localhost.localdomain) 2018 年 07 月 21 日 x86_64 (8 CPU)

avg-cpu: %user %nice %system %iowait %steal %idle

0.16 0.00 0.10 0.01 0.00 99.73

Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn

sdb 0.50 1.00 156.12 191276 29798188

sda 0.36 2.69 1.26 513513 240387

sde 0.06 0.01 0.00 2668 0

sdd 0.10 0.59 0.61 113024 116556

sdc 0.07 0.01 2.38 2692 454700

dm-0 0.21 2.35 1.21 448851 230066

dm-1 0.00 0.01 0.00 2228 0

dm-2 0.52 1.73 159.16 329496 30377680
2018-07-21 16:48:12 +08:00
回复了 jssyxzy 创建的主题 程序员 程序员有什么好的理财方案?
@edsgerlin 非常感谢。看了下网站,Madam President 给站台, 不过爱沙尼亚总统是个象征。问题不大。后面几个就是经济学人的总编和几个资本公司,fintech 公司。主页的缺憾是没有看到监管方是谁。或许因为是个 finteck 公司,并不需要监管?
2018-07-21 09:57:06 +08:00
回复了 sjmcefc2 创建的主题 程序员 求一个 postgresql 优化教程。
@cstj0505 非常感谢您的提示。我的机器 32g 内存,是不是说可以用 32g*2=64g 的来测试,那样的话估计速度就很慢了。现在 12g 都只有 600mb 了,我很多要导入的文件要 40g。有点想知道,我这样的硬盘速度是不是有点不太正常?大家真正的 io 速度是多少呢
2018-07-21 09:39:44 +08:00
回复了 sjmcefc2 创建的主题 Python 求助 Python 有没有类似代码大全样的书?
@OpenJerry 主要想系统的学习。
@luozic 确实啊,就是自己很多 python 的特性用不上。。。
@lolizeppelin 感谢。
@xpresslink 非常感谢。
@coetzee 看来这个大家都很认可。
2018-07-21 09:36:32 +08:00
回复了 jssyxzy 创建的主题 程序员 程序员有什么好的理财方案?
@edsgerlin 这种爱沙尼亚的账户,靠谱吗?怎么觉得像很久以前的 egold
2018-07-18 09:59:15 +08:00
回复了 sjmcefc2 创建的主题 Python 求助 Python 有没有类似代码大全样的书?
@rocksolid 当然 可以,也会去找解决办法。就是觉得每次都是用时候找,学习的不系统
2018-07-18 09:53:44 +08:00
回复了 sjmcefc2 创建的主题 Python 求助 Python 有没有类似代码大全样的书?
@glasslion 好吧,我错了,但肯定高手莫歪楼。
确实无关,所以想找个有 python 语言特性,又有常用场景的书。
2018-07-18 09:47:47 +08:00
回复了 sjmcefc2 创建的主题 Python 求助 Python 有没有类似代码大全样的书?
@jadec0der 主要是觉得自己很多 python 的语言特性用不起来,很大家常用好轮子也不知道。
一直没啥大进步。停留在会写。。。。。
2018-07-18 09:30:20 +08:00
回复了 jin6220 创建的主题 Python 怎么用 pyautogui 模拟鼠标点击网页上指定文字啊?
@AlisaDestiny 这种会很准确的定位吗,刚才试了一下貌似没有成功。
2018-07-18 09:02:54 +08:00
回复了 sjmcefc2 创建的主题 Python 求助 Python 有没有类似代码大全样的书?
@ctro15547 看懂了前面。后面没看懂。
1 ... 27  28  29  30  31  32  33  34  35  36 ... 41  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5321 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 07:46 · PVG 15:46 · LAX 23:46 · JFK 02:46
Developed with CodeLauncher
♥ Do have faith in what you're doing.