这是一个创建于 1851 天前的主题,其中的信息可能已经有所发展或是发生改变。
不是 dba,只是用户。
我之前使用的集群,在 sqoop 导入、create、insert 等操作,都会将大的表格分割为 100-200M 的小文件。但目前所用的 hadoop 集群上面操作时,永远是在原文件上 append,导致文件越来越大,hdfs dfs ls 查看到表格仅由单个文件组成,个别表格文件大小甚至可能超过数十 GB。
我个人也不知道是否因为这个原因导致速度非常差。
请问是否有配置需要修改?有没有可能对现有表格进行分割?
3 条回复 • 2019-09-27 11:09:20 +08:00
|
|
1
suixn 2019-09-27 09:41:41 +08:00 1
dfs.block.size 设置的多大?
|
|
|
2
id4alex 2019-09-27 09:45:07 +08:00 1
你在 hdfs 上看到一个文件, 底层是多个 block 分布在不同节点.
|
|
|
3
hiouyuu 2019-09-27 11:09:20 +08:00
谢谢两位,发现文件的确是分割为 blocks 了。
这样看起来速度慢仍然是需要靠分区来搞定,我回头和 DBA 那边说说吧。
|