请教： hadoop 不会将大表格分割为 block

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Apache Hadoop

› Hortonworks Sandbox

› Intel Hadoop Distribution

› Treasure Data

这是一个创建于 1851 天前的主题，其中的信息可能已经有所发展或是发生改变。

不是 dba，只是用户。

我之前使用的集群，在 sqoop 导入、create、insert 等操作，都会将大的表格分割为 100-200M 的小文件。但目前所用的 hadoop 集群上面操作时，永远是在原文件上 append，导致文件越来越大，hdfs dfs ls 查看到表格仅由单个文件组成，个别表格文件大小甚至可能超过数十 GB。

我个人也不知道是否因为这个原因导致速度非常差。

请问是否有配置需要修改？有没有可能对现有表格进行分割？

表格

文件

hadoop

分割

3 条回复 • 2019-09-27 11:09:20 +08:00