您的当前位置:首页>关注 > 正文

hive中Buckets详解 Buckets指定列计算hash

来源:CSDN 时间:2023-02-10 07:45:13


(资料图)

Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一个 Bucket 对应一个文件。

将 user 列分散至 32 个 bucket,首先对 user 列的值计算 hash,

对应 hash 值为 0的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00000;

对应hash 值为 20 的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00020

标签:

最新新闻:

新闻放送
Top