hadoop-lzo
今天更新hdfs集群的时候发现一个问题
我有十几个节点的core-site.xml文件里面竟然没有lzo的配置
但是spark统计计算的时候竟然没有报错,很奇怪
这个需要继续观察一下……
排查问题的时候,突然发现命令:
hdfs dfs -text /data/test.lzo
是可以直接读取文件内容的,即使是压缩成lzo格式
本地建立索引:
$HADOOP_HOMOE/bin/hadoop jar \
$HADOOP_HOMOE/share/hadoop/lib/hadoop-lzo-0.4.20-SNAPSHOT.jar \
com.hadoop.compression.lzo.LzoIndexer \
/local_path/file.lzo
运行mapreduce程序建立索引:
$HADOOP_HOMOE/bin/hadoop jar \
$HADOOP_HOMOE/share/hadoop/mapreduce/lib/hadoop-lzo-0.4.20-SNAPSHOT.jar \
com.hadoop.compression.lzo.DistributedLzoIndexer \
/hdfs/path/file.lzo