なぜ 'hadoop fs -head' シェルコマンドはないのですか？

Question

さらに

質問

なぜ 'hadoop fs -head' シェルコマンドはないのですか？

HDFS上のファイルを検査する高速な方法として、tailを使用する方法があります。

~$ hadoop fs -tail /path/to/file

これはファイル中の最後の1キロバイトのデータを表示するもので、非常に便利です。しかし、反対のコマンドである head はシェルのコマンドコレクションに含まれていないようです。これは非常に驚くべきことだと思います。

私の仮説では、HDFSは非常に大きなファイルの高速なストリーミング読み込みのために構築されているので、headに影響を与えるアクセス指向の問題があるのだと思います。このため、私はheadにアクセスするために何かをすることを躊躇しています。誰か答えを持っていますか？

Pramit

編集された質問 10日 9月 2015 в 2:52

プログラミング

hadoop

hdfs

解決策・回答

xu2mao

21日 4月 2015 в 8:58

さらに

hdfs -dfs /path | head

は、問題を解決するための良い方法です。

TZHX

編集した答え 21日 4月 2015 в 9:18

3

0

Amey

13日 8月 2017 в 7:18

さらに

次のコマンドを実行してみてください。

hadoop fs -cat /path | head -n

ここで、-nは表示するレコードの数で置き換え可能です。

George Edwards

編集した答え 13日 8月 2017 в 8:10

2

0

質問の追加

カテゴリ

すべて

技術情報

文化・レクリエーション

生活・芸術

科学

プロフェッショナル

事業内容

ユーザー

すべて

新しい

人気

1

2

3

4

5

Do you have a question? Add it on the site and get an answer instantly

ja.kzen.dev

Chris White · Accepted Answer · 2013-11-04T23:37:35+00:00

hadoopのfs -catの出力をlinuxのheadコマンドでパイプすれば、簡単にheadを複製することができるのです。

hadoop fs -cat /path/to/file | head

これは、希望する行数が出力された後に head が基礎となるストリームを終了させるので効率的です。

この方法でtailを使用すると、ファイル全体（すべてのHDFSブロック）をストリームして最終的なX行数を見つけなければならないので、かなり効率が悪くなります。

hadoop fs -cat /path/to/file | tail

hadoop fs -tail コマンドは最後の1キロバイトで動作します。hadoop は効率的に最後のブロックを見つけ、最後の1キロバイトの位置までスキップし、出力をストリームすることができます。tail によるパイピングはこれを容易に行うことができません。