Hadoop/Hive : 在本地机器上从 .csv 中加载数据

Question

更多

mel

问题

Hadoop/Hive : 在本地机器上从 .csv 中加载数据

由于这是来自一个新手...

我已经为我设置了 Hadoop 和 Hive，因此我可以在我的计算机上运行 Hive 查询，访问 AWS 集群上的数据。我能否像使用 MS SQL Server 那样，使用存储在电脑上的 .csv 数据运行 Hive 查询？

如何将 .csv 数据加载到 Hive 中？这与 Hadoop 有什么关系？

我应该注意哪些设置，这样如果我做错了什么，我就可以随时返回并在亚马逊上运行查询，而不会影响之前的设置？

编程

sql

csv

hadoop

amazon-web-services

hive

添加问题

岚，巗峃，。

全部

技术

文化/娱乐

生活/艺术

科学

专业的

业务

用户

全部

新的

热门

1

2

3

4

5

您有问题吗？将问题添加到网站上并立即得到答复

zh.kzen.dev

hjamali52 · Answer 1 · 2013-10-11T15:28:50+00:00

如果已安装了 Hive，则可以使用 Hive load 命令直接将本地数据集放入 hdfs/s3。

在编写加载命令时，您需要使用"Local"关键字。

hiveload 命令的语法

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

更多详细信息，请参考以下链接。 <https://cwiki.apache.org/confluence/display/Hive/LanguageManual%20DML#LanguageManualDML-Loadingfilesintotables&gt；

Lex Lian · Answer 2 · 2013-10-14T00:43:58+00:00

还有另一种实现方法、

使用 hadoop hdfs -copyFromLocal 将 .csv 数据文件从本地计算机复制到 HDFS 中的某处，例如 '/path/filename&#39；
进入 Hive 控制台，运行以下脚本加载文件，使其成为 Hive 表。注意，'\054'是八进制数中'逗号'的 ascii 编码，代表字段分隔符。

CREATE EXTERNAL TABLE table name (foo INT, bar STRING)
 COMMENT 'from csv file'
 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\054'
 STORED AS TEXTFILE
 LOCATION '/path/filename';

Vijay Kumar · Answer 3 · 2015-07-13T14:45:33+00:00

您可以试试这个、以下是几个如何生成文件的示例。工具 -- https://sourceforge.net/projects/csvtohive/?source=directory

1.使用 "浏览 "选择 CSV 文件，并设置 hadoop 根目录，例如：/user/bigdataproject/

2.工具生成包含所有 csv 文件的 Hadoop 脚本，以下是生成的 Hadoop 脚本示例。

#!/bin/bash -v<br/&gt；
hadoop fs -put ./AllstarFull.csv /user/bigdataproject/AllstarFull.csv
hive -f ./AllstarFull.hive<br/&gt；

hadoop fs -put ./Appearances.csv /user/bigdataproject/Appearances.csv
hive -f ./Appearances.hive<br/&gt；

hadoop fs -put ./AwardsManagers.csv /user/bigdataproject/AwardsManagers.csv
hive -f ./AwardsManagers.hive</pre></code&gt；

3.生成的 Hive 脚本示例

<pre><code>CREATE DATABASE IF NOT EXISTS lahman;<br/&gt；
USE lahman;<br/&gt；
CREATE TABLE AllstarFull (playerID string,yearID string,gameNum string,gameID string,teamID string,lgID string,GP string,startingPos string) 行格式分隔字段，以 ',' 结尾，存储为文本文件;<br/&gt；
LOAD DATA INPATH '/user/bigdataproject/AllstarFull.csv' OVERWRITE INTO TABLE AllstarFull;<br/&gt；
SELECT * FROM AllstarFull;</pre></code&gt；

谢谢 Vijay