HDFS指令笔记
🚀 HDFS 常用命令速查(大数据实验助手)
在做大数据分析实验的时候,总会遇到 HDFS 操作命令——说实话,记不住是常态 😅。为了方便后续使用,也为了少查几次文档,这里整理一份实用命令清单,方便自己也方便别人复制粘贴就能用。
📂 关于/sparkdata/
路径的一些说明
在实验里,经常会看到像/sparkdata/
这样的路径。乍一看像是本地目录,其实它是 HDFS(Hadoop Distributed File System)中的路径。简单来说:
- 不是本地路径:
/sparkdata/
不存在于你电脑的本地文件系统中。 - 是分布式文件路径:它属于 HDFS,背后是一个运行在 Hadoop 集群上的分布式存储系统。
你可以把它理解成一个“逻辑路径”或“虚拟路径”:
:这是文件在 HDFS 中的位置。你可以用命令行访问它,但在 Finder 或 File Explorer 是看不到的。/sparkdata/word.txt
- 实际物理位置是由 HDFS 管理的,文件会被分块、复制并分布在不同节点上,开发者通常无需关心这些细节。
🔧 常用 HDFS 操作命令
🔍 查看文件和目录
列出 HDFS 根目录下内容:
hdfs dfs -ls /
查看 /sparkdata/
目录:
hdfs dfs -ls /sparkdata
查看 HDFS 中某个文件的内容:
hdfs dfs -cat /sparkdata/word.txt
📤 上传本地文件到 HDFS
假设你本地有一个文件叫 sample.fasta
,想上传到 /sparkdata/
目录:
hdfs dfs -put /zijiandate/sample.fasta /sparkdata/
🧼 删除文件或目录
删除某个文件(例如 Sorted_groupByKey.txt):
hdfs dfs -rm -r /sparkdata/Sorted_groupByKey.txt
⚠️ 注意加了 -r
是递归删除,别手滑删多了。
📊 查看 HDFS 状态
查看整个 HDFS 的运行状态和节点使用情况:
hdfs dfsadmin -report
这个命令适合在想看看 HDFS 是否正常,或者节点空间使用情况时用。
📥 从 HDFS 下载文件到本地
使用 hdfs dfs -get
命令,可以把 HDFS 中的文件下载回本地。格式如下:
hdfs dfs -get <hdfs_path> <local_path>
示例
- 下载文件到当前目录:
hdfs dfs -get /sparkdata/Sorted_groupByKey.txt
- 下载文件到指定路径:
hdfs dfs -get /sparkdata/Sorted_groupByKey.txt /home/user/data/
版权声明:
作者:xiaochen
链接:https://xiaochen.red/82.html
文章版权归作者所有,未经允许请勿转载。
THE END