HDFS指令笔记

🚀 HDFS 常用命令速查(大数据实验助手)

在做大数据分析实验的时候,总会遇到 HDFS 操作命令——说实话,记不住是常态 😅。为了方便后续使用,也为了少查几次文档,这里整理一份实用命令清单,方便自己也方便别人复制粘贴就能用。


 

📂 关于/sparkdata/路径的一些说明

在实验里,经常会看到像/sparkdata/ 这样的路径。乍一看像是本地目录,其实它是 HDFS(Hadoop Distributed File System)中的路径。简单来说:

  • 不是本地路径/sparkdata/不存在于你电脑的本地文件系统中。
  • 是分布式文件路径:它属于 HDFS,背后是一个运行在 Hadoop 集群上的分布式存储系统。

你可以把它理解成一个“逻辑路径”或“虚拟路径”:

  • /sparkdata/word.txt:这是文件在 HDFS 中的位置。你可以用命令行访问它,但在 Finder 或 File Explorer 是看不到的。
  • 实际物理位置是由 HDFS 管理的,文件会被分块、复制并分布在不同节点上,开发者通常无需关心这些细节。

 

🔧 常用 HDFS 操作命令

🔍 查看文件和目录

列出 HDFS 根目录下内容:

hdfs dfs -ls /

查看 /sparkdata/ 目录:

hdfs dfs -ls /sparkdata

查看 HDFS 中某个文件的内容:

hdfs dfs -cat /sparkdata/word.txt

 

📤 上传本地文件到 HDFS

假设你本地有一个文件叫 sample.fasta,想上传到 /sparkdata/ 目录:

hdfs dfs -put /zijiandate/sample.fasta /sparkdata/

🧼 删除文件或目录

删除某个文件(例如 Sorted_groupByKey.txt):

hdfs dfs -rm -r /sparkdata/Sorted_groupByKey.txt

⚠️ 注意加了 -r 是递归删除,别手滑删多了。


📊 查看 HDFS 状态

查看整个 HDFS 的运行状态和节点使用情况:

hdfs dfsadmin -report

这个命令适合在想看看 HDFS 是否正常,或者节点空间使用情况时用。


 

📥 从 HDFS 下载文件到本地

使用 hdfs dfs -get 命令,可以把 HDFS 中的文件下载回本地。格式如下:

hdfs dfs -get <hdfs_path> <local_path>

示例

  • 下载文件到当前目录:
    hdfs dfs -get /sparkdata/Sorted_groupByKey.txt
  • 下载文件到指定路径:
    hdfs dfs -get /sparkdata/Sorted_groupByKey.txt /home/user/data/

Hadoop配置文件详解 - 黑伴白

THE END