数据目录
数据目录包含两种模式下的目录: “实例模式” 和 “任务模式” 。实例模式的目录包括:envs、huggingface、llamafactory和tmp。可通过启动CPU实例进行查看。任务模式的目录是user-data,用于存储用户在任务模式下上传或者产生的数据,可通过平台的文件管理查看,也可通过启动CPU实例进行查看。

| 目录名称 | 说明 | 
|---|---|
| envs | 当前conda环境中,用户自定义安装依赖包的目录。 | 
| huggingface | Hugging Face 工具自动创建的本地缓存目录,可以用来存放下载的预训练模型文件、数据集缓存。 | 
| llamafactory | llama factory操作的相关目录:包含数据集,data目录、服务启动日志、logs日志、output训练保存目录、config配置目录。 | 
| tmp | tmp临时文件,用于存储临时缓存等。 | 
| user-data | 此目录是用户在通过任务模式下上传或者产生的数据;通过SFTP上传/下载数据;执行训练过程中产生的数据或者配置存储在models下的output目录中。 | 
user-data目录内容
| 文件名称 | 说明 | 
|---|---|
| datasets | 用户通过“文件管理”自己上传的数据集目录。 | 
| models | 用户通过“文件管理”自己上传的模型目录。 该目录下的output用于存储执行训练过程中产生的数据或者配置。 | 
| others | 用户通过“文件管理”自己上传的其他文件目录 | 
公共数据集和模型
平台提供的公共数据集存放在 /shared-only/datasets/ 目录下;
公共模型存放在/shared-only/models/下。此目录为只读目录,用户不可操作。
自定义数据集
用户自定义数据集目录为 /workspace/llamafactory/data或/user-data/datasets,若需要自定义数据集,请将文件上传到此目录进行处理。上传方法请参考JupyterLab上传和SFTP上传。
dataset_info.json 包含了所有经过预处理的 本地数据集 以及 在线数据集。如果您希望使用自定义数据集,请 务必 在 /workspace/llamafactory/data/dataset_info.json 文件中添加对数据集及其内容的定义。
数据集定义请参考文档数据集类型。
自定义模型
用户自定义模型目录为 /workspace/huggingface/hub或user-data/models,若需要使用自定义模型,请到此目录处操作。自定义模型传输方法请参考使用Hugging Face工具下载模型和使用SFTP上传模型。