数据集使用指南

GitCode AI 社区提供了全面的数据集管理功能,帮助您轻松创建、分享和使用高质量数据集。本指南将介绍数据集相关的主要操作。

数据集创建

创建新数据集

  1. 登录您的 GitCode AI 账号
  2. 进入"数据集" > “创建数据集”
  3. 填写数据集信息:
    • 数据集ID
    • 数据集名称
    • 选择LICENSE模板
    • 选择是否公开
  4. 选择LICENSE模板:
    • PyTorchCreative Commons Attribution Non Commercial 3.0
    • Creative Commons Attribution Non Commercial No IDerivatives 3.0
    • Creative Commons Attribution Non Commercial Share Alike 2.0
    • Creative Commons Attribution Non Commercial Share Alike 3.0
    • H Research License
    • Open Model, Data & Weights License Agreement
    • Unknown
  5. 点击"创建数据集"完成
    数据集创建
    数据集创建

数据集配置

创建 dataset-config.yaml 文件来定义数据集结构:

dataset-name: my-awesome-dataset
version: 1.0.0
type: image-classification
format: 
  - jpg
  - png
structure:
  train: train/
  validation: val/
  test: test/
labels:
  path: labels.csv
  format: csv

数据集搜索

基本搜索

  1. 在搜索框输入关键词
  2. 使用过滤条件:
    • 综合排序
    • 最受欢迎
    • 最多下载
    • 最新创建
    • 最近更新

高级搜索

支持以下搜索语法:

  • type:image - 按数据类型搜索
  • size:>1GB - 按数据集大小搜索
  • license:MIT - 按许可证搜索
  • language:chinese - 按数据集语言搜索

数据集下载

  1. 进入数据集详情页
  2. 点击"克隆"按钮
  3. 复制项目地址
  4. 克隆到本地
  5. 使用 HTTPS 协议时,请配置并使用个人访问令牌替代登录密码进行克隆、推送等操作
  6. 使用 SSH 协议时,请在本地生成 SSH 公钥进行克隆、推送等操作

命令行下载

# 安装 GitCode CLI
pip install gitcode

# 下载完整数据集
gitcode download-dataset username/dataset-name

# 下载特定版本
gitcode download-dataset username/dataset-name --version v1.0.0

# 下载部分数据
gitcode download-dataset username/dataset-name --split train

数据集使用

openMind

# 需要先安装openmind-hub
pip install openmind-hub

# 设置环境变量:
import os
os.environ["OPENMIND_HUB_ENDPOINT"] = "https://api.gitcode.com"

# 下载数据集
from openmind_hub import snapshot_download

# 在配置并使用个人访问令牌申请访问令牌
token = ""

# 如果没有指定local_dir,请在~/.cache/openmind 下进行查看
snapshot_download("BAAI/Infinity-Instruct",  local_dir = './Infinity-Instruct',token = token )

数据集版本控制

# 加载特定版本
dataset_v1 = load_dataset("username/dataset-name" version="1.0.0")

# 查看版本历史
dataset.version_history()

# 创建新版本
dataset.create_version("1.1.0" description="Added new samples")

最佳实践

  1. 数据质量控制

    • 进行数据清洗
    • 检查数据完整性
    • 标注质量验证
  2. 数据集文档

    • 详细的数据描述
    • 数据收集方法
    • 使用限制说明
    • 隐私考虑
  3. 版本管理

    • 语义化版本号
    • 更新日志
    • 变更说明
  4. 数据安全

    • 数据脱敏
    • 访问权限控制
    • 合规性检查

常见问题

Q: 如何处理大型数据集? A: 可以使用流式加载或分片下载功能,避免一次性加载全部数据。

Q: 支持哪些数据格式? A: 支持常见的数据格式,如 CSV、JSON、图片、音频等,详见文档。

Q: 如何贡献数据? A: 您可以通过数据集更新功能提交新数据,或创建数据集分支进行协作。

Q: 数据集的存储限制是多少? A: 免费账户可以创建最大 10GB 的数据集,高级账户有更大的存储限制。