Skip to content

Latest commit

 

History

History
221 lines (166 loc) · 9.55 KB

README_zh.md

File metadata and controls

221 lines (166 loc) · 9.55 KB

COIG-CQIA:Quality is All you need for Chinese Instruction Fine-tuning

[ English | 中文 ]

欢迎来到COIG-CQIA,COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。

项目简介

COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。本项目受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中我们十分注重数据的来源、质量与多样性,数据集详情请见数据及接下来的论文。

更新

  • [2023.12.04] 🎉发布v0.1版数据,基于Yi-6B-base和Yi-34B-base使用v0.1版数据全量微调的SFT模型

Models

利用COIG-CQIA数据,我们开发了一系列基于Yi的SFT模型,更多版本即将发布。

模型名称 基座模型 下载链接
CQIA-Yi-6B-v0.1 Yi-6B-base Download
CQIA-Yi-34B-v0.1 Yi-34B-base Download

使用方法

from transformers import AutoModel

效果展示

Logical Reasoning

Input:

Response:

数据详情

数据格式

{
    "instruction": "示例问题或者指令。",
    "input": "示例问题或指令的补充。",
    "output": "对输入的回复。",
    "task_type": {
        "major": ["问答"],
        "minor": ["百科问答"]
    },
    "domain": ["百科", "医疗"],
    "answer_from": "human",
    "human_verified": true,
    "copyright": "作者及版权信息。",
}

数据字段

  • instruction: 用于输入的指令或者问题。
  • input: 问题或指令的补充内容。
  • output: 输入对应的回答。
  • task_type: 表示该数据所属的主要任务类型和细分任务类型。
  • domain: 该数据所属领域。
  • answer_from: 回答是人类撰写的还是大模型撰写的,本数据集中绝大部分是由人类撰写的回答,少部分由大模型生成(经过了人工验证)。
  • human_verified: 该数据是否又人类核验过。
  • copyright: 包括该数据的版权信息,包括作者等。

数据详情

社交媒体&论坛
类别 数量 来源 构造方式
知乎 8837 [网址链接] 经过过阶段的数据质量筛选和人工验证。
豆瓣 3132 [网址链接] 人工撰写多样的prompt模板构造而成。
小红书 1508 [网址链接] 人工撰写多样的prompt模板构造而成。
Segmentfault 458 [网址链接] 规则方式清洗与筛选,并经过人工验证。
总量 13935 - -
通用百科
类别 数量 来源 构造方式
百科文章 980 从网络中收集。[网址链接] [网址链接] [网址链接] [网址链接] 规则方式清洗与筛选,并经过人工验证。
中国大百科全书 1706 [网址链接] 人工撰写多样的prompt模板构造而成。
wikiHow中文 1876 [网址链接]&[公开数据集] 规则方式清洗与筛选。
总量 4571 - -
通用NLP任务
类别 数量 来源 构造方式
COIG-PC-Core 3000 [Open Dataset] 人工验证数据质量。
总量 3000 - -
考试&试题
类别 数量 来源 构造方式
高考&中考 2000 [公开数据集] -
研究生入学考试 475 从网络中收集 规则方式清洗与筛选。
逻辑推理题 422 从网络中收集 规则方式清洗与筛选。
总量 2897 - -
人类价值观
类别 数量 来源 构造方式
100poison 906 [公开数据集] -
COIG-human-value 101 [公开数据集] 经人工审核数据质量
总量 1007 - -
中国传统文化
类别 数量 来源 构造方式
中华传统文化试题 232 从网络中收集 规则方式清洗与筛选,并经过人工验证。
成语释义 112 [公开数据集] 规则方式清洗与筛选,并经过人工验证。
古诗词撰写 47 [公开数据集] 规则方式清洗与筛选,并经过人工验证。
文言文互译 112 [公开数据集] 规则方式清洗与筛选,并经过人工验证。
总量 1112 - -
金融&经管领域
类别 数量 来源 构造方式
MBA百科 10689 [网址链接] 人工撰写多样的prompt模板构造而成。
金融NLP任务 600 [公开数据集] 人工核验数据质量
总量 12689 - -
医疗领域
类别 数量 来源 构造方式
医疗百科 8351 [网址链接] 人工撰写多样的prompt模板构造而成。
医疗文章 186 [网址链接] [网址链接] 规则方式清洗与筛选。
总量 8537 - -
法律领域
类别 数量 来源 构造方式
法律研究生入学考试 2645 从网络中收集 规则方式清洗与筛选。
总量 2645 - -

Citation

如果本项目为您的研究带来了帮助,请参考以下格式引用:

@misc{COIG-CQIA,
  author = {},
  title = {COIG-CQIA: Quality is All you need for Chinese Instruction Fine-tuning},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/paralym/COIG-CQIA}},
}

本数据集中也包含了以下公开数据:

@article{zhang2023chinese,
  title={Chinese open instruction generalist: A preliminary release},
  author={Zhang, Ge and Shi, Yemin and Liu, Ruibo and Yuan, Ruibin and Li, Yizhi and Dong, Siwei and Shu, Yu and Li, Zhaoqun and Wang, Zekun and Lin, Chenghua and others},
  journal={arXiv preprint arXiv:2304.07987},
  year={2023}
}
@misc{Firefly,
  author = {Jianxin Yang},
  title = {Firefly(流萤): 中文对话式大语言模型},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/yangjianxin1/Firefly}},
}
@misc{xu2023cvalues,
    title={CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility}, 
    author={Guohai Xu and Jiayi Liu and Ming Yan and Haotian Xu and Jinghui Si and Zhuoran Zhou and Peng Yi and Xing Gao and Jitao Sang and Rong Zhang and Ji Zhang and Chao Peng and Fei Huang and Jingren Zhou},
    year={2023},
    eprint={2307.09705},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
  }