Skip to content

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。

Notifications You must be signed in to change notification settings

HqWu-HITCS/Awesome-Chinese-LLM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 

Repository files navigation

Awesome Chinese LLM

Awesome-Chinese-LLM

An Awesome Collection for LLM in Chinese

收集和梳理中文LLM相关

GitHub stars GitHub issues GitHub forks

自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!

如果本项目能给您带来一点点帮助,麻烦点个⭐️吧~

同时也欢迎大家贡献本项目未收录的开源模型、应用、数据集等。提供新的仓库信息请发起PR,并按照本项目的格式提供仓库链接、star数,简介等相关信息,感谢~

Awesome-Chinese-LLM

常见底座模型细节概览:

底座 包含模型 模型参数大小 训练token数 训练最大长度 是否可商用
ChatGLM ChatGLM/2/3/4 Base&Chat 6B 1T/1.4 2K/32K 可商用
LLaMA LLaMA/2/3 Base&Chat 7B/8B/13B/33B/70B 1T/2T 2k/4k 部分可商用
Baichuan Baichuan/2 Base&Chat 7B/13B 1.2T/1.4T 4k 可商用
Qwen Qwen/1.5/2/2.5 Base&Chat&VL 7B/14B/32B/72B/110B 2.2T/3T/18T 8k/32k 可商用
BLOOM BLOOM 1B/7B/176B-MT 1.5T 2k 可商用
Aquila Aquila/2 Base/Chat 7B/34B - 2k 可商用
InternLM InternLM/2/2.5 Base/Chat/VL 7B/20B - 200k 可商用
Mixtral Base&Chat 8x7B - 32k 可商用
Yi Base&Chat 6B/9B/34B 3T 200k 可商用
DeepSeek Base&Chat 1.3B/7B/33B/67B - 4k 可商用
XVERSE Base&Chat 7B/13B/65B/A4.2B 2.6T/3.2T 8k/16k/256k 可商用

目录

1. 模型

1.1 文本LLM模型

  • ChatGLM:
  • ChatGLM2-6B
    • 地址:https://github.com/THUDM/ChatGLM2-6B
    • 简介:基于开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练;基座模型的上下文长度扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练;基于 Multi-Query Attention 技术实现更高效的推理速度和更低的显存占用;允许商业使用。
  • ChatGLM3-6B
    • 地址:https://github.com/THUDM/ChatGLM3
    • 简介:ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略;更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景;更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。
  • GLM-4
    • 地址:https://github.com/THUDM/GLM-4
    • 简介:GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。
  • Qwen/Qwen1.5/Qwen2/Qwen2.5
    • 地址:https://github.com/QwenLM
    • 简介:通义千问 是阿里云研发的通义千问大模型系列模型,包括参数规模为18亿(1.8B)、70亿(7B)、140亿(14B)、720亿(72B)和1100亿(110B)。各个规模的模型包括基础模型Qwen,以及对话模型。数据集包括文本和代码等多种数据类型,覆盖通用领域和专业领域,能支持8~32K的上下文长度,针对插件调用相关的对齐数据做了特定优化,当前模型能有效调用插件以及升级为Agent。
  • InternLM
  • InternLM2
    • 地址:https://github.com/InternLM/InternLM
    • 简介:商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM2)。InternLM2 在数理、代码、对话、创作等各方面能力都获得了长足进步,综合性能达到开源模型的领先水平。InternLM2 包含两种模型规格:7B 和 20B。7B 为轻量级的研究和应用提供了一个轻便但性能不俗的模型,20B 模型的综合性能更为强劲,可以有效支持更加复杂的实用场景。
  • DeepSeek-V2
  • Baichuan-7B
  • Baichuan-13B
  • Baichuan2
  • XVERSE-7B
    • 地址:https://github.com/xverse-ai/XVERSE-7B
    • 简介:由深圳元象科技自主研发的支持多语言的大语言模型,支持 8K 的上下文长度(Context Length),使用 2.6 万亿 token 的高质量、多样化的数据对模型进行充分训练,支持中、英、俄、西等 40 多种语言。并包含GGUF、GPTQ量化版本的模型,支持在llama.cpp、vLLM在MacOS/Linux/Windows系统上推理。
  • XVERSE-13B
    • 地址:https://github.com/xverse-ai/XVERSE-13B
    • 简介:由深圳元象科技自主研发的支持多语言的大语言模型,支持 8K 的上下文长度(Context Length),使用 3.2 万亿 token 的高质量、多样化的数据对模型进行充分训练,支持中、英、俄、西等 40 多种语言。包含长序列对话模型 XVERSE-13B-256K ,该版本模型最大支持 256K 的上下文窗口长度,约 25w 字的输入内容,可以协助进行文献总结、报告分析等任务。并包含GGUF、GPTQ量化版本的模型,支持在llama.cpp、vLLM在MacOS/Linux/Windows系统上推理。
  • XVERSE-65B
    • 地址:https://github.com/xverse-ai/XVERSE-65B
    • 简介:由深圳元象科技自主研发的支持多语言的大语言模型,支持 16K 的上下文长度(Context Length),使用 2.6 万亿 token 的高质量、多样化的数据对模型进行充分训练,支持中、英、俄、西等 40 多种语言。包含增量预训练到 3.2 万亿 token 的 XVERSE-65B-2 模型。并包含GGUF、GPTQ量化版本的模型,支持在llama.cpp、vLLM在MacOS/Linux/Windows系统上推理。
  • XVERSE-MoE-A4.2B
    • 地址:https://github.com/xverse-ai/XVERSE-MoE-A4.2B
    • 简介:由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),使用混合专家模型(MoE,Mixture-of-experts)架构,模型的总参数规模为 258 亿,实际激活的参数量为 42 亿,支持 8K 的上下文长度(Context Length),使用 3.2 万亿 token 的高质量、多样化的数据对模型进行充分训练,支持中、英、俄、西等 40 多种语言。
  • Skywork
    • 地址:https://github.com/SkyworkAI/Skywork
    • 简介:该项目开源了天工系列模型,该系列模型在3.2TB高质量多语言和代码数据上进行预训练,开源了包括模型参数,训练数据,评估数据,评估方法。具体包括Skywork-13B-Base模型、Skywork-13B-Chat模型、Skywork-13B-Math模型和Skywork-13B-MM模型,以及每个模型的量化版模型,以支持用户在消费级显卡进行部署和推理。
  • Yi
  • Chinese-LLaMA-Alpaca:
  • Chinese-LLaMA-Alpaca-2:
  • Chinese-LlaMA2:
    • 地址:https://github.com/michael-wzhu/Chinese-LlaMA2
    • 简介:该项目基于可商用的LLaMA-2进行二次开发决定在次开展Llama 2的中文汉化工作,包括Chinese-LlaMA2: 对Llama 2进行中文预训练;第一步:先在42G中文预料上进行训练;后续将会加大训练规模;Chinese-LlaMA2-chat: 对Chinese-LlaMA2进行指令微调和多轮对话微调,以适应各种应用场景和多轮对话交互。同时我们也考虑更为快速的中文适配方案:Chinese-LlaMA2-sft-v0: 采用现有的开源中文指令微调或者是对话数据,对LlaMA-2进行直接微调 (将于近期开源)。
  • Llama2-Chinese:
  • OpenChineseLLaMA:
  • BELLE:
  • Panda:
  • Robin (罗宾):
  • Fengshenbang-LM:
    • 地址:https://github.com/IDEA-CCNL/Fengshenbang-LM
    • 简介:Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,该项目开源了姜子牙通用大模型V1,是基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。除姜子牙系列模型之外,该项目还开源了太乙、二郎神系列等模型。
  • BiLLa:
    • 地址:https://github.com/Neutralzz/BiLLa
    • 简介:该项目开源了推理能力增强的中英双语LLaMA模型。模型的主要特性有:较大提升LLaMA的中文理解能力,并尽可能减少对原始LLaMA英文能力的损伤;训练过程增加较多的任务型数据,利用ChatGPT生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。
  • Moss:
  • Luotuo-Chinese-LLM:
  • Linly:
    • 地址:https://github.com/CVI-SZU/Linly
    • 简介:提供中文对话模型 Linly-ChatFlow 、中文基础模型 Linly-Chinese-LLaMA 及其训练数据。 中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。
  • Firefly:
    • 地址:https://github.com/yangjianxin1/Firefly
    • 简介:Firefly(流萤) 是一个开源的中文大语言模型项目,开源包括数据、微调代码、多个基于Bloom、baichuan等微调好的模型等;支持全量参数指令微调、QLoRA低成本高效指令微调、LoRA指令微调;支持绝大部分主流的开源大模型,如百川baichuan、Ziya、Bloom、LLaMA等。持lora与base model进行权重合并,推理更便捷。
  • ChatYuan
  • ChatRWKV:
  • CPM-Bee
    • 地址:https://github.com/OpenBMB/CPM-Bee
    • 简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
  • TigerBot
  • Aquila
    • 地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
    • 简介:由智源研究院发布,Aquila语言大模型在技术上继承了GPT-3、LLaMA等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer,升级了BMTrain并行训练方法,是在中英文高质量语料基础上从0开始训练的,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。
  • Aquila2
  • Anima
  • KnowLM
    • 地址:https://github.com/zjunlp/KnowLM
    • 简介:KnowLM项目旨在发布开源大模型框架及相应模型权重以助力减轻知识谬误问题,包括大模型的知识难更新及存在潜在的错误和偏见等。该项目一期发布了基于Llama的抽取大模型智析,使用中英文语料对LLaMA(13B)进行进一步全量预训练,并基于知识图谱转换指令技术对知识抽取任务进行优化。
  • BayLing
    • 地址:https://github.com/ictnlp/BayLing
    • 简介:一个具有增强的跨语言对齐的通用大模型,由中国科学院计算技术研究所自然语言处理团队开发。百聆(BayLing)以LLaMA为基座模型,探索了以交互式翻译任务为核心进行指令微调的方法,旨在同时完成语言间对齐以及与人类意图对齐,将LLaMA的生成能力和指令跟随能力从英语迁移到其他语言(中文)。在多语言翻译、交互翻译、通用任务、标准化考试的测评中,百聆在中文/英语中均展现出更好的表现。百聆提供了在线的内测版demo,以供大家体验。
  • YuLan-Chat
  • PolyLM
  • huozi
    • 地址:https://github.com/HIT-SCIR/huozi
    • 简介:由哈工大自然语言处理研究所多位老师和学生参与开发的一个开源可商用的大规模预训练语言模型。 该模型基于 Bloom 结构的70 亿参数模型,支持中英双语,上下文窗口长度为 2048,同时还开源了基于RLHF训练的模型以及全人工标注的16.9K中文偏好数据集。
  • YaYi
    • 地址:https://github.com/wenge-research/YaYi
    • 简介:雅意大模型在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。雅意大模型从预训练初始化权重到领域模型的迭代过程中,我们逐步增强了它的中文基础能力和领域分析能力,并增加了多轮对话和部分插件能力。同时,经过数百名用户内测过程中持续不断的人工反馈优化,进一步提升了模型性能和安全性。已开源基于 LLaMA 2 的中文优化模型版本,探索适用于中文多领域任务的最新实践。
  • YAYI2
    • 地址:https://github.com/wenge-research/YAYI2
    • 简介:YAYI 2 是中科闻歌研发的新一代开源大语言模型,包括 Base 和 Chat 版本,参数规模为 30B。YAYI2-30B 是基于 Transformer 的大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。针对通用和特定领域的应用场景,我们采用了百万级指令进行微调,同时借助人类反馈强化学习方法,以更好地使模型与人类价值观对齐。本次开源的模型为 YAYI2-30B Base 模型。
  • Yuan-2.0
    • 地址:https://github.com/IEIT-Yuan/Yuan-2.0
    • 简介:该项目开源了由浪潮信息发布的新一代基础语言大模型,具体开源了全部的3个模型源2.0-102B,源2.0-51B和源2.0-2B。并且提供了预训练,微调,推理服务的相关脚本。源2.0是在源1.0的基础上,利用更多样的高质量预训练数据和指令微调数据集,令模型在语义、数学、推理、代码、知识等不同方面具备更强的理解能力。
  • Chinese-Mixtral-8x7B
  • BlueLM
  • TuringMM
  • Orion
  • OrionStar-Yi-34B-Chat
  • MiniCPM
  • Mengzi3

1.2 多模态LLM模型

  • VisualGLM-6B

    • 地址:https://github.com/THUDM/VisualGLM-6B
    • 简介:一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练。
  • CogVLM

  • Visual-Chinese-LLaMA-Alpaca

    • 地址:https://github.com/airaria/Visual-Chinese-LLaMA-Alpaca
    • 简介:基于中文LLaMA&Alpaca大模型项目开发的多模态中文大模型。VisualCLA在中文LLaMA/Alpaca模型上增加了图像编码等模块,使LLaMA模型可以接收视觉信息。在此基础上,使用了中文图文对数据进行了多模态预训练,对齐图像与文本表示,赋予其基本的多模态理解能力;并使用多模态指令数据集精调,增强其对多模态指令的理解、执行和对话能力,目前开源了VisualCLA-7B-v0.1。
  • LLaSM

    • 地址:https://github.com/LinkSoul-AI/LLaSM
    • 简介:第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。目前开源了LLaSM-Chinese-Llama-2-7B、LLaSM-Baichuan-7B等模型与数据集。
  • VisCPM

    • 地址:https://github.com/OpenBMB/VisCPM
    • 简介:一个开源的多模态大模型系列,支持中英双语的多模态对话能力(VisCPM-Chat模型)和文到图生成能力(VisCPM-Paint模型)。VisCPM基于百亿参数量语言大模型CPM-Bee(10B)训练,融合视觉编码器(Q-Former)和视觉解码器(Diffusion-UNet)以支持视觉信号的输入和输出。得益于CPM-Bee基座优秀的双语能力,VisCPM可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。
  • MiniCPM-V

  • Qwen-VL

    • 地址:https://github.com/QwenLM/Qwen-VL
    • 简介:是阿里云研发的大规模视觉语言模型,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。特点包括:强大的性能:在四大类多模态任务的标准英文测评中上均取得同等通用模型大小下最好效果;多语言对话模型:天然支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。
  • InternVL/1.5/2.0

    • 地址:https://github.com/OpenGVLab/InternVL
    • 简介:开源多模态大模型,也是国内首个在MMMU(多学科问答)上突破60的模型。数学基准MathVista的测试中、书生·万象的得分为66.3%,显著高于其他闭源商业模型和开源模型。在通用图表基准ChartQA、文档类基准DocVQA、信息图表类基准InfographicVQA中以及通用视觉问答基准MMBench (v1.1)中,书生万象也取得了最先进(SOTA)的表现。

2. 应用

2.1 垂直领域微调

医疗

法律

金融

  • Cornucopia(聚宝盆):基于中文金融知识的LLaMA微调模型

  • BBT-FinCUGE-Applications

  • XuanYuan(轩辕):首个千亿级中文金融对话模型

    • 地址:https://github.com/Duxiaoman-DI/XuanYuan
    • 简介:轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
  • FinGPT

  • DISC-FinLLM

  • Tongyi-Finance

    • 地址:https://modelscope.cn/models/TongyiFinance/Tongyi-Finance-14B
    • 简介:该模型是针对对金融行业推出的大语言模型,基于通义千问基础模型进行行业语料增量学习,强化金融领域知识和场景应用能力,覆盖金融知识问答、文本分类、信息抽取、文本创作、阅读理解、逻辑推理、多模态、Coding等能力象限。具有以下特点:行业语料增量学习:使用200B高质量金融行业语料进行增量学习,并进行金融行业词表扩展,覆盖丰富的数据类型,支持更大上下文(16k)输入和完整的语义表达。行业能力强化:自研SFT质量&多样性分析工具,筛选高质量SFT数据,解决大语言模型的alignment问题。行业后链路优化:借助multi-agent框架,实现知识库增强和工具API调用。
教育
科技
电商
网络安全
农业
  • 后稷(AgriMa):
  • 稷丰(AgriAgent):
    • 地址:https://github.com/zhiweihu1103/AgriAgent
    • 简介:首个开源中文农业多模态大模型是由山西农业大学研发,以MiniCPM-Llama3-V 2.5为底座,能够从图像、文本、气象数据等多源信息中提取有用信息,为农业生产提供全面、精准的智能化解决方案。我们致力于将稷丰应用于作物健康监测、病虫害识别、土壤肥力分析、农田管理优化等多个方面,帮助农民提升生产效率,减少资源浪费,促进农业的可持续发展。

2.2 LangChain应用

2.3 其他应用

3. 数据集

预训练数据集

  • MNBVC

    • 地址:https://github.com/esbatmop/MNBVC
    • 数据集说明:超大规模中文语料集,不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集,且在持续更新中。
  • WuDaoCorporaText

    • 地址:https://data.baai.ac.cn/details/WuDaoCorporaText
    • 数据集说明:WuDaoCorpora是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。
  • CLUECorpus2020

  • WanJuan-1.0

    • 地址:https://opendatalab.org.cn/WanJuan1.0
    • 数据集说明:书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。 目前,书生·万卷1.0已被应用于书生·多模态、书生·浦语的训练。通过对高质量语料的“消化”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。
  • seq-monkey-data

    • 地址:https://github.com/mobvoi/seq-monkey-data

    • 数据集说明:序列猴子是出门问问提供的超大规模语言模型,基于其通用的表示与推理能力,支持多轮交互,能够大幅度提高生产效率和数据处理能力,被广泛应用于问答系统、自然语言处理、机器翻译、文本摘要等领域。序列猴子数据集是用于训练序列猴子模型的数据集合,现选择部分数据集向公众开放。

SFT数据集

偏好数据集

4. LLM训练微调框架

5. LLM推理部署框架

6. LLM评测

7. LLM教程

LLM基础知识

提示工程教程

LLM应用教程

LLM实战教程

Star History

Star History Chart

About

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published