DB-GPT是一个开源的数据库领域大模型框架。目的是构建大模型领域的基础设施,通过开发多模型管理、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作等多种技术能力,让围绕数据库构建大模型应用更简单,更方便。
数据3.0 时代,基于模型、数据库,企业/开发者可以用更少的代码搭建自己的专属应用。
-
私域问答&数据处理&RAG
支持内置、多文件格式上传、插件自抓取等方式自定义构建知识库,对海量结构化,非结构化数据做统一向量存储与检索
-
多数据源&GBI
支持自然语言与Excel、数据库、数仓等多种数据源交互,并支持分析报告。
-
自动化微调
围绕大语言模型、Text2SQL数据集、LoRA/QLoRA/Pturning等微调方法构建的自动化微调轻量框架, 让TextSQL微调像流水线一样方便。详见: DB-GPT-Hub
-
数据驱动的Agents插件
支持自定义插件执行任务,原生支持Auto-GPT插件模型,Agents协议采用Agent Protocol标准
-
多模型支持与管理
海量模型支持,包括开源、API代理等几十种大语言模型。如LLaMA/LLaMA2、Baichuan、ChatGLM、文心、通义、智谱等。当前已支持如下模型:
-
新增支持模型
- 🔥🔥🔥 qwen-72b-chat
- 🔥🔥🔥 Yi-34B-Chat
-
支持在线代理模型
-
-
隐私安全
通过私有化大模型、代理脱敏等多种技术保障数据的隐私安全。
整个DB-GPT的架构,如下图所示
核心能力主要有以下几个部分:
-
RAG(Retrieval Augmented Generation),RAG是当下落地实践最多,也是最迫切的领域,DB-GPT目前已经实现了一套基于RAG的框架,用户可以基于DB-GPT的RAG能力构建知识类应用。
-
GBI:生成式BI是DB-GPT项目的核心能力之一,为构建企业报表分析、业务洞察提供基础的数智化技术保障。
-
微调框架: 模型微调是任何一个企业在垂直、细分领域落地不可或缺的能力,DB-GPT提供了完整的微调框架,实现与DB-GPT项目的无缝打通,在最近的微调中,基于spider的准确率已经做到了82.5%
-
数据驱动的Multi-Agents框架: DB-GPT提供了数据驱动的自进化微调框架,目标是可以持续基于数据做决策与执行。
-
数据工厂: 数据工厂主要是在大模型时代,做可信知识、数据的清洗加工。
-
数据源: 对接各类数据源,实现生产业务数据无缝对接到DB-GPT核心能力。
- DB-GPT-Hub 通过微调来持续提升Text2SQL效果
- DB-GPT-Plugins DB-GPT 插件仓库, 兼容Auto-GPT
- DB-GPT-Web 多端交互前端界面
🌐 AutoDL镜像
🌐 小程序云部署
在.env 配置文件当中,修改LANGUAGE参数来切换使用不同的语言,默认是英文(中文zh, 英文en, 其他语言待补充)
提交代码前请先执行
black .
这是一个用于数据库的复杂且创新的工具, 我们的项目也在紧急的开发当中, 会陆续发布一些新的feature。如在使用当中有任何具体问题, 优先在项目下提issue, 如有需要, 请联系如下微信,我会尽力提供帮助,同时也非常欢迎大家参与到项目建设中。
The MIT License (MIT)
- Multi Documents
- Excel, csv
- Word
- Text
- MarkDown
- Code
- Images
- RAG
- Graph Database
- Neo4j Graph
- Nebula Graph
- Multi Vector Database
- Chroma
- Milvus
- Weaviate
- PGVector
- Elasticsearch
- ClickHouse
- Faiss
-
支持数据源
- MySQL
- PostgresSQL
- Spark
- DuckDB
- Sqlite
- MSSQL
- ClickHouse
- StarRocks
- Oracle
- Redis
- MongoDB
- HBase
- Doris
- DB2
- Couchbase
- Elasticsearch
- OceanBase
- TiDB
- 集群部署
- fastchat支持
- vLLM 支持
- 上层接口兼容Openai
- 云原生环境与Ray环境支持
- 注册中心引入nacos
- Embedding模型扩充,优化
- 多Agents框架
- 自定义Agents
- 插件市场
- CoT集成
- 丰富插件样本库
- 支持AutoGPT协议
- Multi-agents & 可视化能力打通,定义LLM+Vis新标准
- 知识库的数据文本集
- 问题集合 [easy、medium、hard]
- 评分机制
- Excel + DB库表的测试评估
- debugging
- 可观测性
- 推理预算
-
support llms
- LLaMA
- LLaMA-2
- BLOOM
- BLOOMZ
- Falcon
- Baichuan
- Baichuan2
- InternLM
- Qwen
- XVERSE
- ChatGLM2
-
SFT模型准确率 截止20231010,我们利用本项目基于开源的13B大小的模型微调后,在Spider的评估集上的执行准确率,已经超越GPT-4!