Skip to content

Releases: Moemu/Muice-Chatbot

Ver 1.4 & 沐雪2.7.1模型更新

08 Dec 08:07
Compare
Choose a tag to compare

请注意:由于配置文件发生变更,本次更新为破坏性更新,一些功能和历史文件可能无法正常使用,若要迁移至新的配置文件,请参考 Readme.md

沐雪2.7.1模型更新如下:

  1. 针对沐雪人设添加了 System Prompt (Muice-Chatbot fdd8fa0
  2. 更换了新话题发起 Prompt (Muice-Chatbot 37c1f8a
  3. 重写训练集,此次重写的目的是将沐雪的对话风格从聊天风格改为直播风格,同时赋予一些“顽皮”的特性,具体内容如下:
    a. 移除了沐雪的自称:“本雪”,训练集:“本雪”→“我”
    b. 如果 Prompt 让沐雪难为情或者是问题逻辑存在问题,沐雪会拒绝回答,但是现在添加了拒绝回答的理由
    c. 增强了动作后缀,比如“(骗你的啦)”
    d. 移除了可能会拉低训练集质量的抽象问题,比如“原神”和”蔡徐坤”相关内容
    e. 6个点的省略号“……”简化为三个点”…”
    f. 增强了AI自我认知以辅助解决现实问题
    g. 补充了回答细节,具体表现在平均回答长度提升
    h. 移除了部分<生成推文>训练集,其中”发起话题”Tag 因为训练集质量差被移除
    i. 将英文引号改为中文引号
  4. 现在我们将尝试推出在线调用版本,具体Token和API实现可能会经常变更(Muice-Chatbot)(等待后续公开)

为了迎合模型更新,Chatbot也迎来了一些更改,更新日志如下:

  1. 新增自动配置环境脚本 987c78f (感谢@NaivG
  2. 新增发送图片功能 d65dc21 (感谢@NaivG
  3. 新增 faiss 长期记忆 d7ff986 (感谢@NaivG
  4. 更好的群聊命令支持 b780542 (感谢@zkhssb
  5. 将配置文件格式变更为YAML,移除了一些不常修改的配置,针对2.7.1更新增加了自定义新话题发起Prompt选项 bd205c5 fdd8fa0

以上便是此次更新带来的内容,感谢各位一如既往的关注与支持,提前祝各位新年快乐,我们在明年的更新中再见!

模型名 新话题发起分数 直播对话性能 日常聊天性能 综合对话分数
Muice-2.3-chatglm2-6b-int4-pt-128-1e-2 2.80 4.00 4.33 3.45
Muice-2.4-chatglm2-6b-int4-pt-128-1e-2 3.20 4.00 3.50 3.45
Muice-2.4-Qwen2-1.5B-Instruct-GPTQ-Int4-2e-3 1.40 3.00 6.00 5.75
Muice-2.5.3-Qwen2-1.5B-Instruct-GPTQ-Int4-2e-3 4.04 5.00 4.33 5.29
Muice-2.6.2-Qwen-7B-Chat-Int4-5e-4 5.20 5.67 4.00 5.75
Muice-2.7.0-Qwen-7B-Chat-Int4-1e-4 (未公开) 2.40 5.30 6.00 \
Muice-2.7.1-Qwen2.5-7B-Instruct-GPTQ-Int4-8e-4 5.40 4.60 4.50 6.76

Ver 1.3 & 沐雪2.6.2模型更新

09 Sep 11:20
baab12b
Compare
Choose a tag to compare

与当初B站上发的动态相反,经过一轮测试后,我们认为微调后的基于 Qwen-7B-Chat-Int4 的2.6.2综合性能超越了以前的版本,满足模型发布的最低条件,结合最近引入的新功能,决定发布Ver 1.3和沐雪2.6.2模型。

Ver 1.3更新日志如下:

  1. 沐雪2.6.2微调模型现已发布,相较于2.5.3,其训练集长度从2403扩充至3000条,这次更新重点加强了新话题发起能力。
  2. 引入了OFA图像识别功能,可用于识别表情包,要使用此功能,请参考readme文件下载模型并配置相关设置(感谢 @NaivG
  3. 引入了 fishaudio/fish-speech 进行语言合成,你可以使用自己的模型进行tts合成,但沐雪的tts可能晚点(因为我忘了)(感谢 @NaivG
  4. 支持群聊聊天 #47 (感谢 @MoeSnowyFox@NaivG
  5. 支持实时对话 realtime_refence.py(暂不支持QQ电话) (感谢 @NaivG
  6. 修复了一些历史问题并rua了沐雪 #54 #52 #53 #51

同时,我们按照直播弹幕反馈修正了评测标准,一些模型的评分如下:

模型名 新话题发起分数 直播对话性能 日常聊天性能 综合对话分数
Muice-2.3-chatglm2-6b-int4-pt-128-1e-2 2.80 4.00 4.33 3.45
Muice-2.4-chatglm2-6b-int4-pt-128-1e-2 3.20 4.00 3.50 3.45
Muice-2.4-Qwen2-1.5B-Instruct-GPTQ-Int4-2e-3 1.40 3.00 6.00 5.75
Muice-2.5.3-Qwen2-1.5B-Instruct-GPTQ-Int4-2e-3 4.04 5.00 4.33 5.29
Muice-2.6.2-Qwen-7B-Chat-Int4-5e-4 5.20 5.67 4.00 5.75
RWKV-x060-World-1B6-v2.1-xuexue-v0 \ 4.67 4.33 4.50
RWKV-x060-World-3B-v2-nsfw-xuexue-v0 \ 2.33 3.67 3.20
RWKV-x060-World-3B-v2-nsfw-xuexue-v1 \ 4.67 5.50 1.70
RWKV-x060-World-3B-v2.1-xuexue-v3.2 \ 5.00 1.17 4.70
RWKV-x060-World-3B-v2.1-xuexue-v4 \ 4.33 4.67 4.30

其中,新话题发起分数基于新话题发起Prompt所生成的5个回答,直播对话性能基于十条直播中常见的问题所生成的3个回答,日常聊天性能基于十条日常对话所生成的3个回答,综合对话分数基于100条测试集所生成的回答(从2.5开始,100条训练集的答案不包含在训练集中)。
评估结果仅供参考,以适合自己的为准。

最后,在此感谢两位开发者(@MoeSnowyFox@NaivG)的贡献,在学习之余,他们在本次更新中贡献了非常多的功能并且正在负责v2的开发,如果你也对沐雪Chatbot的开发感兴趣,你也可以提出新的功能、提交Pull Requests或者切换到v2分支中加入测试,我谨代表沐雪和各位用户感谢你们!

Ver 1.2 & 沐雪2.5.3模型更新

28 Jul 04:28
Compare
Choose a tag to compare

请注意:从2.5模型开始,模型的训练集大多来源于沐雪直播间问答历史,所以,沐雪的回答风格也更偏向于Vtuber风格。
由于ChatGLM2-6B-int4的泛化性评测不通过,此次仅提供Qwen2-1.5B-Instruct-GPTQ-Int4微调版本,请拉取原始模型并以llmtuner方式加载

沐雪1.2更新日志:

  1. 沐雪2.5.3微调模型现已发布,相较于2.4,其训练集长度从1600扩充至2403条;回答风格由日常对话转向为直播间问答对话,同时调整了沐雪的性格,使其具有“攻击性”;改变了对用户的称谓:“你”->“观众大大”。但泛化性不强的问题在此模型上继续显现,并且由于训练集风格的转变,导致综合对话分数降低,这可能与之前训练集风格的冲突有关,这将在下几个模型版本中调整。
  2. 我们加入了新的模型加载方法,有api/transformers/llmtuner/rwkv-api四种方式,你可以通过Readme.md文件查看他们分别支持的原始模型。
  3. 我们引入了新的QQ机器人Onebot的服务, 您可以使用当前方式来运行,感谢@MoeSnowyFox的贡献!

2.5.3评估数据

沐雪2.4微调模型更新

20 Apr 03:24
74d7023
Compare
Choose a tag to compare

献祭出高考听说分数,使我们训练出了2.4模型。
本次模型更新日志如下:

  1. 清洗了原有的训练集:移除/更改了部分抽象语料;降低了nsfw的风险
  2. 调整了沐雪和开发者的设定

由于Qwen-7b-Chat-int4微调出现技术问题,我们这次没有推出。

模型评价:
尽管降低了训练步数,还是出现了模型泛化性不高的问题,只能说明我技术不够精湛或者训练集数目太小了...上次遗留的病情问题得到了一些改进,但不是很明显,还是要注意一下。

这是高考前最后一次的模型更新,在六月的直播中也会使用本微调模型进行直播,谢谢各位一直以来的等待!

模型对话性能比较

沐雪2.3微调模型更新

04 Feb 13:00
Compare
Choose a tag to compare

各位新年好,距离上次模型更新已经过去了三个月的时间,经过不断地利用碎片化的时间,我们终于训练出了2.3模型。
本次模型更新日志如下:

  1. 训练集数量已增加至1600(未清洗)
  2. 加强了新对话发起能力与情感问题回答能力
  3. 添加了与新年祝福相关的训练集
  4. 这次没有微调ChatGLM3,但是我们这次改进了训练方法,使用sft微调了Qwen-7B-int4,感谢 @想毁灭世界的大肥蜥

在2024年的训练中,我们调整了评估策略,在新的策略中,我们更加注重模型的泛化性,针对同一个问题,除了回答质量因素以外,回答多样性越高,相应分数越高,反之同理。因此今年的评估分数不适合用于比较2023年的模型分数。

注意:虽然本次推出了Qwen-7B-int4的微调模型,但chatbot的仓库还没有对此模型进行适配,所以还请稍加等待或者自行编写代码以加载本模型(感谢 hiyouga/LLaMA-Factory),而且在评估过程中发现此模型生成的文本含有NSFW内容和重复生成文本的问题,我们正在调查,还请避免使用本模型

模型评价:
跑了一下脚本,发现2.2模型的回答都集中在训练集上,因此只给了2分的分数。2.3的模型虽然泛化性高了很多,但是质量还是不如意,下次洗一下,补充一点语料,看看情况会不会好些。这些模型都有一个很大的问题,就是涉及到生病(包括抑郁症)的问题都会给出很糟糕的结果,因此不要去问这类的问题,很抱歉出现这样的问题,我们会在下一个模型尝试去调整。

模型对话性能比较

Ver 1.1

29 Sep 18:56
Compare
Choose a tag to compare

沐雪1.1更新日志:

  1. 沐雪2.2微调模型现已发布,相较于2.1,其训练集增加了200~500条,可以在下方图片处查看模型相关回答能力。
  2. 引入了对CPU推理、int4量化模型的支持
  3. 隔离了QQ号之间的聊天记录,对于在09.10前拉取的源码,需要手动更改历史文件名以便新版本读取旧的记忆 ./memory/{self.user_qq}.json
  4. 隔离了指令类 command.py
  5. 添加了回复间隔
    (10.21更新)正式提供基于Qwen-7B-int4Qlora微调模型,由于时间问题,只对这个模型进行了综合对话能力测试,分数为5.39分,达到了历史最高成绩,但是模型的生成效果不太稳定,且模型泛化性较差,新话题发起生成的文本过度接近训练集,因此我建议您把她当作日常对话模型而关闭新话题发起功能

模型对话性能对比(根据09.29时生成的验证集进行评估):
模型对话性能比较

Ver 1.0

29 Aug 20:06
Compare
Choose a tag to compare

具体更新内容见Readme.md

关于模型的选择,现有两种模型可供选择,分别是Muice-2.0-chatglm2-6b-pt-128-5e-3Muice-2.1-chatglm2-6b-pt-128-8e-3,它们都基于ChatGLM2-6B,使用P-Tuning V2微调,因此您需要ChatGLM2-6B原始模型以支持其运行

有关她们的性能区别,您可以自行试验或者参考下面这副图像

模型性能比较