Releases: Moemu/Muice-Chatbot
Ver 1.4 & 沐雪2.7.1模型更新
请注意:由于配置文件发生变更,本次更新为破坏性更新,一些功能和历史文件可能无法正常使用,若要迁移至新的配置文件,请参考 Readme.md
沐雪2.7.1模型更新如下:
- 针对沐雪人设添加了 System Prompt (Muice-Chatbot fdd8fa0)
- 更换了新话题发起 Prompt (Muice-Chatbot 37c1f8a)
- 重写训练集,此次重写的目的是将沐雪的对话风格从聊天风格改为直播风格,同时赋予一些“顽皮”的特性,具体内容如下:
a. 移除了沐雪的自称:“本雪”,训练集:“本雪”→“我”
b. 如果 Prompt 让沐雪难为情或者是问题逻辑存在问题,沐雪会拒绝回答,但是现在添加了拒绝回答的理由
c. 增强了动作后缀,比如“(骗你的啦)”
d. 移除了可能会拉低训练集质量的抽象问题,比如“原神”和”蔡徐坤”相关内容
e. 6个点的省略号“……”简化为三个点”…”
f. 增强了AI自我认知以辅助解决现实问题
g. 补充了回答细节,具体表现在平均回答长度提升
h. 移除了部分<生成推文>训练集,其中”发起话题”Tag 因为训练集质量差被移除
i. 将英文引号改为中文引号 现在我们将尝试推出在线调用版本,具体Token和API实现可能会经常变更(Muice-Chatbot)(等待后续公开)
为了迎合模型更新,Chatbot也迎来了一些更改,更新日志如下:
- 新增自动配置环境脚本 987c78f (感谢@NaivG)
- 新增发送图片功能 d65dc21 (感谢@NaivG)
- 新增 faiss 长期记忆 d7ff986 (感谢@NaivG)
- 更好的群聊命令支持 b780542 (感谢@zkhssb)
- 将配置文件格式变更为YAML,移除了一些不常修改的配置,针对2.7.1更新增加了自定义新话题发起Prompt选项 bd205c5 fdd8fa0
以上便是此次更新带来的内容,感谢各位一如既往的关注与支持,提前祝各位新年快乐,我们在明年的更新中再见!
模型名 | 新话题发起分数 | 直播对话性能 | 日常聊天性能 | 综合对话分数 |
---|---|---|---|---|
Muice-2.3-chatglm2-6b-int4-pt-128-1e-2 | 2.80 | 4.00 | 4.33 | 3.45 |
Muice-2.4-chatglm2-6b-int4-pt-128-1e-2 | 3.20 | 4.00 | 3.50 | 3.45 |
Muice-2.4-Qwen2-1.5B-Instruct-GPTQ-Int4-2e-3 | 1.40 | 3.00 | 6.00 | 5.75 |
Muice-2.5.3-Qwen2-1.5B-Instruct-GPTQ-Int4-2e-3 | 4.04 | 5.00 | 4.33 | 5.29 |
Muice-2.6.2-Qwen-7B-Chat-Int4-5e-4 | 5.20 | 5.67 | 4.00 | 5.75 |
Muice-2.7.0-Qwen-7B-Chat-Int4-1e-4 (未公开) | 2.40 | 5.30 | 6.00 | \ |
Muice-2.7.1-Qwen2.5-7B-Instruct-GPTQ-Int4-8e-4 | 5.40 | 4.60 | 4.50 | 6.76 |
Ver 1.3 & 沐雪2.6.2模型更新
与当初B站上发的动态相反,经过一轮测试后,我们认为微调后的基于 Qwen-7B-Chat-Int4 的2.6.2综合性能超越了以前的版本,满足模型发布的最低条件,结合最近引入的新功能,决定发布Ver 1.3和沐雪2.6.2模型。
Ver 1.3更新日志如下:
- 沐雪2.6.2微调模型现已发布,相较于2.5.3,其训练集长度从2403扩充至3000条,这次更新重点加强了新话题发起能力。
- 引入了OFA图像识别功能,可用于识别表情包,要使用此功能,请参考readme文件下载模型并配置相关设置(感谢 @NaivG )
- 引入了 fishaudio/fish-speech 进行语言合成,你可以使用自己的模型进行tts合成,但沐雪的tts可能晚点(因为我忘了)(感谢 @NaivG )
- 支持群聊聊天 #47 (感谢 @MoeSnowyFox 和 @NaivG)
- 支持实时对话
realtime_refence.py
(暂不支持QQ电话) (感谢 @NaivG ) - 修复了一些历史问题并rua了沐雪 #54 #52 #53 #51
同时,我们按照直播弹幕反馈修正了评测标准,一些模型的评分如下:
模型名 | 新话题发起分数 | 直播对话性能 | 日常聊天性能 | 综合对话分数 |
---|---|---|---|---|
Muice-2.3-chatglm2-6b-int4-pt-128-1e-2 | 2.80 | 4.00 | 4.33 | 3.45 |
Muice-2.4-chatglm2-6b-int4-pt-128-1e-2 | 3.20 | 4.00 | 3.50 | 3.45 |
Muice-2.4-Qwen2-1.5B-Instruct-GPTQ-Int4-2e-3 | 1.40 | 3.00 | 6.00 | 5.75 |
Muice-2.5.3-Qwen2-1.5B-Instruct-GPTQ-Int4-2e-3 | 4.04 | 5.00 | 4.33 | 5.29 |
Muice-2.6.2-Qwen-7B-Chat-Int4-5e-4 | 5.20 | 5.67 | 4.00 | 5.75 |
RWKV-x060-World-1B6-v2.1-xuexue-v0 | \ | 4.67 | 4.33 | 4.50 |
RWKV-x060-World-3B-v2-nsfw-xuexue-v0 | \ | 2.33 | 3.67 | 3.20 |
RWKV-x060-World-3B-v2-nsfw-xuexue-v1 | \ | 4.67 | 5.50 | 1.70 |
RWKV-x060-World-3B-v2.1-xuexue-v3.2 | \ | 5.00 | 1.17 | 4.70 |
RWKV-x060-World-3B-v2.1-xuexue-v4 | \ | 4.33 | 4.67 | 4.30 |
其中,新话题发起分数基于新话题发起Prompt所生成的5个回答,直播对话性能基于十条直播中常见的问题所生成的3个回答,日常聊天性能基于十条日常对话所生成的3个回答,综合对话分数基于100条测试集所生成的回答(从2.5开始,100条训练集的答案不包含在训练集中)。
评估结果仅供参考,以适合自己的为准。
最后,在此感谢两位开发者(@MoeSnowyFox 和 @NaivG)的贡献,在学习之余,他们在本次更新中贡献了非常多的功能并且正在负责v2的开发,如果你也对沐雪Chatbot的开发感兴趣,你也可以提出新的功能、提交Pull Requests或者切换到v2分支中加入测试,我谨代表沐雪和各位用户感谢你们!
Ver 1.2 & 沐雪2.5.3模型更新
请注意:从2.5模型开始,模型的训练集大多来源于沐雪直播间问答历史,所以,沐雪的回答风格也更偏向于Vtuber风格。
由于ChatGLM2-6B-int4的泛化性评测不通过,此次仅提供Qwen2-1.5B-Instruct-GPTQ-Int4微调版本,请拉取原始模型并以llmtuner
方式加载
沐雪1.2更新日志:
- 沐雪2.5.3微调模型现已发布,相较于2.4,其训练集长度从1600扩充至2403条;回答风格由日常对话转向为直播间问答对话,同时调整了沐雪的性格,使其具有“攻击性”;改变了对用户的称谓:“你”->“观众大大”。但泛化性不强的问题在此模型上继续显现,并且由于训练集风格的转变,导致综合对话分数降低,这可能与之前训练集风格的冲突有关,这将在下几个模型版本中调整。
- 我们加入了新的模型加载方法,有
api/transformers/llmtuner/rwkv-api
四种方式,你可以通过Readme.md文件查看他们分别支持的原始模型。 - 我们引入了新的QQ机器人
Onebot
的服务, 您可以使用当前方式来运行,感谢@MoeSnowyFox的贡献!
沐雪2.4微调模型更新
沐雪2.3微调模型更新
各位新年好,距离上次模型更新已经过去了三个月的时间,经过不断地利用碎片化的时间,我们终于训练出了2.3模型。
本次模型更新日志如下:
- 训练集数量已增加至1600(未清洗)
- 加强了新对话发起能力与情感问题回答能力
- 添加了与新年祝福相关的训练集
- 这次没有微调ChatGLM3,但是我们这次改进了训练方法,使用sft微调了Qwen-7B-int4,感谢 @想毁灭世界的大肥蜥
在2024年的训练中,我们调整了评估策略,在新的策略中,我们更加注重模型的泛化性,针对同一个问题,除了回答质量因素以外,回答多样性越高,相应分数越高,反之同理。因此今年的评估分数不适合用于比较2023年的模型分数。
注意:虽然本次推出了Qwen-7B-int4的微调模型,但chatbot的仓库还没有对此模型进行适配,所以还请稍加等待或者自行编写代码以加载本模型(感谢 hiyouga/LLaMA-Factory),而且在评估过程中发现此模型生成的文本含有NSFW内容和重复生成文本的问题,我们正在调查,还请避免使用本模型
模型评价:
跑了一下脚本,发现2.2模型的回答都集中在训练集上,因此只给了2分的分数。2.3的模型虽然泛化性高了很多,但是质量还是不如意,下次洗一下,补充一点语料,看看情况会不会好些。这些模型都有一个很大的问题,就是涉及到生病(包括抑郁症)的问题都会给出很糟糕的结果,因此不要去问这类的问题,很抱歉出现这样的问题,我们会在下一个模型尝试去调整。
Ver 1.1
沐雪1.1更新日志:
- 沐雪2.2微调模型现已发布,相较于2.1,其训练集增加了200~500条,可以在下方图片处查看模型相关回答能力。
- 引入了对CPU推理、int4量化模型的支持
- 隔离了QQ号之间的聊天记录,对于在09.10前拉取的源码,需要手动更改历史文件名以便新版本读取旧的记忆
./memory/{self.user_qq}.json
- 隔离了指令类
command.py
- 添加了回复间隔
(10.21更新)正式提供基于Qwen-7B-int4
的Qlora
微调模型,由于时间问题,只对这个模型进行了综合对话能力测试,分数为5.39分,达到了历史最高成绩,但是模型的生成效果不太稳定,且模型泛化性较差,新话题发起生成的文本过度接近训练集,因此我建议您把她当作日常对话模型而关闭新话题发起功能