heLlo ,非常棒的工作有些问题想请教下 #5

positive666 · 2024-12-26T03:35:04Z

1.COT的强化是否指在通过在模型输入和输出格式在SFT中训练体现？
2. 类似之前autoweb WEBL的强化学习后训练后续会有这块工作分享吗？
3. 用PRM-PPO是否后续GUI AGENT或者VLM LLM的唯一途径？
4. 会开源数据集和PT的训练细节吗？

wenyihong · 2024-12-26T06:21:10Z

hi感谢提问，

是的，我们对训练数据进行了CoT强化，其大致的格式如模型输入输出所示。
我们正在积极地探索这方面的内容，后续会以论文或开源的方式和大家分享。华宁一起探讨
PRM-PPO在实践上说是有效的途径，您指的唯一是？
关于数据集，其版权在智谱AI。Pretrain和ft训练方式和CogAgent原论文差异不大，在此基础上进行了细节的调优。关于更新的算法，我们会在后续论文中体现。

positive666 · 2024-12-26T07:10:38Z

感谢您的回复，1.2.3 是近期看了国内外都在做强化学习的后训练，我觉得这个GUI AGENTS同理，所以也稍微看了下REFT、webrl的相关ORM、 PRM的方法，推理增强可能是非常适合这种产生多trace的任务，想请教下目前这个gui agents模型训练的后续提升方式是否就是这种技术路线？ 4. 额外想问下目前glm的、deepmind一些相关的web use\computer use claude，开源的 \showui、 agvius\的demo方案，我都接触了下我感觉这块实际落地商用可用性还不够，是否还是聚焦于某些场景和选定的UI界面做优化，最小化任务去落地？咱们有没有联系方式或者群，另外window上运行有个大小写问题提了个PR 可以看下

wenyihong · 2024-12-28T05:04:21Z

我们在进行这方面的尝试，也有一定的成果，将会在合适的时机和大家分享
我们也在积极地探索CogAgent的商业化落地，GLM-PC就是我们在运营的产品，目前在初步内测阶段。您可以去https://cogagent.aminer.cn/home 官网，加入我们的社群；或是通过意见反馈留下您的联系方式和需求，我们会有工作人员来联系您。
感谢PR

positive666 · 2024-12-30T01:17:01Z

好的如果有技术交流群就太好了又几个小问题
1.另外在prompt里期望模型输出的format 在训练数据时候每一种format的数据量比例是均匀的吗？
2.BOX千分制是因为模型小数点理解不好吗？
3.如果直接做下游task 效果不好是因为数据量问题吗能否给个参考的比例

wenyihong · 2025-01-03T03:32:05Z

官网的右上角有技术交流群
按比例均匀采样，是我们实验得到的
因为这样更节省tokens
请问您是用于什么task吗，可以附上尽可能详细的例子吗？

zRzRzRzRzRzRzR assigned wenyihong Dec 27, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

heLlo ,非常棒的工作有些问题想请教下 #5

heLlo ,非常棒的工作有些问题想请教下 #5

positive666 commented Dec 26, 2024

wenyihong commented Dec 26, 2024

positive666 commented Dec 26, 2024 •

edited

Loading

wenyihong commented Dec 28, 2024

positive666 commented Dec 30, 2024 •

edited

Loading

wenyihong commented Jan 3, 2025

heLlo ,非常棒的工作 有些问题想请教下 #5

heLlo ,非常棒的工作 有些问题想请教下 #5

Comments

positive666 commented Dec 26, 2024

wenyihong commented Dec 26, 2024

positive666 commented Dec 26, 2024 • edited Loading

wenyihong commented Dec 28, 2024

positive666 commented Dec 30, 2024 • edited Loading

wenyihong commented Jan 3, 2025

heLlo ,非常棒的工作有些问题想请教下 #5

heLlo ,非常棒的工作有些问题想请教下 #5

positive666 commented Dec 26, 2024 •

edited

Loading

positive666 commented Dec 30, 2024 •

edited

Loading