Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

heLlo ,非常棒的工作 有些问题想请教下 #5

Open
positive666 opened this issue Dec 26, 2024 · 5 comments
Open

heLlo ,非常棒的工作 有些问题想请教下 #5

positive666 opened this issue Dec 26, 2024 · 5 comments
Assignees

Comments

@positive666
Copy link
Contributor

1.COT的强化 是否指在通过在模型输入和输出格式在SFT中训练体现?
2. 类似之前autoweb WEBL的强化学习后训练后续会有这块工作分享吗?
3. 用PRM-PPO是否后续GUI AGENT或者VLM LLM的唯一途径?
4. 会开源数据集 和PT的训练细节吗?

@wenyihong
Copy link
Contributor

hi感谢提问,

  1. 是的,我们对训练数据进行了CoT强化,其大致的格式如模型输入输出所示。
  2. 我们正在积极地探索这方面的内容,后续会以论文或开源的方式和大家分享。华宁一起探讨
  3. PRM-PPO在实践上说是有效的途径,您指的唯一是?
  4. 关于数据集,其版权在智谱AI。Pretrain和ft训练方式和CogAgent原论文差异不大,在此基础上进行了细节的调优。关于更新的算法,我们会在后续论文中体现。

@positive666
Copy link
Contributor Author

positive666 commented Dec 26, 2024

感谢您的回复,1.2.3 是近期看了国内外都在做强化学习的后训练,我觉得这个GUI AGENTS同理,所以也稍微看了下REFT、webrl的相关ORM、 PRM的方法, 推理增强可能是非常适合这种产生多trace的任务,想请教下目前这个gui agents模型训练的后续提升方式是否就是这种技术路线? 4. 额外想问下 目前glm的、deepmind一些相关的web use\computer use claude,开源的 \showui、 agvius\的demo方案,我都接触了下 我感觉这块实际落地商用可用性还不够,是否还是聚焦于某些场景和选定的UI界面 做优化,最小化任务去落地?咱们有没有联系方式 或者群,另外window上运行有个大小写问题 提了个PR 可以看下

@wenyihong
Copy link
Contributor

  1. 我们在进行这方面的尝试,也有一定的成果,将会在合适的时机和大家分享
  2. 我们也在积极地探索CogAgent的商业化落地,GLM-PC就是我们在运营的产品,目前在初步内测阶段。您可以去https://cogagent.aminer.cn/home 官网,加入我们的社群;或是通过意见反馈留下您的联系方式和需求,我们会有工作人员来联系您。
  3. 感谢PR

@positive666
Copy link
Contributor Author

positive666 commented Dec 30, 2024

好的 如果有技术交流群 就太好了 又几个小问题
1.另外在prompt里期望模型输出的format 在训练数据时候每一种format的数据量比例是均匀的吗?
2.BOX千分制是因为模型小数点理解不好吗?
3.如果直接做下游task 效果不好是因为数据量问题吗 能否给个参考的比例

@wenyihong
Copy link
Contributor

  1. 官网的右上角有技术交流群
  2. 按比例均匀采样,是我们实验得到的
  3. 因为这样更节省tokens
  4. 请问您是用于什么task吗,可以附上尽可能详细的例子吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants