每个task的指标怎么计算的在哪里来看？ #4

HelloWorld4747 · 2023-11-12T10:58:57Z

您好，
想请教一下，就是每个task的指标怎么计算的在哪里看呀？有没有official的说明文档或者up-to-date的paper呢？

谢谢！

brightmart · 2023-11-16T08:41:14Z

Agent基准参考了OPEN基准，采用被测模型与代表性国际模型进行对战形式，计算胜率。
具体的，被测模型与3.5进行对战，计算胜（得3分）、平（得1分）、和（得0分）的成绩，算总成绩，并进行归一化。总之，这是相对于同一个基准模型的相对分数或成绩。

YinSonglin1997 · 2024-06-14T02:45:51Z

Agent基准参考了OPEN基准，采用被测模型与代表性国际模型进行对战形式，计算胜率。具体的，被测模型与3.5进行对战，计算胜（得3分）、平（得1分）、和（得0分）的成绩，算总成绩，并进行归一化。总之，这是相对于同一个基准模型的相对分数或成绩。

徐老师您好，请问胜、平、和的分数是人为打分的吗？我理解的是模型对战时，两个模型会针对问题进行回答，但哪个答案更优是如何判断的呢？

This was referenced Nov 30, 2023

Where to look at the task evaluation metrics? CLUEbenchmark/SuperCLUE-Safety#6

Open

How to calculate the metrics from the table in the paper to the leaderboard? CLUEbenchmark/SuperCLUE#37

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

每个task的指标怎么计算的在哪里来看？ #4

每个task的指标怎么计算的在哪里来看？ #4

HelloWorld4747 commented Nov 12, 2023

brightmart commented Nov 16, 2023

YinSonglin1997 commented Jun 14, 2024

每个task的指标怎么计算的在哪里来看？ #4

每个task的指标怎么计算的在哪里来看？ #4

Comments

HelloWorld4747 commented Nov 12, 2023

brightmart commented Nov 16, 2023

YinSonglin1997 commented Jun 14, 2024