1. Commensense QA -- 1 dataset

a. PIQA

valid set, 1838 samples, test use 3mins 35s

2. Code -- 1 datasets

a. Humaneval

pass@1 no implement exec

3. MATH -- 1 datasets

a. GSM8k

8-shot, examples are random selected from testset. done

testing use 1 hour on 1 80G A800

4. MMLU -- 1 dataset

5-shot -- done, 14042 samples,

testing use 40mins on 1 80G A800

5. BookSUM -- 1 dataset

not a basic ability

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
data_process		data_process
exec_HE		exec_HE
nltk_data/corpora		nltk_data/corpora
pyramidkv		pyramidkv
utils		utils
README.md		README.md
eval_1.sh		eval_1.sh
eval_1_pykv_2.sh		eval_1_pykv_2.sh
infer.py		infer.py
score.py		score.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

1. Commensense QA -- 1 dataset

a. PIQA

2. Code -- 1 datasets

a. Humaneval

3. MATH -- 1 datasets

a. GSM8k

4. MMLU -- 1 dataset

5. BookSUM -- 1 dataset

About

Releases

Packages

Languages

Liu-yuliang/LLM_ability_eval

Folders and files

Latest commit

History

Repository files navigation

1. Commensense QA -- 1 dataset

a. PIQA

2. Code -- 1 datasets

a. Humaneval

3. MATH -- 1 datasets

a. GSM8k

4. MMLU -- 1 dataset

5. BookSUM -- 1 dataset

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages