plotly-logomark

CRUXEval-output: by examples

Home Doc/Code

Not solved by any model

There are 24 examples not solved by any model. Solving some of these can be a good signal that your model is indeed better than leading models if these are good problems.
CRUXEval-output/112, CRUXEval-output/113, CRUXEval-output/129, CRUXEval-output/177, CRUXEval-output/218, CRUXEval-output/229, CRUXEval-output/245, CRUXEval-output/250, CRUXEval-output/254, CRUXEval-output/259, CRUXEval-output/272, CRUXEval-output/280, CRUXEval-output/301, CRUXEval-output/307, CRUXEval-output/33, CRUXEval-output/340, CRUXEval-output/375, CRUXEval-output/44, CRUXEval-output/469, CRUXEval-output/488, CRUXEval-output/581, CRUXEval-output/622, CRUXEval-output/640, CRUXEval-output/671

Problems solved by 1 model only

example_link	model	min_elo
CRUXEval-output/220	gpt-4-turbo-2024-04-09+cot	1508.173
CRUXEval-output/591	gpt-4-turbo-2024-04-09+cot	1508.173
CRUXEval-output/458	gpt-4-turbo-2024-04-09+cot	1508.173
CRUXEval-output/484	gpt-4-turbo-2024-04-09+cot	1508.173
CRUXEval-output/125	gpt-4-turbo-2024-04-09+cot	1508.173
CRUXEval-output/599	gpt-4-turbo-2024-04-09+cot	1508.173
CRUXEval-output/35	gpt-4-turbo-2024-04-09+cot	1508.173
CRUXEval-output/5	gpt-4-0613+cot	1391.554
CRUXEval-output/445	gpt-4o+cot	1301.760
CRUXEval-output/149	gpt-4o+cot	1301.760
CRUXEval-output/175	gpt-4o+cot	1301.760
CRUXEval-output/163	gpt-4o+cot	1301.760
CRUXEval-output/438	gpt-4-0613	1277.414
CRUXEval-output/556	gpt-4-turbo-2024-04-09	1262.303
CRUXEval-output/550	gpt-3.5-turbo-0613+cot	1116.648
CRUXEval-output/568	gpt-3.5-turbo-0613+cot	1116.648
CRUXEval-output/749	codellama-34b+cot	888.284
CRUXEval-output/499	mixtral-8x7b	858.129
CRUXEval-output/571	codellama-7b+cot	651.289
CRUXEval-output/209	phi-1	619.495

Suspect problems

These are 10 problems with the lowest correlation with the overall evaluation (i.e. better models tend to do worse on these. )

example_link	acc	tau
CRUXEval-output/329	0.641	-0.412
CRUXEval-output/563	0.744	-0.410
CRUXEval-output/118	0.462	-0.329
CRUXEval-output/297	0.333	-0.324
CRUXEval-output/333	0.385	-0.275
CRUXEval-output/691	0.308	-0.237
CRUXEval-output/150	0.308	-0.233
CRUXEval-output/132	0.436	-0.228
CRUXEval-output/209	0.026	-0.226
CRUXEval-output/57	0.615	-0.194

Histogram of accuracies

Histogram of problems by the accuracy on each problem.

Histogram of difficulties

Histogram of problems by the minimum Elo to solve each problem.