Anthropic claude-opus-4-1-20250805-thinking-16k 1
1
1
1
1
1
1
1
Anthropic claude-sonnet-4-5-20250929-thinking-32k 1
1
1
1
2
1
1
1
1
3
5
1
1
2
2
2
gpt-4.5-preview-2025-02-27 1
7
5
8
1
2
4
1
chatgpt-4o-latest-20250326 2
5
5
13
2
7
5
1
Anthropic claude-opus-4-1-20250805 2
3
2
1
2
1
2
1
Anthropic claude-sonnet-4-5-20250929 2
2
4
2
1
1
2
1
2
5
5
1
9
8
15
8
2
6
6
1
9
10
20
10
qwen3-max-preview 3
3
4
1
8
5
4
4
10
5
5
2
2
5
6
9
10
5
5
9
9
8
6
3
qwen3-max-2025-09-23 10
5
3
1
6
6
5
3
Anthropic claude-opus-4-20250514-thinking-16k 11
5
3
5
2
2
2
7
11
13
5
9
9
18
17
17
11
13
13
5
8
9
8
16
11
13
13
5
2
10
6
17
deepseek-v3.1-terminus-thinking 11
5
5
1
8
5
2
8
11
7
5
2
6
6
3
10
deepseek-v3.2-exp-thinking 11
5
5
1
6
8
6
8
11
10
5
1
9
9
6
7
MoonshotAI kimi-k2-0711-preview 11
15
7
14
15
36
37
10
MoonshotAI kimi-k2-0905-preview 11
7
5
5
9
22
19
14
qwen3-235b-a22b-instruct-2507 11
5
5
3
11
8
6
8
qwen3-vl-235b-a22b-instruct 11
5
4
1
16
5
6
8
Anthropic claude-opus-4-20250514 12
13
5
11
5
8
5
9
12
13
15
1
9
7
6
14
12
17
23
1
8
10
10
10
13
15
7
37
8
15
9
10
14
16
17
28
8
10
6
15
gemini-2.5-flash-preview-09-2025 18
18
20
1
9
9
6
21
18
14
6
6
14
9
11
17
18
14
6
8
15
15
17
12
Anthropic claude-haiku-4-5-20251001 23
13
4
-
6
10
4
9
qwen3-next-80b-a3b-instruct 24
16
6
2
63
33
29
17
29
15
4
1
50
18
37
22
29
26
30
9
14
10
17
32
qwen3-235b-a22b-thinking-2507 29
19
14
8
11
17
18
20
Anthropic claude-sonnet-4-20250514-thinking-32k 30
13
5
9
8
8
6
11
qwen3-235b-a22b-no-thinking 30
25
19
13
23
33
21
17
32
24
15
8
15
20
28
14
32
33
30
6
51
33
42
40
qwen3-vl-235b-a22b-thinking 32
22
5
3
36
29
19
22
36
37
38
37
9
36
37
17
36
35
26
13
29
36
30
29
36
35
32
6
50
41
53
37
Anthropic claude-sonnet-4-20250514 38
30
14
17
13
22
12
17
Tencent hunyuan-t1-20250711 38
36
55
5
9
25
28
22
39
47
45
23
25
35
42
27
qwen3-30b-a3b-instruct-2507 39
32
21
19
52
38
40
35
Anthropic claude-3-7-sonnet-20250219-thinking-32k 40
30
14
25
9
10
10
21
qwen3-coder-480b-a35b-instruct 41
31
8
25
26
31
21
22
Tencent hunyuan-turbos-20250416 44
49
60
50
22
49
40
23
44
46
33
56
29
44
37
20
47
44
30
54
43
40
40
27
gemini-2.5-flash-lite-preview-09-2025-no-thinking 50
49
60
13
15
35
19
40
gemini-2.5-flash-lite-preview-06-17-thinking 52
56
65
37
15
36
40
48
qwen3-235b-a22b 52
50
27
10
55
49
42
47
54
51
33
11
53
44
40
43
qwen2.5-max 54
56
59
41
37
52
41
47
Anthropic claude-3-5-sonnet-20241022 55
49
34
66
25
44
39
31
Anthropic claude-3-7-sonnet-20250219 55
48
39
54
16
35
20
22
qwen3-next-80b-a3b-thinking 55
51
34
9
52
44
46
59
56
54
44
9
57
60
52
56
59
58
63
11
51
43
42
59
59
40
26
9
65
43
46
63
60
67
86
77
43
66
57
55
64
74
64
83
39
65
46
43
64
67
83
56
43
61
57
56
64
63
64
36
50
49
52
63
65
59
48
17
61
60
70
47
66
61
47
58
59
66
58
49
Tencent hunyuan-turbos-20250226 68
57
40
79
64
49
46
53
Nvidia llama-3.1-nemotron-ultra-253b-v1 68
52
51
9
39
45
57
55
amazon-nova-experimental-chat-10-09 69
66
58
-
64
67
64
55
69
67
64
83
52
66
55
56
69
75
90
72
29
67
64
72
gemini-2.0-flash-lite-preview-02-05 69
73
101
77
43
70
70
72
69
71
66
13
95
80
90
79
qwen3-32b 69
60
40
6
63
65
51
62
qwen-plus-0125 70
70
64
71
60
67
50
55
71
78
113
69
43
70
52
53
71
88
108
83
58
78
67
63
Tencent hunyuan-turbo-0110 71
67
63
89
64
74
57
64
ling-flash-2.0 71
63
35
37
101
73
76
72
Nvidia nvidia-llama-3.3-nemotron-super-49b-v1.5 71
66
57
7
60
68
63
62
71
66
50
26
81
66
63
69
71
57
51
17
65
59
63
63
74
88
82
89
52
78
81
69
Anthropic claude-3-5-sonnet-20240620 75
70
63
70
80
70
71
63
75
67
64
38
119
69
76
69
Meta llama-3.1-405b-instruct-bf16 79
82
72
83
81
85
83
69
Stepfun step-2-16k-exp-202412 79
78
65
77
41
79
64
79
80
97
109
89
43
83
86
79
80
97
85
85
61
82
76
73
80
70
64
53
97
71
74
79
qwq-32b 80
71
64
41
82
74
76
79
81
99
88
96
65
85
79
79
Meta llama-3.1-405b-instruct-fp8 81
87
83
83
77
85
90
72
Nvidia llama-3.3-nemotron-49b-super-v1 81
59
64
-
65
67
62
63
Tencent hunyuan-large-2025-02-10 85
82
65
83
64
74
30
73
88
81
74
83
81
85
81
71
Meta llama-4-maverick-17b-128e-instruct 89
84
72
77
75
82
76
74
qwen3-30b-a3b 93
78
64
48
88
82
74
79
95
88
65
89
64
81
73
72
98
106
104
94
62
96
96
85
98
84
65
97
64
85
76
79
Meta llama-4-scout-17b-16e-instruct 98
92
83
82
83
92
80
79
Anthropic claude-3-5-haiku-20241022 99
82
66
105
81
85
76
77
Anthropic claude-3-opus-20240229 99
96
100
85
92
85
85
79
99
97
101
94
63
85
72
81
99
103
132
111
78
116
89
108
99
96
68
63
131
116
103
109
ring-flash-2.0 99
72
63
17
95
78
76
110
Stepfun step-1o-turbo-202506 99
87
83
81
80
81
63
71
102
99
93
99
84
92
82
81
Meta llama-3.3-70b-instruct 102
99
106
93
92
109
101
79
qwen-max-0919 102
99
90
94
88
89
81
92
qwen2.5-plus-1127 103
92
83
83
96
98
94
89
104
114
100
111
83
109
86
92
Tencent hunyuan-standard-2025-02-10 104
99
101
85
84
109
71
81
107
109
111
89
92
108
119
103
108
89
77
83
126
89
86
93
108
120
123
91
96
116
112
111
108
99
94
100
88
104
113
108
109
121
132
99
81
109
86
122
116
130
143
111
84
127
77
111
119
88
64
89
82
85
75
79
120
107
93
124
104
128
127
106
120
99
81
99
113
109
92
111
120
126
115
114
107
121
92
109
122
109
101
105
101
109
111
109
mistral-small-3.1-24b-instruct-2503 124
99
86
105
103
105
82
111
Nvidia llama-3.1-nemotron-70b-instruct 126
104
111
100
88
118
128
102
qwen2.5-72b-instruct 126
104
90
91
126
109
91
108
Tencent hunyuan-large-vision 127
112
74
85
81
98
80
111
134
135
131
132
111
131
141
130
Meta llama-3.1-70b-instruct 134
129
122
118
122
130
127
111
Nvidia llama-3.1-nemotron-51b-instruct 134
131
127
104
98
131
133
111
134
137
128
110
115
121
128
110
134
137
129
133
101
134
129
130
135
126
106
115
141
129
115
124
135
120
125
108
124
126
139
128
136
140
137
143
85
133
126
122
Anthropic claude-3-sonnet-20240229 137
140
134
134
134
134
132
122
137
136
134
131
119
136
117
131
137
140
154
161
85
142
125
122
Cohere command-r-plus-08-2024 138
149
154
146
109
141
130
139
Nvidia nemotron-4-340b-instruct 139
139
134
127
137
139
128
136
142
139
134
131
130
140
139
135
143
142
140
146
128
144
139
147
144
136
134
115
119
131
139
137
144
140
137
131
126
141
154
130
mistral-small-24b-instruct-2501 144
136
132
119
144
141
131
141
qwen2.5-coder-32b-instruct 145
111
93
108
156
131
126
139
Cohere c4ai-aya-expanse-32b 150
142
143
147
146
145
128
153
152
159
160
160
141
152
144
151
152
135
104
111
158
143
128
151
153
157
159
157
124
151
143
143
qwen2-72b-instruct 153
142
142
111
147
151
144
147
155
142
135
135
148
148
139
154
Anthropic claude-3-haiku-20240307 155
149
140
149
156
150
144
147
155
153
159
148
140
153
142
160
155
140
140
134
137
150
139
134
158
140
134
119
157
147
141
148
159
153
154
161
154
154
141
160
165
163
147
148
161
168
153
163
165
166
159
170
154
168
170
163
165
153
153
151
144
168
141
160
165
151
145
139
156
155
157
156
Tencent hunyuan-standard-256k 166
139
133
114
155
142
129
157
167
169
180
169
158
169
167
169
qwen1.5-110b-chat 167
161
155
152
162
168
168
160
qwen1.5-72b-chat 167
166
159
161
166
168
163
160
reka-flash-21b-20240226-online 167
167
155
156
166
170
171
163
169
178
180
187
162
172
167
168
169
168
162
163
162
166
-
160
169
168
159
151
156
166
157
169
mixtral-8x22b-instruct-v0.1 169
165
159
149
165
168
171
172
169
169
162
165
171
176
171
168
Cohere c4ai-aya-expanse-8b 170
169
162
163
162
169
152
167
170
168
162
153
162
168
171
168
172
173
159
167
166
168
171
167
173
175
174
170
162
176
175
167
HuggingFace zephyr-orpo-141b-A35b-v0.1 176
173
170
161
168
172
176
179
177
163
137
159
166
169
154
180
181
173
174
156
183
178
173
169
Meta llama-3.1-8b-instruct 183
174
163
170
173
175
171
168
qwen1.5-32b-chat 183
174
162
163
193
181
170
168
184
169
162
163
187
175
183
177
Azure phi-3-medium-4k-instruct 187
178
185
155
190
185
182
194
188
175
174
167
181
181
186
177
188
196
202
195
168
190
188
187
InternLM internlm2_5-20b-chat 188
169
172
156
193
182
173
182
mixtral-8x7b-instruct-v0.1 188
182
183
171
184
185
188
185
qwen1.5-14b-chat 188
188
180
189
191
189
180
183
190
196
185
189
190
193
173
185
190
197
201
189
158
191
175
177
194
183
175
163
190
187
171
189
194
169
162
157
179
183
159
187
194
196
199
205
163
196
176
185
OpenChat openchat-3.5-0106 194
196
185
195
189
196
189
187
194
196
199
197
184
196
189
185
openhermes-2.5-mistral-7b 195
196
202
195
178
195
196
189
Snowflake snowflake-arctic-instruct 195
196
188
193
190
196
208
189
195
191
188
197
187
185
177
189
197
196
191
195
190
196
194
199
nous-hermes-2-mixtral-8x7b-dpo 197
217
202
215
190
214
204
190
Azure phi-3-small-8k-instruct 197
196
199
167
193
196
195
203
197
191
182
193
203
196
190
188
197
205
202
210
173
201
203
191
198
206
210
203
206
202
203
196
198
200
197
205
191
201
196
192
Meta llama-3.2-3b-instruct 200
199
203
188
188
196
192
187
qwq-32b-preview 203
196
202
146
197
192
178
186
Nvidia llama2-70b-steerlm-chat 205
206
215
205
193
202
220
196
207
199
-
197
184
200
-
206
solar-10.7b-instruct-v1.0 208
202
201
209
187
212
-
198
212
209
-
-
169
196
-
199
212
196
193
180
211
205
195
199
212
199
202
210
188
200
-
189
213
222
215
229
190
210
189
203
214
206
202
206
211
212
205
206
qwen-14b-chat 215
209
199
202
206
212
196
208
qwen1.5-7b-chat 215
206
191
205
221
209
188
196
216
217
214
213
219
215
197
212
Azure phi-3-mini-4k-instruct-june-2024 216
198
201
166
218
212
212
213
216
219
214
223
197
215
196
212
Meta codellama-34b-instruct 217
218
213
212
221
216
210
219
217
210
217
210
220
215
196
214
219
206
210
209
211
219
209
231
HuggingFace zephyr-7b-alpha 219
215
202
-
200
215
-
214
HuggingFace zephyr-7b-beta 219
222
217
221
191
225
210
214
221
224
227
216
188
234
-
215
Meta codellama-70b-instruct 222
197
-
-
-
215
-
-
Azure phi-3-mini-128k-instruct 222
219
218
199
221
221
224
226
Azure phi-3-mini-4k-instruct 225
209
202
197
225
215
216
226
HuggingFace smollm2-1.7b-instruct 227
201
204
186
215
214
196
218
227
229
227
218
217
223
220
217
232
231
224
232
218
231
189
225
235
218
210
214
219
223
210
229
Meta llama-3.2-1b-instruct 235
225
218
205
219
227
214
218
235
224
218
221
218
228
214
217
236
235
237
221
225
236
222
219
243
227
221
229
222
236
216
234
245
243
232
229
247
246
-
229
qwen1.5-4b-chat 245
235
227
219
240
236
221
226
246
241
-
241
222
242
-
231
246
248
243
243
240
247
-
244
247
250
249
243
217
247
-
242
247
245
239
235
241
245
229
231
247
248
242
243
234
247
-
242
250
249
244
243
247
253
-
248
253
247
245
243
246
251
-
246
253
249
245
243
246
252
-
249
256
250
246
243
255
252
-
252
256
255
252
243
251
256
-
256
256
257
254
249
251
253
-
252
256
258
255
249
256
258
-
255
Stability stablelm-tuned-alpha-7b 258
257
247
251
256
258
-
255