Anthropic claude-opus-4-1-20250805-thinking-16k 1
1
1
1
1
1
1
1
Anthropic claude-sonnet-4-5-20250929-thinking-32k 1
1
1
1
1
1
1
1
1
3
5
1
1
2
3
1
Anthropic claude-opus-4-1-20250805 2
3
2
1
2
1
2
1
Anthropic claude-sonnet-4-5-20250929 2
5
5
1
1
5
3
1
gpt-4.5-preview-2025-02-27 2
7
6
7
1
4
4
1
chatgpt-4o-latest-20250326 4
5
6
16
4
7
6
1
4
5
5
1
11
7
17
10
4
7
8
1
13
14
21
11
qwen3-max-preview 4
4
4
1
9
5
5
4
6
5
5
1
4
5
5
10
ernie-5.0-preview-1022 7
7
6
-
1
6
5
11
MoonshotAI kimi-k2-thinking 7
6
3
1
3
7
6
7
9
5
6
7
10
7
6
5
qwen3-max-2025-09-23 9
5
4
1
7
6
6
3
Anthropic claude-opus-4-20250514-thinking-16k 11
5
3
4
3
3
3
7
11
12
5
10
10
22
20
15
11
12
14
4
9
9
8
15
11
14
14
4
3
10
6
15
deepseek-v3.1-terminus-thinking 11
5
5
1
9
6
3
8
11
7
6
3
7
6
4
11
deepseek-v3.2-exp-thinking 11
5
5
1
7
6
6
8
11
11
6
1
10
9
6
7
MoonshotAI kimi-k2-0905-preview 11
7
5
4
10
24
20
14
qwen3-235b-a22b-instruct-2507 11
5
5
3
15
7
6
8
MoonshotAI kimi-k2-0711-preview 12
14
7
17
19
39
37
11
qwen3-vl-235b-a22b-instruct 12
6
5
4
26
7
7
8
13
15
14
4
9
10
9
11
Anthropic claude-opus-4-20250514 15
12
6
11
7
9
6
10
15
15
10
41
9
17
11
10
16
14
10
9
17
16
20
13
17
12
7
4
17
9
10
15
17
16
22
33
9
10
6
14
17
27
31
1
9
20
15
13
18
32
50
9
9
11
13
21
gemini-2.5-flash-preview-09-2025 20
24
40
1
10
9
11
17
Anthropic claude-haiku-4-5-20251001 25
7
4
9
9
6
6
10
qwen3-next-80b-a3b-instruct 28
17
14
3
64
33
34
17
31
15
5
1
54
20
37
25
33
30
32
9
16
11
19
36
Anthropic claude-sonnet-4-20250514-thinking-32k 35
15
5
9
10
8
6
12
qwen3-235b-a22b-thinking-2507 35
20
16
8
15
20
20
19
36
25
16
8
19
20
31
14
qwen3-235b-a22b-no-thinking 36
30
21
12
29
38
24
15
qwen3-vl-235b-a22b-thinking 36
24
6
3
43
30
19
32
38
38
35
5
59
38
47
44
40
40
41
41
10
40
39
17
40
40
32
9
34
40
35
27
40
40
36
5
53
46
56
42
Anthropic claude-sonnet-4-20250514 42
30
17
22
16
27
11
17
Tencent hunyuan-t1-20250711 42
40
58
3
10
28
34
25
43
49
48
29
29
38
45
31
Anthropic claude-3-7-sonnet-20250219-thinking-32k 44
30
15
29
10
10
9
22
qwen3-coder-480b-a35b-instruct 45
34
9
31
31
34
23
25
47
49
36
63
36
50
39
21
qwen3-30b-a3b-instruct-2507 47
38
26
19
61
44
43
39
gemini-2.5-flash-lite-preview-09-2025-no-thinking 49
53
64
41
28
42
34
44
Tencent hunyuan-turbos-20250416 49
53
63
58
26
54
42
27
51
48
34
59
47
44
42
31
gemini-2.5-flash-lite-preview-06-17-thinking 54
58
66
41
21
41
43
50
qwen3-235b-a22b 54
53
32
10
59
52
45
49
qwen2.5-max 56
58
61
47
44
57
43
49
Anthropic Claude 3.5 Sonnet (10/22) 59
49
36
69
30
47
39
35
59
54
40
10
59
49
45
50
qwen3-next-80b-a3b-thinking 60
57
40
9
61
51
53
66
61
58
48
10
62
62
54
57
64
68
88
78
46
66
58
57
64
62
66
11
56
48
45
62
64
46
30
9
67
47
52
66
65
66
66
39
54
54
54
66
66
76
66
85
44
67
52
47
68
62
53
26
63
63
73
52
Tencent hunyuan-turbos-20250226 68
59
43
78
64
53
49
57
68
64
51
63
60
68
61
54
amazon-nova-experimental-chat-10-09 70
68
59
-
65
70
69
57
70
68
66
85
57
68
57
57
70
76
92
70
37
69
66
73
gemini-2.0-flash-lite-preview-02-05 70
76
104
76
47
72
72
72
70
70
66
22
94
75
84
80
ling-flash-2.0 70
68
43
41
94
75
77
74
Nvidia llama-3.1-nemotron-ultra-253b-v1 70
56
54
9
44
50
58
57
qwen3-32b 70
63
42
4
64
66
53
66
qwen-plus-0125 71
70
66
70
62
68
53
57
71
59
53
20
66
60
64
66
72
81
116
70
47
72
54
57
72
90
109
85
59
79
69
67
Tencent hunyuan-turbo-0110 72
69
65
90
65
75
58
67
Nvidia nvidia-llama-3.3-nemotron-super-49b-v1.5 72
68
58
4
62
69
66
66
72
68
54
31
80
67
64
70
75
90
85
90
56
79
81
70
Anthropic Claude 3.5 Sonnet (06/20) 77
69
64
70
80
70
72
66
77
69
66
42
116
70
76
70
Meta llama-3.1-405b-instruct-bf16 80
83
73
85
80
86
84
70
Stepfun step-2-16k-exp-202412 80
80
68
77
45
80
68
80
81
97
110
90
47
84
84
80
81
97
88
86
62
83
77
74
81
72
66
57
95
72
74
80
qwq-32b 82
73
66
47
84
75
77
80
83
100
90
98
67
87
80
80
Meta llama-3.1-405b-instruct-fp8 83
87
87
83
78
86
91
72
Nvidia llama-3.3-nemotron-49b-super-v1 83
62
66
-
67
68
64
66
Tencent hunyuan-large-2025-02-10 87
83
67
85
66
75
35
74
89
83
78
85
80
87
82
72
Meta llama-4-maverick-17b-128e-instruct 91
85
75
78
76
83
78
76
qwen3-30b-a3b 93
80
66
55
89
83
75
80
96
90
67
90
65
82
74
72
99
106
104
94
63
97
94
87
99
85
67
99
66
88
77
80
Meta llama-4-scout-17b-16e-instruct 99
94
87
82
85
93
81
80
ring-flash-2.0 99
73
64
44
109
75
74
111
Anthropic claude-3-5-haiku-20241022 100
83
68
106
82
87
77
80
Anthropic claude-3-opus-20240229 100
97
99
86
93
87
84
80
100
97
101
95
64
87
73
82
100
97
71
65
132
117
103
109
Stepfun step-1o-turbo-202506 100
90
87
82
82
83
65
72
101
105
134
112
80
117
91
109
103
100
93
100
86
94
83
82
Meta llama-3.3-70b-instruct 103
100
107
94
93
111
104
80
qwen-max-0919 103
100
92
94
89
90
82
92
qwen2.5-plus-1127 104
94
87
85
97
101
94
89
105
114
101
112
84
111
87
92
Tencent hunyuan-standard-2025-02-10 105
100
102
86
86
111
73
82
109
91
81
85
126
90
87
94
109
121
124
92
95
115
114
113
109
110
111
90
91
108
121
105
109
100
96
101
90
104
117
109
111
123
133
100
81
111
87
123
119
131
147
112
86
128
78
113
121
108
93
125
105
129
128
108
121
100
85
100
113
111
93
111
121
125
115
115
106
123
93
110
121
90
66
90
84
87
76
80
124
110
102
106
103
109
114
111
mistral-small-3.1-24b-instruct-2503 125
100
87
104
103
103
83
111
Tencent hunyuan-large-vision 127
113
79
85
82
101
80
113
Nvidia llama-3.1-nemotron-70b-instruct 127
104
112
101
89
119
129
104
qwen2.5-72b-instruct 127
104
92
92
126
111
91
108
135
136
132
133
112
132
142
132
Nvidia llama-3.1-nemotron-51b-instruct 135
132
128
104
99
132
135
113
135
138
129
111
118
124
129
111
Meta Meta-Llama-3.1-70B-Instruct 135
130
123
119
124
131
128
113
135
138
130
134
100
134
130
132
136
126
107
116
144
130
119
123
136
141
138
145
86
133
126
123
136
121
125
106
125
127
139
130
Anthropic claude-3-sonnet-20240229 138
141
134
133
135
134
133
123
138
137
135
132
118
137
121
132
138
141
155
162
86
143
124
123
Cohere command-r-plus-08-2024 139
150
155
147
110
142
130
141
Nvidia nemotron-4-340b-instruct 141
140
136
128
136
140
129
137
143
140
135
132
132
141
140
136
145
136
135
115
117
131
140
138
145
141
138
130
126
142
154
132
mistral-small-24b-instruct-2501 145
137
133
120
147
142
132
142
145
143
141
147
128
145
140
147
qwen2.5-coder-32b-instruct 146
111
94
108
157
132
126
139
Cohere c4ai-aya-expanse-32b 152
143
144
148
148
146
129
154
153
160
160
161
142
153
145
152
153
135
104
112
159
143
129
151
153
158
160
158
125
151
144
144
qwen2-72b-instruct 154
143
142
112
149
152
145
148
156
143
136
136
150
149
140
155
Anthropic claude-3-haiku-20240307 156
150
141
149
157
151
144
148
156
154
160
149
142
154
143
161
156
141
141
135
140
151
141
135
159
141
136
120
158
148
142
149
160
153
155
162
155
155
142
161
166
163
148
149
162
169
154
164
166
167
160
170
155
169
171
164
166
154
155
152
146
169
142
161
166
152
144
139
158
156
158
157
Tencent hunyuan-standard-256k 167
140
134
115
156
143
130
158
168
170
178
169
159
169
168
170
qwen1.5-110b-chat 168
163
156
153
163
169
168
161
qwen1.5-72b-chat 168
167
160
162
166
169
164
161
reka-flash-21b-20240226-online 168
168
156
156
167
171
172
164
170
179
181
188
163
173
168
169
170
168
163
164
163
166
-
161
170
169
160
152
158
168
158
169
mixtral-8x22b-instruct-v0.1 170
166
159
149
166
169
172
173
170
170
162
166
172
177
172
169
Cohere c4ai-aya-expanse-8b 171
170
163
164
163
169
152
168
171
169
163
154
163
169
172
169
172
174
160
168
167
169
172
168
174
176
174
171
163
177
175
168
HuggingFace zephyr-orpo-141b-A35b-v0.1 177
174
170
161
169
173
177
181
180
164
138
160
167
170
154
181
182
174
175
156
183
178
174
170
Meta llama-3.1-8b-instruct 184
175
165
171
174
177
172
169
qwen1.5-32b-chat 184
175
163
164
194
182
170
169
185
170
162
164
187
175
184
179
Azure phi-3-medium-4k-instruct 188
180
186
156
191
186
183
195
189
176
174
168
181
182
187
179
189
197
203
196
169
191
189
188
mixtral-8x7b-instruct-v0.1 189
182
183
172
185
186
189
186
qwen1.5-14b-chat 189
189
181
190
192
190
181
184
InternLM internlm2_5-20b-chat 190
170
173
157
194
183
174
182
191
197
186
190
191
194
174
186
191
199
202
190
159
193
176
179
195
182
175
164
191
187
172
190
195
170
163
158
181
184
161
188
195
197
199
206
163
197
177
186
OpenChat openchat-3.5-0106 195
197
186
196
191
197
190
188
195
197
200
198
184
197
190
186
openhermes-2.5-mistral-7b 196
197
202
196
179
197
197
190
Snowflake snowflake-arctic-instruct 196
197
189
194
191
197
208
190
196
193
189
198
187
186
178
190
197
196
192
196
191
197
194
200
nous-hermes-2-mixtral-8x7b-dpo 198
218
203
216
191
215
205
191
Azure phi-3-small-8k-instruct 198
197
200
168
194
197
196
203
198
192
183
194
204
197
191
189
198
205
203
211
174
202
203
192
199
207
211
204
207
205
204
197
199
201
197
206
192
202
197
193
Meta llama-3.2-3b-instruct 203
201
205
189
189
197
193
188
Nvidia llama2-70b-steerlm-chat 206
207
216
206
194
204
221
197
qwq-32b-preview 206
197
203
147
198
194
179
187
208
200
-
198
184
201
-
207
solar-10.7b-instruct-v1.0 209
203
202
210
188
213
-
199
213
210
-
-
169
197
-
200
213
197
192
181
212
204
196
200
213
201
203
211
188
201
-
190
214
223
217
230
191
212
190
205
215
207
203
206
212
213
206
207
216
218
215
214
221
216
198
213
Azure phi-3-mini-4k-instruct-june-2024 216
199
202
167
219
213
214
214
qwen-14b-chat 216
210
200
203
207
213
198
209
qwen1.5-7b-chat 216
207
191
206
222
210
189
197
216
220
215
224
198
216
197
213
Meta codellama-34b-instruct 218
219
214
212
222
217
211
220
218
211
217
210
221
216
197
215
220
207
211
210
214
219
210
232
HuggingFace zephyr-7b-alpha 220
216
203
-
201
216
-
215
222
226
227
216
189
236
-
216
HuggingFace zephyr-7b-beta 222
223
218
222
192
227
211
215
Meta codellama-70b-instruct 223
198
-
-
-
215
-
-
Azure phi-3-mini-128k-instruct 223
220
219
200
223
220
226
227
Azure phi-3-mini-4k-instruct 226
210
203
198
226
216
217
227
HuggingFace smollm2-1.7b-instruct 228
203
208
187
218
215
197
219
228
230
228
219
218
224
221
218
233
232
224
232
219
234
190
227
236
219
211
214
220
223
211
230
Meta llama-3.2-1b-instruct 236
226
219
206
221
228
216
219
236
223
219
222
219
229
214
218
237
236
239
222
226
237
225
220
243
227
222
230
223
237
218
235
246
244
234
230
249
247
-
230
qwen1.5-4b-chat 246
236
228
221
241
237
221
227
247
243
-
242
223
245
-
232
247
249
244
244
241
248
-
245
248
251
250
244
217
248
-
243
248
246
240
235
242
246
230
232
248
249
243
244
233
248
-
243
251
250
245
244
248
254
-
249
254
249
246
244
247
252
-
247
254
250
246
244
247
253
-
250
257
251
247
244
256
253
-
253
257
256
252
244
252
257
-
257
257
258
255
250
252
254
-
253
257
259
256
250
256
259
-
256
Stability stablelm-tuned-alpha-7b 259
258
248
252
257
259
-
256