Anthropic claude-opus-4-1-20250805-thinking-16k 1
1
1
1
1
1
1
1
Anthropic claude-sonnet-4-5-20250929-thinking-32k 1
1
1
1
2
1
1
1
1
3
5
1
1
2
2
2
gpt-4.5-preview-2025-02-27 1
7
5
8
1
2
4
1
chatgpt-4o-latest-20250326 2
5
5
13
2
7
5
1
Anthropic claude-opus-4-1-20250805 2
3
2
1
2
1
2
1
Anthropic claude-sonnet-4-5-20250929 2
3
4
2
1
1
2
1
2
5
5
1
9
8
16
8
2
5
6
1
9
10
19
10
qwen3-max-preview 3
3
4
1
8
5
4
4
9
4
5
1
2
5
6
9
10
5
5
9
9
8
6
3
qwen3-max-2025-09-23 10
5
3
1
6
7
5
4
Anthropic claude-opus-4-20250514-thinking-16k 11
5
3
5
2
2
2
7
11
13
5
9
9
19
17
16
11
13
13
5
8
9
8
16
11
13
13
5
2
10
6
17
deepseek-v3.1-terminus-thinking 11
5
5
1
8
5
2
8
11
7
5
2
6
7
3
10
deepseek-v3.2-exp-thinking 11
5
5
1
6
8
6
8
11
10
5
1
9
9
6
7
MoonshotAI kimi-k2-0711-preview 11
14
7
14
16
37
37
10
MoonshotAI kimi-k2-0905-preview 11
7
5
5
9
22
19
14
qwen3-235b-a22b-instruct-2507 11
5
5
3
10
8
6
8
qwen3-vl-235b-a22b-instruct 11
5
4
1
17
5
6
8
12
13
15
1
8
7
6
13
12
17
23
1
7
10
10
10
Anthropic claude-opus-4-20250514 13
13
5
10
6
8
5
9
13
16
7
38
8
15
9
10
14
16
16
29
8
10
6
14
18
30
48
9
8
15
11
20
gemini-2.5-flash-preview-09-2025 18
18
20
1
9
9
6
21
18
13
7
7
15
9
10
16
18
14
6
9
16
15
17
12
Anthropic claude-haiku-4-5-20251001 23
11
4
9
6
10
3
9
qwen3-next-80b-a3b-instruct 25
16
6
2
60
34
31
17
Anthropic claude-sonnet-4-20250514-thinking-32k 29
13
5
9
8
8
6
11
29
16
4
1
49
19
37
22
29
26
32
9
14
10
17
34
qwen3-235b-a22b-thinking-2507 29
20
14
8
11
17
18
20
qwen3-235b-a22b-no-thinking 31
26
19
12
24
34
22
17
33
24
15
8
16
20
27
14
33
32
30
5
50
34
42
40
qwen3-vl-235b-a22b-thinking 34
22
5
4
35
30
21
22
36
38
37
38
9
37
37
17
37
36
26
13
30
37
32
28
37
35
34
5
49
42
51
38
Anthropic claude-sonnet-4-20250514 39
30
14
18
13
22
12
17
Tencent hunyuan-t1-20250711 39
36
53
5
9
25
29
22
40
48
45
26
26
36
41
27
qwen3-30b-a3b-instruct-2507 40
32
21
19
50
39
40
36
Anthropic claude-3-7-sonnet-20250219-thinking-32k 41
30
14
27
9
10
10
21
qwen3-coder-480b-a35b-instruct 42
31
8
27
27
32
22
22
45
47
34
57
30
46
37
21
Tencent hunyuan-turbos-20250416 46
51
59
52
23
49
40
23
48
45
31
56
42
41
40
27
qwen3-235b-a22b 53
51
27
10
54
49
42
47
55
51
34
12
51
44
40
44
qwen2.5-max 55
56
58
42
36
51
41
47
Anthropic Claude 3.5 Sonnet (10/22) 56
50
36
66
26
44
39
32
56
55
44
9
55
58
51
55
qwen3-next-80b-a3b-thinking 57
52
35
9
51
44
45
60
59
58
63
10
50
44
42
59
59
42
26
9
62
43
45
62
60
65
84
74
42
64
55
55
62
72
64
81
38
63
45
44
62
62
64
38
49
49
51
62
63
59
48
18
58
58
67
47
64
61
47
59
56
64
57
49
amazon-nova-experimental-chat-10-09 66
64
57
-
61
64
62
55
66
65
64
81
50
64
53
55
66
72
88
68
30
64
62
69
gemini-2.0-flash-lite-preview-02-05 66
72
98
74
42
67
67
68
66
69
66
13
92
77
87
76
Tencent hunyuan-turbos-20250226 66
57
41
76
61
49
44
52
Nvidia llama-3.1-nemotron-ultra-253b-v1 66
53
51
9
38
46
55
54
qwen3-32b 66
60
40
5
60
63
50
62
qwen-plus-0125 67
68
64
68
57
64
49
55
68
75
110
67
42
67
51
52
68
85
105
81
55
74
64
63
Tencent hunyuan-turbo-0110 68
65
63
87
61
71
55
63
ling-flash-2.0 68
62
35
45
98
70
73
70
Nvidia nvidia-llama-3.3-nemotron-super-49b-v1.5 68
64
54
6
57
66
61
62
68
64
50
27
78
64
60
66
68
57
51
18
62
57
61
62
71
85
80
87
50
75
77
66
Anthropic Claude 3.5 Sonnet (06/20) 72
68
63
67
77
66
68
62
72
65
64
39
117
67
73
66
Meta llama-3.1-405b-instruct-bf16 76
80
72
81
78
82
79
66
Stepfun step-2-16k-exp-202412 76
75
65
74
40
76
62
76
77
94
106
87
42
80
81
76
77
94
83
82
58
79
73
71
77
68
64
53
94
68
70
76
qwq-32b 77
69
64
43
79
71
73
76
78
96
87
94
62
82
76
76
Meta llama-3.1-405b-instruct-fp8 78
84
81
80
74
82
87
68
Nvidia llama-3.3-nemotron-49b-super-v1 78
60
64
-
62
64
60
62
Tencent hunyuan-large-2025-02-10 82
79
65
81
61
71
32
70
85
79
74
81
78
82
78
68
Meta llama-4-maverick-17b-128e-instruct 86
80
72
75
73
79
74
70
qwen3-30b-a3b 89
75
64
50
85
80
72
76
92
85
65
87
61
78
69
69
95
103
100
92
59
92
91
83
95
81
65
96
61
82
73
76
Meta llama-4-scout-17b-16e-instruct 95
90
81
80
81
91
78
76
Anthropic claude-3-5-haiku-20241022 96
80
66
103
78
82
73
75
Anthropic claude-3-opus-20240229 96
93
96
82
89
82
81
76
96
94
98
92
59
82
68
78
96
101
129
109
75
113
87
105
96
93
68
64
129
113
101
105
Stepfun step-1o-turbo-202506 96
84
81
79
77
78
61
68
ring-flash-2.0 98
70
63
18
93
76
73
106
99
96
90
97
81
89
78
78
Meta llama-3.3-70b-instruct 99
96
103
91
89
107
98
76
qwen-max-0919 99
96
88
92
85
86
78
89
qwen2.5-plus-1127 100
89
81
81
94
95
91
86
Tencent hunyuan-standard-2025-02-10 101
96
98
82
81
106
68
78
102
111
97
109
80
106
83
89
105
86
76
81
123
86
83
90
105
117
120
89
93
113
107
108
105
106
108
87
89
105
114
100
105
97
92
98
85
100
110
105
106
118
129
97
78
106
83
119
112
127
140
109
81
124
74
108
116
96
79
97
109
106
89
108
116
84
64
87
79
82
72
76
117
104
91
122
101
125
124
103
117
123
112
112
102
118
89
106
119
106
98
103
98
106
107
106
mistral-small-3.1-24b-instruct-2503 121
96
83
103
100
102
79
108
Nvidia llama-3.1-nemotron-70b-instruct 123
101
108
98
85
115
125
99
qwen2.5-72b-instruct 123
101
88
89
123
106
87
105
Tencent hunyuan-large-vision 124
109
74
82
78
96
77
108
131
132
128
130
108
128
138
128
Nvidia llama-3.1-nemotron-51b-instruct 131
128
124
102
95
128
131
108
131
134
125
108
112
120
125
107
Meta Meta-Llama-3.1-70B-Instruct 131
126
119
116
119
127
124
108
131
135
126
130
98
131
126
127
132
123
103
113
138
126
112
120
132
117
122
106
121
123
136
126
133
137
134
142
82
130
122
119
Anthropic claude-3-sonnet-20240229 134
137
131
130
131
131
129
119
134
133
131
129
116
133
114
128
134
137
151
159
81
139
119
119
Cohere command-r-plus-08-2024 135
146
151
144
106
138
126
136
Nvidia nemotron-4-340b-instruct 136
136
131
124
133
136
124
133
140
136
131
129
127
137
136
132
140
139
137
144
125
141
136
143
141
133
131
112
115
127
136
134
141
137
134
128
123
138
151
128
mistral-small-24b-instruct-2501 141
133
129
117
141
138
129
137
qwen2.5-coder-32b-instruct 142
108
91
106
153
128
123
136
Cohere c4ai-aya-expanse-32b 147
139
140
145
143
142
125
150
149
156
156
158
138
149
141
148
149
131
101
109
155
140
124
148
150
154
156
155
121
148
140
140
qwen2-72b-instruct 150
139
139
109
144
148
141
144
152
139
132
133
145
145
136
151
Anthropic claude-3-haiku-20240307 152
146
137
147
153
147
141
144
152
150
156
146
137
150
139
157
152
137
137
132
134
147
136
131
155
137
132
117
154
144
138
145
156
150
151
159
151
151
138
157
162
160
144
146
158
165
150
160
162
163
156
168
151
165
167
160
162
151
150
149
141
165
138
157
162
149
141
137
153
152
154
153
Tencent hunyuan-standard-256k 163
136
130
112
152
139
126
154
164
166
176
166
155
165
164
166
qwen1.5-110b-chat 164
158
152
150
159
165
164
157
qwen1.5-72b-chat 164
163
156
159
162
165
160
157
reka-flash-21b-20240226-online 164
164
152
154
163
167
168
160
166
175
177
185
159
169
164
165
166
165
159
161
159
163
-
157
166
166
156
149
153
164
154
165
mixtral-8x22b-instruct-v0.1 166
162
156
147
162
165
168
169
166
166
159
163
168
173
168
165
Cohere c4ai-aya-expanse-8b 167
166
159
161
159
166
149
164
167
165
159
151
159
165
168
165
169
170
156
165
163
165
168
164
170
172
171
168
159
173
172
164
HuggingFace zephyr-orpo-141b-A35b-v0.1 173
170
167
158
165
169
173
177
174
160
134
157
163
167
151
177
178
170
171
154
179
173
170
166
Meta llama-3.1-8b-instruct 180
171
160
168
170
172
168
165
qwen1.5-32b-chat 180
171
159
161
190
178
167
165
181
166
159
161
184
172
180
175
Azure phi-3-medium-4k-instruct 184
175
182
153
187
182
180
191
185
172
171
165
177
178
183
175
185
193
199
193
165
187
185
184
InternLM internlm2_5-20b-chat 185
166
169
154
190
179
170
178
mixtral-8x7b-instruct-v0.1 185
180
180
169
181
182
185
182
qwen1.5-14b-chat 185
185
177
187
188
186
177
180
187
193
182
187
187
190
170
182
187
194
198
187
155
189
172
175
190
166
159
155
177
181
157
183
191
180
172
161
187
184
168
186
191
193
196
203
159
193
173
182
OpenChat openchat-3.5-0106 191
193
182
193
186
193
186
184
191
193
196
195
181
193
186
182
openhermes-2.5-mistral-7b 192
193
199
193
175
192
193
186
Snowflake snowflake-arctic-instruct 192
193
185
191
187
193
205
186
192
189
185
195
183
182
174
186
194
193
188
193
187
193
191
196
nous-hermes-2-mixtral-8x7b-dpo 194
214
199
213
187
211
201
188
Azure phi-3-small-8k-instruct 194
193
196
165
190
193
192
200
194
188
179
191
200
193
187
185
194
202
199
208
170
198
199
188
195
203
207
201
203
201
200
193
195
197
194
203
188
198
192
191
Meta llama-3.2-3b-instruct 198
196
201
186
185
193
189
184
qwq-32b-preview 199
193
199
144
194
189
175
182
Nvidia llama2-70b-steerlm-chat 202
203
212
203
190
199
218
193
204
196
-
195
181
197
-
203
solar-10.7b-instruct-v1.0 205
199
198
207
184
209
-
195
209
206
-
-
165
193
-
196
209
193
190
178
208
202
192
196
209
196
199
208
185
197
-
186
211
203
199
204
208
209
202
202
211
219
212
227
187
208
186
201
qwen1.5-7b-chat 212
203
188
203
218
206
185
193
213
214
211
211
216
212
194
209
Azure phi-3-mini-4k-instruct-june-2024 213
195
198
164
215
209
210
210
qwen-14b-chat 213
206
196
200
203
209
194
206
Meta codellama-34b-instruct 214
215
210
209
218
213
207
216
214
216
211
221
194
212
193
209
215
207
214
208
217
212
193
211
216
203
207
207
208
215
206
229
HuggingFace zephyr-7b-alpha 216
213
199
-
197
212
-
211
HuggingFace zephyr-7b-beta 216
219
214
219
188
223
207
211
218
220
224
214
186
231
-
212
Azure phi-3-mini-128k-instruct 218
216
215
197
219
217
222
223
Meta codellama-70b-instruct 219
194
-
-
-
211
-
-
Azure phi-3-mini-4k-instruct 222
206
199
195
222
212
213
223
HuggingFace smollm2-1.7b-instruct 224
199
201
184
212
211
193
215
224
226
224
216
214
221
217
214
230
228
221
229
215
230
186
223
232
215
207
212
216
220
207
226
232
232
234
219
222
233
219
216
Meta llama-3.2-1b-instruct 232
222
215
203
216
224
211
215
232
220
215
219
215
225
210
214
240
224
217
227
219
233
213
229
242
240
229
227
244
243
-
226
qwen1.5-4b-chat 242
232
224
218
237
233
218
223
243
245
240
241
238
244
-
241
244
247
246
241
214
244
-
239
244
242
236
232
238
242
226
228
244
239
-
239
219
241
-
228
244
245
239
241
232
244
-
240
247
246
241
241
244
250
-
245
250
245
242
241
243
248
-
243
250
246
242
241
243
249
-
246
253
247
243
241
252
249
-
249
253
252
249
241
248
253
-
253
253
254
251
247
248
250
-
249
253
254
252
247
253
255
-
252
Stability stablelm-tuned-alpha-7b 255
254
244
249
253
255
-
252