Anthropic claude-opus-4-1-20250805-thinking-16k 1
1
1
1
1
1
1
1
Anthropic claude-sonnet-4-5-20250929-thinking-32k 1
1
1
1
2
1
1
1
1
3
5
1
1
2
2
2
gpt-4.5-preview-2025-02-27 1
7
5
8
1
2
4
1
chatgpt-4o-latest-20250326 2
5
5
13
2
7
5
1
Anthropic claude-opus-4-1-20250805 2
3
2
1
2
1
2
1
Anthropic claude-sonnet-4-5-20250929 2
2
4
2
1
1
2
1
2
5
5
1
9
8
15
8
2
6
6
1
9
10
20
10
qwen3-max-preview 3
3
4
1
8
5
4
4
10
5
5
2
2
5
6
9
10
5
5
9
9
8
6
3
qwen3-max-2025-09-23 10
5
3
1
6
6
5
3
Anthropic claude-opus-4-20250514-thinking-16k 11
5
3
5
2
2
2
7
11
13
5
9
9
18
17
17
11
13
13
5
8
9
8
16
11
13
13
5
2
10
6
17
deepseek-v3.1-terminus-thinking 11
5
5
1
8
5
2
8
11
7
5
2
6
6
3
10
deepseek-v3.2-exp-thinking 11
5
5
1
6
8
6
8
11
10
5
1
9
9
6
7
MoonshotAI kimi-k2-0711-preview 11
15
7
14
15
36
36
10
MoonshotAI kimi-k2-0905-preview 11
7
5
5
9
22
19
14
qwen3-235b-a22b-instruct-2507 11
5
5
3
11
8
6
8
qwen3-vl-235b-a22b-instruct 11
5
4
1
16
5
6
8
Anthropic claude-opus-4-20250514 12
13
5
11
5
8
5
9
12
13
15
1
9
7
6
14
12
17
23
1
8
10
10
10
13
15
7
37
8
15
9
10
14
16
17
28
8
10
6
15
gemini-2.5-flash-preview-09-2025 18
18
20
1
9
9
6
21
18
14
6
6
14
9
11
17
18
14
6
8
15
15
17
12
Anthropic claude-haiku-4-5-20251001 23
13
4
-
6
10
4
9
qwen3-next-80b-a3b-instruct 24
16
6
2
61
33
29
17
29
15
4
1
49
18
36
22
29
26
30
9
14
10
17
32
qwen3-235b-a22b-thinking-2507 29
19
14
8
11
17
18
20
Anthropic claude-sonnet-4-20250514-thinking-32k 30
13
5
9
8
8
6
11
qwen3-235b-a22b-no-thinking 30
25
19
13
23
33
21
17
32
24
15
8
15
20
28
14
32
33
30
6
50
33
41
39
qwen3-vl-235b-a22b-thinking 32
22
5
3
35
29
19
22
36
37
38
37
9
36
36
17
36
35
26
13
29
36
30
29
36
35
32
6
49
41
52
37
Anthropic claude-sonnet-4-20250514 38
30
14
17
13
22
12
17
Tencent hunyuan-t1-20250711 38
36
54
5
9
25
28
22
39
47
45
23
25
35
41
27
qwen3-30b-a3b-instruct-2507 39
32
21
19
51
38
39
35
Anthropic claude-3-7-sonnet-20250219-thinking-32k 40
30
14
25
9
10
10
21
qwen3-coder-480b-a35b-instruct 41
31
8
25
26
31
21
22
Tencent hunyuan-turbos-20250416 44
49
59
50
22
48
39
23
44
46
33
56
29
43
36
20
47
44
30
54
42
40
39
27
gemini-2.5-flash-lite-preview-09-2025-no-thinking 50
49
59
13
15
35
19
39
gemini-2.5-flash-lite-preview-06-17-thinking 52
55
64
37
15
36
39
47
qwen3-235b-a22b 52
50
27
10
54
48
41
46
54
51
33
11
52
43
39
42
qwen2.5-max 54
55
58
41
36
51
40
46
Anthropic Claude 3.5 Sonnet (10/22) 55
49
34
66
25
43
38
31
qwen3-next-80b-a3b-thinking 55
51
34
9
51
43
45
58
56
54
44
9
56
59
51
55
59
57
62
11
50
42
41
58
59
40
26
9
63
42
45
62
60
66
85
75
42
65
56
54
63
73
63
81
38
64
45
42
63
62
63
36
49
48
51
62
64
58
48
17
59
59
69
46
65
60
47
58
57
65
57
48
amazon-nova-experimental-chat-10-09 67
65
57
-
62
65
63
54
67
66
63
81
51
65
54
55
67
73
89
70
29
65
63
70
gemini-2.0-flash-lite-preview-02-05 67
72
99
75
42
68
69
70
67
70
65
13
93
78
88
77
Tencent hunyuan-turbos-20250226 67
56
40
77
62
48
45
52
Nvidia llama-3.1-nemotron-ultra-253b-v1 67
52
51
9
38
44
56
54
qwen3-32b 67
59
40
6
61
64
50
61
qwen-plus-0125 68
69
63
69
58
65
49
54
69
76
111
68
42
68
51
52
69
86
106
81
56
76
66
62
Tencent hunyuan-turbo-0110 69
66
62
87
62
72
56
63
ling-flash-2.0 69
62
35
37
99
71
74
70
Nvidia nvidia-llama-3.3-nemotron-super-49b-v1.5 69
65
56
7
58
66
62
61
69
65
50
26
79
65
62
67
69
56
51
17
63
58
62
62
72
86
81
87
51
76
79
67
Anthropic Claude 3.5 Sonnet (06/20) 73
69
62
68
78
68
69
62
73
66
63
38
117
67
74
67
Meta llama-3.1-405b-instruct-bf16 77
80
71
81
79
83
81
67
Stepfun step-2-16k-exp-202412 77
76
64
75
40
77
63
77
78
95
107
87
42
81
84
77
78
95
84
83
59
80
74
71
78
69
63
53
95
69
72
77
qwq-32b 78
70
63
41
80
72
74
77
79
97
87
94
63
83
77
77
Meta llama-3.1-405b-instruct-fp8 79
85
82
81
75
83
88
70
Nvidia llama-3.3-nemotron-49b-super-v1 79
58
63
-
63
65
61
62
Tencent hunyuan-large-2025-02-10 83
80
64
81
62
72
30
71
86
79
73
81
79
83
79
69
Meta llama-4-maverick-17b-128e-instruct 87
82
71
75
73
80
74
72
qwen3-30b-a3b 91
76
63
48
86
80
72
77
93
86
64
87
62
79
71
70
96
104
102
92
60
94
94
83
96
82
64
95
62
83
74
77
Meta llama-4-scout-17b-16e-instruct 96
90
82
80
81
90
78
77
Anthropic claude-3-5-haiku-20241022 97
80
65
103
79
83
74
75
Anthropic claude-3-opus-20240229 97
94
98
83
90
83
83
77
97
95
99
92
61
83
70
79
97
101
130
109
76
114
87
106
97
94
67
63
129
114
101
107
ring-flash-2.0 97
71
62
17
93
76
74
108
Stepfun step-1o-turbo-202506 97
85
82
79
78
79
62
69
100
97
92
97
82
90
80
79
Meta llama-3.3-70b-instruct 100
97
104
91
90
107
99
77
qwen-max-0919 100
97
89
92
86
87
79
90
qwen2.5-plus-1127 101
90
82
81
94
96
92
87
102
112
98
109
81
107
84
90
Tencent hunyuan-standard-2025-02-10 102
97
99
83
82
107
69
79
105
107
109
87
90
106
117
101
106
87
76
81
124
87
84
91
106
118
121
89
94
114
110
109
106
97
93
98
86
102
111
106
107
119
130
97
79
107
84
120
114
128
141
109
82
125
75
109
117
86
63
87
80
83
73
77
118
105
92
122
102
126
125
104
118
97
80
97
111
107
90
109
118
124
113
112
105
119
90
107
120
107
99
103
99
107
109
107
mistral-small-3.1-24b-instruct-2503 122
97
85
103
101
103
80
109
Nvidia llama-3.1-nemotron-70b-instruct 124
102
109
98
86
116
126
100
qwen2.5-72b-instruct 124
102
89
89
124
107
89
106
Tencent hunyuan-large-vision 125
110
73
83
79
96
78
109
132
133
129
130
109
129
139
128
Nvidia llama-3.1-nemotron-51b-instruct 132
129
125
102
96
129
131
109
132
135
126
108
113
119
126
108
Meta Meta-Llama-3.1-70B-Instruct 132
127
120
116
120
128
125
109
132
135
127
131
99
132
127
128
133
124
104
113
139
127
113
122
133
118
123
106
122
124
137
126
134
138
135
141
83
131
124
120
Anthropic claude-3-sonnet-20240229 135
138
132
132
132
132
130
120
135
134
132
129
117
134
115
129
135
138
152
159
83
140
123
120
Cohere command-r-plus-08-2024 136
147
152
144
107
139
128
137
Nvidia nemotron-4-340b-instruct 137
137
132
125
135
137
126
134
140
137
132
129
128
138
137
133
141
140
138
144
126
142
137
145
142
134
132
113
117
129
137
135
142
138
135
129
124
139
152
128
mistral-small-24b-instruct-2501 142
134
130
117
142
139
129
139
qwen2.5-coder-32b-instruct 143
109
92
106
154
129
124
137
Cohere c4ai-aya-expanse-32b 148
140
141
145
144
143
126
151
150
157
158
158
139
150
142
149
150
133
102
109
156
141
126
149
151
155
157
155
122
149
141
141
qwen2-72b-instruct 151
140
140
109
145
149
142
145
153
140
133
133
146
146
137
152
Anthropic claude-3-haiku-20240307 153
147
138
147
154
148
142
145
153
151
157
146
138
151
140
158
153
138
138
132
135
148
137
132
156
138
132
117
155
145
139
146
157
151
152
159
152
152
139
158
163
161
145
146
159
166
151
161
163
164
157
168
152
166
168
161
163
151
151
149
142
166
139
158
163
149
143
137
154
153
155
154
Tencent hunyuan-standard-256k 164
137
131
112
153
140
127
155
165
167
178
167
156
167
165
167
qwen1.5-110b-chat 165
159
153
150
160
166
166
158
qwen1.5-72b-chat 165
164
157
159
164
166
161
158
reka-flash-21b-20240226-online 165
165
153
154
164
168
169
161
167
176
178
185
160
170
165
166
167
166
160
161
160
164
-
158
167
166
157
149
154
164
155
167
mixtral-8x22b-instruct-v0.1 167
163
157
147
163
166
169
170
167
167
160
163
169
174
169
166
Cohere c4ai-aya-expanse-8b 168
167
160
161
160
167
150
165
168
166
160
151
160
166
169
166
170
171
157
165
164
166
169
165
171
173
172
168
160
174
173
165
HuggingFace zephyr-orpo-141b-A35b-v0.1 174
171
168
159
166
170
174
177
175
161
135
157
164
167
152
178
179
171
172
154
181
176
171
167
Meta llama-3.1-8b-instruct 181
172
161
168
171
173
169
166
qwen1.5-32b-chat 181
172
160
161
191
179
168
166
182
167
160
161
185
173
181
175
Azure phi-3-medium-4k-instruct 185
176
183
153
188
183
180
192
186
173
172
165
179
179
184
175
186
194
200
193
166
188
186
185
InternLM internlm2_5-20b-chat 186
167
170
154
191
180
171
180
mixtral-8x7b-instruct-v0.1 186
180
181
169
182
183
186
183
qwen1.5-14b-chat 186
186
178
187
189
187
178
181
188
194
183
187
188
191
171
183
188
195
199
187
156
189
173
175
192
181
173
161
188
185
169
187
192
167
160
155
177
181
157
185
192
194
197
203
161
194
174
183
OpenChat openchat-3.5-0106 192
194
183
193
187
194
187
185
192
194
197
195
182
194
187
183
openhermes-2.5-mistral-7b 193
194
200
193
176
193
194
187
Snowflake snowflake-arctic-instruct 193
194
186
191
188
194
206
187
193
189
186
195
185
183
175
187
195
194
189
193
188
194
192
197
nous-hermes-2-mixtral-8x7b-dpo 195
215
200
213
188
212
202
188
Azure phi-3-small-8k-instruct 195
194
197
165
191
194
193
201
195
189
180
191
201
194
188
186
195
203
200
208
171
199
201
189
196
204
208
201
204
200
201
194
196
198
195
203
189
199
194
190
Meta llama-3.2-3b-instruct 198
197
201
186
186
194
190
185
qwq-32b-preview 201
194
200
144
195
190
176
184
Nvidia llama2-70b-steerlm-chat 203
204
213
203
191
200
218
194
205
197
-
195
182
198
-
204
solar-10.7b-instruct-v1.0 206
200
199
207
185
210
-
196
210
207
-
-
167
194
-
197
210
194
191
178
209
203
193
197
210
197
200
208
186
198
-
187
211
220
213
227
188
208
187
201
212
204
200
204
209
210
203
204
qwen-14b-chat 213
207
197
200
204
210
194
206
qwen1.5-7b-chat 213
204
189
203
219
207
186
194
214
215
212
211
217
213
195
210
Azure phi-3-mini-4k-instruct-june-2024 214
196
199
164
216
210
210
211
214
217
212
221
195
213
194
210
Meta codellama-34b-instruct 215
216
211
210
219
214
208
217
215
208
215
208
218
213
194
212
217
204
208
207
209
217
207
229
HuggingFace zephyr-7b-alpha 217
213
200
-
198
213
-
212
HuggingFace zephyr-7b-beta 217
220
215
219
189
223
208
212
219
222
225
214
186
232
-
213
Meta codellama-70b-instruct 220
195
-
-
-
213
-
-
Azure phi-3-mini-128k-instruct 220
217
216
197
219
219
222
224
Azure phi-3-mini-4k-instruct 223
207
200
195
223
213
214
224
HuggingFace smollm2-1.7b-instruct 225
199
202
184
213
212
194
216
225
227
225
216
215
221
218
215
230
229
222
230
216
229
187
223
233
216
208
212
217
221
208
227
Meta llama-3.2-1b-instruct 233
223
216
203
217
225
212
216
233
222
216
219
216
226
212
215
234
233
235
219
223
234
220
217
241
225
219
227
220
234
214
232
243
241
230
227
245
244
-
227
qwen1.5-4b-chat 243
233
225
217
238
234
219
224
244
239
-
239
220
240
-
229
244
246
241
241
238
245
-
242
245
248
247
241
215
245
-
240
245
243
237
233
239
243
227
229
245
246
240
241
232
245
-
240
248
247
242
241
245
251
-
246
251
245
243
241
244
249
-
244
251
247
243
241
244
250
-
247
254
248
244
241
253
250
-
250
254
253
250
241
249
254
-
254
254
255
252
247
249
251
-
250
254
256
253
247
254
256
-
253
Stability stablelm-tuned-alpha-7b 256
255
245
249
254
256
-
253