WebDev Leaderboard

Compare the performance of AI models for web development tasks built in the Code Arena

Last Updated

Dec 29, 2025

Total Votes

82,171

Total Models

/

	Rank Spread
1	1◄─►1	claude-opus-4-5-20251101-thinking-32k	1512	+11/-11	4,564	Anthropic	Proprietary
2	2◄─►5	gpt-5.2-high	1480	+17/-17	1,647	OpenAI	Proprietary
3	2◄─►4	claude-opus-4-5-20251101	1479	+11/-11	4,468	Anthropic	Proprietary
4	2◄─►5	gemini-3-pro	1471	+9/-9	9,824	Google	Proprietary
5	3◄─►6	gemini-3-flash	1454	+12/-12	3,053	Google	Proprietary
6	5◄─►6	glm-4.7	1441	+13/-13	2,270	Z.ai	MIT
7	7◄─►13	gpt-5-medium	1395	+12/-12	3,949	OpenAI	Proprietary
8	7◄─►13	gpt-5.2	1394	+15/-15	1,641	OpenAI	Proprietary
9	7◄─►13	claude-sonnet-4-5-20250929-thinking-32k	1391	+9/-9	8,616	Anthropic	Proprietary
10	7◄─►13	gpt-5.1-medium	1387	+10/-10	5,626	OpenAI	Proprietary
11	7◄─►13	claude-sonnet-4-5-20250929	1387	+9/-9	9,698	Anthropic	Proprietary
12	7◄─►13	claude-opus-4-1-20250805	1386	+9/-9	8,210	Anthropic	Proprietary
13	7◄─►15	gemini-3-flash (thinking-minimal)	1377	+14/-14	1,885	Google	Proprietary
14	13◄─►16	glm-4.6	1366	+9/-9	7,921	Z.ai	MIT
15	13◄─►17	deepseek-v3.2-thinking	1361	+15/-15	1,753	DeepSeek AI	MIT
16	14◄─►18	gpt-5.1	1353	+9/-9	7,544	OpenAI	Proprietary
17	15◄─►19	mimo-v2-flash (non-thinking)	1342	+15/-15	1,555	Xiaomi	MIT
18	16◄─►19	kimi-k2-thinking-turbo	1337	+9/-9	7,336	Moonshot	Modified MIT
19	17◄─►20	gpt-5.1-codex	1331	+10/-10	5,719	OpenAI	Proprietary
20	19◄─►20	minimax-m2	1313	+9/-9	8,023	MiniMax	Apache 2.0
21	21◄─►24	deepseek-v3.2-exp	1290	+10/-10	5,162	DeepSeek AI	MIT
22	21◄─►24	claude-haiku-4-5-20251001	1286	+9/-9	8,276	Anthropic	Proprietary
23	21◄─►25	deepseek-v3.2	1286	+13/-13	2,155	DeepSeek AI	MIT
24	21◄─►24	qwen3-coder-480b-a35b-instruct	1285	+9/-9	8,199	Alibaba	Apache 2.0
25	24◄─►26	KAT-Coder-Pro-V1	1260	+15/-15	1,946	KwaiKAT	Proprietary
26	25◄─►28	gpt-5.1-codex-mini	1247	+17/-17	1,566	OpenAI	Proprietary
27	26◄─►30	grok-4-1-fast-reasoning	1223	+13/-13	3,721	xAI	Proprietary
28	26◄─►30	mistral-large-3	1222	+20/-20	1,027	Mistral	Apache 2.0
29	27◄─►30	gemini-2.5-pro	1209	+13/-13	3,505	Google	Proprietary
30	27◄─►30	grok-4.1-thinking	1202	+19/-19	1,262	xAI	Proprietary
31	31◄─►32	grok-4-fast-reasoning	1149	+23/-23	945	xAI	Proprietary
32	31◄─►33	grok-code-fast-1	1139	+21/-21	1,014	xAI	Proprietary
33	32◄─►33	devstral-medium-2507	1099	+22/-22	1,033	Mistral	Proprietary

WebDev Leaderboard

Remove Style Control Leaderboard Plots

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Fraction of Model A Wins for All Non-tied A vs. B Battles

Battle Count for Each Combination of Models (without Ties)

Confidence Intervals on Model Strength (via Bootstrapping)