WebDev Leaderboard

Compare the performance of AI models for web development tasks built in the Code Arena

Last Updated

Jan 9, 2026

Total Votes

95,449

Total Models

/

	Rank Spread
1	1◄─►1	claude-opus-4-5-20251101-thinking-32k	1511	+10/-10	5,730	Anthropic	Proprietary
2	2◄─►5	gpt-5.2-high	1481	+17/-17	1,647	OpenAI	Proprietary
3	2◄─►4	claude-opus-4-5-20251101	1479	+10/-10	5,445	Anthropic	Proprietary
4	2◄─►5	gemini-3-pro	1468	+8/-8	11,612	Google	Proprietary
5	3◄─►6	gemini-3-flash	1455	+10/-10	4,997	Google	Proprietary
6	5◄─►7	glm-4.7	1444	+11/-11	3,651	Z.ai	MIT
7	6◄─►7	minimax-m2.1-preview	1432	+9/-9	5,259	MiniMax	MIT
8	8◄─►14	gpt-5-medium	1397	+12/-12	3,951	OpenAI	Proprietary
9	8◄─►14	gpt-5.2	1396	+15/-15	1,643	OpenAI	Proprietary
10	8◄─►14	claude-sonnet-4-5-20250929-thinking-32k	1393	+8/-8	9,488	Anthropic	Proprietary
11	8◄─►14	gpt-5.1-medium	1390	+9/-9	6,443	OpenAI	Proprietary
12	8◄─►14	claude-opus-4-1-20250805	1389	+8/-8	9,007	Anthropic	Proprietary
13	8◄─►15	claude-sonnet-4-5-20250929	1387	+8/-8	10,823	Anthropic	Proprietary
14	8◄─►17	gemini-3-flash (thinking-minimal)	1379	+14/-14	1,887	Google	Proprietary
15	13◄─►18	deepseek-v3.2-thinking	1367	+13/-13	2,443	DeepSeek AI	MIT
16	14◄─►18	glm-4.6	1364	+8/-8	8,734	Z.ai	MIT
17	14◄─►18	gpt-5.1	1358	+9/-9	8,405	OpenAI	Proprietary
18	15◄─►20	mimo-v2-flash (non-thinking)	1345	+12/-12	2,412	Xiaomi	MIT
19	18◄─►20	kimi-k2-thinking-turbo	1337	+8/-8	8,137	Moonshot	Modified MIT
20	18◄─►21	gpt-5.1-codex	1333	+9/-9	6,574	OpenAI	Proprietary
21	20◄─►21	minimax-m2	1316	+9/-9	8,866	MiniMax	Apache 2.0
22	22◄─►25	claude-haiku-4-5-20251001	1292	+8/-8	9,206	Anthropic	Proprietary
23	22◄─►25	deepseek-v3.2	1291	+12/-12	3,081	DeepSeek AI	MIT
24	22◄─►25	deepseek-v3.2-exp	1291	+10/-10	5,165	DeepSeek AI	MIT
25	22◄─►25	qwen3-coder-480b-a35b-instruct	1287	+8/-8	9,046	Alibaba	Apache 2.0
26	26◄─►27	KAT-Coder-Pro-V1	1261	+15/-15	1,946	KwaiKAT	Proprietary
27	26◄─►29	gpt-5.1-codex-mini	1249	+17/-17	1,567	OpenAI	Proprietary
28	27◄─►31	grok-4-1-fast-reasoning	1225	+13/-13	3,723	xAI	Proprietary
29	27◄─►31	mistral-large-3	1224	+20/-20	1,027	Mistral	Apache 2.0
30	28◄─►31	gemini-2.5-pro	1211	+12/-12	3,505	Google	Proprietary
31	28◄─►31	grok-4.1-thinking	1203	+19/-19	1,263	xAI	Proprietary
32	32◄─►33	grok-4-fast-reasoning	1151	+23/-23	947	xAI	Proprietary
33	32◄─►34	grok-code-fast-1	1141	+21/-21	1,014	xAI	Proprietary
34	33◄─►34	devstral-medium-2507	1101	+22/-22	1,033	Mistral	Proprietary

WebDev Leaderboard

Remove Style Control Leaderboard Plots

Confidence Intervals on Model Strength (via Bootstrapping)

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Fraction of Model A Wins for All Non-tied A vs. B Battles

Battle Count for Each Combination of Models (without Ties)