WebDev Leaderboard

Compare the performance of AI models for web development tasks built in the Code Arena

Last Updated

Jan 12, 2026

Total Votes

99,992

Total Models

/

	Rank Spread
1	1◄─►1	claude-opus-4-5-20251101-thinking-32k	1510	+10/-10	6,197	Anthropic	Proprietary
2	2◄─►4	claude-opus-4-5-20251101	1480	+10/-10	5,853	Anthropic	Proprietary
3	2◄─►5	gpt-5.2-high	1476	+16/-16	1,691	OpenAI	Proprietary
4	2◄─►5	gemini-3-pro	1468	+8/-8	12,331	Google	Proprietary
5	3◄─►6	gemini-3-flash	1453	+9/-9	5,810	Google	Proprietary
6	5◄─►6	glm-4.7	1448	+10/-10	4,253	Z.ai	MIT
7	7◄─►7	minimax-m2.1-preview	1427	+9/-9	5,817	MiniMax	MIT
8	8◄─►14	gpt-5.2	1401	+15/-15	1,627	OpenAI	Proprietary
9	8◄─►14	gpt-5-medium	1397	+12/-12	3,929	OpenAI	Proprietary
10	8◄─►14	gpt-5.1-medium	1392	+9/-9	6,588	OpenAI	Proprietary
11	8◄─►14	claude-sonnet-4-5-20250929-thinking-32k	1392	+8/-8	9,833	Anthropic	Proprietary
12	8◄─►14	claude-opus-4-1-20250805	1390	+8/-8	9,117	Anthropic	Proprietary
13	8◄─►14	claude-sonnet-4-5-20250929	1386	+8/-8	11,290	Anthropic	Proprietary
14	8◄─►16	gemini-3-flash (thinking-minimal)	1381	+14/-14	1,892	Google	Proprietary
15	14◄─►18	deepseek-v3.2-thinking	1365	+12/-12	2,691	DeepSeek	MIT
16	14◄─►18	glm-4.6	1360	+8/-8	8,882	Z.ai	MIT
17	15◄─►18	gpt-5.1	1356	+8/-8	8,756	OpenAI	Proprietary
18	15◄─►20	mimo-v2-flash (non-thinking)	1344	+11/-11	2,790	Xiaomi	MIT
19	18◄─►20	kimi-k2-thinking-turbo	1335	+8/-8	8,478	Moonshot	Modified MIT
20	18◄─►21	gpt-5.1-codex	1334	+9/-9	6,658	OpenAI	Proprietary
21	20◄─►21	minimax-m2	1317	+8/-8	8,991	MiniMax	Apache 2.0
22	22◄─►25	claude-haiku-4-5-20251001	1294	+8/-8	9,556	Anthropic	Proprietary
23	22◄─►25	deepseek-v3.2	1293	+11/-11	3,475	DeepSeek	MIT
24	22◄─►25	deepseek-v3.2-exp	1290	+10/-10	5,128	DeepSeek	MIT
25	22◄─►25	qwen3-coder-480b-a35b-instruct	1286	+8/-8	9,381	Alibaba	Apache 2.0
26	26◄─►27	KAT-Coder-Pro-V1	1263	+15/-15	1,955	KwaiKAT	Proprietary
27	26◄─►29	gpt-5.1-codex-mini	1247	+17/-17	1,538	OpenAI	Proprietary
28	27◄─►31	grok-4-1-fast-reasoning	1225	+12/-12	3,993	xAI	Proprietary
29	27◄─►31	mistral-large-3	1224	+20/-20	1,037	Mistral	Apache 2.0
30	28◄─►31	gemini-2.5-pro	1209	+13/-13	3,453	Google	Proprietary
31	28◄─►31	grok-4.1-thinking	1207	+19/-19	1,265	xAI	Proprietary
32	32◄─►33	grok-4-fast-reasoning	1156	+22/-22	970	xAI	Proprietary
33	32◄─►34	grok-code-fast-1	1143	+21/-21	1,015	xAI	Proprietary
34	33◄─►34	devstral-medium-2507	1101	+22/-22	1,020	Mistral	Proprietary

WebDev Leaderboard

Remove Style Control Leaderboard Plots

Fraction of Model A Wins for All Non-tied A vs. B Battles

Battle Count for Each Combination of Models (without Ties)

Confidence Intervals on Model Strength (via Bootstrapping)

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)