Leaderboard

Best AI for Reasoning 2026.

Find the best AI for reasoning. Ranked by Humanity's Last Exam, GPQA Diamond, ARC-AGI 2, SimpleQA, and more. Compare intelligence and reasoning across all major LLMs.

LLM Image Video Speech Transcription


Claude Opus 4.6 Anthropic	0.5%	0.9%	—	0.7%
Gemini 3.1 Pro Google	0.5%	0.9%	—	0.8%
M Kimi K2-Thinking-0905OSS Moonshot AI	0.5%	0.8%	—	—
M Kimi K2.5OSS Moonshot AI	0.5%	0.9%	—	—
Claude Sonnet 4.6 Anthropic	0.5%	0.9%	—	0.6%
Gemini 3 Pro Google	0.5%	0.9%	0.7%	0.3%
Gemini 3 Flash Google	0.4%	0.9%	0.7%	0.3%
Z GLM-4.7OSS Zhipu AI	0.4%	0.9%	—	—
Grok-4 xAI	0.4%	0.9%	—	0.2%
GPT-5.4 OpenAI	0.4%	0.9%	—	0.7%
GPT-5.2 Pro OpenAI	0.4%	0.9%	—	0.5%
GPT-5.2 OpenAI	0.3%	0.9%	—	0.5%
A Qwen3.5-397B-A17BOSS Alibaba Cloud / Qwen Team	0.3%	0.9%	—	—
M LongCat-Flash-Thinking-2601OSS Meituan	0.3%	0.8%	—	—
GPT-5 OpenAI	0.2%	0.9%	—	—
X MiMo-V2-FlashOSS Xiaomi	0.2%	0.8%	—	—
M MiniMax M2.1OSS MiniMax	0.2%	0.8%	—	—
Gemini 2.5 Pro Preview 06-05 Google	0.2%	0.9%	0.5%	—
Grok 4 Fast xAI	0.2%	0.9%	0.9%	—
DeepSeek-V3.2-ExpOSS DeepSeek	0.2%	0.8%	1.0%	—
A Qwen3-235B-A22B-Thinking-2507OSS Alibaba Cloud / Qwen Team	0.2%	0.8%	—	—
Gemini 2.5 Pro Google	0.2%	0.8%	0.5%	0.0%
DeepSeek-R1-0528OSS DeepSeek	0.2%	0.8%	0.9%	—
Z GLM-4.6OSS Zhipu AI	0.2%	0.8%	—	—
GPT-5 mini OpenAI	0.2%	0.8%	—	—
Gemini 3.1 Flash-Lite Google	0.2%	0.9%	0.4%	—
DeepSeek-V3.1OSS DeepSeek	0.2%	0.7%	0.9%	—
N Nemotron 3 Nano (30B A3B)OSS NVIDIA	0.2%	0.8%	—	—
GPT OSS 120BOSS OpenAI	0.1%	0.8%	—	—
o4-mini OpenAI	0.1%	0.8%	—	—
o3 OpenAI	0.1%	0.8%	—	0.1%
Z GLM-4.7-FlashOSS Zhipu AI	0.1%	0.8%	—	—
Z GLM-4.5OSS Zhipu AI	0.1%	0.8%	—	—
A Qwen3 VL 235B A22B ThinkingOSS Alibaba Cloud / Qwen Team	0.1%	—	0.4%	—
M MiniMax M2OSS MiniMax	0.1%	0.8%	—	—
Gemini 2.5 Flash Google	0.1%	0.8%	0.3%	—
GPT OSS 20BOSS OpenAI	0.1%	0.7%	—	—
GPT-5 nano OpenAI	0.1%	0.7%	—	—
M MiniMax M1 80KOSS MiniMax	0.1%	0.7%	0.2%	—
GPT-4.1 OpenAI	0.1%	0.7%	—	—
GPT-4o OpenAI	0.1%	0.7%	0.4%	—
Gemini 2.5 Flash-LiteOSS Google	0.1%	0.6%	0.1%	—
M Kimi K2 InstructOSS Moonshot AI	0.0%	0.8%	0.3%	—
GPT-4.1 mini OpenAI	0.0%	0.7%	—	—
ChatGPT-4o Latest OpenAI	—	0.8%	—	—
Claude 3 Haiku Anthropic	—	0.3%	—	—
Claude 3 Opus Anthropic	—	0.5%	—	—
Claude 3 Sonnet Anthropic	—	0.4%	—	—
Claude 3.5 Haiku Anthropic	—	0.4%	—	—
Claude 3.5 Sonnet Anthropic	—	0.7%	—	—