VOL. 2026ISSUE 04Atualizado em 2026-04-29paibao.ai / leaderboards

Leaderboard Mensal de LLMs

Oito categorias. Vinte e quatro modelos líderes. Atualizado mensalmente. Com citações amigáveis para IA.

LlmLeaderboard.archiveHeading

LlmLeaderboard.archiveSubhead

2026-06

junho de 2026

文本生成与综合推理 · Claude Opus 4.8
图像生成 · GPT Image 2
视频生成 · Seedance 2.0

9 LlmLeaderboard.archiveStatCategories · 29 LlmLeaderboard.archiveStatModelsLlmLeaderboard.archiveViewLabel

2026-04

abril de 2026

LlmLeaderboard.archiveCurrentBadge

Geração de Texto e Raciocínio · GPT-5.5
Texto para Imagem · GPT Image-2
Texto para Vídeo · Veo 3.1

8 LlmLeaderboard.archiveStatCategories · 24 LlmLeaderboard.archiveStatModelsLlmLeaderboard.archiveViewLabel

Text Generation & Reasoning

Geração de Texto e Raciocínio

2026 entra na era dos três titãs — sem modelo dominante único, a melhor escolha depende da tarefa em mãos.

Previously: GPT-5.4

Líder atual

GPT-5.5

OpenAI

4 月 23 日发布，首个全量重训基础模型。

Pontuação

01Terminal-Bench 2.0: 82.7%
02OSWorld-Verified: 78.7%
03GDPval: 84.9%
04ARC-AGI-2: 85.0%
05100 万 token 上下文

Runners-up

№2

Claude Opus 4.7

Anthropic

4 月 16 日发布，长上下文与代码审查最强。

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
多步推理最稳定
代码逻辑审查最细致
100 万 token 上下文

№3

Gemini 3.1 Pro

Google

预览中，数学与算法竞赛最强。

LiveCodeBench Elo: 2887
100 万 token 上下文
价格最低（$2/$12）
视频理解领先
性价比最高

~85

Tags1M Token 上下文Agentic 工作流多模态理解

Text-to-Image

Texto para Imagem

GPT Image-2 toma o trono com 99,2% de precisão na renderização de texto, enquanto Nano Banana 2 mantém vantagem na geração em tempo real.

Previously: Nano Banana 2

Líder atual

GPT Image-2

OpenAI

文本渲染准确率最高。

Pontuação

99.2%

01文本渲染准确率 99.2%
02支持中文 / 阿拉伯语
03空间逻辑与解剖正确性
04角色一致性
05Thinking Mode 推理引擎

Runners-up

№2

Nano Banana 2

Google

极速 4K 生成，实时联网搜索。

Flash 架构极速生成
4K 图像 4-15 秒
实时联网搜索集成
速度最快
与 Gemini 生态深度集成

4-15s

№3

Flux Pro

Black Forest Labs

开源生态最强。

开源可商用
社区生态丰富
风格多样性
本地部署能力

Tags4K 生成多语言文本角色一致性实时生成

Text-to-Video

Texto para Vídeo

Sora 2 saiu de cena; Google Veo 3.1 agora lidera em capacidade geral, enquanto Seedance 2.0 e Kling 3.0 lideram em nichos específicos.

Previously: Sora 2

Líder atual

Veo 3.1

Google

原生音频 + 多镜头，综合实力最强。

01原生音频生成
02多镜头叙事
03物理模拟优秀
04与 YouTube 生态集成

Runners-up

№2

Seedance 2.0

ByteDance

多镜头故事板能力最强。

多镜头故事板
镜头语言专业
国产模型代表
抖音生态集成

№3

Kling 3.0 Omni

Kuaishou

电影级画质 + 对口型最强。

电影级画质
对口型最精准
快手生态集成
中文场景优化

Tags原生音频多镜头叙事电影级画质对口型

Code Generation

Geração de Código

GPT-5.5 retoma a liderança em codificação agente-terminal; Claude Opus 4.7 ainda domina refatoração multi-arquivo e orquestração de ferramentas.

Previously: Claude Opus 4.6

Líder atual

GPT-5.5

OpenAI

Terminal-Bench 2.0 第一，Agentic 编码最强。

Pontuação

82.7%

01Terminal-Bench 2.0: 82.7%
02Expert-SWE: 73.1%
03自主编码判断力
04相同任务 token 更少

Runners-up

№2

Claude Opus 4.7

Anthropic

SWE-Bench Pro 第一，多文件重构最强。

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
多文件逻辑审查
代码漏洞捕获

64.3%

№3

Gemini 3.1 Pro

Google

LiveCodeBench 第一，算法竞赛最强。

LiveCodeBench Elo: 2887
1M 上下文全仓库分析
价格最低
算法竞赛最优

2887 Elo

TagsAgentic 编码多文件重构工具编排算法竞赛

Text-to-Speech

Texto para Voz

ElevenLabs continua sendo a referência da indústria em realismo de voz e clonagem; Hume AI lidera em voz emocional.

Previously: ElevenLabs v2

Líder atual

ElevenLabs v3

ElevenLabs

行业标杆级语音真实感。

Pontuação

9.2/10

01真实感评分 9.2/10
0275ms 超低延迟
0329+ 语言支持
04Professional Clone 质量
05企业级 API

Runners-up

№2

Hume AI Octave

Hume AI

情感 AI 语音第一。

情感识别 9.3/10
情感回应能力
共情交互
情绪感知精准

9.3/10

№3

GPT-4o Voice

OpenAI

实时对话体验最佳。

低延迟实时对话
自然语音输出
多语言实时翻译
与 ChatGPT 深度集成

Tags超低延迟情感语音语音克隆多语言

AI Music Generation

Geração de Música com IA

Suno v5.5 continua sendo a plataforma mais usada; ferramentas se diferenciam em velocidade, pós-produção e implantação empresarial.

Previously: Suno v5

Líder atual

Suno v5.5

Suno

使用最广泛的 AI 音乐平台。

01最广泛用户基础
02Studio 多轨编辑
03MIDI 导出
04最快出成品歌曲

Runners-up

№2

Udio v1.5

Udio

后期编辑与分轨控制最强。

分轨下载
混音控制
调性调整
专业后期编辑

№3

Lyria 3 Pro

Google DeepMind

企业 / API 部署最佳。

Vertex AI 输出
结构化生成
版权清晰
企业级部署

Tags多轨编辑MIDI 导出分轨控制版权安全

Vision Understanding

Compreensão Visual

GPT-4o Vision mantém a liderança em uso geral; Gemini Vision lidera em compreensão de vídeo e análise de documentos longos.

Líder atual

GPT-4o Vision

OpenAI

通用视觉理解最强。

01UI 界面解析
02图表理解
03实时视觉对话
04多模态融合

Runners-up

№2

Gemini Vision

Google

视频理解与长文档第一。

百万 token 长文档
视频理解领先
多帧分析
与搜索集成

№3

Qwen-VL

Alibaba

国产视觉模型第一。

中文场景优化
开源可商用
多模态推理
本地部署

Tags实时视觉长文档解析UI 解析多语言

Open Source

Código Aberto

Modelos open-source estão alcançando os closed-source em vários benchmarks. Llama 4, DeepSeek V4 e Qwen3 formam o primeiro escalão.

Previously: Llama 3

Líder atual

Llama 4

DeepSeek V4

DeepSeek

推理与代码能力全面进化的开源旗舰。

数学与推理能力显著提升
代码生成业界最强
MoE 架构高效
API 价格极低

№3

Qwen3

Alibaba

中文开源模型第一。

中文理解最强
多模态支持
Agent 能力
全尺寸覆盖

Tags多模态可商用本地部署低成本

Editorial · 06 observations

O que mudou este mês

What changed across the AI model landscape this month — distilled from the data above.

Do domínio único à competição de especialistas

Em 2026 a IA mudou de um modelo geral único para um paradigma 'escolha o modelo para a tarefa'. Cada nicho tem seu especialista; roteamento multi-modelo é agora a arquitetura padrão empresarial.

GPT-5.5 e Claude Opus 4.7 — a fronteira dupla

Lançados em 16 e 23 de abril de 2026 respectivamente, os dois agora definem o estado da arte. GPT-5.5 vence em codificação agente e uso de terminal; Claude vence em revisão de código e refatoração.

Contexto de 1M se torna o novo padrão

De 128K para 1M tokens — Gemini 3.1 Pro, Claude Opus 4.7 e GPT-5.5 agora suportam contexto de 1M+, tornando análise de repositório completo possível.

Open source alcança rapidamente

Llama 4, DeepSeek V4 e Qwen3 agora igualam closed-source em vários benchmarks por 1/10 do preço ou menos.

Modelos chineses domésticos rompem globalmente

Seedance 2.0 (vídeo), Qwen3 (open source), Kling 3.0 (vídeo) e Qwen-VL (visão) entraram no top três global em seus respectivos domínios.

Preços de API continuam caindo

Preços de LLM API caíram aproximadamente 80% em 2025-2026. Gemini 2.0 Flash a $0,10 / 1M tokens reduziu drasticamente a barreira para aplicações de IA.

Fontes

[01]
Artificial Analysisbenchmark
2026-04-29
[02]
LMArena Leaderboardcommunity leaderboard
2026-04-29
[03]
Hugging Face Open LLM Leaderboardcommunity leaderboard
2026-04-29
[04]
OpenAI Changelogofficial changelog
2026-04-29
[05]
Anthropic Newsofficial changelog
2026-04-29
[06]
Google DeepMind Blogofficial changelog
2026-04-29