VOL. 2026ISSUE 04Diperbarui per 2026-04-29

Leaderboard Bulanan LLM

Delapan kategori. Dua puluh empat model unggulan. Diperbarui bulanan. Dengan kutipan ramah AI.

8
categories
24
models
6
sources
Bagikan edisi iniXLinkedIn
01
Text Generation & Reasoning

Pembuatan Teks & Penalaran

2026 memasuki era tiga raksasa — tidak ada model dominan tunggal, pilihan terbaik bergantung pada tugas yang dihadapi.

Previously: GPT-5.4

Pemimpin saat ini
GPT-5.5
OpenAI

4 月 23 日发布,首个全量重训基础模型。

Skor
89
  • 01Terminal-Bench 2.0: 82.7%
  • 02OSWorld-Verified: 78.7%
  • 03GDPval: 84.9%
  • 04ARC-AGI-2: 85.0%
  • 05100 万 token 上下文
Runners-up
2

Claude Opus 4.7

Anthropic

4 月 16 日发布,长上下文与代码审查最强。

  • SWE-Bench Pro: 64.3%
  • MCP-Atlas: 79.1%
  • 多步推理最稳定
  • 代码逻辑审查最细致
  • 100 万 token 上下文
86
3

Gemini 3.1 Pro

Google

预览中,数学与算法竞赛最强。

  • LiveCodeBench Elo: 2887
  • 100 万 token 上下文
  • 价格最低($2/$12)
  • 视频理解领先
  • 性价比最高
~85
Tags1M Token 上下文Agentic 工作流多模态理解
02
Text-to-Image

Teks ke Gambar

GPT Image-2 mengambil takhta dengan akurasi rendering teks 99,2%, sementara Nano Banana 2 mempertahankan keunggulan dalam pembuatan real-time.

Previously: Nano Banana 2

Pemimpin saat ini
GPT Image-2
OpenAI

文本渲染准确率最高。

Skor
99.2%
  • 01文本渲染准确率 99.2%
  • 02支持中文 / 阿拉伯语
  • 03空间逻辑与解剖正确性
  • 04角色一致性
  • 05Thinking Mode 推理引擎
Runners-up
2

Nano Banana 2

Google

极速 4K 生成,实时联网搜索。

  • Flash 架构极速生成
  • 4K 图像 4-15 秒
  • 实时联网搜索集成
  • 速度最快
  • 与 Gemini 生态深度集成
4-15s
3

Flux Pro

Black Forest Labs

开源生态最强。

  • 开源可商用
  • 社区生态丰富
  • 风格多样性
  • 本地部署能力
Tags4K 生成多语言文本角色一致性实时生成
03
Text-to-Video

Teks ke Video

Sora 2 telah keluar; Google Veo 3.1 kini memimpin kemampuan keseluruhan, sementara Seedance 2.0 dan Kling 3.0 memimpin di niche tertentu.

Previously: Sora 2

Pemimpin saat ini
Veo 3.1
Google

原生音频 + 多镜头,综合实力最强。

  • 01原生音频生成
  • 02多镜头叙事
  • 03物理模拟优秀
  • 04与 YouTube 生态集成
Runners-up
2

Seedance 2.0

ByteDance

多镜头故事板能力最强。

  • 多镜头故事板
  • 镜头语言专业
  • 国产模型代表
  • 抖音生态集成
3

Kling 3.0 Omni

Kuaishou

电影级画质 + 对口型最强。

  • 电影级画质
  • 对口型最精准
  • 快手生态集成
  • 中文场景优化
Tags原生音频多镜头叙事电影级画质对口型
04
Code Generation

Pembuatan Kode

GPT-5.5 merebut kembali kepemimpinan dalam coding agen-terminal; Claude Opus 4.7 masih menguasai refactoring multi-file dan orkestrasi tool.

Previously: Claude Opus 4.6

Pemimpin saat ini
GPT-5.5
OpenAI

Terminal-Bench 2.0 第一,Agentic 编码最强。

Skor
82.7%
  • 01Terminal-Bench 2.0: 82.7%
  • 02Expert-SWE: 73.1%
  • 03自主编码判断力
  • 04相同任务 token 更少
Runners-up
2

Claude Opus 4.7

Anthropic

SWE-Bench Pro 第一,多文件重构最强。

  • SWE-Bench Pro: 64.3%
  • MCP-Atlas: 79.1%
  • 多文件逻辑审查
  • 代码漏洞捕获
64.3%
3

Gemini 3.1 Pro

Google

LiveCodeBench 第一,算法竞赛最强。

  • LiveCodeBench Elo: 2887
  • 1M 上下文全仓库分析
  • 价格最低
  • 算法竞赛最优
2887 Elo
TagsAgentic 编码多文件重构工具编排算法竞赛
05
Text-to-Speech

Teks ke Suara

ElevenLabs tetap menjadi tolok ukur industri untuk realisme suara dan kloning; Hume AI memimpin dalam suara emosional.

Previously: ElevenLabs v2

Pemimpin saat ini
ElevenLabs v3
ElevenLabs

行业标杆级语音真实感。

Skor
9.2/10
  • 01真实感评分 9.2/10
  • 0275ms 超低延迟
  • 0329+ 语言支持
  • 04Professional Clone 质量
  • 05企业级 API
Runners-up
2

Hume AI Octave

Hume AI

情感 AI 语音第一。

  • 情感识别 9.3/10
  • 情感回应能力
  • 共情交互
  • 情绪感知精准
9.3/10
3

GPT-4o Voice

OpenAI

实时对话体验最佳。

  • 低延迟实时对话
  • 自然语音输出
  • 多语言实时翻译
  • 与 ChatGPT 深度集成
Tags超低延迟情感语音语音克隆多语言
06
AI Music Generation

Pembuatan Musik AI

Suno v5.5 tetap menjadi platform yang paling banyak digunakan; tool-tool berbeda dalam kecepatan, pasca-produksi, dan deployment enterprise.

Previously: Suno v5

Pemimpin saat ini
Suno v5.5
Suno

使用最广泛的 AI 音乐平台。

  • 01最广泛用户基础
  • 02Studio 多轨编辑
  • 03MIDI 导出
  • 04最快出成品歌曲
Runners-up
2

Udio v1.5

Udio

后期编辑与分轨控制最强。

  • 分轨下载
  • 混音控制
  • 调性调整
  • 专业后期编辑
3

Lyria 3 Pro

Google DeepMind

企业 / API 部署最佳。

  • Vertex AI 输出
  • 结构化生成
  • 版权清晰
  • 企业级部署
Tags多轨编辑MIDI 导出分轨控制版权安全
07
Vision Understanding

Pemahaman Visual

GPT-4o Vision mempertahankan kepemimpinan tujuan umum; Gemini Vision memimpin dalam pemahaman video dan parsing dokumen panjang.

Pemimpin saat ini
GPT-4o Vision
OpenAI

通用视觉理解最强。

  • 01UI 界面解析
  • 02图表理解
  • 03实时视觉对话
  • 04多模态融合
Runners-up
2

Gemini Vision

Google

视频理解与长文档第一。

  • 百万 token 长文档
  • 视频理解领先
  • 多帧分析
  • 与搜索集成
3

Qwen-VL

Alibaba

国产视觉模型第一。

  • 中文场景优化
  • 开源可商用
  • 多模态推理
  • 本地部署
Tags实时视觉长文档解析UI 解析多语言
08
Open Source

Sumber Terbuka

Model open-source mengejar cepat closed-source di beberapa benchmark. Llama 4, DeepSeek V4, dan Qwen3 membentuk tier pertama.

Previously: Llama 3

Pemimpin saat ini
Llama 4
Meta

开源生态最完善。

  • 01多模态支持
  • 02社区生态最大
  • 03可商用许可
  • 04多尺寸选择
Runners-up
2

DeepSeek V4

DeepSeek

推理与代码能力全面进化的开源旗舰。

  • 数学与推理能力显著提升
  • 代码生成业界最强
  • MoE 架构高效
  • API 价格极低
3

Qwen3

Alibaba

中文开源模型第一。

  • 中文理解最强
  • 多模态支持
  • Agent 能力
  • 全尺寸覆盖
Tags多模态可商用本地部署低成本
Editorial · 06 observations

Yang berubah bulan ini

What changed across the AI model landscape this month — distilled from the data above.

01

Dari dominasi tunggal ke kompetisi spesialis

Pada 2026 AI bergeser dari satu model tujuan umum ke paradigma 'pilih model untuk tugas'. Setiap niche memiliki spesialisnya; routing multi-model kini menjadi arsitektur standar enterprise.

02

GPT-5.5 dan Claude Opus 4.7 — frontier ganda

Diluncurkan pada 16 dan 23 April 2026 secara berurutan, keduanya kini menentukan ujung tombak. GPT-5.5 menang pada coding agentik dan penggunaan terminal; Claude menang pada review kode dan refactoring.

03

Konteks 1M menjadi standar baru

Dari 128K ke 1M token — Gemini 3.1 Pro, Claude Opus 4.7, dan GPT-5.5 kini mendukung konteks 1M+, memungkinkan analisis repositori penuh.

04

Open source mengejar cepat

Llama 4, DeepSeek V4, dan Qwen3 kini menyamai closed-source di beberapa benchmark dengan 1/10 harga atau kurang.

05

Model Tiongkok domestik menembus global

Seedance 2.0 (video), Qwen3 (open source), Kling 3.0 (video), dan Qwen-VL (vision) semuanya masuk top tiga global di domain masing-masing.

06

Harga API terus turun

Harga LLM API telah turun sekitar 80% pada 2025-2026. Gemini 2.0 Flash dengan $0,10 / 1M token secara dramatis menurunkan barrier untuk aplikasi AI.

Sumber
  1. [01]
  2. [02]
    LMArena Leaderboardcommunity leaderboard
  3. [03]
  4. [04]
    OpenAI Changelogofficial changelog
  5. [05]
    Anthropic Newsofficial changelog
  6. [06]
    Google DeepMind Blogofficial changelog
预约 demo