字节跳动旗下火山引擎,发布豆包大模型1.6、视频生成模型Seedance 1.0 pro、豆包·语音播客模型等一系列新模型,并升级了Agent开发平台等AI云原生服务。
豆包大模型1.6
豆包1.6-thinking模型在多个权威测评集上达到全球第一梯队水平:GPQA Diamond测试成绩达到81.5分,是目前最好的推理模型之一;数学测评AIME25成绩达到86.3分,相比豆包1.5深度思考模型大幅提升12.3分。
豆包大模型1.6系列均支持深度思考、多模态理解、256k长上下文、图形界面操作等能力,能够更好地支持复杂Agent的构建,促进AI生产力的提升。
多模态理解能力提升
多模态理解的核心是“让模型像人一样理解世界”。豆包大模型1.6全系列均原生支持多模态思考能力,让模型可以理解和处理真实世界的问题。
该能力支持了豆包 APP 最新的实时视频通话功能,在企业端可广泛应用于电商商品审核、自动驾驶标注、安全巡检等场景。
目前,豆包大模型1.6系列已在火山引擎上线,企业和开发者可调用API体验。
豆包·视频生成模型Seedance 1.0 pro
Seedance 1.0 pro支持文字与图片输入,可生成多镜头无缝切换的1080p高品质视频,主体运动稳定性与画面自然度较高。在国际知名评测榜单Artificial Analysis上,Seedance 1.0 pro在文生视频、图生视频两个任务的表现均排名首位。
- 输入类型:支持文本、图像、视频、音频
- 输出类型:生成视频(支持 Text-to-Video 与 Image-to-Video)
- 分辨率支持:480p、1080p
- 帧率:24fps
- 时长:5秒或10秒
核心技术亮点
🧩 多镜头叙事能力
- 原生支持连续“多镜头视频”生成
- 通过多模态交织的位置编码与统一建模结构;
- 实现时空切换中视觉一致性、情节连贯性。
🕺 高度真实的运动表现
- 基于自研的精细数据集和奖励机制;
- 使用 RLHF(Reinforcement Learning from Human Feedback)技术优化生成质量;
- 实现从微表情到动作场景的高保真模拟。
🎯 指令遵循能力
- 精准解析多主体、多动作组合;
- 高度匹配文本描述,控制“运镜”行为;
- 支持复杂叙事结构的视频任务。
🎨 多风格视频输出
支持以下风格控制词(prompt风格):
- 油画、毛毡、水彩、3D卡通、水墨、粘土、像素、蒸汽朋克、素描等。
计费与限流
- 价格:15元 / 百万token(文生与图生同价)
- 并发限制:每主账号最多10个并发请求
限流阈值:每分钟最多600个创建请求(RPM)
关于Seedance 1.0 pro的更多技术细节,详见项目主页(可查看完整技术报告)
豆包·语音播客模型
全新发布的豆包·语音播客模型源于端到端实时语音的进一步拓展,能够实现从文本创作到双人对话式播客作品的秒级生成,同时具备互相附和、插话、犹豫等自然的播客元素生成,达到了媲美真人的生成效果。
你可以在扣子空间 体验语音播客相关功能。同时,豆包产品已启动小流量测试,近期将全量上线播客模型。