欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:soraor.com

1、最贵!OpenAI重磅推出升级版AI模型o1-pro,生成价格是o1的十倍

OpenAI最近推出了新一代AI模型o1-pro,旨在提供更优质的推理能力,然而其高昂的定价引发了广泛关注。o1-pro的输入和生成价格分别是GPT-4.5和普通o1的两倍与十倍,尽管如此,OpenAI对其性能寄予厚望,认为其能够满足开发者对复杂任务的需求。

【AI摘要:】

💡 OpenAI推出新AI模型o1-pro,旨在提升推理能力。

💰 o1-pro的定价极高,输入费用是GPT-4.5的两倍,生成费用是普通o1的十倍。

🤔 早期用户反馈对o1-pro褒贬不一,但在编码和数学问题上表现更可靠。

2、运动可控!阶跃星辰 Step-Video-TI2V 图生视频模型开源

上海阶跃星辰智能科技有限公司推出的Step-Video-TI2V模型在图生视频领域具有显著的创新性。该模型基于30B参数的Step-Video-T2V,能够生成高质量的视频,并具备运动幅度和镜头运动的可控性,特别适合动画创作和短视频制作。通过优化生成一致性和动态性,该模型为创作者提供了更灵活的选择,能够满足多种尺寸和效果的需求。

image

【AI摘要:】

🚀 Step-Video-TI2V模型基于30B参数,能够生成5秒、540P分辨率的视频,具有运动幅度和镜头运动可控的特点。

🎨 该模型在动漫效果方面表现优异,适合动画创作和短视频制作,支持多种尺寸生成。

🔧 通过引入图像条件和AdaLN模块,提升了生成视频与原图的一致性和动态控制能力。

详情链接:https://yuewen.cn/videos

3、腾讯混元再出新动作!全新推理模型T1将于3月21日晚发布

腾讯混元宣布全新推理模型T1将于3月21日正式发布,这标志着其在人工智能大模型领域的技术迭代与产品升级。同时,腾讯混元大模型首次跻身Chatbot Arena全球Top15排行榜,显示出其技术实力已达到国际领先水平。外界期待T1模型在推理能力上的提升,进一步巩固腾讯在全球大模型竞争中的地位。

image

【AI摘要:】

🚀 腾讯混元将于3月21日发布全新推理模型T1,标志着技术升级。

🏆 腾讯混元大模型首次进入Chatbot Arena全球Top15排行榜,显示其技术实力。

🌍 外界期待T1模型在推理能力上的提升,巩固腾讯在全球竞争中的地位。

4、成本仅为十分之一!Open-Sora 2.0 开源视频 AI 实现商业级画质

HPC-AI Tech最近推出的Open-Sora2.0是一款革命性的视频AI系统,其训练成本仅为传统系统的十分之一,且输出质量媲美商业级产品。该系统通过三阶段训练过程和高效的自动编码器实现了显著的训练速度提升,尽管在分辨率和视频时长上存在一定限制。Open-Sora2.0的推出可能会对视频AI领域的成本结构产生深远影响,推动开源和商业系统之间的竞争。

image

【AI摘要:】

💡 Open-Sora2.0的训练成本仅为20万美元,远低于现有高质量视频生成系统的数百万美元成本。

⚙️ 该系统采用三阶段训练过程和视频DC-AE自动编码器,提供了5.2倍更快的训练速度和超过十倍的视频生成速度。

📈 Open-Sora2.0的VBench得分与OpenAI的Sora仅相差0.69%,在视觉质量和提示准确性等方面表现出色。

5、波士顿动力Atlas机器人再突破:动作能力逼近人类水平

波士顿动力公司近期展示了其人形机器人Atlas的最新动作能力,结合强化学习与动作捕捉技术,使Atlas能够自我学习并展现出更自然、更灵活的类人动作。这一技术突破被认为将推动人形机器人更贴近现实应用场景,尤其在工业、医疗和救援等领域的潜在应用。

【AI摘要:】

🤖 Atlas通过强化学习和动作捕捉技术,实现了更自然的类人动作。

🚀 这一技术突破提升了机器人在复杂环境中的适应性和协调性。

🌐 波士顿动力与RAI Institute的合作为人形机器人技术的商业化增添了更多可能性。

6、炸裂!人形机器人秀出“人类天花板”动作,宇树G1首个完成侧空翻,还敢叫板真人挑战!

宇树科技的G1人形机器人成功完成了高难度的侧空翻,并稳稳落地,标志着其在机器人运动能力方面的重大突破。这一成就不仅展示了G1的高可靠性和成功率,还引发了全球科技爱好者的广泛关注。为了进一步验证其能力,宇树科技还发起了“机器人侧空翻真人挑战赛”,鼓励人类挑战这一高难度动作,胜者将获得G1机器人或等值礼物。

【AI摘要:】

🤸‍♂️ 宇树科技的G1机器人成功完成侧空翻,成为全球首款实现此动作的人形机器人。

🏆 宇树科技发起“机器人侧空翻真人挑战赛”,鼓励人类挑战这一高难度动作。

🌍 比赛吸引了全球科技爱好者的关注,期待首位成功复刻机器人侧空翻的真人。

7、Adobe推“Project Slide Wow”项目,数据一键变身吸睛PPT

在Adobe的年度数字创新大会上,推出的“Project Slide Wow”项目引起了市场的广泛关注。这款生成式AI驱动的工具旨在将原始客户数据快速转化为引人入胜的PowerPoint演示文稿,极大地简化了数据分析师和市场营销人员的工作。通过自动生成高质量的幻灯片和内置智能助手,用户可以实时更新和调整演示内容,确保信息的准确性和时效性。

【AI摘要:】

✨ 生成式AI工具能将原始数据快速转化为高质量PPT,极大简化了制作过程。

🤖 内置智能助手可实时响应用户需求,提供额外可视化和动态幻灯片生成。

📊 具备实时数据更新能力,确保演示信息始终保持最新,提升企业决策效率。

8、Orpheus TTS:情感表达贴近人类的新一代TTS模型

Orpheus TTS是一款新推出的开源文本转语音模型,以其超低延迟和高情感表达能力引起了广泛关注。该模型在实时对话场景中表现出色,能够提供自然流畅的语音输出,极大提升了智能语音交互的体验。其开源特性也为开发者提供了更多的定制化可能性,未来有望在多个领域中成为标杆。

【AI摘要:】

超低延迟: 默认延迟约200毫秒,通过优化可压缩至25-50毫秒,满足实时对话需求。

🎭 情感表达: 语音输出自然流畅,支持丰富的语调变化,提升交互体验。

🎙️ 实时输出流: 支持流式音频生成,确保语音生成与输入同步,适用于多种场景。

详情链接:https://github.com/canopyai/Orpheus-TTS

9、LG开源EXAONE Deep模型,号称韩国首个自研推理AI模型

LG AI Research最近开源了EXAONE Deep推理AI模型,标志着AI进入了主动式AI的新纪元。该模型以320亿参数展现出卓越的推理能力,尤其在逻辑推理和数学领域表现出色,获得94.5分的高考数学成绩,堪比学霸。

image

【AI摘要:】

🧠 EXAONE Deep是韩国首个自研推理AI模型,具有独立制定假设和推理验证的能力。

📊 320亿参数的EXAONE Deep在逻辑推理和数学领域表现卓越,特别是在韩国高考中获得94.5分。

📱 LG还开源了轻量级和端侧模型,分别保持95%和86%的性能,适用于智能手机、汽车等多个行业。

详情链接:soraor.com

10、谷歌Chrome浏览器即将整合Gemini AI助手,操作更便捷!

在互联网科技迅速发展的背景下,谷歌Chrome浏览器即将推出Gemini AI助手的深度整合。这一功能将极大提升用户的在线体验,使得操作更加便捷。用户可以通过窗口前端的图标直接调用Gemini助手,享受自定义快捷键和系统托盘图标的支持,尽管目前不支持侧边栏固定模式。

【AI摘要:】

✨ Gemini AI助手将深度整合进Chrome浏览器,提升用户在线体验。

🔧 用户可通过窗口前端的图标快速调用Gemini助手,支持自定义快捷键。

🗣️ Gemini助手支持语音搜索等功能,但目前不支持侧边栏固定模式。