欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:soraor.com
1、腾讯混元推出5个开源3D模型:30秒生成,兼容多平台
腾讯混元宣布推出五个全新开源3D生成模型,基于Hunyuan3D-2.0,具备更快的生成速度和更丰富的细节。Turbo系列模型利用FlashVDM框架实现生成加速,缩短至30秒内完成。升级后的3D AI创作引擎支持多视图输入,用户可通过上传少量图片快速生成高质量3D模型,降低制作成本。新模型广泛应用于UGC、商品素材合成和游戏资产生成,满足游戏3D资产标准。
【AI摘要:】
⚡ Turbo系列模型通过FlashVDM框架实现数十倍加速,生成时间缩短至30秒。
🖼️ Hunyuan3D-2-MV模型能更好地捕捉细节,生成符合用户预期的3D资产。
🛠️ 升级后的引擎支持多视图输入,用户只需上传2-4张图片即可快速生成高质量3D模型。
2、Anthropic发布MCP传输机制重大升级:告别长连接,迎接更灵活的Streamable HTTP
Anthropic对Model Context Protocol(MCP)进行了重大更新,推出了Streamable HTTP传输方式,取代了传统的HTTP+SSE方案。这一创新解决了MCP远程传输的关键限制,提升了灵活性和兼容性。新机制允许客户端与服务器之间更高效的双向通信,支持无状态服务器运行,简化了部署流程,并提高了系统的可扩展性。
【AI摘要:】
🚀 移除专用的/sse端点,所有消息通过统一的/message端点传输,简化了通信流程。
🔄 服务器可动态将HTTP请求升级为SSE流,支持灵活的双向通信,解决了SSE的单向限制。
🌐 新方案兼容性大幅提升,适用于各种网络基础设施,支持无状态模式,降低了资源消耗。
详情链接:https://github.com/modelcontextprotocol/specification/pull/206
3、生数科技Vidu将打造首部海外AI原创科幻动漫剧集
生数科技有限公司与Aura Productions达成战略合作,计划推出首部海外AI原创科幻动漫剧集。这一合作标志着AI技术在动漫制作中的应用,开启了动漫行业新的篇章。双方将共同制作50集短篇科幻动漫系列,利用Vidu的先进视频生成技术,提升制作效率和质量,预示着未来动漫创作将更加智能化和高效化。
【AI摘要:】
🚀 合作推出50集短篇科幻动漫系列,计划在全球主流社交媒体平台发布。
🤖 Vidu的多主体一致性功能确保角色与场景的无缝融合,实现高质量动画叙事。
⏱️ Vidu2.0版本大幅提升视频生成效率,能在10秒内快速生成高质量视频。
4、谷歌云重磅推出高清语音模型 Chirp3,支持248种声音
谷歌云在伦敦的DeepMind总部推出了高清语音模型Chirp3,旨在为开发者提供强大的语音合成工具。该模型支持248种不同的声音和31种语言,能够帮助开发者创建智能语音助手、有声读物和视频配音等应用。为了确保负责任的使用,谷歌限制了语音克隆功能的访问权限,并重申了对数据隐私的承诺。
【AI摘要:】
🌟 谷歌云推出Chirp3语音模型,支持248种声音和31种语言,助力开发者构建智能应用。
🔒 谷歌限制语音克隆功能的访问权限,以确保伦理AI的实践和防止滥用。
💼 谷歌发起计划提升英国AI技能,并向初创企业提供云基础设施支持,促进创新。
详情链接:https://cloud.google.com/text-to-speech/docs/chirp3-hd
5、马斯克xAI收购视频生成初创公司Hotshot,AI视频领域竞争再升级
埃隆·马斯克旗下的xAI公司收购了视频生成AI初创公司Hotshot,标志着其在多模态AI技术领域的进一步扩展。Hotshot以其独特的技术优势和强大的算力支持,致力于提升视频生成能力。
【AI摘要:】
🤖 Hotshot专注于AI视频生成,利用600万个视频片段进行训练,提升了模型理解视频内容的能力。
⚙️ 收购后,Hotshot将继续扩大视频生成器的开发,利用xAI的Colossus超级计算机的强大算力。
💼 此次收购标志着马斯克在AI技术领域的进一步布局,预示着AI视频生成技术将迎来新一轮的突破。
6、Roblox开源Cube3D:首个基础AI模型实现3D对象生成
Roblox近日推出并开源了Cube3D,这是其首个用于生成3D对象的基础AI模型,旨在提升3D创作效率。该模型通过创新的训练方法,将3D对象标记化,能够快速生成完整的3D形状。未来,Cube3D将发展为一个多模态模型,支持多种输入类型,包括文本、图像和视频,进一步增强与Roblox现有AI创作工具的整合。
【AI摘要:】
🛠️ Cube3D是Roblox首个开源的3D对象生成AI模型,旨在提高开发者的创作效率。
🔍 该模型通过创新的训练方法,能够将3D对象标记化并预测下一个形状,快速构建完整的3D对象。
🌐 Roblox计划将Cube3D发展为多模态模型,未来将支持文本、图像和视频输入,增强创作工具的功能。
7、Zoom AI助手AI Companion功能升级
Zoom公司最近宣布了其AI助手Zoom AI Companion的新一轮功能升级,标志着这一工具的演变,旨在提升用户在视频会议中的互动体验和工作效率。新功能包括自动识别和完成待办事项的Zoom Tasks、转录线下对话的新语音录音器、以及定制AI助手等,预计将显著增强用户的生产力和协作能力。
【AI摘要:】
🌟 Zoom Tasks功能可以自动识别会议中的待办事项并完成相关任务。
🗣️ 新语音录音器能够转录线下对话并提供实时会议笔记。
📅 定制AI助手功能将于4月推出,用户可根据需求定制功能。
8、128K超长记忆!Mistral最新开源模型Mistral Small3.1登场,参数方面优于 GPT-4o Mini
Mistral AI发布了开源模型Mistral Small3.1,凭借240亿参数的设计,其性能可与谷歌和OpenAI的产品相媲美。该模型在文本处理和多模态理解上有显著提升,支持128k tokens的上下文窗口,处理速度达到每秒150个tokens。
【AI摘要:】
🌟 Mistral Small3.1具备240亿参数,性能媲美谷歌和OpenAI的同类产品,推动AI市场竞争。
📈 该模型支持128k tokens的上下文窗口,处理速度高达每秒150个tokens,适用于长文档和快速响应场景。
🌍 Mistral采取开源策略,发布Apache2.0许可证,强调欧洲数字主权,吸引全球开发者参与创新。
详情链接:soraor.com
9、谁说视频只能“一镜到底”?字节创新技术LCT,让AI像导演一样拍摄电影大片!
长上下文调整(LCT)技术的出现,极大提升了AI生成视频的叙事能力,使其能够像电影导演一样自由切换镜头,构建更连贯的故事场景。通过引入全注意力机制、交错的3D位置嵌入和异步噪声策略,LCT解决了多镜头生成中的视觉一致性和时间动态问题。
【AI摘要:】
🎥 LCT技术使AI视频生成模型能够执导多镜头叙事视频,提升叙事能力。
🔍 通过全注意力机制和交错的3D位置嵌入,LCT确保视觉一致性和时间动态。
🚀 LCT支持自回归镜头扩展,便于长视频创作和交互式修改。
详情链接:soraor.com
10、32B参数的“逆袭”!OLMo232B横空出世,叫板GPT-3.5Turbo
OLMo232B是艾伦人工智能研究所发布的最新大型语言模型,凭借320亿参数和完全开源的特性,挑战了许多专有模型。通过精细的训练过程,OLMo232B在多项基准测试中超越了GPT-3.5Turbo和GPT-4o mini,展现出卓越的性能和更高的训练效率。
【AI摘要:】
🌐 OLMo232B是完全开源的语言模型,公开了所有数据、代码和训练过程,促进全球研究合作。
📈 该模型拥有320亿参数,在多项基准测试中超越了GPT-3.5Turbo,证明了开源模型的强大实力。
⚡ OLMo232B在训练效率上表现优异,仅使用三分之一的计算资源,展现出高效的AI开发潜力。
详情链接:https://github.com/allenai/OLMo-core