欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:soraor.com
1、全球首款通用智能体爆火,Manus邀请码被炒至5万
全球首款通用智能体Manus引发了科技圈的广泛关注。Manus具备独立思考和执行复杂任务的能力,能够交付完整成果,展现出强大的通用性。它不仅能处理日常事务,还能进行深入市场调研、个性化旅行规划等多种任务。在二手交易市场,Manus邀请码价格从999元到5万元不等,甚至有的卖家表示不接受还价,显示出该产品的稀缺性。
【AI摘要:】
🚀 Manus具备独立思考和执行复杂任务的能力,展现出强大的通用性和执行力。
📊 在多个领域如市场调研、旅行规划等,Manus的应用案例显示出其实用性和高效性。
🏆 Manus在GAIA基准测试中创下新纪录,技术性能远超同类产品,证明其领先地位。
详情链接:https://manus.im/
2、阿里新开源推理大模型QwQ-32B,性能媲美DeepSeek-R1、显存需求更小
阿里巴巴的Qwen团队推出了开源大型语言模型QwQ-32B,旨在通过强化学习提升其在复杂问题解决任务中的性能。该模型以320亿参数和131072tokens的扩展上下文长度为基础,能够在数学和编程等基准测试中与更大参数的模型相媲美,同时显存需求更低。
【AI摘要:】
🚀 QwQ-32B采用强化学习技术,提升复杂问题求解能力。
💡 在数学、编程等基准测试中表现与更大参数模型相当,显存需求更低。
🧠 具备扩展上下文长度和agentic capabilities,未来将继续探索强化学习的潜力。
详情链接:https://qwenlm.github.io/blog/qwq-32b/
3、OpenAI宣布GPT-4.5逐步面向所有ChatGPT Plus用户开放
OpenAI近期宣布,最新的人工智能模型GPT-4.5将逐步向ChatGPT Plus用户开放。尽管该模型在对话能力上有显著提升,但在复杂推理方面仍存在不足。使用成本高达每百万tokens150美元,引发了对其广泛采用的担忧。
【AI摘要:】
💬 GPT-4.5是OpenAI最新推出的最大人工智能模型,将逐步向ChatGPT Plus用户开放。
⚖️ 尽管GPT-4.5在对话能力上有显著提升,但在复杂推理方面仍存在不足。
💰 使用GPT-4.5的成本高达每百万tokens150美元,引发了对其广泛采用的担忧。
4、豆包上线深度推理模式:AI逻辑链条可视化,问答搜索新突破
字节跳动为其AI助手豆包推出的“深度思考”推理模式,通过可视化的逻辑链条,提升了用户对AI的信任度和透明性。这项技术基于豆包1.5模型,结合深度推理模型的技术突破,增强了AI的智能化和人性化,预示着在问答、搜索、写作和阅读领域的广阔前景。
【AI摘要:】
🔍 深度思考模式通过展示AI的完整逻辑链条,提升了用户的交互体验。
🤖 该模式基于豆包1.5模型,利用RL算法和工程优化,增强了AI的智能化。
📈 新功能预示着AI在各领域的广阔发展前景,用户体验得到了显著提升。
5、LTX-Video0.9.5发布:支持商用许可 开源AI视频生成迈向新高度
LTX-Video0.9.5版本的发布标志着开源AI视频生成技术的重大进步。它不仅支持商用许可,允许企业和个人开发者在商业项目中应用该模型,还引入了关键帧条件支持,提升了视频生成的灵活性和质量。此外,模型在分辨率和生成速度上也有显著提升,进一步满足了复杂叙事的需求。
【AI摘要:】
🌟最大亮点是支持商用许可,拓宽了应用前景。
🎥 引入关键帧条件支持,提升视频生成灵活性。
📈 显著提升分辨率和生成速度,满足复杂叙事需求。
6、文本转语音系统Spark-TTS:支持零样本语音克隆与细粒度控制
Spark-TTS是一款先进的文本转语音系统,凭借其零样本语音克隆和细粒度语音控制能力,引发了AI社区的广泛关注。该系统基于Qwen2.5构建,简化了音频生成流程,提高了效率,并支持多语言生成,尤其适合有声读物制作。其技术架构采用BiCodec单流语音编解码器,确保语音质量自然且可控,用户可根据需求调整语音特性。
【AI摘要:】
🎤 零样本语音克隆:无需特定训练数据即可生成说话者声音,适合个性化应用。
⚙️ 细粒度语音控制:用户可精确调整语速和音高,满足不同需求。
🌍 跨语言生成:支持多种语言,保持高自然度和准确性,扩展全球适用性。
详情链接:https://github.com/SparkAudio/Spark-TTS
7、谷歌发布Whisk Animate预览版:将图像转化为8秒动画短片
谷歌在其实验性AI平台Google Labs中推出了Whisk Animate的预览版,允许用户利用先进的Veo2模型将静态Whisk图像转化为8秒的动态视频剪辑。这一新功能迅速引发社交媒体上的热议,用户反馈积极,展示了其在创意产业中的潜力。Whisk Animate的推出标志着从静态设计到动态内容的转化变得更加简单高效,进一步巩固了谷歌在生成式AI领域的竞争优势。
【AI摘要:】
🎥 Whisk Animate利用Veo2模型将静态图像转化为8秒动态视频,展示了动画生成的灵活性。
🌟 用户反馈积极,一些早期测试者称其为“非常惊艳”,显示出其在创作中的潜力。
🖼️ Whisk Animate的推出为创意产业提供了新的工具,简化了短视频创作和广告设计的过程。
8、Cohere发布全新多模态AI模型Aya Vision,提供32B和8B两个版本
Cohere的非营利研究实验室推出的Aya Vision是一款领先的多模态AI模型,能执行多种语言和视觉任务。该模型通过WhatsApp免费提供,旨在促进全球研究人员的技术获取。Aya Vision有两个版本,32B和8B,表现超越更大体量的竞争模型。此外,Cohere还推出了新的基准评估工具AyaVisionBench,以应对当前AI行业的评估危机。
【AI摘要:】
🌟 Aya Vision模型被Cohere称为行业最佳,能够执行多种语言和视觉任务。
💡 Aya Vision有两个版本,分别为32B和8B,表现超越体量更大的竞争模型。
🔍 Cohere还发布了新的基准评估工具AyaVisionBench,旨在改善AI模型评估问题。
详情链接:https://cohere.com/blog/aya-vision
9、抖音集团拟寻求AI数据标注供应商
抖音集团于3月6日发布公告,招募优质AI数据标注供应商,以满足其快速增长的业务需求。此次招募主要面向拥有丰富垂直资源的企业,特别是在医疗、法律和教育等领域。参与公司需为独立法人,注册资本不低于100万元,并具备良好社会信誉,且不接受联合体报名。这一战略布局旨在提升内容质量与数据服务能力,推动行业竞争与创新。
【AI摘要:】
🌟 抖音集团招募AI数据标注供应商,注册资本要求不低于100万元。
📄 报名企业需为独立法人,具备良好社会信誉,不接受联合体报名。
🚀 招募旨在满足抖音在AI数据标注领域的快速增长需求,推动行业发展。
10、OpenAI推出 “博士级” AI代理,月费高达2万美元
OpenAI最近宣布推出一款名为“博士级”的AI代理,旨在满足金融、医疗和制造等行业的高端需求。该AI代理的月费高达2万美元,提供多种服务类型,定价依据产品为客户创造的经济价值。尽管高昂的费用引发了一些调侃,但OpenAI显然将目标客户锁定在大型企业,而非个人用户。
【AI摘要:】
💰 该AI代理的月费在2000美元到2万美元之间,定价依据其为客户创造的经济价值。
🏢 OpenAI将目标客户锁定在大型企业,允许企业按员工席位支付费用,降低使用门槛。
✈️ AI代理旨在通过最少人类干预自动完成任务,例如自动查找航班信息并完成支付。
11、苹果App Store即将推AI生成应用评论摘要,轻松获取用户反馈
苹果公司宣布将在即将发布的iOS18.4中引入AI生成的应用评论摘要功能。该功能旨在为用户提供简要的应用评论汇总,帮助他们快速获取应用的亮点和关键信息。摘要将由大型语言模型生成,并每周更新一次,初期将在美国App Store上线。
【AI摘要:】
🌟 苹果将在iOS18.4中推出AI生成的应用评论摘要功能,帮助用户快速了解应用反馈。
🔄 这些摘要将每周更新,初期在美国App Store上线,适用于英语评论数量足够的应用。
⚠️ 该功能可能面临被不良商家利用的风险,影响评论的真实性和公正性。
12、IBM 推出小型AI模型 Granite3.2,强调高效推理与实用性
IBM最近推出了Granite3.2大型语言模型,专注于为企业和开源社区提供高效、实用的人工智能解决方案。该模型具备多模态和推理能力,提升了灵活性和成本效益,特别是在文档处理和数据提取方面表现出色。Granite3.2还引入了思维链功能和小型化的安全模型Granite Guardian,确保在降低成本的同时保持高性能。
【AI摘要:】
📊 Granite3.2引入视觉语言模型,提升文档处理与数据提取能力。
💡 新模型具备思维链功能,能够阐明推理过程,增强推理能力。
🔍 Granit Guardian 安全模型小型化30%,但性能未受影响,同时推出可言语化信心的风险评估功能。
详情链接:https://www.ibm.com/new/announcements/ibm-granite-3-2-open-source-reasoning-and-vision