欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:soraor.com

1、OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

OpenAI重磅推出了三款新语音模型,分别为:gpt-4o-transcribe,gpt-4o-mini-transcribeandgpt-4o-mini-tts,其中gpt-4o-transcribe备受关注。该模型在语音转录领域表现出色,错误率显著降低,尤其在英语转录中达到了2.46%。此外,gpt-4o-transcribe支持多种复杂环境下的转录,并具备噪声消除和语义语音活动检测等技术。

image

【AI摘要:】

🔊 gpt-4o-transcribe的错误率在英语转录中低至2.46%,显著优于前代模型Whisper。

🌍 支持超过100种语言,并在嘈杂环境和不同口音下保持高准确性。

💻 开发者可通过API轻松集成新模型,推动语音交互应用的发展。

详情链接:soraor.com

2、快手搜索AI升级:DeepSeek R1全面接入,搜索体验迎来质变!

快手近期宣布其搜索功能全面接入DeepSeek R1大模型,这一举措旨在显著提升搜索效果和用户体验,推动用户活跃度的增长。同时,快手还在积极探索智能搜索场景的商业化潜力。通过整合DeepSeek,快手的AI内容创作平台“可灵AI”在视频和图片生成领域变得更加高效,用户能够更精细地控制创作过程,极大丰富了创作的可能性。

【AI摘要:】

🚀 快手的搜索功能已全面接入DeepSeek R1大模型,提升了搜索效果和用户体验。

💡 AI内容创作平台“可灵AI”整合DeepSeek后,用户能更高效地生成和优化提示词。

🎥 DeepSeek灵感版与快手的“灵感词库”深度联动,用户可精细控制创作的关键元素。

3、Claude推出网络搜索功能,提供实时信息与来源引用

Anthropic公司正在为其AI助手Claude添加网络搜索功能,以提供更及时的信息。与传统搜索引擎不同,Claude将搜索结果转化为对话式回答,并精确标注信息来源。这一功能目前仅向美国付费用户开放,并计划未来推广至其他国家和免费账户。

【AI摘要:】

🌐 Claude将在线搜索结果转化为对话式回答,并标注信息来源。

💰 目前网络搜索功能仅面向美国付费用户,未来计划推广至其他国家。

⚖️ 搜索机器人带来的流量下降对依赖访问量的网站构成挑战。

4、字节推文生图框架InfiniteYou :可保持人脸特征,场景随便换

字节跳动推出的InfiniteYou(InfU)是一款创新的图像生成工具,能够根据用户的文字描述生成高质量的个性化图像。其核心技术InfuseNet通过精细的训练策略,确保生成的图像在保留用户身份特征的同时,灵活变换场景与内容。

image

【AI摘要:】

🧑‍🚀 InfiniteYou是字节跳动推出的图像生成模型,能根据文本描述生成个性化图像。

🔧 核心技术InfuseNet通过精细训练,确保生成图像保留用户身份特征,同时灵活变换场景。

🌐 该工具与多种现有工具兼容,适合学术研究使用,需遵循相应的许可和法律规定。

详情链接:soraor.com

5、腾讯元宝功能上新 支持分析复杂Excel表格

腾讯元宝新推出的功能显著提升了用户处理Excel表格的便捷性。用户只需用自然语言提问,元宝便能快速读取数据并进行计算,甚至突出显示重要信息,简化了以往复杂的操作流程。即使是Excel新手也能轻松应对数据分析。

image

【AI摘要:】

📝 新功能允许用户用自然语言提问,简化Excel数据分析过程。

⚡ 混元Turbo S模型可快速处理复杂表格,提升分析效率。

📱 支持多平台操作,用户可随时随地上传和分析表格。

6、Krea AI发布“Video Training”功能 可以训练自己的专属视频风格

Krea AI近日推出了全新的“Video Training”功能,允许用户通过上传个人图像和视频素材来训练专属的AI视频风格模型。此功能基于Wan2.1模型,支持用户学习特定的艺术风格和动态动作,极大地提升了内容创作的个性化和灵活性。用户可以根据需求调整多个参数,生成的风格模型可直接应用于Krea Video平台。

【AI摘要:】

📹 用户可上传图像和视频素材,训练专属的AI视频风格模型。

⚙️ 提供灵活的操作体验,用户可调整训练参数以优化模型表现。

🌟 该功能为内容创作者打开了新的可能性,提升了创作效率。

详情链接:https://www.krea.ai/train

7、DomoAI推出语音图像生成数字人功能:数字内容创作迎来新突破

DomoAI推出的新功能允许用户通过上传语音和图像生成会说话的数字人,迅速引发热烈讨论,标志着数字内容创作的一次重要革新。该功能不仅支持口型同步,还能生成不同长度的短视频,尤其对中文支持表现出色,极大提升了创作灵活性和效率。

image

【AI摘要:】

🎤 用户可通过上传语音和图像快速生成会说话的虚拟人物,支持多种时长选择。

🚀 该功能生成速度快,中文支持表现出色,满足不同场景需求。

🎨 DomoAI的创新技术将降低内容创作门槛,推动AI与娱乐产业的深度融合。

详情链接:https://www.domoai.app/en/create/talking-avatar

8、Sider AI推出Deep Research功能:能自动模拟人类研究行为,还能生成可视化交互式报告

Sider AI最近推出的Deep Research功能引起了广泛关注,因其能够模拟人类研究行为并自动生成可视化报告。该功能通过实时笔记和透明的信息来源提升了研究效率,同时提供了用户更高的控制感。

image

【AI摘要:】

🤖 Deep Research功能能够模拟人类研究行为,自动访问网络信息并实时生成笔记。

📊 该功能在信息收集后,自动生成交互式可视化网页,包含图表和流程图等元素。

🔍 用户可通过浏览器扩展无缝整合自动化与手动研究,适用于多种研究场景。

详情链接:https://sider.ai/wisebase/deep-research

9、高中生利用《我的世界》搭建AI模型评测网站,全民参与评判模型优劣

随着人工智能技术的迅速发展,评估和比较生成式AI模型的能力成为了一大挑战。MC-Bench网站通过《我的世界》游戏提供了一种新颖的评测方式,用户可以在不知情的情况下对AI生成的建筑进行投票。这一创意不仅提高了公众参与度,还为AI模型的评估提供了直观的视觉体验。

image

【AI摘要:】

🎮 MC-Bench利用《我的世界》作为评测平台,让用户通过投票评估AI模型的表现。

👨‍🎓 该项目由一位高中生发起,吸引了多家顶尖AI公司的支持,展示了年轻人的创新能力。

🛠️ 未来MC-Bench可能扩展到更复杂的AI任务,成为测试AI推理能力的有效工具。

详情链接:soraor.com

10、谷歌前科学家出品!Reka开源Reka Flash3,能力超Gemma327B

Reka AI最近推出了其首个开源模型Reka Flash3,这款拥有210亿参数的通用推理模型在业内引起了广泛关注。尽管参数量不如一些竞争对手,但其从零开始训练的特性和深度优化使其在性能上表现出色。Reka Flash3不仅具备强大的推理能力,还支持低延迟和设备友好的部署,适合多种终端使用。

image

【AI摘要:】

🚀 Reka Flash3是由前谷歌DeepMind科学家创办的Reka AI推出的开源模型,拥有210亿参数,性能超越许多大型模型。

💡 该模型具备强大的推理能力,支持复杂问题解答和多步推理,适合各种创新应用场景。

📱 Reka Flash3低延迟且设备部署友好,未来可能在手机等终端设备上直接提供便捷服务。

详情链接:soraor.com

11、生数科技Vidu获得7部千万级网文IP概念短片改编授权

北京生数科技有限公司的AI视频生成平台Vidu近日获得了7部千万级网文IP的短片改编授权,标志着国内动漫短剧市场的又一发展里程碑。这些作品涵盖奇幻、科幻、江湖和都市情感等多种题材,具有广泛的受众基础和强大的影视化潜力。

【AI摘要:】

🎬 Vidu获得7部千万级网文IP短片改编授权,涵盖多种题材。

⚙️ AI技术能够自动化生成剧本和视频画面,大幅提升制作效率。

⏱️ 制作周期从数月缩短至几周甚至几天,解决传统改编成本高的问题。

12、全球首款儿科大模型问世,助力儿童医疗服务升级

在医疗科技迅速发展的背景下,百川智能与北京儿童医院及小儿方健康联合推出了全球首个儿科大模型——“福棠・百川”,该模型不仅涵盖儿童常见病及疑难病症的知识体系,还具备强大的临床推理能力,旨在提供科学、个性化的诊疗方案。通过首创的儿科“循证模式”,医生可以基于科学依据进行临床决策,从而提升医疗服务质量。此外,百川智能还推出了“AI儿科医生”应用,结合国家区域医疗中心,推动人工智能在基层儿科医疗中的应用。

【AI摘要:】

🧠 该模型覆盖儿童常见病和疑难病症,具备强大的临床推理能力。

📊 首创儿科“循证模式”,整合最佳医学证据指导临床决策。

🏥 推出“AI儿科医生”应用,助力基层医院提升儿科医疗服务。