欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:soraor.com

1、Anthropic旗下ClaudeAI推出桌面客户端

Anthropic公司推出了AI聊天机器人Claude的桌面应用程序,提升用户体验,使用户能更便捷地与Claude互动。同时,移动端应用也新增了语音输入功能,增强用户交互体验。

image

【AI摘要:】

🚀 提升用户体验,推出桌面应用程序,方便用户与Claude互动。

🎤 移动端应用新增语音输入功能,用户可以通过语音与Claude交流。

💻 竞争对手如ChatGPT和Perplexity已推出桌面应用,Anthropic公司保持竞争力。

详情链接:https://claude.ai/download

2、OpenAI公司推出ChatGPT search搜索功能

OpenAI公司推出了名为ChatGPT search的新功能,用户可以通过对话界面快速获取最新的网络搜索结果,无需跳转到传统搜索引擎,提供实时信息如体育比分、新闻、股票报价等。该功能简化了用户获取有用答案的过程,使用户可以以自然、对话的方式提问,并获得更好的答案。

【AI摘要:】

🔍 ChatGPT search功能让用户通过对话界面快速获取最新网络搜索结果,提供实时信息如体育比分、新闻、股票报价等。

🔄 用户可以选择让ChatGPT搜索网络或手动点击搜索图标进行搜索,使获取信息更便捷。

🌐 OpenAI与新闻和数据提供商合作,为搜索结果添加最新信息和新的视觉设计,强调归因可信新闻源的信息,扩大出版商的影响力。

3、谷歌 Gemini API 推出 “连接实时搜索” 功能 提升AI响应准确性

谷歌 AI 工作室与 Gemini API联合推出了“与谷歌搜索的实时连接”功能,旨在帮助开发者提升AI模型的响应准确性。这一功能能从谷歌搜索中获取最新信息,减少虚假信息,提供透明且最新的回答。同时支持动态检索,开发者可根据需要灵活激活实时数据检索,提高回答质量。

image

【AI摘要:】

🌐 新功能 “与谷歌搜索的实时连接” 旨在提高AI模型的响应准确性。

💰 Gemini API定价为每1000个查询35美元,支持实时数据检索。

🔄 开发者可根据需求灵活激活实时数据检索,提高回答质量。

4、带图层的AI生图软件来了!Blendbox Alpha 版发布

Blendbox Alpha版是一款革命性的AI图像生成软件,重新定义了艺术家创作的方式。通过引入图层概念,用户可以像使用PS一样控制图像生成,摆脱了过度依赖提示词的创作方式。艺术家可以实时调整纹理、光影、颜色方案和对象位置,实现高度的创作自由。

【AI摘要:】

🎨 Blendbox Alpha版重新定义了AI艺术创作方式,让艺术家重新掌控创作过程。

🔧 Blendbox通过模块化的图像控制功能,允许用户调整单个元素,加快创作迭代速度。

🖼 Blendbox的图像更改是局部进行的,艺术家可以针对特定区域和元素进行调整,保持图像整体性。

详情链接:https://www.blendbox.ai/

5、告别“假脸”模特!阿里EcomID重磅来袭

阿里巴巴最新发布的AI人像生成项目EcomID带来了显著突破,完美继承了InstantID和PulID的优势,实现了创新。该工具在图像生成效果、文本到图像功能、用户体验等方面都有突出表现,重新定义了AI图像生成的品质标准。

image

【AI摘要:】

🚀 EcomID在技术层面采用创新的架构设计,借鉴了PuLID的ID-Encoder和交叉注意力组件,降低了ID embedding对文本embedding的干扰。

💡 EcomID的亮点在于卓越的图像生成效果,保持稳定的身份特征,完整保留了文本到图像的功能,极大提升了生成图像的真实感。

⚙️ SDXL-EcomID为ComfyUI用户带来全新使用体验,支持基础和换脸两种工作流程,提供高级定制功能,展现出极强的适应性。

详情链接:https://github.com/alimama-creative/SDXLEcomIDComfyUI

6、D-ID推超逼真AI虚拟头像:进行视频训练就能复刻头部和躯干动作

D-ID推出两款新型虚拟头像Express和Premium+,旨在提升内容创作的质量和效率,满足企业在市场营销、销售和客户支持等领域的需求。公司致力于打造超逼真的虚拟头像,提供实时互动能力,以增强用户体验。个性化视频活动显著提升企业点击率和转化率。

image

【AI摘要:】

🌟 D-ID推出Express和Premium+两款新型虚拟头像,提升内容创作效率。

🤖 Premium+头像具备实时互动能力,适合网络研讨会和翻译应用。

📈 个性化视频活动显著提升企业的点击率和转化率。

7、Suno新增AI歌手克隆功能,一键复刻专属音乐风格

Suno推出的Personas功能让用户可以复制自己钟爱的音乐风格,一键生成带有个人特色的AI音乐,打造专属音乐IP。这项突破性功能允许用户提取保存某首歌曲的核心元素,包括人声特点、音乐风格和情感氛围,让创作保持一致的个人特色。

【AI摘要:】

⚙️ 用户可以复制自己钟爱的音乐风格,一键生成带有个人特色的AI音乐,打造专属音乐IP。

🎵 Personas功能允许用户提取保存某首歌曲的核心元素,包括人声特点、音乐风格和情感氛围,让创作保持一致的个人特色。

🔗 用户可以选择将自己的Persona设为公开或私密,拥有独立页面,展示在创作者的资料库和个人主页中,增加音乐创作的社交价值。

详情链接:soraor.com

8、ElevenLabs推开源小项目X-to-Voice:一键将Twitter账号转化为个性化虚拟形象

ElevenLabs最近发布了开源项目X-to-Voice,利用声音设计API和动态头像技术,智能分析Twitter用户资料,生成个性化虚拟形象。项目高度个性化定制,用户只需输入账号名称即可获得独特声音配置和动画头像。技术整合了声音生成、动态头像制作等多项尖端技术,提供全新社交表达方式。

image

【AI摘要:】

🔊 个性化声音生成和动态头像制作

🤖 技术整合包括声音设计API和Taedra工具

🌐 项目部署在Vercel平台,提供简单用户体验

详情链接:https://github.com/elevenlabs/elevenlabs-examples/tree/main/examples/text-to-voice/x-to-voice

9、Meta 重磅发布!MobileLLM 模型全面开放,研究人员免费获取!

Meta 最近宣布其 MobileLLM 模型现已向研究人员开放,用户可在 Hugging Face 平台上免费下载并使用这些模型,这一举措推动移动设备上的大型语言模型研究和开发,为开发者和学术界提供更广泛的工具与资源。

image

【AI摘要:】

🌟 Meta 的 MobileLLM 模型现已在 Hugging Face 平台上免费提供,供研究人员下载与测试。

🤖 MobileLLM 旨在推动移动设备上的大型语言模型研究,降低使用门槛。

📈 企业与开发者被鼓励通过 AI 技术优化流程,以实现更好的业务绩效。

详情链接:https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95

10、夸克发布“灵知”学习大模型 全面升级“AI搜题”让新题、难题都有解

夸克全面升级“AI搜题”产品,提升搜题与解题速度与能力,助力用户提升学习效率。夸克AI能力落地于学习场景,让学习更智能。夸克“灵知”学习大模型实力强劲,解决用户痛点,产品能力得到全新发展。

image

【AI摘要:】

🚀 夸克全面升级“AI搜题”产品,加速学习产品创新,提升用户学习效率。

💡 夸克“AI搜题”是全网首家完成全面AI化升级的搜题产品,支持各类题目搜寻与专业内容解答。

🧠 夸克“灵知”学习大模型在性能评测中表现优异,具备领先的推理能力和知识正确性。

11、字节祭出开源秘密武器HybridFlow,大模型训练速度飙升20倍,成本砍到脚脖子!

大模型(LLM)如GPT、Llama等在人工智能领域掀起了革命,但高效训练符合人类价值观仍是难题。字节跳动豆包团队开源HybridFlow框架,为RLHF带来新可能性。HybridFlow结合单控制器和多控制器模式,灵活高效执行RLHF数据流,吞吐量提升20.57倍,推动LLM技术发展。

image

【AI摘要:】

🚀 HybridFlow框架创新结合单多控制器模式,解耦复杂计算数据依赖,灵活高效执行RLHF数据流。

💡 HybridFlow支持多种RLHF算法,如PPO、ReMax、Safe-RLHF,提供模块化API,简化算法实现和扩展。

⚙️ HybridFlow的3D-HybridEngine组件支持高效模型权重重组,减少内存冗余和通信开销,提升训练效率。

详情链接:https://arxiv.org/pdf/2409.19256

12、谷歌地图终于开挂!Gemini加持解锁多项神技,网友:这才是真正的智能导航

谷歌地图近日宣布通过Gemini生成式AI模型进行重大升级,提供智能导航和全新场所发现体验,展示技术实力和用户体验持续努力。

image

【AI摘要:】

🌟 谷歌地图整合Gemini AI模型,提供智能推荐功能,用户可用自然语言询问建议,系统智能筛选符合需求的场所。

🚗 导航体验全面优化,显示车道、人行横道和路标信息,提供准确车道选择建议,支持街景和AR实景导航模式。

🌍 新功能包括天气干扰报告、沉浸式视图扩展至全球150个城市,Waze导航应用也接入Gemini AI,提升用户体验。