信息差

AI日报：OpenAI推出推理升级新模型o1；Midjourney 7.0实现一键生成八图；开源语音模型Fish Speech 1.4正式亮相

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:soraor.com

1、OpenAI推出全新的模型系列OpenAI o1

OpenAI推出了全新的模型系列OpenAI o1，这个新模型在推理能力上表现得更加出色，为解决复杂问题提供了更强的推理能力。用户需要调整提示方式以适应o1模型的工作方式，提示工程发生了重大变革，用户需要给出简单直接的提示，避免使用思路链提示，使用分隔符来明确模型解析的部分，并限制额外上下文以避免复杂回答。

【AI摘要:】

🤖 OpenAI o1模型需要简单、直接的提示，而非复杂的指导。

🧠 避免使用思路链提示，因为o1模型已经具备内部推理能力。

📑 使用分隔符来明确模型解析的部分，并限制额外上下文以避免复杂回答。

详情链接:https://openai.com/index/introducing-openai-o1-preview/

2、谷歌Gemini Live语音聊天向安卓用户免费开放，随时随地与AI聊天!

谷歌宣布Gemini Live语音聊天模式现在免费向所有安卓用户开放，这意味着每个人都可以体验智能对话AI的乐趣。用户可以随时用声音提问，甚至在回答过程中打断，为用户带来流畅的语音交互体验。Gemini Live为用户提供了一种新的交互方式，无论在家中还是外出，都能随时与AI进行有趣的对话。

【AI摘要:】

🌟 Gemini Live语音聊天功能现在免费向所有安卓用户开放!

🗣️ 用户可以直接用声音提问，甚至在回答时打断。

🌍 目前仅支持英文，未来将在iOS上推出并支持更多语言。

3、Midjourney 7. 0 版本或在 2 个月内发布一次性可生成 8 张图，正开发3D系统

Midjourney创始人David Holz在Discord上分享公司最新项目进展，强调技术创新以竞争AI图像生成领域。公司推迟发布7.0版本，但功能更丰富。重点在提高技术可访问性和工具专业使用价值。计划推出多图生成、图像编辑器、3D系统、个性化功能和视频生成。公司选择稳健发展道路，注重提升用户体验。

【AI摘要:】

🚀7.0版本推迟但功能更丰富，重点在提高技术可访问性和工具专业使用价值。

🎨 新功能包括多图生成、图像编辑器、3D系统、个性化和视频生成，提升用户体验。

💡 Midjourney选择稳健发展道路，注重实用功能和用户体验，以保持竞争优势。

详情链接:soraor.com

4、元象发布MoE开源大模型XVERSE-MoE-A36B

作为中国最大的Mixture of Experts（MoE）开源大模型，XVERSE-MoE-A36B的发布标志着中国在AI领域的重大进步，将国产开源技术提升至国际领先水平。该模型的性能和效率带来了训练时间的缩短、推理性能的提升，以及降低了AI应用的成本，为中小企业、研究者和开发者提供了更多选择机会。

【AI摘要:】

🚀 XVERSE-MoE-A36B拥有255B总参数和36B激活参数，性能可与超过100B参数的大模型相媲美，实现了跨级的性能跃升。

💡 MoE架构通过组合多个细分领域的专家模型，打破了传统扩展定律的局限，保持了模型性能最大化，降低了计算成本。

📈 元象MoE在权威评测中超越了多个同类模型，包括国内千亿MoE模型Skywork-MoE、传统MoE霸主Mixtral-8x22B等。

详情链接:https://huggingface.co/xverse/XVERSE-MoE-A36B

5、Fish Speech1.4发布:开源TTS模型迎来多语言突破

Fish Speech1.4版本的发布标志着这款开源文本转语音（TTS）模型在多语言支持和性能方面取得了重大突破。更新展现了强大的技术实力和广阔的应用前景。

【AI摘要:】

🌐 多语言支持大幅提升: 训练数据量翻倍至70万小时，支持8种主要语言，拓展了应用范围。

⚡ 性能与功能全面升级: 超快速度与低延迟，即时语音克隆功能，灵活部署选项和API服务。

🚀 应用前景广阔: 教育领域支持语言学习，娱乐产业即时语音克隆，辅助技术视障人士工具，智能客服和跨文化交流。

详情链接:https://fish.audio/zh-CN/auth/

6、告别幻觉!谷歌推新模型DataGemma，统计数据准确率暴涨58%

谷歌推出新的开源AI模型DataGemma，旨在解决大语言模型在处理统计数据时常出现的“幻觉”问题，标志着谷歌在AI领域的重要进展。DataGemma利用谷歌的数据共享平台，显著提升模型回答统计问题的准确性。初步测试显示，DataGemma在统计查询准确性方面有显著提升。

【AI摘要:】

🌟 DataGemma模型旨在减少AI在统计查询中的错误，提高准确性。

📊 DataGemma利用Data Commons平台数据，增强模型回答的准确性。

🔍 DataGemma在初步测试中表现出显著的统计查询准确性提升。

详情链接:https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

7、Jina AI推出Reader-LM小型语言模型

Jina AI推出的Reader-LM小型语言模型为将原始HTML内容转化为干净整洁的Markdown格式提供了便利，摆脱了繁琐的网页数据处理。该模型快速高效，自动剔除杂乱内容，展现出优异性能和高准确性。

【AI摘要:】

✨ Reader-LM能快速高效转换网页内容为Markdown，无需复杂规则或正则表达式。

🔍 提供两个参数模型，优化HTML转Markdown任务，性能超越大型模型。

💡 具备强大长上下文处理能力，在资源受限环境中也能高效运行。

详情链接:https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/

8、估值2000万美元!AI工具Shopsense AI 支持拍照就能买到明星同款

在MTV音乐录像带大奖（VMAs）上，观众们通过Shopsense AI技术可以即时购买明星造型相似的服装，展现出未来购物体验的可能性。虽然技术仍需提升准确性，但Shopsense正不断改进，以与其他媒体公司竞争。其商业模式多元，通过点击付费和销售分成获取收入，市场潜力巨大。

【AI摘要:】

🌟 观众可通过上传照片获取与明星造型相似的商品推荐，包括高端和亲民选择。

🛍️ Shopsense AI计划扩展到旅游、运动等其他领域的商品推荐，实现内容与购物的无缝连接。

📈 Shopsense AI与Paramount合作，为观众提供即时购买明星造型相似服装的便利体验。

9、一场商标之战!谷歌因使用 “Gemini” 标名称被起诉侵权

最近，谷歌因其新推出的 AI 服务 “Gemini” 而被一家名为 Gemini Data 的公司起诉，指控其侵犯商标权。这起纠纷揭示了大型科技公司在商标使用上的挑战和法律风险，警示企业在命名新产品或服务时需谨慎考虑已有商标。

【AI摘要:】

🌟 谷歌因使用 “Gemini” 商标被 Gemini Data 起诉，指控其侵犯商标权。

🔍 谷歌在申请商标时遭到拒绝，因该名称与其他商标相似。

🤖 谷歌的 Gemini 聊天机器人承认正在侵犯商标，反映出双方的法律纠纷。

10、阿联酋国有投资公司 MGX 考虑向 OpenAI 投资数十亿美元

阿联酋国有投资公司MGX考虑向OpenAI投资数十亿美元，这一举动将进一步推动OpenAI的融资计划，显示出OpenAI强劲的商业表现。同时，MGX的成立旨在加速人工智能和先进技术的发展，巩固阿联酋在全球科技领域的领先地位。

【AI摘要:】

💰 MGX考虑向OpenAI投资数十亿美元，推动OpenAI融资计划。

🤖 OpenAI年化经常性收入达40亿美元，展现强劲商业表现。

🌍 MGX由穆巴达拉与G42共同创办，专注于人工智能和先进技术的发展。

11、强得可怕!有人测试用OpenAI o1解答高中数学期末考题，竟全对了

这篇文章介绍了一位Reddit网友使用OpenAI最新模型OpenAI o1解答高中数学题的惊人效果。他对人工智能的能力充满好奇，通过测试发现OpenAI o1在短时间内准确解答了中国高中数学考题，引起了网友的关注与讨论。结果显示了AI在处理复杂数学问题上的强大能力，引发了对AI未来应用前景的讨论。

【AI摘要:】

🤖 AI能力惊人:OpenAI o1在短时间内准确解答高中数学考题，全对

💡 科技进步引发思考:网友对AI未来发展提出疑问，讨论教育领域的影响

🌐 智能化学习辅助:AI在教育领域有巨大潜力，为学生提供智能化学习辅助

如果觉得文章对你有用，请随意赞赏

快讯

AI日报：OpenAI推出推理升级新模型o1；Midjourney 7.0实现一键生成八图；开源语音模型Fish Speech 1.4正式亮相

https://soraor.com/archives/ai-today_20240913171038

作者

破晓

发布于

2024-09-13

更新于

2024-09-13

许可协议

CC BY 4.0