信息差

AI日报：MJ推模型个性化功能；ComfyUI完成SD3 Medium模型适配；字节上线AI交友“小黄蕉”；微信输入法内测AI功能

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：soraor.com

1、Midjourney推出模型个性化功能

Midjourney最近推出了一项创新的模型个性化功能，允许用户根据审美偏好微调MJ模型，使生成的图像更贴近个人喜好。个性化模型通过分析用户喜欢的图片来实现，学习用户独特审美，满足用户品味。用户需对至少 200 张图片进行评分或点赞，启用个性化功能后，在提示后添加特定代码分享个性化效果。

【AI摘要:】

🎨 模型个性化功能允许用户根据审美偏好微调MJ模型，使生成图像更符合个人喜好。

🔍 个性化模型通过分析用户过往喜欢的图片，学习用户独特审美，提高生成图像准确性。

💡 用户需对至少 200 张图片进行评分或点赞，启用个性化功能后，在提示后添加特定代码分享个性化效果。

详情链接:https://www.midjourney.com/rank

2、为了迎接即将开源的SD3 Medium 模型 ComfyUI已提前完成适配

SD3Medium 模型即将开源，为了迎接这一重要时刻，ComfyUI已经提前进行了适配工作，做好了迎接新模型的准备。届时，大家生图可以体验更真实的质感，更好的构图，更优的性能以及更出色的微调能力。

【AI摘要:】

📈 SD3 Medium 模型即将开源，ComfyUI已完成提前适配工作。

🖼️ SD3 Medium 在图像生成方面取得显著进步，能够生成细节丰富且高度逼真的图像。

💡 SD3 Medium 在生成高质量、细节丰富的图像方面具备强大能力。

详情：

https://github.com/comfyanonymous/ComfyUI/commit/8c4a9befa7261b6fc78407ace90a57d21bfe631e

3、微信输入法内测AI功能只要按这个键就可以获取AI回答

微信输入法内测版本新增AI助手功能，按“=”获取AI生成回答。emoji和颜文字推荐支持。增强对时间、日期输入格式支持。

【AI摘要:】

🤖微信输入法新增AI助手功能，按“=”获取AI生成回答。

🤖更新加强对emoji和颜文字的支持，增强对时间、日期输入格式的支持。

🤖目前内测版本仅面向Windows用户，iOS、Android和Mac平台可能会推出。

4、字节上线AI虚拟交友聊天产品小黄蕉可生成照片，接近真人对话场景

近日，一款名为“小黄蕉”（英文名Chatwiz）的AI虚拟交友聊天产品上线，其特点是能够生成照片，且对话过程非常接近真人。经查证，该产品的工商主体为北京臻鼎科技有限公司(番茄小说)，而其背后的实际控制者是字节跳动公司。

【AI摘要：】

⭐ 小黄蕉是AI虚拟交友聊天产品，能生成照片，对话接近真人。

⭐ 字节跳动积极布局AI大模型，推出多款AI产品和服务。

⭐ “小黄蕉”展现了字节跳动在AI应用领域的持续探索和创新。

5、科大讯飞：将于 6 月 27 日发布讯飞星火V4.0 展示最新智能语音技术

科大讯飞将于 6 月 27 日发布讯飞星火V4.0，展示最新的端到端智能语音技术成果，包括一句话复刻、高噪音场景语音识别和多方言多语种免切换功能。刘庆峰透露，科大讯飞在全双工技术和超拟人合成技术方面处于国际领先水平。未来，科大讯飞将专注于远场高噪音多人说话场景、高表现力个性化场景等领域的研发。

【AI摘要:】

🚀 讯飞星火V4. 0 将展示最新的端到端智能语音技术成果，包括一句话复刻、高噪音场景语音识别和多方言多语种免切换功能。

💡 科大讯飞在全双工技术和超拟人合成技术方面达到国际领先水平。

🔮 未来，科大讯飞将专注于远场高噪音多人说话场景、高表现力个性化场景等领域的研发。

6、苹果宣布新AI功能后股价创历史新高

苹果公司股价周二收盘时上涨超过7%，创下历史新高。这次反弹为苹果今年的表现带来了一线希望，展示了市场对苹果新的人工智能功能的积极态度。

【AI摘要:】

📈 苹果股价周二上涨超过7%，创历史新高，市值有望达到3. 18 万亿美元，仅次于微软。

📱 新的人工智能功能提高了苹果设备的吸引力，包括改进的 Siri 虚拟助手和多项AI功能。

💡 开发者活动后，分析师上调对苹果股票的目标价，预计新功能将刺激秋季新iPhone系列的购买。

7、Follow-Your-Emoji：通过捕捉人物表情变化生成表情丰富的动画

Follow-Your-Emoji是一项突破性技术，通过提取视频中人物的面部特征生成全新的面部动画。这项技术精确捕捉面部特征和瞳孔点，排除面部轮廓干扰，实现更自然、更生动的动画效果。应用广泛，娱乐、教育、商业领域皆可受益。

【AI摘要:】

👤 用户提供照片，技术生成视频动画，捕捉微妙表情变化。

🔒 身份保持，参考头像身份特征得到保留，不会丢失。

😊 表情丰富，生成各种表情，包括瞳孔运动，让动画更生动、真实。

详情链接:soraor.com

8、在线AI图像编辑器Freepik Designer

Freepik Designer是一款创新的在线AI图像编辑器，为用户提供了简单易用的设计工具，无需专业设计技能即可快速上手。它的AI工具集成让设计过程更高效，同时提供丰富的模板库，满足不同设计需求。

【AI摘要:】

🎨 简单易用的设计工具，无需专业设计技能即可快速上手

🖼️ 提供丰富的模板库，满足不同设计需求

💡 内置AI工具集成，提升设计效率和质量

详情链接:soraor.com

9、埃隆・马斯克撤回对 OpenAI 的诉讼

埃隆・马斯克撤回了对 OpenAI 的诉讼，指控其违约。马斯克认为 OpenAI 放弃了非营利性使命，转向商业利益。OpenAI 否认指控，称其“不连贯”和“荒谬”。

【AI摘要:】

🔍 埃隆・马斯克撤回对 OpenAI 的诉讼。

💡 马斯克指责 OpenAI 放弃非营利性使命，转向商业利益。

🔒 OpenAI 否认指控，称其“不连贯”和“荒谬”。

10、Yandex推出的开源工具YaFSDP 突破LLM训练效率瓶颈

Yandex开源的YaFSDP工具为全球AI社区带来了突破性的LLM训练优化方法，显著提升训练速度，节省大量GPU资源，使自主LLM训练更具可行性。Yandex承诺持续贡献全球AI社区发展，YaFSDP开源是其承诺的体现。

【AI摘要:】

✨ YaFSDP是Yandex开源的高效大型语言模型训练优化方法，可提升LLM训练速度26%。

💡 YaFSDP专注于优化GPU通信效率和内存使用，在训练参数规模达到 300 亿至 700 亿时表现出色。

🌟 采用YaFSDP训练 700 亿参数模型可节省约 150 台GPU资源，成本节约可达 50 万至 150 万美元。

11、速度提高 410 倍！TiTok仅需 32 个token就能重建与生成图片

近期，生成模型的发展突显了图像标记化在高分辨率图像高效合成中的关键作用。TiTok是基于Transformer的一维标记化框架，将图像标记化为一维潜在序列，极大提高了生成效率和质量。它在处理高分辨率图像时表现出色，生成速度显著提高，同时保持高质量样本输出。

【AI摘要:】

⚙️ 图像token化降低计算需求，增强生成效率和有效性。

🔍 TiTok将图像标记化为一维潜在序列，用少至 32 个离散token表示256× 256 图像。

💡 TiTok在ImageNet基准测试中表现优异，生成速度提高 410 倍，同时保持高质量样本输出。

12、MIT开发新算法DenseAV：通过观看视频学习语言含义

在MIT开发的新算法DenseAV中，研究人员利用机器理解动物的交流方式，通过观看视频学习语言的含义。该算法能够无监督学习单词的含义和声音的位置，实现跨模态连接的自然区分。团队希望应用于理解新语言和发现不同信号之间的模式关联。

【AI摘要:】

🧠 DenseAV是双编码器接地架构，学习高分辨率、语义意义和视听对齐的特征。

🔍 无监督学习发现单词含义和声音位置的关联，自动区分语言和声音。

🌐 在跨模态检索方面优于以前的模型ImageBind，应用于学习大量视频和理解新语言。

详情链接:soraor.com

13、让AI更合乎伦理：Source.Plus 提供高质量AI训练数据

Spawning 致力于为艺术家提供更多对其作品在线使用的控制权，Source.Plus 项目推出的数据集包含近 4000 万个公有领域图片和采用 Creative Commons CC0 许可的图片，为AI模型的训练提供高质量的数据。该平台为艺术家和创作者提供了更精细的作品使用权限管理，为AI技术的发展和应用注入新活力。

【AI摘要:】

🔍 数据搜索与整理：用户可快速搜索各种媒体数据，整理标注以满足训练需求。

🌟 高质量训练数据：经筛选审核的数据保证安全质量，合法同意使用。

💡 应用场景广泛：适用于各种AI模型训练，提高准确性和鲁棒性。

详情链接:soraor.com

14、Mistral AI获得6. 4 亿美元B轮融资

Mistral AI近期宣布获得6. 4 亿美元的B轮融资，估值提升至近 60 亿美元。这一轮融资由General Catalyst领投，多家知名投资机构和公司参与，加速了Mistral在人工智能领域的发展和国际商业化进程。

【AI摘要:】

🚀 Mistral AI获得6. 4 亿美元B轮融资，估值提升至近 60 亿美元。

💡 General Catalyst领投，多家知名投资机构和公司参与，加速了Mistral在人工智能领域的发展和国际商业化进程。

💰 生成式AI市场预计未来十年内将以每年42%的复合增长率达到1. 3 万亿美元，Mistral此次融资将加速商业化进程，拓展分销渠道。

15、自回归图像生成模型LlamaGen

LlamaGen 是一项颠覆性创新，展示了即使在没有视觉信号归纳偏差的情况下，自回归模型也能实现领先的图像生成性能。该技术为图像生成领域带来新可能性，为未来研究提供新思路。

【AI摘要:】

🔑 LlamaGen 提出了具有 16 倍降采样比、0. 94 的重建质量和97% 码书利用率的图像分词器，在 ImageNet 基准测试上表现优异。

🚀 LlamaGen 推出了一系列类别条件图像生成模型，范围从111M到3.1B参数，在 ImageNet256× 256 基准测试上取得了2. 18 的 FID，超越了流行的扩散模型。

💡 LlamaGen 推出了文本条件图像生成模型，具有775M参数，在 LAION-COCO 的两阶段训练后，展现出高质量的美学图像和优秀的视觉质量与文本对齐性能。

详情链接:soraor.com

16、未经同意人工智能利用儿童照片引发隐私安全挑战

这篇文章揭露了人工智能图像生成器在训练数据集中未经允许使用巴西儿童个人照片的严重问题，引发了儿童隐私和安全的严峻挑战。文章呼吁政府和科技公司承担责任，保护儿童数据不被滥用，制定相应的保护措施。

【AI摘要:】

🔒 未经允许使用儿童照片：人工智能图像生成器训练数据集中存在大量未经允许使用的巴西儿童个人照片，涉及儿童整个童年时期的珍贵片段。

⚠️ 儿童隐私风险：照片中包含儿童的姓名和位置信息，使其身份易被追踪，可能导致欺凌、钓鱼等风险，甚至生成不当内容。

⚖️ 呼吁保护措施：人权组织呼吁政府明确禁止未经允许使用儿童个人数据训练AI系统，加强儿童数据保护，设计追责途径。

如果觉得文章对你有用，请随意赞赏

快讯

AI日报：MJ推模型个性化功能；ComfyUI完成SD3 Medium模型适配；字节上线AI交友“小黄蕉”；微信输入法内测AI功能

https://soraor.com/archives/ai-today_20240613102424

作者

破晓

发布于

2024-06-13

更新于

2024-06-13

许可协议

CC BY 4.0