信息差

AI日报：商汤Vimi视频生成模型启动内测，腾讯智影推出AI视频工具，UltraPixel实现6K高分辨率图像生成

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：soraor.com

1、商汤科技推出Vimi视频生成大模型 C端应用Vimi相机开放内测

商汤科技在2024年世界人工智能大会（WAIC）上推出了Vimi视频生成大模型，为用户提供精准的表情和肢体控制，支持多种驱动方式，稳定性突出且能生成高一致性的视频内容。Vimi相机作为首款C端应用，满足广大女性用户的娱乐创作需求，支持多样化的生成风格和个性化创作。

【AI摘要:】

👩‍💻 Vimi模型利用商汤先进的大模型技术，能够生成与目标动作一致的人物视频，具有多年积累的面部跟踪技术和精确控制能力。

🎥 Vimi能生成长达1分钟以上的单镜头人物视频，且画面效果不会随时间劣化，支持环境场景调整和逼真的视觉效果模拟。

📸 Vimi相机支持用户上传高清人物图片生成数字分身和写真视频，提供多样化的生成风格和趣味人物表情包。

2、限时免费！腾讯智影小程序上线「AI视频」功能

智影小程序推出了名为「AI视频」的新功能，允许用户一键转换普通视频为风格化视频，特别是动漫风格，提升视频的吸引力。该功能目前限时免费，旨在帮助用户提升视频美感和趣味性。

【AI摘要:】

🎥 一键式操作：快速上手，即使初学者也能制作专业级风格化视频。

🎨 多种风格模板：提供多样化模板，增强视频美观度和故事性。

🚀 提升视频传播力：风格化视频易分享，吸引更多观众关注。

3、UltraPixel：超大分辨率图像生成神器

UltraPixel是一款能够生成超高分辨率图像的黑科技，为设计师和创作者带来福音。通过Stable cascade训练和微调，支持直接生成1K到6K分辨率的图片。其技术手段包括隐式神经表示和尺度感知归一化层，保持高度细节和真实感。同时，在最小空间内高效处理，参数利用率高达97%，提高训练和推理效率。

【AI摘要:】

🔍 UltraPixel支持直接生成1K到6K分辨率的图片，细节精细到毛孔，清晰纤毫。

🚀 基于Stable cascade训练和微调，即将开源，让更多人体验这份科技的魅力。

💡 通过低分辨率图像中的丰富语义信息指导高分辨率图像生成，降低复杂性，保持高度细节和真实感。

详情链接:soraor.com

4、Groq推出闪电般快速的LLM引擎，仅四个月吸引28万开发者

Groq公司最近推出了闪电般快速的LLM引擎，引起了广泛关注。这款引擎每秒处理1256.54个标记，远超GPU速度，展示了LLM聊天机器人的快速和灵活性。Groq提供免费的LLM工作负载服务，已有超过28万开发者使用。CEO Ross预计到明年，全球一半推理计算将在Groq的芯片上运行。

【AI摘要:】

🚀 Groq的LLM引擎每秒处理1256.54个标记，速度远超GPU

🤖 Groq的引擎展示了LLM聊天机器人的快速和灵活性，吸引开发者和非开发者关注

💻 Groq提供免费的LLM工作负载服务，已有超过28万开发者使用，预计全球一半推理计算将在其芯片上运行

5、无人车团队推出电影级视觉AI特效Odyssey

无人车团队跨足好莱坞，推出革命性电影级视觉AI特效Odyssey，颠覆电影、电视节目和视频游戏制作方式。Odyssey能生成好莱坞级别的故事镜头，突破视频AI障碍，实现完全掌控视觉叙事核心层。灵感源自皮克斯，目标是用AI制作影视作品，解决AI可控性难题。

【AI摘要:】

🎬 Odyssey实现完全控制视觉叙事核心层，生成高质量场景元素和方面

🌟 提出更强大的生成模型，训练四个模型实现精细配置场景细节

🚗 团队与自动驾驶汽车紧密相关，创始人在自动驾驶领域有丰富经验

详情链接:soraor.com

6、报道称OpenAI内部论坛曾遭黑客入侵，机密被盗

近日，知名人工智能公司OpenAI的内部论坛遭到黑客攻击，引发安全问题，员工担忧安全漏洞可能被利用。公司发布更新加密聊天记录以提升数据安全性，成立安全与保安委员会加强安全措施。全球合作应对AI带来的挑战变得尤为重要。

【AI摘要:】

💡 OpenAI内部论坛遭黑客攻击，公司安全性受到质疑，员工担忧安全漏洞可能被利用。

💡 发现ChatGPT macOS应用程序存在安全漏洞，公司发布更新加密聊天记录以提升数据安全性。

💡 OpenAI成功阻止多起来自俄罗斯、以色列的秘密影响行动，成立安全与保安委员会加强安全措施。

7、Meta AI为移动设备开发紧凑型语言模型MobileLLM

Meta AI研究团队推出了MobileLLM，这是为智能手机和其他资源受限的设备设计高效语言模型的新方法。该研究挑战了有关有效AI模型规模的假设，取得了2.7%到4.3%的性能提升。MobileLLM的开发符合人们对更高效AI模型的需求，尚未向公众开放，但已开源预训练代码。

【AI摘要:】

🔑 MobileLLM是为资源受限设备设计的高效语言模型，挑战了大型模型的必要性。

🚀 MobileLLM的创新包括优先考虑模型深度、利用嵌入共享和分组查询注意、采用直接块权重共享技术。

💡 MobileLLM在基准测试任务上表现优异，3.5亿参数版本在某些任务上与70亿参数模型相当。

8、Poe社交平台推出Previews功能

Poe社交平台推出了名为Previews的创新功能，为用户带来前所未有的交互体验，标志着AI社交互动进入新纪元。Previews功能直观易用，让用户在聊天界面中实时查看AI生成的Web应用并进行即时交互，提升了用户与AI之间的互动质量。

【AI摘要:】

🚀 AI社交互动进入新纪元，Previews功能让用户直观操作AI生成的Web应用。

💡 Previews功能易用直观，用户轻松自然与AI进行即时交互。

💻 适用于大型语言模型，提供普通用户接触高级AI编程应用的机会，增加Poe平台吸引力。

9、Xinsir开源Controlnet++模型支持Openpose、Canny等十多种条件控制

Xinsir最新发布的Controlnet++开源模型具有多种控制条件，能够生成高质量图像，特别适用于需要精细编辑的设计师。该模型基于ControlNet架构，新增模块支持超过十种不同的控制类型，提供了多种控制条件下的图像生成示例。虽然目前无法在Web UI和Comfyui上使用，但其多功能性和高质量输出使其成为文本到图像生成领域的一个重要突破。

【AI摘要:】

🔧 Controlnet++支持Openpose和Canny等输入，避免频繁更换模型。

🧩 模型设计特点多种控制，使用相同网络参数实现不同条件的图像生成。

🚀 Controlnet++在SDXL实验中表现优异，提供多种控制条件下的图像生成示例。

详情链接:soraor.com

10、支付宝医疗大模型亮相中英文考试超GPT-4水平

支付宝的医疗大模型在中英文考试中表现超越了GPT-4，已在江浙沪一线医院落地。该模型具备多模态能力，准确率达90%以上，可提供智能问答、病历结构化和检索等服务。支付宝联合多家机构发起AI医疗共建计划，致力于提升医疗效率和数据安全。

【AI摘要:】

🏥 支付宝医疗大模型在中英文考试中超越GPT-4水平，已在一线医院落地。

💡 模型具备多模态能力，准确率达90%以上，可提供智能问答、病历结构化和检索服务。

🔒 支付宝采取多项措施保障技术可靠和数据隐私安全，推动人工智能规模化落地。

如果觉得文章对你有用，请随意赞赏

快讯

AI日报：商汤Vimi视频生成模型启动内测，腾讯智影推出AI视频工具，UltraPixel实现6K高分辨率图像生成

https://soraor.com/archives/ai-today_20240709151050

作者

破晓

发布于

2024-07-09

更新于

2024-07-09

许可协议

CC BY 4.0