aigc-5-1.png

上周精选

Claude推出移动应用以及团队版计划

Anthropic的商业化进度开始加速,这周先是推出了 Claude 的 iOS 应用,然后又推出了团队计划开始赚 2B 的钱。

iOS 应用的功能还比较简陋,重点支持的是文件上传已经识图功能,官方给出的案例也是拍摄会议板书整理成笔记。

团队计划的主要功能有:

  • 团队计划使团队能够创建一个工作空间,增加成员和管理用户和计费工具的使用。

  • 每个月每个成员收费 30 美元。

  • 与专业计划相比,为每个团队成员提供更大的使用量。

  • 提供完整的Claude 3 型号系列,包括 Opus、Sonnet 和 Haiku。

  • 200K 上下文窗口:使企业能够处理长篇文档(例如研究论文、法律合同)、讨论复杂话题(例如财务预测、产品路线图)并保持多步对话。

  • 引入管理工具,方便地控制用户和计费管理。

  • Pro 版中的所有功能:包括 Claude Pro 的所有功能,包括在高流量时段的优先访问、提前访问新功能、更高的使用率等。

An image to describe post AIGC Weekly #70 又该补课了

最近突然爆火的两款SD图像风格

节前是毛绒风格的应用图标风格突然开始在小红书上爆发, 由于需要相对复杂的 SD 流程没有人打包,只局限在圈子内部,普通用户没办法参与,顶多使用画好的图标更换手机主题。

然后五一开始的时候黏土风格的图片突然就爆火了,得益于 Remini 这个非常好上手的 AI 修图 app,这次彻底出圈了。

基于 AI 的图像玩法还有非常大的机会,不只能出一个妙鸭这种爆款,Remini 的爆火证明了这一点。

毛绒风格和冰块风格的工作流可以用KeJun这个工作流:https://openart.ai/workflows/kejun/furry-and-fluffy-icon-v11-v11/XueYOY1PYXXAHMcarWl8

黏土风格的图片基于 SD 实现的话可以用 Clay Animation 和 Claymation 这两个 Lora 搭配好一点的 3D SDXL 模型实现。

An image to describe post AIGC Weekly #70 又该补课了

亚马逊推出了 Amazon Q AI 助手

亚马逊推出了 Amazon Q AI 助手,一共有两个版本Amazon Q Developer 和 Amazon Q Business。

可以自动完成软件开发和业务数据分析的各项任务,从而提高工作效率。

Amazon Q Developer

这一版本旨在帮助开发者减少在维护任务上花费的时间,使他们能够将更多精力放在编码上。

它可以协助编码、测试、升级应用程序、排查故障、执行安全扫描和修复,以及优化 AWS 资源。其目标是让开发者能够投入更多时间创造独特的用户体验,并加快项目部署速度。

Amazon Q Business

Amazon Q Business 致力于让员工能够轻松访问公司数据,从而做出数据驱动的决策。

它可以回答问题、提供摘要、生成内容,并以安全的方式完成任务。该版本与 Amazon QuickSight 集成,提供了一个生成式商业智能助手,通过自然语言命令简化 BI 仪表板和可视化的创建过程。

Amazon Q Apps

Amazon Q Apps 是一项新功能,允许员工使用自然语言构建由生成式 AI 驱动的应用程序,无需编码技能。

这一功能是 Amazon Q Business 的一部分,可帮助员工高效地自动化日常任务。
An image to describe post AIGC Weekly #70 又该补课了

GitHub 推出 GitHub Copilot Workspace 的技术预览版

通过 Copilot Workspace,开发者可以用自然语言进行头脑风暴、规划、构建、测试和运行代码。

其工作原理如下:

一切从任务开始:

从一个 GitHub Issue、Pull Request 或仓库中打开 GitHub Copilot Workspace。(截图显示了 octoacademy 仓库中的一个 Issue。)

计划的制定:

从任务进展到规范化步骤,概述你想通过 Copilot Workspace 实现的目标。这些步骤是可编辑的,允许你反复迭代。

全面可编辑:

Copilot Workspace 提供的所有内容,从计划到代码,都可以完全编辑,使你能不断调整,直到对计划满意。你也可以通过集成终端运行测试、构建等步骤。

直接运行:

计划完善后,你可以在 Copilot Workspace 中运行代码,并在 Codespace 中调整,直到对最终结果满意。你还可以通过链接分享 Workspace,使团队成员查看你的工作并进行迭代。

提交与审查:

完成后,提交 Pull Request,运行 GitHub Actions 和代码扫描,并请求团队成员进行审查。他们可以通过 Copilot Workspace 查看你从构思到代码的全过程。

移动兼容:

GitHub Copilot Workspace 支持在任何设备上使用,使你可以随时随地进行开发。
An image to describe post AIGC Weekly #70 又该补课了

其他动态 ✦

  • Llama3-70B 的 Lora,可以让任何基于 Llama-3 70B 微调的模型都具有 524K 的上下文。Lora 是从 Llama-3-70B-Instruct-Gradient-524k 中提取的。

  • Gradient发布 Llama-3-70B-Instruct-Gradient-1048k,一百万上下文的 Llama3 70B 版本。

  • 相当优秀的 SD1.5 人像模型 AWPortrait 1.4 开放下载。

  • 微软已经禁止美国警察部门使用企业级人工智能工具进行面部识别,利用GPT-4对来自人体摄影机的音频进行总结。这样很容易因为LLM的幻觉和人种偏见造成误判。

  • 可以识别使用者情绪的模型EVI现在已经支持函数调用工具。

  • Open AI 发布了一个 Assistants API 和 NextJS 构建项目的快速入门指南。具有流式传输、工具使用(代码解释器和文件搜索)和函数调用能力。

  • Midjoureny 的 alpha 网站已经向所有生成超过 100 张图片的用户开放,房间功能也已经开放。

  • 机器人公司 Sanctuary AI 宣布和微软展开合作,加速通用机器人的人工智能开发。

  • 字节开始在抖音中内置豆包聊天助手,入口在消息页面置顶区域,点击顶部按钮可以拉起豆包应用。

  • HuggingChat 也支持 Assistants 创建了,但是创建功能很强大该有的都有了,而且也支持动态提示将站外的内容插入到聊天中。

  • ChatGPT的记忆功能现在已经向所有Plus用户推出。使用的方式很简单,说出你想让它记住的事情,并且告诉他记住就行。

  • Chrome 桌面地址栏中的新快捷方式可以快速开始与 Gemini 聊天,在桌面地址栏中输入“@”,然后选择与 Gemini 聊天。

产品推荐 ✦

Simulon:混合现实 3D 模型软件

只需要下载app扫描周围环境,然后选择对应的模型。之后等几分钟就会渲染好跟现实环境融合的MR视频。没有官网只有申请测试的表单。
An image to describe post AIGC Weekly #70 又该补课了

Frame:开源的 AI 眼镜

由一个开源的AI硬件 ,Frame AI 眼镜。

你可以通过语音和 Frame 进行沟通,它的回复会显示在眼镜屏幕上,而且会有小图标表示现在的情绪。Frame 是多模态的可以看到你现在看到的东西,这玩意很强啊,如果响应速度快点的话。
An image to describe post AIGC Weekly #70 又该补课了

Claude iOS 移动端发布

终于来了,Claude 的 iOS 应用程序发布了。

试了一下还比较简陋只有账号系统和聊天还有文件上传功能。直接拍照然后询问问题还是挺方便的。
An image to describe post AIGC Weekly #70 又该补课了

Kimi 智能助手更新 Kimi+ Agent 能力

Kimi 更新了自己的智能体功能,叫 Kimi+ 。产品层面考虑的非常完整,首批 Kimi+ 的内容都很有用。比如什么值得买驱动的商品挑选,还有我使用最多的翻译、内容改写。

主要还支持在聊天中@不同的 Kimi+ 接力聊天,这样可以在一个窗口里完整个工作流。比如先翻译内容,之后再改写,最后生成单个媒体格式的文案。在后面智能体数量丰富之后非常有用。
An image to describe post AIGC Weekly #70 又该补课了

Cubby:内容协作工具

Cubby 是一个专为增强研究协作而设计的工具,它使用户能够存储、标注并整合来自诸如 YouTube 和播客等多个平台的文章、PDF、视频和音频文件。Cubby 的核心功能包括:在一个私密的工作空间内无限制地添加链接或文件、在内容的原始形态上进行标记和高亮显示、自动转写音视频内容。用户还可以对这些转录内容进行标注,听取它们,甚至下载片段。此外,Cubby 允许用户直接在 PDF 和其他文档上作画式标注,帮助用户保持笔记的条理和易于访问性。
An image to describe post AIGC Weekly #70 又该补课了

Monterey:帮助企业分析非结构化数据

Monterey AI 是一个专为企业打造的强大分析平台,专注于管理和分析大量非结构化数据。这类数据目前占所有新企业数据的90%。预计到2025年,这类数据的总量将达到1750亿太字节,但其中只有少部分得到存储和分析。Monterey AI 能够高效并准确地分析这些数据,通过电话、电子邮件和在线聊天等多个客户互动渠道提供实时分析。

该平台拥有多项功能,能自动识别并初步处理各类问题,从杂乱无章的数据中提炼出有价值的信息,并通过一个无需编程的友好界面与数据进行互动。它能够辨识导致客户满意或不满的关键因素,并确保相关信息能够及时传达给负责处理的团队。

An image to describe post AIGC Weekly #70 又该补课了

Mindtrip:AI 驱动的旅游聚合应用

Mindtrip 是一个旅行相关的服务平台,它通过汇集成千上万的资源,并根据用户的独特偏好,提供定制化的旅行体验和灵感。该平台能够在几秒钟内为用户提供互动且可定制的行程计划,包括交通、酒店、餐厅和活动的所有预订信息,所有这些都可以在一个地方进行管理。
Mindtrip 的特色之一是它提供的旅行体验不仅仅是阅读,还包括丰富的照片、互动地图和评论,让用户仿佛已经身处目的地。无论是用户所在城市的最佳餐厅还是世界各地的最佳海滩,Mindtrip 都能提供相关的推荐,并允许用户将喜欢的推荐添加到旅行计划中。
An image to describe post AIGC Weekly #70 又该补课了

Atlassian Rovo:帮助团队查找内容快速决策

Atlassian Rovo是一个由生成式AI驱动的工具,旨在帮助团队更好地做出决策并更快地实现目标。Rovo通过整合团队所选的所有SaaS应用中的信息,使团队能够找到、学习并迭代知识,并通过虚拟代理更快地采取行动。Rovo提供了一系列功能,包括:

  • Rovo搜索:一次搜索,找到所有相关结果,帮助团队跨所有选择的SaaS应用找到最相关的信息。

  • Rovo聊天:与Rovo聊天,连接到正确的团队,揭示关键洞察,直到用户感觉了解所有必要的组织话题。

  • Rovo代理:理解复杂任务并采取正确行动的代理,帮助团队高效完成工作。这些代理包括创建和审查代理、工作流管理代理、知识管理代理、团队文化代理和维护代理,用户可以直接使用、通过无代码界面创建自己的代理,或在Atlassian市场上探索各种代理。

An image to describe post AIGC Weekly #70 又该补课了

精选文章 ✦

深度学习的CUDA/C++起源

有趣的是,许多人可能听说过 2012 年的 ImageNet / AlexNet 时刻,以及它引发的深度学习革命。

而鲜为人知的是,支持这一获奖作品的代码是由 Alex Krizhevsky 从头开始手动用 CUDA/C++ 编写的。

这是 CUDA 用于深度学习的首批重要应用之一,正是 CUDA 所带来的计算规模,使得这个网络在 ImageNet 基准测试中取得了如此优异的性能。实际上,这也是一个相当复杂的多 GPU 应用,例如采用了模型并行,将两个并行的卷积流分割到两个 GPU 上。

The Prompt with Trevor Noah

这个系列的主角是微软首席问题官特雷弗·诺亚,他以好奇著称。在每一集里,他和他的嘉宾都会讨论一个与公共辩论相关的新提示,他们如何使用人工智能来解决紧迫的全球问题,以及人工智能对公共安全、健康、教育等的影响。他探索技术的前沿,跨越界限,向世界各地的技术专家、工程师、科学家和社区学习。

宝玉的中文翻译版本:https://x.com/dotey/status/1786526865370325166

提示工程背后的基本思想

通过设计输入数据、示例、指令等提示组件,可以显著提高LLM执行各种任务的效果。
文中总结了提示工程的关键原则:实证驱动、从简单开始、具体直接、使用示例、避免不必要复杂性。

斯坦福创业思想领袖讲座Sam Altman分享

每一年AI系统都将变得更智能,这是人类历史上最引人注目的事实之一。未来6年,人工智能将带来巨大改变。他建议学生投身AI研究,相信AI基础设施将成为未来最重要的投入之一。
Sam认为应对AGI潜在危险,需要采取更加迭代渐进的部署方式,并与社会各方密切协调。他也相信,尽管AGI可能带来一些挑战,但总体上对人类社会是巨大的正面影响。
Sam Altman以其独到见解和丰富经验,分享了他对AI发展现状、未来趋势以及如何应对潜在风险的看法,让读者对AI有了更全面深入的认识,并为职业发展指明了方向。

名人 Embedding 创建指南

Civitai 上的一个 Embedding 创建指南,详细介绍了在创建TI方面的个人旅程和洞察,特别是名人的TI。

要点包括:

作者认为创建LoRA比TI更容易,但他更喜欢使用TI。作者使用了A1111和Kohya等工具来创建TI,由于其简单性和有效性,更倾向于使用A1111。

成功训练TI最关键的因素是数据集的质量和准备。即使训练参数不是最优的,一个准备充分的数据集也能带来不错的结果。

数据集准备的各个方面,如图像大小、图像数量和预处理需求。他们强调图像的选择及其处理显著影响TI的“个性”。

还介绍了训练参数,包括学习率、批量大小、梯度累积步骤和训练步数的设置。这些参数应根据特定数据集和训练目标进行调整。

最近提示工程的研究成果总结

老哥有个非常简短的内容总结了最近提示工程的研究成果。还给出了对应的论文,可以挑自己感兴趣的深入看一下。并且分了四类分别是推理、工具使用、上下文窗口和更好的写作。

推理:简单的提示技术对许多问题都有效,但解决多步骤推理问题需要更复杂的策略。

工具使用:LLMs功能强大,但它们有明显的局限性。我们可以通过教LLM如何利用外部的、专业的工具来解决这些局限性。

上下文窗口:鉴于最近的LLMs对RAG/少样本学习的长上下文的强调,上下文窗口和上下文中学习的特性已经深入研究。

更好的写作:LLMs最受欢迎的用例之一是改善人类写作,提示工程可以用来制作更有效的写作工具。

Rabbit R1 被爆出只是一个安卓 APP

Android Authority的一篇文章对Rabbit R1进行了深入探讨,这是一款基于Android的AI设备。文章反驳了制造商关于设备必须要有特别固件才能运行的说法。

尽管Rabbit公司声称R1必须要装载一个“非常定制的AOSP”(Android开源项目)才能正常工作,但调查结果表明,该设备的核心功能实际上可以在没有任何特殊权限或改动的标准Android硬件上运行。Android Authority与逆向工程师合作的测试表明,R1能够在常规Android手机,比如小米13T Pro上,实现其所有宣传的功能,尽管其初次发布时并不受欢迎。

文章还指出,Rabbit对由MediaTek提供的标准Android开源项目仅作了极少量修改,比如加入了R1的启动应用和一些小的调整,这与Rabbit所声称的对设备运行至关重要的大幅定制需求形成了鲜明对比。

重点研究 ✦

用于超大数据集实时渲染的分层3D高斯表示

可以实现几乎实时的 3D 高斯泼溅渲染。

只需要在车上装上设备正常前进就行,中等质量的渲染可以保证每秒60帧,高质量的可以保证30帧。

项目能够在保持大型场景的视觉质量的同时,通过高效的细节层次方案,实现远处内容的高效渲染,确保层级间的平滑过渡和明确的层级选择。

Prometheus 2 专门用于评估大语言模型质量的模型

之前也有一些开源的评测模型,但它们要么和人类评分差异很大,要么只能做固定形式的评测。

Prometheus 2的特点是:

  1. 它的评分和人类非常接近;

  2. 它既可以给文本直接打分,也可以比较两个文本哪个更好;

  3. 它可以根据用户给的具体标准来评分,而不局限于通用的标准。

论文作者通过合并两个模型的参数得到了Prometheus 2:一个模型是用直接打分的数据训练的,另一个是用文本比较的数据训练的。

**StoryDiffusion**:远程图像和视频生成的一致自注意

StoryDiffusion 这个字节的新项目表现很好啊。

能够生成细节丰富、内容多样的图像和视频,同时保持角色身份和服饰的一致性。可以帮助生成长篇漫画或者带连续剧情的视频。

与IP-Adapter和PhotoMaker等方法相比,StoryDiffusion在保持角色一致性的同时,还能更好地控制文本提示,生成与描述更匹配的图像和视频。

关键组件:

Consistent Self-Attention是StoryDiffusion框架的核心组件之一,它通过在生成过程中引入参考图像的样本Token,增强了不同图像间的一致性。

Semantic Motion Predictor是StoryDiffusion中的另一个关键组件,它专门用于长距离视频生成。

InstantFamily:多 ID 保持图形生成项目

SK 电讯出的零样本多ID保持项目 InstantFamily,只需要每个人的一张照片就可以生成多人合照。

同时解决了多 ID 生成中常见的问题,例如生成的多个人脸身份不一致、人脸细节缺失等。

采用新颖的掩码交叉注意力机制和多模态嵌入堆栈 来实现零样本多 ID 图像生成的方法。

能有效保留 ID,因为它利用了来自预训练的人脸识别模型的全局和局部特征,并与文本条件相结合。

用模型评委团取代单一评委,以更好地评估大语言模型

以往,人们常常使用单一的大模型(如GPT-4)作为评委来打分其他模型的输出。

但作者认为这种做法有局限性,不仅成本高、速度慢,还会受到评判模型自身偏好的影响。

作为替代,他们提出组建一个由多个不同类型小模型组成的"模型评委团"(Panel of LLM Evaluators, 简称PoLL)。

通过让评委团的多个模型独立打分,再综合它们的评判结果,可以降低个别模型的偏差,得到更加客观公正的评估。

实验表明,在多个任务上,PoLL的评判结果与人类判断的相关性更高,同时成本却比单一大模型评委低7倍以上。这说明PoLL是一种很有前景的评估方案。

基于 Gemini 微调的医疗领域模型 Med-Gemini

在临床推理、多模态理解和长文本处理方面都有很大的提升。研究人员用了14个医疗基准测试Med-Gemini的能力。结果发现,它在10个基准上都取得了最佳表现,远超之前最强的GPT-4模型。

比如在流行的医学问答测试MedQA上,Med-Gemini达到了91.1%的准确率,比之前最好的模型高出4.6%。

Med-Gemini不仅擅长文本任务,在理解医学图像、视频、心电图等多模态数据上也很在行。它能看懂医学影像,回答相关问题。还能看医学教学视频,掌握手术操作步骤。