欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:soraor.com
1、OpenAI发布GPT-4o mini,API降价60%!
OpenAI推出GPT-4o mini,号称是智能领域的“经济适用男”,降价60%,性能卓越。该模型在成本和性能上均有突出表现,为智能革命铺平道路。
【AI摘要:】
💡 GPT-4o mini降价60%,每百万输入令牌15美分,输出令牌60美分,性价比极高。
💡 支持文本和视觉API,未来将扩展至图像、视频和音频输入输出,功能强大多样化。
💡 在学术测试中表现出色,超越GPT-3.5Turbo,支持多模态推理,具备128K令牌上下文窗口。
2、腾讯华为联合推AI换衣技术IMAGDressing-v1:兼容ControlNet、文字提示词生成场景背景
IMAGDressing-v1 是一款创新性的AI换衣工具,为用户提供更灵活、更真实的虚拟穿衣体验。其简单架构和高效定制能力使虚拟试衣变得直观便捷。同时,兼容多种插件扩展功能,支持局部服装更换实验功能,展示了未来虚拟试衣技术的潜力。
【AI摘要:】
🌟 简单架构,快速定制:IMAGDressing-v1 无需额外训练,快速生成逼真穿着效果。
🛠️ 灵活插件兼容:支持与IP-Adapter和ControlNet等插件结合,提升工具功能和适用性。
🔄 局部服装更换:实验性功能允许对服装指定区域进行更换,增加虚拟试衣的灵活性。
详情链接:soraor.com
3、长视频也不怕!Goldfish:可理解任意长度视频
Goldfish是一种革命性的技术,解决了传统AI模型在处理长视频时的困难。通过高效的检索机制和描述生成技术,Goldfish能够处理任意长度的视频内容,不仅在长视频领域表现出色,也在短视频理解方面取得显著突破。
【AI摘要:】
🔍 Goldfish采用高效的检索机制,能提取出长视频中与指令相关的视频片段,从而解决长视频处理难题。
🚀 Goldfish团队开发了MiniGPT4-Video,可以为视频片段生成详细描述,提升了处理长视频的能力。
💡 Goldfish在TVQA-long基准测试中准确率达到41.78%,在短视频基准测试中也表现优异,展示了其强大的处理能力。
详情链接:soraor.com
4、科大讯飞星火推出Spark Pro-128K大模型
科大讯飞推出的Spark Pro-128K大模型具备超长文本处理能力,能显著提升AI大模型在实际应用中的价值。该模型不仅能处理超长文本,还具备内容溯源功能,提高回答的可信度。开发者可免费领取500万tokens体验和利用这一大模型的能力。
【AI摘要:】
🚀 讯飞星火大模型 V4.0 整体超越 GPT-4 Turbo,七大核心能力全面提升。
🔍 模型支持超长文本处理,可指出答案来源,提高回答可信度。
💡 开发者可免费领取 500 万 tokens 体验 Spark Pro-128k 版本
5、DeepL推出新一代翻译AI,翻译表现超越GPT-4
DeepL公司最新推出的新一代语言模型在翻译准确度上超越了Google翻译和GPT-4,为用户提供更优质的翻译体验。用户可通过DeepL Pro计划轻松切换到新模型,费用从1150日元/月起。
【AI摘要:】
📈 新一代语言模型在翻译精度上超越了Google翻译和GPT-4,提升翻译质量
🔍 新模型在日英互译、简中英互译、德英互译中表现更佳,编辑工作量显著减少
💵 DeepL Pro计划已支持新模型,用户可通过按钮切换,月费从1150日元/月起
6、B站长视频总结神器!豆包浏览器插件上线播客和视频总结功能
在这个信息爆炸的时代,豆包浏览器插件为我们带来了全新的解决方案,让我们能够高效吸收和整理海量知识。它提供了视频内容总结、目录生成、脑图绘制、笔记功能等,极大地提升了处理信息的效率。同时,插件还支持播客总结、文章总结和翻译功能,为用户提供了多种学习工具。用户友好的设计和多功能性使得豆包浏览器插件成为我们日常学习和工作中的得力助手。
【AI摘要:】
🔍 豆包浏览器插件提供视频内容总结、目录生成、脑图绘制和笔记功能,轻松帮助用户快速了解和消化超长视频内容。
🎧 豆包浏览器插件支持播客总结功能,能听完播客并转文字总结,提高用户处理信息的效率。
📚 豆包浏览器插件还具备文章总结和翻译功能,交互设计舒适,适合不同类型用户使用。
详情链接:
https://chromewebstore.google.com/detail/%E8%B1%86%E5%8C%85%EF%BC%8C%E6%B5%8F%E8%A7%88%E5%99%A8-ai-%E5%8A%A9%E6%89%8B/dbjibobgilijgolhjdcbdebjhejelffo
7、Groq开源的Llama AI模型登顶排行榜,函数调用方面优于GPT-4o和Claude
Groq发布的开源AI模型在特定任务中表现优异,挑战了科技巨头的专有模型,通过合成数据训练解决了常见的数据隐私和过拟合问题,可能改变AI领域的发展路径,促进更广泛的AI可访问性和创新生态系统的培育。
【AI摘要:】
⭐ Groq发布的开源AI模型在特定任务中胜过了科技巨头的专有模型。
⭐ 通过使用合成数据训练,Groq挑战了AI模型开发中常见的数据隐私和过拟合问题。
⭐ 开源模型的推出可能改变AI领域的发展路径,促进更广泛的AI可访问性和创新生态系统的培育。
8、全球首部完全AI翻译配音电影即将上映,配音工种面临失业危机!
全球首部由AI完全翻译配音的电影《Watch The Skies》即将登陆美国各大院线。Flawless公司的TrueSync技术实现了人工智能的翻译和配音,让观众享受更真实的观影体验。
【AI摘要:】
🎬 电影《Watch The Skies》通过Flawless的TrueSync技术实现AI完全翻译配音,让观众感受仿佛是用英语拍摄的效果。
🤖 Flawless的AI配音技术将影片中所有角色的口型与英语完全同步,消除了观众在观看配音版本时的不适感。
🌐 Flawless希望通过TrueSync技术让观众在流媒体上观看热门节目时,不再受到口型不匹配和残酷场景剪辑的困扰。
详情链接:
https://variety.com/2024/film/news/flawless-ai-lip-dubbing-movies-tv-1236068071/
9、英文视频翻译神器EasyVideoTrans 极速转换,可灵活修改
在全球化时代,跨语言沟通至关重要。EasyVideoTrans利用GPU加速技术,实现极速视频转换,节省翻译时间。操作简便,灵活定制,支持多平台使用。
【AI摘要:】
高效快速转换: 利用GPU加速技术,视频转换极速完成。
个性化定制: 支持字幕编辑、翻译引擎选择,用户可灵活调整参数。
操作简便: 直观的WEB界面设计,轻松上手,无需复杂操作。
详情链接:soraor.com
10、谷歌成 “美国官方AI赞助商”
谷歌成为美国队官方AI赞助商,将在2024年巴黎奥运会直播中展示其Gemini AI等人工智能功能。合作伙伴NBCUniversal将突出展示谷歌地图的3D视图和活动场馆细节,解说员将利用谷歌搜索AI总览回答奥运会问题,演员和运动员也将使用Gemini等AI工具参与各种活动。喜剧演员莱斯利·琼斯将与Gemini合作学习新运动,共同探索巴黎。
【AI摘要:】
🏅 谷歌Gemini AI将在2024年巴黎奥运会直播中大放异彩
🌍 直播中将展示谷歌地图的3D视图和活动场馆细节
🔍 解说员将利用谷歌搜索AI总览回答奥运会问题,演员和运动员也将利用Gemini等AI工具参与各种活动。
11、AI“越狱”新招!“过去式”提示词瞬间攻破GPT-4o等六大模型
经过多次迭代,大型语言模型(LLMs)在处理自然语言方面表现出色,但也带来了风险。研究人员发现简单将有害请求转换成过去时态可绕过拒绝训练,导致先进LLMs“越狱”。研究揭示了AI对齐技术的局限性,引发了对AI泛化能力的讨论。
【AI摘要:】
🔍 大型语言模型在处理自然语言表现出色,但存在风险,如生成有毒内容、传播错误信息。
🚫 通过简单转换有害请求为过去时态,许多先进LLMs“越狱”,绕过拒绝训练。
🔗 解决方案是在训练数据中包含过去时态例子,提高模型对过去时态请求的拒绝能力。
详情链接:https://arxiv.org/pdf/2407.11969
12、OpenAI与博通等公司商讨开发新一代AI服务器芯片
OpenAI与博通等公司商讨开发新一代AI服务器芯片,旨在提升公司在AI开发中的计算能力,减少对Nvidia GPU的依赖,增强市场竞争力。
【AI摘要:】
🗣️ OpenAI首席执行官山姆·奥特曼(Sam Altman)正在主导计划,提高公司AI开发计算能力。
🤝 OpenAI招募曾参与Google TPU开发的前员工,助力芯片设计工作。
🚀 OpenAI的芯片开发计划旨在减少对Nvidia GPU的依赖,增加在AI芯片市场的竞争力。
13、Meta暂停其在巴西的生成式AI工具训练
在巴西,Meta的AI助手突然被按下了暂停键,原因是巴西国家数据保护局(ANPD)的一纸禁令。这一决定给Meta在巴西市场扩展AI产品的计划泼了一盆冷水,同时也可能影响其全球AI战略。
【AI摘要:】
🚫 ANPD禁止Meta使用巴西人个人数据训练AI模型,设定每天5万雷亚尔罚款。
💬 Meta暂停在巴西上线的genAI功能,与ANPD接触解决问题。
🔒 数据保护法规对全球科技公司提出挑战,Meta需重视合规性与数据隐私保护。