ScreenSpot-Pro:专为高分辨率场景打造的多模态LLM评估工具!

在专业环境中,图形用户界面(GUI)代理面临着三大关键挑战。首先,专业应用程序的复杂性远高于一般软件,要求对复杂布局有深入理解;其次,专业工具通常具备更高的分辨率,导致目标尺寸较小,从而降低了定位准确性;最后,工作流程往往依赖于额外工具和文档,增加了操作的复杂性。这些挑战凸显了开发更先进的基准和解决

惊异能力!AI竟能“预感”锂电池起火风险

在我们生活的各个角落,锂离子电池的身影随处可见,从手机、笔记本电脑到电动自行车和电动汽车,这些电池因其能量密度高而备受欢迎。然而,锂离子电池一旦过热或受损,可能会引发热失控反应,进而导致火灾或爆炸。尤其在2023年,纽约市消防部门就接到268起因电动自行车电池引发的住宅火灾,造成150人受伤和18人

阿里团队力作!妆容迁移技术SHMT:仅需参考图,轻松实现完美上妆

近日,阿里巴巴达摩院的研究团队发布了一项重要研究成果,名为 “SHMT:自监督层次化妆转移”,该论文已被国际顶级学术会议 NeurIPS2024接收。这项研究展示了一种新的化妆效果转移技术,利用潜在扩散模型(Latent Diffusion Models)来实现化妆图像的精准生成,为化妆应用和图像处

Circular推出Ring2智能戒指:内置心电图及心房颤动监测功能,即将上市

在2025年CES展会上,智能戒指制造商Circular正式宣布推出其下一代产品——Circular Ring2,这款戒指不仅具备心电图(ECG)功能,还配备了FDA批准的心房颤动(AFib)检测功能,旨在帮助用户实时监控心脏健康。预计这款可穿戴设备将在2月或3月上市,售价为380美元。 图源备注:

字节跳动开源LatentSync模型,打造超逼真嘴型同步效果

近日,字节跳动发布了名为 LatentSync 的新型口型同步框架,旨在利用音频条件潜在扩散模型实现更精确的口型同步。该框架基于Stable Diffusion,针对时间一致性做了优化。 与以往的基于像素空间扩散或两阶段生成的方法不同,LatentSync 采用端到端的方式,无需中间运动表示,能够直

Meta终止Facebook及Instagram平台AI角色账号运营

Meta 公司近日宣布,将关闭其在 Facebook 和 Instagram 上创建的 AI 角色账号。这些账号于2023年9月首次推出,但在2024年夏季大部分被关闭。尽管如此,仍有部分角色在用户的重新发现后受到关注,尤其是在 Meta 高管康纳・海耶斯向媒体透露公司计划推出更多 AI 角色后。

昆仑万维天工大模型4.0 o1版与4o版双双上线 天工APP及网页平台免费开放使用

2025年1月6日,昆仑万维集团宣布其「天工大模型4.0」o1版和4o版正式上线,并全量登陆天工网页和APP,供用户免费使用。这两款模型的发布标志着昆仑万维在人工智能领域的又一重要进展。 「天工大模型4.0」o1版(Skywork o1)是国内首款具备中文逻辑推理能力的模型,经过全方位的技术栈升级和

马斯克重磅宣布:Grok 3 即将震撼上线,性能飙升十倍!

在人工智能领域,特斯拉与 SpaceX 创始人埃隆・马斯克再一次成为了焦点。他近期在社交媒体平台 X 上透露,备受期待的 Grok3模型即将推出,令人兴奋不已。这一新模型的训练过程中,使用了高达10万块英伟达 H100芯片,标志着其计算能力较 Grok2大幅提升,达到了十倍之多。 Grok 系列模型