在专业环境中,图形用户界面(GUI)代理面临着三大关键挑战。首先,专业应用程序的复杂性远高于一般软件,要求对复杂布局有深入理解;其次,专业工具通常具备更高的分辨率,导致目标尺寸较小,从而降低了定位准确性;最后,工作流程往往依赖于额外工具和文档,增加了操作的复杂性。这些挑战凸显了开发更先进的基准和解决方案以提升 GUI 代理在这些严苛场景中的性能的必要性。
目前的 GUI 定位模型和基准无法满足专业环境的要求。例如,ScreenSpot 等工具设计主要用于低分辨率任务,缺乏能够准确模拟现实场景的多样性。而 OS-Atlas 和 UGround 等模型在计算效率上表现不佳,尤其在目标较小或界面图标丰富的情况下,常常出现失效。此外,缺乏多语言支持也限制了这些模型在全球工作流程中的应用。这些不足之处进一步突显了需要更全面和现实的基准,以推动这一领域的发展。
为了解决这些问题,新加坡国立大学、华东师范大学和香港浸会大学的研究团队推出了 ScreenSpot-Pro,这是一个专为高分辨率专业环境量身定制的新基准。该基准拥有来自23个行业的1,581个任务数据集,包括开发、创意工具、CAD、科学平台和办公套件。它采用高分辨率的全屏视觉效果,并通过专家注释确保准确性和现实性。ScreenSpot-Pro 还提供了包括英语和中文在内的多语言指导,以扩展评估范围。与以往不同的是,ScreenSpot-Pro 文档化了实际工作流程,确保高质量注释的产生,从而为 GUI 定位模型的全面评估和开发提供了有效工具。
该数据集捕捉了真实且富有挑战性的场景,基于高分辨率图像,其目标区域平均仅占总屏幕的0.07%,显示出 GUI 元素的细微和小型化。数据由在相关应用中具有丰富经验的专业用户收集,使用专门工具确保注释的准确性。此外,该数据集还支持多语言功能,便于测试双语能力,并包含多个工作流程,以捕捉专业任务的细微差别。这些特点使其特别有利于评估和提升 GUI 代理的准确性和灵活性。
利用 ScreenSpot-Pro 对现有 GUI 定位模型的分析显示出其在处理高分辨率专业环境中的能力严重不足。OS-Atlas-7B 的准确率最高仅为18.9%。然而,采用迭代方法的 ReGround 通过多步骤方法的微调,提高了性能,达到了40.2% 的准确率。小型组件如图标的识别表现出显著困难,而双语任务进一步凸显了模型的局限性。这些发现强调了改进技术以增强在复杂 GUI 环境中的上下文理解和适应能力的必要性。
ScreenSpot-Pro 为高分辨率专业环境中 GUI 代理的评估设定了一个变革性的基准。它解决了复杂工作流程中的具体挑战,提供了多样化和精确的数据集,以指导 GUI 定位的创新。这一贡献将为更智能、高效的代理奠定基础,从而支持专业任务的无缝执行,显著提升各行业的生产力和创新力。
论文:https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf
数据|:https://huggingface.co/datasets/likaixin/ScreenSpot-Pro
划重点:
🌟 * 专业应用的复杂性 *:GUI 代理需处理高复杂度和高分辨率的专业软件界面。
🛠️ *ScreenSpot-Pro 数据集 *:包含1,581个任务,覆盖23个专业应用,支持多语言评估。
📈 * 模型性能提升 *:通过多步骤微调,提升 GUI 定位模型在高分辨率环境中的准确率。