Google 在其 I/O 2025 大会上宣布,曾作为研究项目存在的 Project Starline 正式演变为全新的 3D 视频通信平台 —— Google Beam。
该平台依托 Google Cloud 和先进的 AI 技术,致力于实现更自然、沉浸式的视频通话体验。
- 它是干什么的?
Google Beam 是一个可以让远程视频通话看起来像真实面对面聊天的平台,用人工智能把普通摄像头拍到的2D图像“变身”成立体的3D效果。 主要功能有哪些?
- 3D视频通话(无需佩戴设备)
- 实时语音翻译(保留语气、表达)
- 自然的眼神接触与表情交流
- 兼容企业级工作流
它解决了什么问题?
跨地域沟通的“疏离感”和语言障碍,让远程协作更像亲临其境。- 它用的什么方法?
通过AI构建体积视频模型 + 光场显示技术。 - 达到了什么效果?
实现了沉浸式、高保真、具有人情味的远程沟通体验,特别适合企业远程会议、客户交流等场景。
最初,Project Starline 是 Google 于几年前启动的一项前沿研究项目,旨在打造一种让远程视频交流如同身临其境的体验。
其核心目标是:打破物理空间的限制,实现面对面沟通的沉浸感,且不依赖任何额外的设备,如VR头盔或3D眼镜。
现在,Google 宣布该项目的全面升级,并命名为 Google Beam —— 一个以 人工智能驱动的3D视频通信平台,标志着其从实验室研究走向商业化部署的重要转折点。
核心技术能力
- AI驱动的“体积视频模型”(Volumetric Video Model)
Google Beam 的核心是一个先进的 AI 模型,能够从普通的2D摄像头视频流中自动重建出具有深度和立体感的3D图像。这意味着:
- 用户可在无需穿戴任何设备的情况下,以真实比例、角度、光影观看对方,就像对面真的坐着一个人。
- 支持从任意视角查看,让互动更加自然、灵活。
- “光场显示器”(Light Field Display)呈现真实空间感
配合 AI 模型输出的视频,Beam 通过光场显示技术,营造出极其逼真的深度感:
- 实现真实的眼神交流,不像传统视频那样“对不上视线”;
- 能捕捉和传递微妙的面部表情和肢体动作,有助于理解、建立信任与共鸣。
- AI 实时语音翻译:跨语言沟通的自然桥梁
Google Beam 正在整合 实时语音翻译功能,目前已经在 Google Meet 中应用:
- 支持“几乎实时”的翻译;
- 保留原始语调、语气和情绪表达;
- 让不同语言的用户仿佛在说同一种语言,最大程度还原面对面对话的真实感受。
这是 Google 实现“全球无障碍沟通”愿景的关键一步。
企业级拓展:从实验室走向会议室
Google 正在与多家知名企业进行合作,将 Google Beam 引入实际使用场景:
- 设备合作伙伴:HP 首批推出 Beam 硬件设备
- HP 将在 2025 年的 InfoComm 展会上展示首批 Google Beam 设备;
- 并将于年内向部分企业客户开放试用。
- 技术集成与分销网络
- Google 与 Zoom 合作,计划将 Beam 功能集成到 Zoom 平台;
- 与全球领先的音视频集成商 Diversified 与 AVI-SPL 合作,推动 Beam 在企业客户中的落地部署。
- 领先客户试点企业
包括以下全球知名机构已参与试点或表达合作意愿:
- Deloitte(德勤)
认为 Beam 是“连接人类的下一代技术”,不仅是工具,更是一种新的连接理念; - Salesforce、Citadel、NEC、Duolingo、Recruit 等都已在内部部署或表达高度兴趣;
- Hackensack Meridian Health 等医疗行业客户也在探索其在远程医疗中的潜力。
实际应用场景与愿景
Google Beam 的设计初衷是“从任何地方,实现像在一起一样的交流体验”。它未来的应用方向包括但不限于:
- 企业远程会议、客户拜访、员工培训;
- 教育场景中导师与学生的高质量互动;
- 医疗行业中医生与远程患者的深入交流;
- 甚至可能拓展至线上招聘、文化交流、跨国商务谈判等。
请访问 beam.google 了解更多信息