LiveCC 是由新加坡国立大学和字节跳动 Show Lab开发的首个可实时视频评论(commentary)的大型视频大语言模型(Video LLM),聚焦于视频内容理解与生成自然、流畅的实时解说/弹幕评论。

能够处理动态的视频流输入,并通过实时语音转录增强模型对视频内容的理解能力。传统的视频处理模型通常针对离线视频(即预录制的完整视频)进行优化,难以应对直播、监控等实时场景。LiveCC 通过引入流式处理技术和多模态融合,填补了这一技术空白。

  • 多模态能力:模型能够同时处理视频的视觉信息(如画面内容)和听觉信息(如对话或背景音),并生成相应的输出,例如字幕、问答回复或内容分析。
  • 应用场景:支持在观看视频流的同时,自动生成专业级的实时解说文本,适用于体育赛事、游戏直播、教程、实时监控等等多场景。

解决了什么问题?

想象一下:

  • 你在看奥运会篮球决赛,AI能像解说员一样边看边说:“法国队拿球,快攻,传球,三分,进了!”
  • 这种AI如果用在视频直播、赛事讲解、教育、甚至游戏主播,都会非常有用。
  • 但要训练出这种AI,得有大量**“看视频+听解说”的数据**。如果全靠人类手工标注,成本高到天文数字。

所以问题来了

  1. 如何低成本、大规模收集到“视频-文本解说”数据?
  2. 如何让AI像人一样“流畅、实时地边看边说”?
  3. 如何科学评价这种AI的解说水平?

怎么解决的?

1. 用自动语音识别(ASR)+YouTube大规模视频,自动生成训练数据!

  • YouTube视频很多都有自动字幕(Closed Caption, CC),这些其实就是机器听视频后自动生成的“解说”。
  • 作者发现:虽然机器生成的字幕质量一般,但便宜、量大!可以用来大规模训练AI。
  • 为了进一步提升数据质量,他们还用先进的WhisperX模型,对视频做更精准的转录。

举例:

  • 一场篮球比赛的视频,有自动字幕“he passes the ball... he shoots... he scores!”(他传球,他投篮,他得分!)
  • AI看到每一帧的画面,配上那一刻的字幕,就能学会“看图说话”。

2. 创造“流式训练”方法——让AI学会“边看边说”

  • 传统方法:看完一段视频,再总结性地写一段解说,不适合实时需求。
  • 作者的方法:把视频切成很多小片段,每2秒配一组画面和对应ASR文本,让AI学会每来一帧、每有新字幕就即时生成解说,仿佛AI在“现场直播”。

类比理解
就像你边看比赛,边嘴里不断地“碎碎念”场上发生的事情,而不是等比赛结束再来一大段复盘。

3. 精细筛选数据,保证训练有效

  • 筛掉内容无关的、说人头的(比如一直对着摄像头讲废话、无实质动作的视频)。
  • 只保留那些“声音和画面强相关”的片段,让AI学的就是“看到什么说什么”。
  • 用工具自动检测视频是不是“优质内容”,比如是否分辨率够高、字幕够多、语速正常。

怎么评价AI的表现?

  1. 主观对比解说质量

    • 让AI对一段视频做实时解说,同时用GPT-4o等大模型“当裁判”,两者PK,看看谁的解说更贴近真实、更自然流畅。
  2. 问答能力测试(QA)

    • 给AI看一段视频后,问它“谁做了什么?什么时候?为什么?”,看看它是否理解了视频内容细节。

效果如何?

  • 低延迟:AI能做到每帧延迟不到0.5秒,真的可以“边看边说”,适合直播、AR眼镜等场景。
  • 泛化能力强:不仅能做解说,还能做视频问答,甚至比很多大模型做得更好。
  • 模型小巧:用7B参数(算小的了),效果已经比不少72B等大模型还要好,训练和推理成本低。

实际应用价值

  • 体育直播:AI可以像主持人一样随时解说,不受人工时间和语言限制。
  • 教育视频:AI能实时标注、解说每一步操作,辅助学习。
  • 辅助残障人士:AI可自动解说视频内容,帮助视障用户理解画面。
  • 内容审核与检索:AI能理解每一帧的细节,大幅提高视频管理效率。

项目地址:https://showlab.github.io/livecc/

技术报告:https://huggingface.co/papers/2504.16030

在线演示:https://huggingface.co/spaces/chenjoya/LiveCC