从精准识别到跨场景融合，大模型助力下的视频智能驱动水务革新

时间：2025-04-03 09:41

来源：中国水网

作者：赵怡茗整理

“2025（第二十三届）水业战略论坛”上，E20环境平台智能规划中心AI解决方案总监战凯以《两山智联®视频智能V2.0(大模型版)：“快而准”的视频智能安全管控》为题，系统性拆解了云边端协同架构下的技术闭环，并首次公开“两山智联®视频智能V2.0（大模型版)”在水务行业的规模化落地路径。

在运营为王的时代，水务行业面临效率提升与风险管控的双重挑战，智能化转型成为破局关键。

随着视频监控的普及，全国大量公共区域及水务设施已完成覆盖，据不完全统计双百跨越标杆水厂便部署了33类视频智能技能，视频分析技术已成为行业标配、并得到了行业内认可。如何借助视频智能赋能行业发展，成为业界同仁面临的一道必选题。

在“2025（第二十三届）水业战略论坛”上，E20环境平台智能规划中心AI解决方案总监战凯以《两山智联®视频智能V2.0(大模型版)：“快而准”的视频智能安全管控》为题，系统性拆解了云边端协同架构下的技术闭环，并首次公开“两山智联®视频智能V2.0（大模型版)”在水务行业的规模化落地路径。

战凯

1.0阶段小模型奠基，覆盖三大核心场景

2023年，E20环境平台与百度智能云联合推出了两山智联视频智能1.0版本。针对供水、污水、垃圾焚烧领域，双方共同开发了25项行业技能，并且有17个项目成功落地。

战凯表示，视频智能的技术演进植根于小模型积累，受限于小模型的局限性，在实际应用中会偶发误报存在。

例如夜晚场景中灯光被错误标注为火焰，地面反光被识别为积水，施工工人被误判为人员倒地等。为提升系统准确率、解决误报问题，需采集大量负样本数据。然而，与正样本相比，负样本数量少，采集工作艰巨。尽管系统准确率已达行业领先的 90% - 95%，但客户期望达到 100% 的准确率，每一张误报图片都会影响客户使用体验。

战凯首先感谢了过去一年多亲密合作的用户，让1.0版本得到快速落地和完善。在1.0实践应用阶段，E20与用户始终保持密切沟通，水务集团也对双方的合作给与了高度信任和支持，在过程中积极反馈助力技术迭代。

“尽管技术迭代与用户反馈持续推动优化，小模型的技术瓶颈仍是误报难根治的核心症结。”战凯强调。

因其底层逻辑依赖单帧抽样分析——从每秒24帧视频中截取单帧进行特征点匹配，这一机制在复杂现实场景中易受环境干扰：低光照导致图像模糊、非常规视角引发特征偏移、动态遮挡与背景噪声形成干扰信号。

因此突破环境敏感性与特征泛化能力的天花板，需系统性重构算法架构。

技术攻坚：多模态大模型破解行业痛点

在小模型推进缓慢的情况下，技术瓶颈亟待突破。随着技术发展，大模型的出现带来了转机。

2017 年 Transformer 架构出现，大模型开始进入人们的视野；2022 年 ChatGPT 出现，使大模型应用成为可能；2023 年中期 GPT4V 出现，首次实现了图像和文本两个模态的交互；到 2024 年初 GPT4O出现，真正实现了视频、音频、图像甚至其他感知的多模态交互，经过一年发展，国内很多厂商也实现了多模态大模型的落地。