“2025(第二十三届)水业战略论坛”上,E20环境平台智能规划中心AI解决方案总监战凯以《两山智联®视频智能V2.0(大模型版):“快而准”的视频智能安全管控》为题,系统性拆解了云边端协同架构下的技术闭环,并首次公开“两山智联®视频智能V2.0(大模型版)”在水务行业的规模化落地路径。
在运营为王的时代,水务行业面临效率提升与风险管控的双重挑战,智能化转型成为破局关键。
随着视频监控的普及,全国大量公共区域及水务设施已完成覆盖,据不完全统计双百跨越标杆水厂便部署了33类视频智能技能,视频分析技术已成为行业标配、并得到了行业内认可。如何借助视频智能赋能行业发展,成为业界同仁面临的一道必选题。
在“2025(第二十三届)水业战略论坛”上,E20环境平台智能规划中心AI解决方案总监战凯以《两山智联®视频智能V2.0(大模型版):“快而准”的视频智能安全管控》为题,系统性拆解了云边端协同架构下的技术闭环,并首次公开“两山智联®视频智能V2.0(大模型版)”在水务行业的规模化落地路径。
战凯
1.0阶段小模型奠基,覆盖三大核心场景
2023年,E20环境平台与百度智能云联合推出了两山智联视频智能1.0版本。针对供水、污水、垃圾焚烧领域,双方共同开发了25项行业技能,并且有17个项目成功落地。
战凯表示,视频智能的技术演进植根于小模型积累,受限于小模型的局限性,在实际应用中会偶发误报存在。
例如夜晚场景中灯光被错误标注为火焰,地面反光被识别为积水,施工工人被误判为人员倒地等。为提升系统准确率、解决误报问题,需采集大量负样本数据。然而,与正样本相比,负样本数量少,采集工作艰巨。尽管系统准确率已达行业领先的 90% - 95%,但客户期望达到 100% 的准确率,每一张误报图片都会影响客户使用体验。
战凯首先感谢了过去一年多亲密合作的用户,让1.0版本得到快速落地和完善。在1.0实践应用阶段,E20与用户始终保持密切沟通,水务集团也对双方的合作给与了高度信任和支持,在过程中积极反馈助力技术迭代。
“尽管技术迭代与用户反馈持续推动优化,小模型的技术瓶颈仍是误报难根治的核心症结。”战凯强调。
因其底层逻辑依赖单帧抽样分析——从每秒24帧视频中截取单帧进行特征点匹配,这一机制在复杂现实场景中易受环境干扰:低光照导致图像模糊、非常规视角引发特征偏移、动态遮挡与背景噪声形成干扰信号。
因此突破环境敏感性与特征泛化能力的天花板,需系统性重构算法架构。
技术攻坚:多模态大模型破解行业痛点
在小模型推进缓慢的情况下,技术瓶颈亟待突破。随着技术发展,大模型的出现带来了转机。
2017 年 Transformer 架构出现,大模型开始进入人们的视野;2022 年 ChatGPT 出现,使大模型应用成为可能;2023 年中期 GPT4V 出现,首次实现了图像和文本两个模态的交互;到 2024 年初 GPT4O出现,真正实现了视频、音频、图像甚至其他感知的多模态交互,经过一年发展,国内很多厂商也实现了多模态大模型的落地。
多模态大模型在视觉识别上优势显著。大语言模型能理解并归纳文本内容,同样,多模态大模型也能解读图像信息。在复杂场景中,小模型可能需十几个要素来识别图片内容,而大模型通过分析图像内容就能准确判断。
例如火烧云照片,小模型可能因特征值匹配烟火而误报火灾,多模态大模型却能准确解释这是自然景象。在实际测试中,小模型将灯误识别为烟火,多模态大模型则正确识别出是监控拍摄的夜景,还能解析画面中特定区域的反光和光线折射效果。
可见,多模态大模型在理解和解析复杂视觉信息方面能力卓越,能够有效解决小模型在视频智能应用中面临的误报难题。
场景落地:全链路赋能水务智能化
随着技术发展,E20两山智联团队推出了两山智联®视频智能V2.0(大模型版)。
该版本在端侧配备智能分析一体机,通过小模型实现快速且低成本的秒级抽帧分析。前端完成识别后,借助智联盒将预警信息传送至云侧,由两山智联视频智能运维平台进行事件处理及应用场景服务。同时,大模型平台负责提升分析准确性并应对复杂场景。
技术升级后,两山智联®视频智能系统v2.0(大模型版)应运而生。此版本以 “准、活、简” 三大核心能力为突破点,深度融合云边端协同架构,全面优化智能识别与场景适配效率。
编辑:李丹
版权声明:
凡注明来源为“中国水网/中国固废网/中国大气网“的所有内容,包括但不限于文字、图表、音频视频等,版权均属E20环境平台所有,如有转载,请注明来源和作者。E20环境平台保留责任追究的权利。
媒体合作请联系:李女士 010-88480317