在這篇博客文章中,讓我們探討在人流密集場所場景中事件檢測的可能性,特別是在購物中心的環境中,使用能夠實時運行的模型,以及對不同場景理解的更大開放性。
随着机器人技术的进步,安保机器人有潜力在购物中心等公共场所变得无处不在。
为了进一步增强他们的能力,并开发未来的潜力,我们可以利用计算机视觉和机器学习算法来检测异常的运动或物体模式,以指示潜在的安全漏洞或异常事件。
这些异常事件可能包括奔跑、摔倒、全脸遮掩的窃贼、突然聚集、长时间无人看管的物品等。
然而,这些能力要么需要模型在更开放的场景理解能力下更准确,要么在实时检测事件时更快。
如果机器人依赖互联网连接来访问更大和更准确的模型,那么视频流会增加延迟。另一方面,更小的模型在部署之前需要针对特定事件/任务进行仔细训练。
未來的購物中心設想配備安全機器人
視覺模型
视觉模型通常基于卷积神经网络,通常是今天基于人工智能的视觉系统中测试和部署的首选算法。
在商场中的安全机器人可以对许多预训练的视觉模型进行微调,以增加检测某些事件的能力,例如“柜台支付”、“跌倒检测”等。对于特定的使用案例,这需要数据来训练或微调视觉模型。下面的视频展示了在WISIO测试的仓库环境中跌倒检测的最新使用案例:
訓練過的視覺模型在 CPU 上可以以每秒 17 幀 (FPS) 的速度進行檢測,而在 NVIDIA T4 GPU 上則可以達到每秒 60 幀,這使得它們能夠實時檢測物體。在 WISIO,我們通過仔細策劃數據和訓練流程來提高這些視覺模型的 準確性。一旦訓練完成,這些模型可以在瞬間進行多標籤推斷。
視覺模型也可以用來檢測固定場所中的異常活動,這些活動是模型之前未見過的,例如:人群聚集、電梯故障、未經授權的進入/入侵、火災/煙霧或其他任何突發情況。一旦檢測到異常,將觸發進一步的必要行動。例如,某個通道可能不允許聚集,而區域計數器有助於判斷這種情況,如下面的示例視頻所示:
視覺-語言模型
為了訓練我們的算法在購物中心巡邏以檢測異常事件,如果採用監督學習的方法來訓練視覺模型,例如訓練ResNet101模型,它可以實時運作並提供卓越的準確性。但這在很大程度上依賴於數據的多樣性,並且在現實世界應用中訓練成本昂貴。有一些在大型數據集上預訓練的視覺基礎模型,但一旦出現模型在訓練期間未見過的新類別,該模型可能無法進行推斷。
為了解決這種缺乏開放性和對新場景的泛化問題,最近的研究將文本編碼到視覺架構中,以便自然語言中的上下文豐富性幫助模型在推理階段獲取潛在未見的類別。這使得模型在零樣本性能上表現良好(即未提供任何訓練數據)。一個預訓練的視覺-語言基礎模型可以進一步在特定用例的數據集上進行微調。
視覺語言模型以圖像、文本短語和相應標籤作為微調的輸入
經過微調後,在不同場景中捕捉到不同人們行為的不同提示
例如,在購物中心的部署中,視覺語言模型可以被訓練來識別常見事件,如「進入/離開購物中心」、「顧客瀏覽」、「收銀員處理付款」和「保安巡邏」。然而,如果有人在繁忙區域附近徘徊,而這是禁止的,模型可能能夠在文本提示中提供此活動的情況下檢測到這種行為。該模型利用語言上下文,能夠更好地理解情況並將其分類為異常,即使在購物中心沒有徘徊的先前訓練範例。這種方法增強了自主看守系統的穩健性和適應性,相較於純粹基於視覺的方法。提供了一次更合適的文本提示列表,這樣我們就可以進行模型的推斷。下次,如果需要添加新事件,對於該事件的新文本提示理想上應該足夠讓機器人檢測到新事件,而無需進一步的微調。
在WISIO,這些近乎實時的視覺-語言模型正在針對不同的使用案例進行積極測試,並在NVIDIA V100 GPU上達到超過50 FPS。在擁擠的場景中,許多物體同時被檢測,相較於單一物體檢測,增加的延遲約為15-20%。即使具備良好的泛化能力,仍會針對不同情況進行一些微調。這些模型並不擁有數十億或數百億的參數,並且可以部署在邊緣設備上以實現實時性能,因此,可能適合用於移動機器人。
多模態視頻模型
隨著朝向具有一般場景理解能力的較慢基礎模型在多模態環境中的發展,WISIO 正在積極測試這些模型的開發和部署。利用視頻基礎模型,可以查詢、理解並在應用中使用時空事件。例如,在上面的通道視頻中,當我們詢問其中一個多模態基礎模型是否看到一些人沒有走動時,回應(零樣本)是:
Yes, some people in the video are not walking. There is a small group of people, including some children, clustered together near the center-left of the frame. They appear to be stationary, likely talking or interacting with each other, while the rest of the people in the video are walking across the mall floor.
|
---|
這些自然語言回應可以協助安保人員進行一般事件的捕捉,而無需任何微調。對於未來在購物中心的安保機器人,可以提供詳細的指示,通過自然語言提示來涵蓋一般的任何事件。.
上述模型領域的準確性正在不斷提高,並在社群中持續發展;因此,我們可以利用並貢獻於這一持續的努力。