跳至內容

通过AI安全增強機器人 对人流密集場所事件即時檢測

在這篇博客文章中,讓我們探討在人流密集場所場景中事件檢測的可能性,特別是在購物中心的環境中,使用能夠實時運行的模型,以及對不同場景理解的更大開放性。  

 隨著機器人技術的進步,安保機器人有潛力在公共空間如購物中心變得無處不在。

為了進一步增強他們的能力並成為進一步發展這樣未來的一部分,我們可以利用計算機視覺和機器學習算法來檢測異常的運動或物體模式,這些模式可能表明潛在的安全漏洞或異常事件。 

不尋常的事件可能包括奔跑、跌倒、竊賊全臉遮掩、突然聚集、長時間無人看管的物品等。 

 然而,這些能力要麼在更開放的場景理解能力下會更準確,要麼在實時檢測事件時會更快。

如果機器人依賴網際網路連接來訪問更大且更準確的模型,視頻串流會增加延遲。另一方面,更小的模型在部署之前需要針對特定事件/任務進行仔細訓練。 

未來的購物中心設想配備安全機器人 

視覺模型

 視覺模型通常基於卷積神經網絡,通常是當今基於人工智慧的視覺系統中要測試和部署的首選算法。

在商場中的安全機器人,許多預訓練的視覺模型可以進行微調,以增加檢測某些事件的能力,例如「櫃檯現金支付」、「跌倒檢測」等。對於特定的使用案例,這需要數據來訓練或微調視覺模型。以下視頻展示了在WISIO測試的倉庫環境中跌倒檢測的最新使用案例: 


訓練過的視覺模型在 CPU 上可以以每秒 17 幀 (FPS) 的速度進行檢測,而在 NVIDIA T4 GPU 上則可以達到每秒 60 幀,這使得它們能夠實時檢測物體。在 WISIO,我們通過仔細策劃數據和訓練流程來提高這些視覺模型的 準確性。一旦訓練完成,這些模型可以在瞬間進行多標籤推斷。

視覺模型也可以用來檢測固定場所中的異常活動,這些活動是模型之前未見過的,例如:人群聚集、電梯故障、未經授權的進入/入侵、火災/煙霧或其他任何突發情況。一旦檢測到異常,將觸發進一步的必要行動。例如,某個通道可能不允許聚集,而區域計數器有助於判斷這種情況,如下面的示例視頻所示:


視覺-語言模型

為了訓練我們的算法在購物中心巡邏以檢測異常事件,如果採用監督學習的方法來訓練視覺模型,例如訓練ResNet101模型,它可以實時運作並提供卓越的準確性。但這在很大程度上依賴於數據的多樣性,並且在現實世界應用中訓練成本昂貴。有一些在大型數據集上預訓練的視覺基礎模型,但一旦出現模型在訓練期間未見過的新類別,該模型可能無法進行推斷。

為了解決這種缺乏開放性和對新場景的泛化問題,最近的研究將文本編碼到視覺架構中,以便自然語言中的上下文豐富性幫助模型在推理階段獲取潛在未見的類別。這使得模型在零樣本性能上表現良好(即未提供任何訓練數據)。一個預訓練的視覺-語言基礎模型可以進一步在特定用例的數據集上進行微調。


視覺語言模型以圖像、文本短語和相應標籤作為微調的輸入   

 經過微調後,在不同場景中捕捉到不同人們行為的不同提示

例如,在購物中心的部署中,視覺語言模型可以被訓練來識別常見事件,如「進入/離開購物中心」、「顧客瀏覽」、「收銀員處理付款」和「保安巡邏」。然而,如果有人在繁忙區域附近徘徊,而這是禁止的,模型可能能夠在文本提示中提供此活動的情況下檢測到這種行為。該模型利用語言上下文,能夠更好地理解情況並將其分類為異常,即使在購物中心沒有徘徊的先前訓練範例。這種方法增強了自主看守系統的穩健性和適應性,相較於純粹基於視覺的方法。提供了一次更合適的文本提示列表,這樣我們就可以進行模型的推斷。下次,如果需要添加新事件,對於該事件的新文本提示理想上應該足夠讓機器人檢測到新事件,而無需進一步的微調。

在WISIO,這些近乎實時的視覺-語言模型正在針對不同的使用案例進行積極測試,並在NVIDIA V100 GPU上達到超過50 FPS。在擁擠的場景中,許多物體同時被檢測,相較於單一物體檢測,增加的延遲約為15-20%。即使具備良好的泛化能力,仍會針對不同情況進行一些微調。這些模型並不擁有數十億或數百億的參數,並且可以部署在邊緣設備上以實現實時性能,因此,可能適合用於移動機器人。

多模態視頻模型

隨著朝向具有一般場景理解能力的較慢基礎模型在多模態環境中的發展,WISIO 正在積極測試這些模型的開發和部署。利用視頻基礎模型,可以查詢、理解並在應用中使用時空事件。例如,在上面的通道視頻中,當我們詢問其中一個多模態基礎模型是否看到一些人沒有走動時,回應(零樣本)是:

Yes, some people in the video are not walking. There is a small group of people, including some children, clustered together near the center-left of the frame. They appear to be stationary, likely talking or interacting with each other, while the rest of the people in the video are walking across the mall floor.

這些自然語言回應可以協助安保人員進行一般事件的捕捉,而無需任何微調。對於未來在購物中心的安保機器人,可以提供詳細的指示,通過自然語言提示來涵蓋一般的任何事件。
上述模型領域的準確性正在不斷提高,並在社群中持續發展;因此,我們可以利用並貢獻於這一持續的努力。


網誌: t
Pedestrian safety with signboard’s defect detection in real-time