當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

谷歌开源新AI框架用手机实时识别3D物品位置大小方向

發布時間：2023/11/21 综合教程 36 生活家

生活随笔收集整理的這篇文章主要介紹了谷歌开源新AI框架用手机实时识别3D物品位置大小方向小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

澎湃新聞記者王心馨

如何從2D圖像中做3D目標檢測，對于計算機視覺研究來說，一直是個挑戰。

3月12日，谷歌AI在其官方博客上發布了一款名為MediaPipe Objectron的算法框架，利用這個算法框架，只要一部手機，就能實時從2D視頻里識別3D物品的位置、大小和方向。這一技術可以幫助機器人，自動駕駛汽車，圖像檢索和增強現實等領域實現一系列的應用。

分開來解釋，MediaPipe是一個開源代碼跨平臺框架，主要用于構建處理不同形式的感知數據，而 Objectron在MediaPipe中實現，并能夠在移動設備中實時計算面向對象的3D邊界框。

在計算機視覺領域里，跟蹤3D目標是一個棘手的問題，尤其是在有限的計算資源上，例如，智能手機上。由于缺乏數據，以及需要解決物體多樣的外觀和形狀時，而又僅有可2D圖像可用時，情況就會變得更加困難。

為了解決這個問題，谷歌Objectron團隊開發了一套工具，可以用來在2D視頻里為對象標注3D邊界框，而有了3D邊界框，就可以很容易地計算出物體的姿態和大小。注釋器可以在3D視圖中繪制3D邊界框，并通過查看2D視頻幀中的投影來驗證其位置。對于靜態對象，他們只需在單個幀中注釋目標對象即可。

右：在3D世界中檢測表面和點云標注3D邊界框。左：帶注釋3D邊界框的投影疊加于視頻幀，從而便以驗證注釋。

為了補充現實世界的訓練數據以提高AI模型預測的準確性，該團隊還開發了一種名為AR Synthetic Data Generation（增強現實合成數據生成）的新穎方法。它可以將虛擬對象放置到具有AR會話數據的場景中，允許你利用照相機，檢測平面和估計照明，來生成目標對象的可能的位置，以及生產具有與場景匹配的照明。這種方法可生成高質量的合成數據，其包含的渲染對象能夠尊重場景的幾何形狀并無縫地適配實際背景。

網絡的樣本結果：左邊是帶有估計邊界框的原始2D圖像；中間是高斯分布的對象檢測；右邊是預測的分割蒙版。

通過上述兩個方法，谷歌結合了現實世界數據和增強現實合成數據，將檢測準確度度提高了10%。

增強現實合成數據生成的一個示例：虛擬白褐色谷物盒渲染到真實場景中，緊鄰真實藍皮書。

準確度的提升是一方面，谷歌表示，當前版本的Objectron模型還足夠“輕巧”，可以在移動設備上實時運行。借助LG V60 ThinQ，三星Galaxy S20 +和Sony Xperia 1 II等手機中的Adreno 650移動圖形芯片，它能夠每秒處理約26幀圖像，基本做到了實時檢測。

接下去，谷歌團隊表示：" 我們希望通過與更多的研究員和開發者共享我們的解決方案，這將激發新的應用案例和新的研究工作。我們計劃在未來將模型擴展到更多類別，并進一步提高設備性能。"

總結

以上是生活随笔為你收集整理的谷歌开源新AI框架用手机实时识别3D物品位置大小方向的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

综合教程

谷歌开源新AI框架 用手机实时识别3D物品位置大小方向

總結

谷歌开源新AI框架用手机实时识别3D物品位置大小方向