Apple 似乎相當願意把類似的技術分享給世界。近日公布了號稱在相當多專精於 2D 圖像分析轉換為具備深度的 3D 深度圖的模型之中,可以達到最快與最準確兩者兼顧的 Depth Pro AI 視覺模型。繼續閱讀蘋果火力展示 2D 圖「秒」轉換為 3D 的最新 AI 模型 Depth Pro,還直接放在 GitHub 讓你玩(動手玩)報導內文。
▲圖片來源:Apple
蘋果火力展示 2D 圖「秒」轉換為 3D 的最新 AI 模型 Depth Pro,還直接放在 GitHub 讓你玩(動手玩)
從蘋果用單顆鏡頭就能實現 AR 應用的時期,到了滿佈感測器的 Vision Pro 時代。為了讓使用者可以獲得更真實的互動體驗。Apple 直接在 visionOS 的照片 app 中,一口氣透過機器學習的能耐,將一般 2D 照片轉換為具備深度並且能在他們所謂的「空間運算裝置」中欣賞更有空間感而變得更栩栩如生的影像。
這樣的技術,就目前看到有實際體驗過的 Vision Pro 使用者,都相當驚嘆 visionOS 2.0 的這項功能。而現在看來,Apple 似乎相當願意把類似的技術分享給世界。近日公布了號稱在相當多專精於 2D 圖像分析轉換為具備深度的 3D 深度圖的模型之中,可以達到最快與最準確兩者兼顧的 Depth Pro AI 視覺模型的論文。
重點是,蘋果不僅直接在 GitHub 上開源提供包括模型架構與模型的預訓練檢查點等技術資訊的資料。甚至還提供了可以直接嘗試 Depth Pro 能耐的測試頁面。我們也簡單的進行了試玩,感受一下 Depth Pro 的 Pro 實力。
▲圖片來源:Apple
綜合 Apple 公布 Depth Pro 目前的資訊。我們可以得知這套專精於高效率從一般平面照片轉換成 3D 深度影像的技術,其厲害之處不僅僅是在於僅需 0.3 秒的時間就可以在標準的 GPU 生成高達 2.25-megapixel 的深度圖(欸… 是 NVIDIA V100 GPU,但這也確實是目前業界標準沒錯)。
更厲害的是,這項技術理稐上甚至可以在不需餵給它特定領域的數據資料或者是實際感測到的相關相機資訊,即可避開這類偵測機制最容易被抓到有瑕疵的「flying pixels」等問題,產生出精確的深度圖。
「The method should ideally produce metric depth maps in this zero-shot regime to accurately reproduce object shapes, scene layouts, and absolute scales(此方法理想中應該在零樣本的前提產生深度圖,準確再現物體形狀、場景佈局和絕對比例。)」
既然有 Depth Pro Live Demo 的網頁,我們也實際試了幾張圖片來看看它的能耐。
可以發現,即便是奇美博物館門前噴水池深度相當複雜(而且沒有潛景深可以參考深度)由手機所拍攝的照片。Depth Pro 也相當精確的標示出了深度。相對近拍的照片,則是也蠻精確的勾勒出手腕以及手腕上的錶的形狀。
是說當然也會有人覺得應該要拿些這類機器學習功能的死門,包括毛髮邊緣以及像是籠子與玻璃櫥窗的範圍容易辨識錯誤的畫面元素來考驗 Depth Pro。不過官方自己已經列出其他對手的表現與自己對決了一番。大家也可以參考看看或者直接自己嘗試囉。
由於 Depth Pro 打出了高效率與高精準度辨識的特性,外媒也認為這樣的技術未來用在像是車載系統方面應該是有很大的發展應用空間(畢竟路上沒遇到「出乎意料」的物件還好,一遇到的話可能就很需要所謂「零次學習」的能耐了~笑) 。也有提到對於電子商務方面的應用可能。
是說,個人是認為這次的火力展示,有很大概率是讓大家知道接下來 Apple 不僅在空間運算方面將會有比 Depth Pro 更 Pro 的可能。甚至未來預期可能推出的平價版 Vision… Air?應該也不用擔心成本導向的更少感測器,就會有體驗方面的很大落差?
引用來源:Cornell University|經由:VentureBeat|