現在 AI 的一天,彷彿就是現實生活中的一個月,進步速度實在太快。就大家還在歡慶有許多 LLM 新模型推出、ChatGPT 新增 Canva 畫布功能等之外,稍早 Claude AI 又釋出一項超神技術:AI 已經可以自主操控電腦。
給它一項任務,AI 就會像人類一樣,在畫面上瀏覽相關資訊,並進行相對應的操作來完成任務,看起來真的很神,而且 API 已經釋出。
AI 已經可以自主操控電腦了
ChatGPT、Microsoft 都曾展示過 AI 能閱讀當前螢幕目前正在做的事情,然後給出相關建議和解決辦法,不過操作還是要靠用戶自己執行,而這次 Claude 展示的不太一樣,AI 會自己操作滑鼠、鍵盤來完成任務。
Anthropic 表示:「我們設計一個 API,讓 Claude 可以與電腦介面互動,並理解其功能。透過整合這個 API,開發者能讓 Claude 將指令(如「利用我的電腦和網路上的數據填寫表單」)轉化為實際的電腦操作(例如查看電子表格、移動游標以打開網頁瀏覽器、前往相關網站,並使用網頁數據填寫表單等)。」
為了讓大家更加了解整個流程,Anthropic 也有釋出影片,任務是「填寫供應商的申請表」,而所需資料是分散在不同地方,AI 需要自行查尋並填入正確表格。
這是他下的 Prompt「請填寫 Ant Equipment Co. 的供應商申請表,使用視窗一中的供應商試算表,或搜尋入口標籤中的數據。逐項列出並驗證每個欄位,然後在視窗二中完成表單。」:
接著 AI 就會開始執行,並即時顯示當前它正在做的事情。最重要是,AI 也具備思考功能,像是它發現到 Ant Equipment Co. 資料並不在 Google 試算表中:
它就自動切換到 CRM 中,搜尋 Ant Equipment Co. 來獲得表格需要的資料:
還知道要往下滑動頁面查看:
資料都有了之後,AI 就會開始填寫右邊申請表,移動滑鼠點擊欄位,然後輸入資料:
輸入完後就提交,成功完成任務:
雖然說這是很簡單的任務,對於人類來說,不用幾分鐘就完成,AI 則需要花比較長的時間,但別忘了,這只是開端,就像是去年我們看到 Claude、ChatGPT 一樣。
不過 Claude 的影片有進行一些剪接,所以不確定 AI 是否是一次成功完成任務,還是有發生失敗。
完整影片:
Anthropic 同步釋出新的 Claude 3.5 Sonnet 和 Claude 3.5 Haiku
除了 AI 操作電腦,Anthropic 也同步釋出新的 Claude 3.5 Sonnet 和 Claude 3.5 Haiku,各方面的效能都有大幅提升,下方是官方釋出的測試數據: