通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

韓璐 9年前 (2016-12-05)

OpenAI昨天發布OpenAI Universe,這是一個能在幾乎所有環境中衡量和訓練AI通用智能水平的開源平臺,當下的目標是讓A 智能體像人一樣使用計算機。

通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

繼今年4月發布OpenAI Gym之后,OpenAI昨天又推出了新平臺—— Universe:一個用于訓練解決通用問題AI的基礎架構。

通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

根據官博介紹,Universe是一個能在世界上所有的游戲、網站和其他應用中,衡量和訓練AI通用智能的軟件平臺。

Universe要讓AI智能體能像人一樣使用計算機:通過看顯示屏,操作虛擬鍵盤和鼠標。我們必須全方位地訓練AI系統,解決我們想要它們解決的問題,而Universe則讓我們能夠訓練單一的智能體,執行任何人類能使用計算機來完成的任務。

今年4月,OpenAI發布了OpenAI Gym,后者是一套用于開發和比較強化學習算法的工具。有了Universe,任何程序都能被接入(be turned into)到OpenAI Gym的環境中。Universe通過在VNC遠程桌面后自動啟動程序來運作,不需要任何特殊的程序接口、源代碼或bot API。

OpenAI當前發布的版本含有1000個環境,包括Flash游戲、瀏覽器任務(browser tasks),以及像slither.io和GTA V這樣的游戲。還有更多這類環境可供訓練強化學習,幾乎所有都能在Universe運行,使用universe Phython庫運行

通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

以上樣本代碼將讓你的AI開始玩Flash游戲《Dusk Drive》。當然,你得安裝Docker和univers才行。

我們的目標是開發單一的一個AI智能體,使其能夠靈活運用過去在Universe中的經驗,快速在陌生和困難的環境中取得掌控權,這也是通往通用智能的重要一步。

你可以以很多種方式參與OpenAI Universe:授權OpenAI使用你的游戲、在Universe不同任務中訓練智能體,以及接下來即將推出的整合新游戲,以及讓智能體玩這些新的游戲。

通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

Universe部分參與單位,完整列表見文末

背景

人工智能領域在過去幾年中取得了快速進展。計算機現在可以以前所未有的精度查看、聽取和翻譯語言。計算機也在學習生成圖像、聲音和文本。強化學習系統AlphaGo擊敗了人類世界圍棋冠軍。然而,盡管取得了所有這些進步,目前的AI系統仍然屬于“狹義AI”——可以在特定領域實現超人的表現,但缺乏在該領域外合理執行任務的能力。例如,AlphaGo可以輕松地在圍棋上擊敗你,但你不能期望讓它陪你一起玩其他游戲。

具有一般問題解決能力的系統——類似于擁有人類常識,讓智能體能夠快速解決新的困難任務——目前仍然是不存在的。一個顯而易見的挑戰是,現在的智能體還不能將其經驗攜帶到新的任務中。在標準訓練制度下,智能體從零開始初始化,隨機抽取數千萬試驗中的一個,經過不斷試錯、學會重復行為,最終得到有益的結果。如果要向通用AI智能體取得進展,我們必須讓智能體經歷一系列不同的任務,以便它們能夠發展出關于世界的知識和解決問題的策略,以便在新任務中有效地重復使用這些東西。

通用框架

Universe通過一個通用的接口適用于各種場景:智能體通過捕捉屏幕的像素生成對鍵盤和鼠標的命令來操作遠程桌面。場景需要VNC服務器,universe 庫將智能體轉換為VNC客戶端。

通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

Universe 的設計目標是支持單個的Python進程,以每秒60幀的速度并行驅動20個場景。每個屏幕的緩沖區是 1024×768,因此用外部進程直接讀取每一幀需要3GB/s的內存帶寬。我們用Go寫了一個面向批處理的VNC服務器,它可以作為Python共享庫加載,并且逐步更新每個場景的一對緩沖區。在嘗試了許多VNC服務器、編碼器和無證書協議選項的組合之后,現在的組合能以60幀/秒的速度驅動幾十個場景,延遲是100毫秒——這些延遲幾乎都是服務器端編碼引起的。

以下是我們當前實現的一些重要特性:

通用性。智能體可以使用這個接口(最初是為人類設計的)與現有的任何計算機程序交互,而不需要仿真器或接入程序內部。例如,智能體可以玩任何一款計算機游戲,與終端交互,瀏覽網頁,使用CAD軟件制圖,使用圖片編輯軟件或者編輯電子表格,等等。

熟悉性。由于人們已經非常熟悉這些像素/鍵盤/鼠標的界面,人們可以輕松操作universe的任何場景。我們可以使用人類表現作為有意義的基準,只需簡單地保存VNC流量記錄跟蹤人類的演示。我們發現,在轉換到增強學習為給定的激勵函數進行優化前,這些演示在對使用行為克?。词褂帽O督學習模擬人類行為)的合理策略的智能體進行初始化時非常有用。

以VNC作為標準。VNC的許多實現都可以在線使用,而且包括OSX在內的一些實現已經默認封裝到常見的操作系統中。在JavaScript中甚至有允許用戶提供演示而無需安裝任何新軟件的VNC實現——這對Amazon Mechanical Turk之類的服務非常重要。

易于調試。我們可以在智能體正在訓練或評估時進行調試,只需將VNC客戶端附加到共享環境的VNC桌面。還可以保存VNC流量供以后分析。

我們都很驚訝VNC的作用如此強大。隨著我們的游戲更大型,我們將開始使用額外的后端技術。但初步的跡象表明,現有的實現能夠更好:設置正確的話,用戶能夠以每秒20幀的速率在公共互聯網上運行GTA V。

環境

我們已經在Universe中加入了大量的運行環境,并且,我們認為這僅僅是一個開始。每一個環境都被打包成一個Docker圖像,包含了兩個服務器,來與外部的環境進行溝通:VNC服務器會向顯示器發出信號,并接收鍵盤或者鼠標發出的指令;WebSocket服務器會發出強化學習任務所反饋的信號(以及所有的輔助信息,比如文本或者診斷),此外,還會接收控制信息(比如要運行的具體環境ID)。

Atari 游戲

Universe包含Arcade學習環境中2600種Atari游戲。這些環境現在在quay.io/openai/universe.gym-core的Docker圖像上異步運行,并允許智能體在網絡之上進行連接,這意味著智能體必須要處理延時和低幀率。通過在云上的局部網絡上運行,我們通??梢赃_到60幀每秒,觀察滯后20毫秒,行動滯后10毫秒。在整個公共的互聯網上,能降到20幀每秒,觀察滯后80毫秒,行動滯后30毫秒。

通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

Flash 游戲

在Universe的擴展上,我們把Flash游戲作為一個起始點,這些游戲在互聯網上幾乎是無處不在dd ,總體上特征比Atari 要豐富得多,但是個體上依然非常簡單。我們已經篩選了超過3萬個游戲,并預計,還有一個數量級的游戲沒有收錄。

最初發布的Universe包含了1000個Flash 游戲(其中有100個有回饋函數),在獲得所有權持有者的同意之后,我們把它們發布在了quay.io/openai/universe.flashgames Doker image上。此圖像開啟TigerVNC服務器并啟動Python控制服務器,該控制服務器使用Selenium將所需游戲的Chrome瀏覽器打開到容器內頁面,并自動點擊啟動游戲所需的任何菜單。

通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

提取回饋

雖然沒有回饋函數的環境可用于無監督學習,或者用于生成類人的展示,但是,強化學習(RL)需要回饋函數。與Atari游戲不同,我們不能簡單地從對內存的處理中讀取成功的標準,并且,關于每一個游戲如何儲存這些信息,其中還有很多的變量。

幸運的是,許多游戲都會有顯示在屏幕上的得分情況,這可以當成是一個回饋函數,只要我們能合理地解釋這些分數。雖然現成的OCR(例如Tesseract)在具有干凈背景的標準字體上表現很好,但它在許多游戲中常常遇到多樣字體,移動背景,動畫或遮擋物體等難題。

我們開發了一個基于卷積神經網絡的OCR模型,該模型在Docker容器的Python控制器中運行,解析得分(通過VNC自循環維護的屏幕緩沖區),并通過WebSocket通道將其傳遞給智能體。 我們的得分OCR模型發揮了作用。人類積分等級員提供了分數的上下界限。OCR模型以每秒60幀的速度解析分數。

通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

瀏覽器任務

在人類集體的努力下,現在互聯網已經被建設成一個關于信息的巨大寶藏,用于人類的視覺消費。Universe包含了給予瀏覽的環境,這些環境要求AI智能體能讀、導航,像人類一樣使用網站、顯示器、鍵盤和鼠標。

目前,我們的智能體主要學習與常見的用戶交互元素(如按鈕,列表和滑塊)進行交互,但是將來他們可以完成更復雜的任務,例如在互聯網上查找他們不知道的事情,管理電子郵件或日歷,完成Khan Academy課程,或者完成亞馬遜Mechanical Turk 和CrowdFlower等任務。

Mini World of Bits

我們首先計劃創建一個新的基準,能在一個簡單的設定下,捕捉瀏覽器交互中的一個的一個顯要難題。我們把這個基準稱為Mini World of Bits.

我們認為這可以跟MNIST類比,并且認為,能夠掌握這些環境為模型和訓練技術提供了有價值的信息,這些技術將在整個網站和更復雜的任務上有良好的表現。我們最初的Mini World of Bits基準包括80個環境,從簡單(例如,點擊特定按鈕)到困難(例如,在模擬電子郵件客戶端中回復聯系人)都有。

通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

現實世界中的瀏覽任務。我們已經開始在更加具有現實意義的瀏覽任務上進行研究。智能體在獲得一份說明書后,開始在網頁上執行一系列任務。一個這樣的環境交給智能體一個具體的任務:預定航班。要求其操縱用戶界面以搜索航班。(我們使用這些網站的緩存記錄,以避免發送垃圾郵件,或預訂大量真實的航班)。

通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

未來的融合

這種基礎設施是通用的:我們可以集成任何可以在Docker容器(最方便)或Windows虛擬機(不太方便)中運行的游戲,網站或應用程序。我們希望獲得整個研究社區的幫助,繼續延伸Universe環境的廣度,包括完成合作伙伴的游戲、Android應用程序(模擬器可以在Docker內部運行)、fold.it、Unity游戲、HTML5游戲、在線教育游戲等等,以及別人能想到的任何事。 微軟的Malmo團隊將與Universe集成,我們也期待著支持其他AI框架。

通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

OpenAI研究員還在文章中表示,研究進步要求對其水平進行有實際意義的衡量。在接下來的幾周內,他們將發布一個遷移學習基準,允許研究人員確定他們是否在機器的通用問題解決能力研究方面取得進展。

Universe從計算機視覺ImageNet數據集的發展中獲得靈感。李飛飛和她的合作者故意把ImageNet的基準設計為幾乎不可能做到的,但圖像識別的錯誤率從2010年的28%迅速下降到2016年的3%,達到(在某些情況下甚至超過)人類的水平。如果AI社區在Universe上也一樣發展的話,那么我們在研究普適性的、通用的人工智能系統上,將會取得真正的進展。”

通用人工智能的新宇宙:OpenAI重磅發布AGI測試訓練平臺Universe

【編者按】本文轉自新智元。文章來源:openai.com,編譯:王楠、劉小芹、胡祥杰。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到