精品久久久久久无码专区_久久精品国产99久久久古代_久久精品人妻无码一区二区三区_久久婷婷综合色丁香五月_老色鬼久久亚洲AV综合_两个人看的WWW在线观看_麻豆精产国品一二三产区区_最近中文字幕免费MV在线视频_影音先锋女人AA鲁色资源_男人扒开女人内裤强吻桶进去,国产精品自在拍首页,AV高潮娇喘抽搐喷水视频,日韩av片无码一区二区不卡电影

推廣 熱搜: APP  品牌  深圳APP外包公司  中國(guó)  發(fā)展  吉三代  智能  出口  產(chǎn)業(yè)  手機(jī) 

新的學(xué)習(xí)模型可以在現(xiàn)實(shí)世界中快速“教會(huì)”機(jī)器人新的行為

   日期:2022-11-08     作者:機(jī)器人生態(tài)圈    瀏覽:47    違規(guī)舉報(bào)
 
騰訊云服務(wù)器優(yōu)惠

訓(xùn)練機(jī)器人在現(xiàn)實(shí)世界中完成任務(wù)可能是一個(gè)非常耗時(shí)的過程,,這涉及到建立一個(gè)快速高效的模擬器,對(duì)其進(jìn)行多次試驗(yàn),,然后將在這些試驗(yàn)中學(xué)習(xí)到的行為轉(zhuǎn)移到現(xiàn)實(shí)世界中,。然而,在許多情況下,,由于環(huán)境或任務(wù)的不可預(yù)測(cè)的變化,,模擬中獲得的性能與現(xiàn)實(shí)中獲得的不匹配。

加州大學(xué)伯克利分校(UC Berkeley)的研究人員最近開發(fā)了一款名為DayDreamer的工具,,可以用來(lái)訓(xùn)練機(jī)器人更有效地完成現(xiàn)實(shí)世界中的任務(wù),。他們的方法是基于世界的學(xué)習(xí)模型,允許機(jī)器人預(yù)測(cè)他們的動(dòng)作和行動(dòng)的結(jié)果,,減少了在現(xiàn)實(shí)世界中大量的試錯(cuò)訓(xùn)練的需要,。

新的學(xué)習(xí)模型可以在現(xiàn)實(shí)世界中快速“教會(huì)”機(jī)器人新的行為

進(jìn)行這項(xiàng)研究的研究人員之一丹尼爾·哈夫納(Danijar Hafner)說道:“我們希望制造出能夠在現(xiàn)實(shí)世界中直接持續(xù)學(xué)習(xí)的機(jī)器人,而不需要?jiǎng)?chuàng)建模擬環(huán)境,。我們之前只學(xué)習(xí)過電子游戲的世界模型,,所以看到同樣的算法也可以讓機(jī)器人在現(xiàn)實(shí)世界中快速學(xué)習(xí),這是非常令人興奮的!”

使用他們的方法,,研究人員能夠有效和快速地教機(jī)器人在現(xiàn)實(shí)世界中執(zhí)行特定的行為,。例如,他們訓(xùn)練了一只機(jī)器狗,,讓它在一個(gè)小時(shí)內(nèi)從背上滾下來(lái),,站起來(lái)并走路。

訓(xùn)練完成后,,研究小組開始推機(jī)器人,,并發(fā)現(xiàn)在10分鐘內(nèi),機(jī)器人也能夠承受推,或迅速用腳向后滾,。該團(tuán)隊(duì)還在機(jī)械臂上測(cè)試了他們的工具,,訓(xùn)練它們拿起物體并把它們放在特定的地方,但沒有告訴它們物體最初的位置,。

哈夫納說:“我們發(fā)現(xiàn)機(jī)器人能夠適應(yīng)光照條件的變化,,比如陰影在一天中隨著太陽(yáng)的移動(dòng)而移動(dòng)。除了在現(xiàn)實(shí)世界中快速,、持續(xù)地學(xué)習(xí)外,,相同的算法在四個(gè)不同的機(jī)器人和任務(wù)中都能很好地工作。因此,,我們認(rèn)為世界模型和在線適應(yīng)將在機(jī)器人技術(shù)發(fā)展中發(fā)揮重要作用,。”

基于強(qiáng)化學(xué)習(xí)的計(jì)算模型可以隨著時(shí)間的推移教會(huì)機(jī)器人行為,,通過給予它們理想行為的獎(jiǎng)勵(lì),,例如良好的物體抓取策略或以合適的速度移動(dòng)。通常,,這些模型都是經(jīng)過漫長(zhǎng)的試錯(cuò)過程訓(xùn)練的,,使用可以加快速度的模擬和現(xiàn)實(shí)世界中的實(shí)驗(yàn)。

另一方面,,由哈夫納和他的同事開發(fā)的“夢(mèng)想者”算法根據(jù)過去的“經(jīng)驗(yàn)”構(gòu)建了一個(gè)世界模型,。這個(gè)世界模型可以用來(lái)教機(jī)器人基于“想象”互動(dòng)的新行為。這大大減少了在現(xiàn)實(shí)環(huán)境中進(jìn)行試驗(yàn)的需要,,從而大大加快了訓(xùn)練過程,。

新的學(xué)習(xí)模型可以在現(xiàn)實(shí)世界中快速“教會(huì)”機(jī)器人新的行為

直接預(yù)測(cè)未來(lái)的感官輸入速度太慢,成本也太高,,尤其是當(dāng)涉及相機(jī)圖像這樣的大輸入時(shí),。世界模型首先學(xué)會(huì)將每個(gè)時(shí)間步的感覺輸入(電機(jī)角度、加速度計(jì)測(cè)量值,、相機(jī)圖像等)編碼為一個(gè)緊湊的表示,。給它一個(gè)表示法和一個(gè)運(yùn)動(dòng)指令,然后它學(xué)習(xí)預(yù)測(cè)下一個(gè)時(shí)間步驟的結(jié)果表示法,。

“夢(mèng)想家”制造的世界模型允許機(jī)器人“想象”未來(lái)的表現(xiàn),,而不是處理原始的感官輸入。這反過來(lái)允許模型使用單個(gè)圖形處理單元(GPU)并行規(guī)劃數(shù)千個(gè)動(dòng)作序列,。這些“想象”的序列有助于快速提高機(jī)器人在特定任務(wù)中的表現(xiàn),。

潛在特征在強(qiáng)化學(xué)習(xí)中的使用已經(jīng)在表征學(xué)習(xí)的背景下得到了廣泛的研究,這項(xiàng)研究的另一名研究人員亞歷杭德羅·埃斯孔雷拉說,,我們的想法是,,人們可以創(chuàng)建一個(gè)大型感官輸入(相機(jī)圖像,、深度掃描)的緊湊表示,從而減少模型大小,,可能還會(huì)減少所需的訓(xùn)練時(shí)間,。然而,表征學(xué)習(xí)技術(shù)仍然需要機(jī)器人與現(xiàn)實(shí)世界或模擬器進(jìn)行長(zhǎng)時(shí)間的互動(dòng)來(lái)學(xué)習(xí)任務(wù),?!皦?mèng)想家”可以讓機(jī)器人從想象的互動(dòng)中學(xué)習(xí),,將其學(xué)習(xí)到的表征作為一個(gè)準(zhǔn)確而高效的“模擬器”,。這使得機(jī)器人能夠在學(xué)習(xí)的世界模型中進(jìn)行大量的訓(xùn)練。

在訓(xùn)練機(jī)器人的同時(shí),,“夢(mèng)想家”不斷收集新的經(jīng)驗(yàn),,并利用它們來(lái)增強(qiáng)其世界模型,從而改善機(jī)器人的行為,。他們的方法允許研究人員在一小時(shí)內(nèi)訓(xùn)練一個(gè)四足機(jī)器人行走并適應(yīng)特定的環(huán)境刺激,,而不需要使用模擬器,這是以前從未實(shí)現(xiàn)過的,。

哈夫納說:“我們?cè)O(shè)想,,在未來(lái),這項(xiàng)技術(shù)將使用戶能夠在現(xiàn)實(shí)世界中直接教機(jī)器人許多新技能,,從而無(wú)需為每項(xiàng)任務(wù)設(shè)計(jì)模擬器,。這也為制造能夠適應(yīng)硬件故障的機(jī)器人打開了大門,比如即使一條腿的馬達(dá)壞了,,機(jī)器人也能行走,。”

在他們最初的測(cè)試中,,Hafner, Escontrela, Philip Wu和他們的同事還用他們的方法訓(xùn)練機(jī)器人拿起物體并將它們放在特定的地方,。這項(xiàng)工作每天都是由人類工人在倉(cāng)庫(kù)和裝配線上完成的,對(duì)于機(jī)器人來(lái)說可能很難完成,,尤其是當(dāng)它們期望撿到的物體的位置未知時(shí),。

這項(xiàng)任務(wù)的另一個(gè)困難是,在機(jī)器人真正掌握某些東西之前,,我們不能給它中間反饋或獎(jiǎng)勵(lì),,所以沒有中間指導(dǎo),機(jī)器人可以探索很多東西,。在10個(gè)小時(shí)的完全自主操作中,,使用“夢(mèng)想家”進(jìn)行訓(xùn)練的機(jī)器人的性能接近人類遠(yuǎn)程操作員。這一結(jié)果表明,,世界模型是倉(cāng)庫(kù)和裝配線自動(dòng)化工作站的一種有前途的方法,。

在他們的實(shí)驗(yàn)中,,研究人員成功地使用做夢(mèng)者算法訓(xùn)練了四個(gè)形態(tài)不同的機(jī)器人完成各種任務(wù)。使用傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法訓(xùn)練這些機(jī)器人通常需要大量的人工調(diào)優(yōu),,在不需要額外調(diào)優(yōu)的情況下就能很好地完成任務(wù),。

哈夫納說根據(jù)我們的研究結(jié)果,我們預(yù)計(jì)會(huì)有更多的機(jī)器人團(tuán)隊(duì)開始使用和改進(jìn)“夢(mèng)想家”,,以解決更具挑戰(zhàn)性的機(jī)器人問題,。擁有一種開箱即用的強(qiáng)化學(xué)習(xí)算法,可以讓團(tuán)隊(duì)有更多時(shí)間專注于構(gòu)建機(jī)器人硬件,,并指定他們想用世界模型自動(dòng)化的任務(wù),。

該算法可以很容易地應(yīng)用于機(jī)器人,其代碼將很快開源,。這意味著其他團(tuán)隊(duì)很快就能使用它來(lái)使用世界模型訓(xùn)練他們自己的機(jī)器人,。

Hafner, Escontrela, Wu和他們的同事現(xiàn)在想要進(jìn)行新的實(shí)驗(yàn),給一個(gè)四足機(jī)器人裝備一個(gè)攝像頭,,這樣它不僅能學(xué)會(huì)走路,,還能識(shí)別附近的物體。這將使機(jī)器人能夠處理更復(fù)雜的任務(wù),,例如避開障礙物,,識(shí)別環(huán)境中感興趣的物體,或在人類用戶旁邊行走,。

哈夫納補(bǔ)充道,,機(jī)器人領(lǐng)域的一個(gè)公開挑戰(zhàn)是,用戶如何直觀地為機(jī)器人指定任務(wù),。在我們的工作中,,我們實(shí)現(xiàn)了機(jī)器人作為Python函數(shù)優(yōu)化的獎(jiǎng)勵(lì)信號(hào),但最終它會(huì)很好,,通過直接告訴機(jī)器人什么時(shí)候做對(duì)了或錯(cuò)了,,從人類的偏好來(lái)教機(jī)器人。這可以通過按下一個(gè)按鈕來(lái)給予獎(jiǎng)勵(lì),,甚至可以讓機(jī)器人理解人類語(yǔ)言,。

到目前為止,該團(tuán)隊(duì)只使用他們的算法訓(xùn)練機(jī)器人完成特定的任務(wù),,這些任務(wù)在他們的實(shí)驗(yàn)開始時(shí)就已經(jīng)明確定義,。然而,在未來(lái),,他們還想訓(xùn)練機(jī)器人探索環(huán)境,,而不是解決明確定義的任務(wù)。

一個(gè)有前途的方向是,,通過人工的好奇心,,訓(xùn)練機(jī)器人在沒有任務(wù)的情況下探索周圍環(huán)境,,然后更快地適應(yīng)用戶指定的任務(wù)。

免責(zé)聲明:
1,、本站所收集的部分公開資料來(lái)源于互聯(lián)網(wǎng),,轉(zhuǎn)載的目的在于傳遞更多信息及用于網(wǎng)絡(luò)分享,并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),,也不構(gòu)成任何其他建議,。
2、本站部分作品內(nèi)容是由網(wǎng)友自主投稿和發(fā)布,、編輯整理上傳,,對(duì)此類內(nèi)容本站僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé),,更不為其觀點(diǎn)承擔(dān)任何責(zé)任,。
3、因行業(yè)及專業(yè)性有限,,故未能核驗(yàn)會(huì)員發(fā)布內(nèi)容的真實(shí)性及有效性,不為其負(fù)責(zé),,如有虛假或違規(guī)內(nèi)容敬請(qǐng)準(zhǔn)備材料圖片發(fā)郵件到info@n#舉報(bào),,本站核實(shí)后積極配合刪除。
4,、如果您發(fā)現(xiàn)網(wǎng)站上有侵犯您的知識(shí)產(chǎn)權(quán)的作品,,請(qǐng)與我們?nèi)〉寐?lián)系,我們會(huì)及時(shí)處理或刪除,。
 
 
更多>同類資訊文章
0相關(guān)評(píng)論

推薦圖文
推薦資訊文章
點(diǎn)擊排行
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  使用協(xié)議  |  免責(zé)聲明  |  版權(quán)隱私  |  信息發(fā)布規(guī)則  |  網(wǎng)站地圖  |  排名推廣  |  廣告服務(wù)  |  積分換禮  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  粵ICP備2020081222號(hào)
Powered By DESTOON