|
本帖最后由 twq19810302 于 2023-12-22 14:05 編輯
; i$ D( Y% K0 I% j' W. X7 ]- t1 ]5 L- |2 d r& `
讓GPT-4操縱人形機(jī)器人,事先不做任何編程or訓(xùn)練,能搞成啥樣兒?& K& ~" w: z- \
0 ~; i& M; ^& `) Z% K# r$ ^: U; H. L答案是:太 獵 奇 了!7 M5 I; i. ?: W2 a: X$ D0 `% F2 x
; L- t& P4 O; P, }- Z: p
這不,要求機(jī)器人表演“在昏暗電影院里狂炫爆米花,卻突然發(fā)現(xiàn)吃的是隔壁陌生人的😅”。; a- t/ q/ y% e
! t, q7 c* l6 q0 a
在GPT-4的操縱下,機(jī)器人笑容凝固,“尷尬”得搖頭扶額后仰:% B+ P' C+ |. I7 i- y
( \2 ?- @; @% S+ G2 p
8 D1 Q1 ?- L. y @2 j1 e& ^* z
! Y+ i0 [: b2 t; f5 o8 n4 w
但在尷尬之余,竟然還不忘再抓一把塞嘴里???又像是要求機(jī)器人“彈吉他”。
3 m. b5 u. _/ w4 T7 g& o! Q1 p6 F
! r1 X: m F8 h! R0 b+ PGPT-4略思考一番,開始操控機(jī)器人活動(dòng)一番手指、隨后瘋狂甩頭,好像是有點(diǎn)搖滾內(nèi)味兒。但仔細(xì)一看,甩頭的時(shí)候,手指就完全不動(dòng)了……
: p) F$ A: w# `' M/ n/ z6 Z6 ~5 G 7 e- T/ `1 |2 }3 R4 O6 h/ D
6 \; H1 J& z' Y4 L }2 z 你要說這是神叨叨的地?cái)傁壬谄敢凰悖孟褚矝]什么不對(duì)(手動(dòng)狗頭)。
- p' z2 R' P' A9 H& X/ y0 i1 p& H- W
總結(jié)一系列動(dòng)作來看——
- u& L8 d+ ?: \$ k
7 f" `1 _1 Z' [, g相比波士頓動(dòng)力人形機(jī)器人,一舉一動(dòng)均由人為程序精細(xì)操縱,這個(gè)GPT-4直接操控的機(jī)器人,表情猙獰,動(dòng)作詭異,但一切行為又符合prompt的要求。
1 X5 L( Q7 X2 u' {) _& \! U4 ]5 e0 l
7 ^8 \" C7 W! @0 L0 v
) z/ P, P) O. \ 這一連串GPT-4操控機(jī)器人的視頻po到網(wǎng)上后,不少網(wǎng)友直呼“恐怖谷效應(yīng)犯了”:$ ^! j( u/ n }; \2 X
) }( v' X9 |4 ?6 q5 p7 S
原來,這是首個(gè)由GPT-4驅(qū)動(dòng)人形機(jī)器人的研究,來自東京大學(xué)和日本Alternative Machine公司。 ! _! y$ V# I4 ^8 p1 e# Q
0 f* i9 `# N4 R0 Z+ b8 b9 r3 G K! P
- }* j% N( k$ Z' U
依靠這項(xiàng)研究,用戶無需事先給機(jī)器人編程,只需語言輸入、也就是動(dòng)動(dòng)嘴皮和GPT-4聊上一會(huì)兒,就能讓機(jī)器人根據(jù)指令完成行動(dòng)。4 z, D9 C$ }) |; H$ E6 Y5 h' ?
5 e2 p! g# O6 N. f! c2 b7 y* a : C3 b7 T1 m1 Y0 B
" t: X" h- g; Z8 [4 f 來具體講講把GPT-4和Alter3集成到一起,是如何實(shí)現(xiàn)的。
/ N5 Y" l' M/ ~* t" x
% J* [) W% U4 Y9 E: F# P4 }7 K* `大體可以分為兩個(gè)步驟:
& B4 ~" b A; A `7 H
" C6 m) Q' H( ~1 f* G# F6 p首先,先用prompt描述一下,想要Alter3能夠完成什么行為或者動(dòng)作,比如“咱來張自拍吧”“自拍的時(shí)候胳膊再舉高一點(diǎn)”。
; d% V! u( C1 c( S& V6 ?
& O* s! B) z$ O: W- ?( ~接收到輸入的GPT-4會(huì)生成一系列的思考步驟,這些步驟詳細(xì)地闡述了要完成這個(gè)動(dòng)作,需要先后完成些啥。, T* f! V4 {6 Q% e+ V
3 y/ \/ ]' D6 G h% N這個(gè)過程被研究團(tuán)隊(duì)稱為CoT的一部分,即將一個(gè)復(fù)雜任務(wù)分解為一串更簡(jiǎn)單的思考步驟。
5 d2 z2 o& g* ?5 c, y: o) ^; i7 z7 B
3 F& L7 m. [. y4 _然后,研究者們?cè)偌莱隽硪粋(gè)prompt,把分解后的詳細(xì)步驟轉(zhuǎn)化為Alter3可以聽懂的動(dòng)作指令。
3 R' r5 O+ F; R% J4 i; r8 H& v3 A5 @9 i4 s' T* ?
簡(jiǎn)單理解就是把人們的指令描述轉(zhuǎn)化為Python代碼,這些代碼可以直接用來控制Alter3的各個(gè)身體部位的具體運(yùn)動(dòng)參數(shù)。( V" J4 ^5 u9 \4 J. R
; |: M% l: A, D' N* Z5 p
有了轉(zhuǎn)化后的代碼,Alter3想擠眉弄眼就擠眉弄眼,想撇嘴就能撇嘴
9 j: r, P# j/ n# L
" e8 @' J8 M5 C' i4 c研究團(tuán)隊(duì)把這第二步也看成CoT的一部分,因?yàn)樗瓿傻氖恰鞍岩粋(gè)抽象描述轉(zhuǎn)化為具體操作”。6 d7 H6 W* u" [1 A H# ~
4 V# d& p* Z5 \9 u5 W$ D8 u
. d% P* W+ m" g! K1 d3 g' D3 W" Z3 W4 @# {) L* {8 n* H
團(tuán)隊(duì)表示,CoT讓GPT-4能夠有效控制Alter3,命令它做各種復(fù)雜動(dòng)作,且不用額外的訓(xùn)練或者微調(diào)。
% v- m3 [" R; }) {* n9 X7 I. k0 q; A8 @
多說兩句,除了上述的兩個(gè)Prompt搞定機(jī)器人控制外,研究團(tuán)隊(duì)還順手完成了一些其它研究。
6 l0 p3 B) f; n% a* y ]/ ? b# \2 Z0 `8 u
比如掰開了看Alter3在對(duì)話中的行為,主要針對(duì)其對(duì)話軌跡和語義時(shí)間演化。
+ Z" w3 U: A V! O, U/ `' Q/ x2 K
針對(duì)對(duì)話軌跡,研究團(tuán)隊(duì)使用了一種叫UMAP(Uniform Manifold Approximation and Projection)的方法。團(tuán)隊(duì)把對(duì)話內(nèi)容嵌入二維空間,從而方便觀察這個(gè)簡(jiǎn)化版的對(duì)話發(fā)展過程。
4 O3 K, u5 Y+ ~8 a
5 B: E9 W% R. z% O$ Q他們發(fā)現(xiàn),當(dāng)對(duì)話順序固定時(shí),對(duì)話軌跡會(huì)呈現(xiàn)循環(huán)模式,也就是老在重復(fù)同樣的話題。
* q( C4 s$ ~% r: o
4 _7 {4 |3 H( X/ G( A4 _1 ]+ N而當(dāng)對(duì)話順序隨機(jī)時(shí),對(duì)話內(nèi)容更有發(fā)散性or創(chuàng)造性。
4 d) x! l$ L: X& ]
2 E6 U' `( U5 i4 {賊有趣的一點(diǎn),研究發(fā)現(xiàn)GPT-4聊久了過后,會(huì)傾向于反復(fù)說“再見”。如果你不來點(diǎn)兒人為干預(yù),它就會(huì)沉迷于想辦法跟你說再見。
& y+ Z' `7 C3 k" G! S7 D* D; y# L% E4 t, ?9 W' u8 r7 ]/ H9 E# p- e
而做語義時(shí)間演化分析的過程中,團(tuán)隊(duì)觀察了隨著時(shí)間變化,聊天內(nèi)容的變化。9 f' q3 k' V& M$ N) H# p
" }' b+ j( V, S- g他們發(fā)現(xiàn),對(duì)話初期的一些關(guān)鍵詞,比如“藝術(shù)”或者“學(xué)習(xí)”啥的,會(huì)聊著聊著就被GPT-4忘了,取而代之的是諸如“文化”“人類”“抑制”之類的詞。
' o0 {+ q, L4 t6 n. @3 l
# J0 O- G( m) q9 h4 s這表明對(duì)話內(nèi)容是在逐漸發(fā)展變化的。
% s, I/ q& z5 P) r
! A( S3 F, d4 V+ E3 i( h當(dāng)然,如果你開始跟GPT-4說“再見”,它就幾乎一心一意只想跟你說byebye~(doge) Y. d9 X& _! |2 f
. n7 Q& m9 X3 n$ Z這項(xiàng)火爆全網(wǎng)的研究,來自東京大學(xué)和日本Alternative Machine公司。- F4 P. e* c v2 a3 F
% `+ [& ~1 }4 x" l
一作Takahide Yoshida,來自東京大學(xué)通用系統(tǒng)科學(xué)系。
1 ]5 \9 e5 H/ O/ C r, k& P
7 w- v- L9 e+ ]: r0 O# w+ J另外兩位作者升森敦士(Atsushi Masumori)和池上高志(Takashi Ikegami),都是既在東京大學(xué),又屬于Alternative Machine公司。+ P# c) Q0 p% Z
' {( e% z! t' U. K( Y3 T: b
8 m7 j$ a# W: a l9 L9 y
9 \, `7 X0 D0 [ 最后,不得不提到本次研究?jī)?nèi)容的主人公Alter3,它的幕后研究者也來自東京大學(xué),由東京大學(xué)AI研究學(xué)者池上高志和日本“機(jī)器人之父”石黑浩聯(lián)袂打造。
. F" Z* X. c6 n. M& }9 ^& F# \
3 Z& Z0 P7 H& _' p& RAlter3出生于2020年,是同系列機(jī)器人第三代產(chǎn)品。
2 m {: E3 L( Y$ Q: I- u, h
7 N! l5 a( b& c. O: h據(jù)了解,Alter系列的兩次迭代都是在歌劇演唱中完成的。第3代的初亮相就是在東京新國(guó)立劇場(chǎng)指揮管弦樂隊(duì)并參加其他現(xiàn)場(chǎng)表演。
8 `9 @ i, T% @. v. l# Z+ d
6 M( [; v* G5 f& E4 [+ z 3 a: P6 g% B9 n! P$ z u/ {
$ A) I' s }3 I; m1 _" ~ 那個(gè)時(shí)候它的特色是增強(qiáng)了傳感器,并改善了唱歌的表達(dá)能力和發(fā)聲系統(tǒng)。7 y3 ^0 u! k* a% ~4 e1 T7 I
: ]* I+ h1 N% F
以及身體里那粒能夠最終驅(qū)動(dòng)43個(gè)氣動(dòng)裝置的CPG。
: t9 G' p5 S# ]+ b) Z* c6 O! v9 B4 {4 _% O/ [$ f- q
CPG對(duì)數(shù)據(jù)的分析靈敏到什么程度呢?就是如果Alter3呆的房間里如果溫度驟降,Alter3會(huì)因此打個(gè)冷顫,表示自己有被冷到。
3 o, d$ }& F K4 d
% i' K0 f# V4 v6 U" ?9 ]- O6 o# a" h
這或許也為現(xiàn)在接入GPT-4當(dāng)腦子后的它,能夠活靈活現(xiàn)做表情、完成動(dòng)作提供了一些基礎(chǔ)吧。
: s" g, J+ D+ @& u1 k% R: `8 r# C' {) j& B% Y$ x. j
9 a3 i$ C( F; ]8 `# z3 n |
|