Friday 17 April 2009

ロボット三原則とAI

昨日のTwitterで。学生さんかと思ってたら、違うのか。宿題だしてごめんなさい。mixi に出して良いって言われたので。(でも、編集メンドクサ〜)

nagise> ニューラルネット的なモノにロボット三原則を守らせることは不可能なんじゃないかという気がする

shinji_kono> @nagise Recurrent Neural Network がロボット三原則(+1)を学習できるかってことだけど、Turing Test的なものでよいなら可能だと思う。問題は自己参照を近似的に可能にするくらい複雑かどうか。十分に複雑なら外から見れは区別はつかない。

nagise> @shinji_kono ニューラルネットワークだと所定の行動をそれぞれプログラムするわけではないですから、ロボット三原則違反をどう判別して、どう禁止するのか僕にはちょっとイメージできないのですけども。

shinji_kono> @nagise アシモフの初期のシリーズだと判断は単純な規則と推論で可能だとされているね。学習してしまえば単なる機械。三原則の難しさは自己と他者の認識にあって、それをRNNが学習出来るかどうかが鍵。それは可能だろうっというわけ。

nagise> 人間の場合は本能で「不快」が仕込まれていて、それを優先するような学習を阻むような仕掛けになっているように思えるんだよな。あとは、環境不適合な学習をした場合は事故死するとかして淘汰されることで保ってる感じ。

shinji_kono> ちなみに北野宏明氏に聞いた時にはRNNでは出来ないという答だった。15年前のことだから今は違う考えかも。

shinji_kono> では何故、今の計算機で三原則の実装が出来ないのか?今の計算機はRNNに近い構造を持っている。メモリも計算速度も生物的なものより大きく速い。

nagise> @shinji_kono 三原則をやってはいけないと学習させることはできると思うのですけど、実用上の安全の担保ができなさそうですよねぇ。上書きして三原則を破ることを学習したりしそうじゃないですか。

shinji_kono> @nagise 実用上の安全の担保が人間で出来てるなら、その議論には説得力あるんだけどね。実社会だと担保は同じ人間だと言う幻想ぐらい。販売される製品には非現実的な安全の担保が要求されるので、そのレベルの不可能ということなら、その通りでしょう。

nagise> 人間だって、法を学んだ上で、敢えてそれを破るとかしちゃうわけで、人間の脳をまねるなら当然に同じく「悪いことを覚える」ことが出てくるでしょう?

nagise> 悪いことを覚えてなお、ロボット三原則が覆されないような仕掛けと言うのがイメージできない。

shinji_kono> ロボットが自分がどう行動したらどうなるか、それを様々に考える。その中から、もっとも評価値の高いものを選択する。そんな感じでしょう。

nagise> 人間は本能で禁止されている自殺すらできるわけで、感情によって忌避するようにしていてなお、それを実施するような学習をしてしまうことを意味しているわけで。AI牧場ではそういう個体を間引くとかする必要が出る気がする。

nagise> AIがロボット三原則に反する行動をとろうとしたときに、アスペクト指向的にそれを禁止し抑制するような機構というのはちょっとイメージできない。

shinji_kono> @nagise それはロボットの行動選択をプログラムでどう実装するのかがイメージできてないからだと思う。Aspect は refection を制限したものだから、この場合はreflection(自己参照)で考えた方が良い。

nagise> 「Aspect は reflection を制限したもの」という文脈で言うreflectionってのはJavaとかのリフレクションとかと同じ概念でいいのかな?

shinji_kono> @nagise Javaのreflectionは、VM/byte codeを通して、自分自身を操作するもの。Reflection Towerまではいかないけど、同じものです。このあたりは@wtakuoを呼んでね。

nagise> @shinji_kono AI搭載で学習するのなんたらかんら、みたいな製品を世に出すのはかなり難しい、と?AIを野放しにしたら映画マトリックスなどのようにAI支配の世界が構築されても不思議はないということでしょうか

nagise> ああいうことを防ぐためにロボット三原則は考えられたのだろうけど、ロボット三原則を実現して、AIの存在を完全に人間の支配下に置くのは無理っぽい気がするなぁ。物理空間に作用できるインターフェースを与えてはならないとかそんな感じになるだろうか。

nagise> ロボット三原則を守れるAIがあったとして、彼がその知能を持ってAIを作ったとして、その際に過失でロボット三原則を守らせることができなかった場合とか、いろいろと穴がありそう。

nagise> @shinji_kono ニューラルネットワークの行動選択ってブラックボックスになっちゃいませんか?


nagise> @shinji_kono 評価関数は固定なんですか?評価関数も含め学習されるものだと思っているのですけども。

nagise> ロボット三原則とか、機械に正確さを求めすぎだよ


shinji_kono> @nagise そこから先は宿題だね。自分で考えよう。90年代のAIは、その辺りと戦っていたらしい。

nagise> むーん。宿題なのか。しかしAI開発にハマると人生の残りをすべてささげる羽目になりそうだから困ったもんだな。

評価関数はもちろん学習Phaseでは学習します。

ニューラルネットワークの本当の問題が学習曲線がT(トレーニング)に対して1/T。つまり、ちょっと学習すると、後は、ほとんど学習が進まなくなってしまうってことだと思う。そういう意味でNNの学習で三原則を学習するってのは実際上不可能。でも、それは学習Phaseの問題であって、実装としてのRecurrent Neural Network は人間と同程度の能力があるんだと思います。

一見いきづまっている学習でも、囲碁で「モンテカルロ木探索」ってのが開発されたらしい。アマ初段程度になったらしい。

 http://tinyurl.com/58ofny

モンテカルロの方が気を引くけど本質は、UCB1戦略って言う「確率の高そうなところに探索資源を割く」というアルゴリズムだったりします。AIも、まだまだ、いろいろあるね〜

No comments: