シンギュラリティ教徒への論駁の書

"Unending exponential growth? What drugs are those people on?" - Linus Torvalds

機能と手段:潜水艦は泳げるのか

「コンピュータは考えることができるか?という問いは、潜水艦は泳げるか、という問いと同じようなものだ」 - エドガー・ダイクストラ

人工知能について語るとき、よく次のようなことが言われます。

「自動車は馬のように走るわけではなく、飛行機は鳥のようにはばたくわけではなく、船や潜水艦は魚を模倣しているわけではない。また、眼や脳の視覚野の機能について完全に解明されているわけではないが、コンピュータビジョンや画像認識は実現できているではないか。同様に、コンピュータで知能を実現するにあたって、生物を模倣する必要はない。」

この指摘はある意味では妥当ではありますが、けれども「知能」の実現を考える上ではやや不正確な比喩だと言えます。これは、実現するべき「機能」と、機能を実現する「手段」の間の関係を考えると、違いが明確になります。

例を挙げます。飛行機の機能は「空中を飛行して移動すること」であり、船舶の機能は「水上または水中を移動すること」です。また、コンピュータビジョンの機能は、「可視光線の入力あるいは画像のピクセルを受け取り、物体を『認識』あるいは分類すること」です。ここでは、実現するべき機能の目的や仕様は明確に定めることができ、これらの機能を実現する上で生物学的な構造を模倣する必要はありません。

それでは、同様のアプローチで、構造を模倣せずに知能や意識という機能を再現できるのでしょうか。これは、知能や思考のもつ機能を形式的に、つまり工学的にコンピュータで扱える形に書き下せるかと言い替えられます。けれども、現在のところ、そもそも脳全体の知能としての機能をどのように具体的に記述すればいいのかは分かりません。それ以前に、知能や意識という機能が何なのか、新しいアイデアを考案するために必要な素材としての知識の量、あるいは私たちが持っている「常識」の量をどう測定するかなどを、人間はまだ定義できていない状態です。これが、脳の情報処理機能の解明にまつわる困難さです。

明確に定義されていない機能を、器質的、ハードウェア的な模倣なしに実現しようとしてもあまりうまくできるとは思えません。特に、「言語の意味理解」については相当に困難だろうと考えています。言語の意味とは一体何なのか、何ができれば言語の意味が理解できたことになるのか、という問題については、古き良き人工知能研究以前から哲学的な研究の歴史が存在していますが、結局のところ、あまり良く分かっていないというのが現状です。

性能vs.能力

f:id:liaoyuan:20171016212457p:plain

図:機械学習によって画像から生成されたキャプション「若者のグループがフリスビーの競技で遊んでいる」*1

もちろん、機能が明確に定義できる認知的タスクについては、人工的な再現が可能であるものも存在しています。実際に、店舗案内や電話応答など、限られた状況においては言語的なコミュニケーションができるシステムも存在します。そして、画像認識や音声認識システムなど、一部の機能においては人間を超える性能を示すシステムも存在しています。

この通り、眼や脳の視覚野の機能が完全に解明されていなくてもコンピュータビジョンは実現できるのだから、同様に、脳や知能の機能が解明されていなくても人間の能力を全般的に超える人工知能は可能であるはずだ、という主張がされています。

 

けれども、単一の機能、単一のタスクに対する「性能」と普遍的・汎用的な「能力」を混同することは、極めて重大な誤りです。MIT人工知能研究所の元所長であり、ロボット掃除機ルンバを製造するiRobot社の創業者でもあるロドニー・ブルックス氏は、次のように「性能 (performance)」と「能力 (competence)」を混同することの誤りについて指摘しています。

ここで、ある人が我々に「この写真には『公園でフリスビーで遊んでいる人々』が写っています」と伝えたと考えてみよう。我々は当然、この人が次のような質問にも回答する能力があると想定できるだろう。「フリスビーはどんな形をしていますか?」「人間はだいたいどのくらい遠くまでフリスビーを投げられますか?」「人間はフリスビーを食べられますか?」「一度にだいたい何人くらいの人がフリスビーで遊べますか?」「生後三ヶ月の人間はフリスビーで遊べますか?」「今日の天気はフリスビーで遊ぶのに適していますか?」… 今日の画像ラベリングシステムは、オンラインの写真に対して「公園でフリスビーで遊んでいる人々」のように、大抵正しい答えのラベルを返すことができる。しかし、上記の質問には答えることができない。

 

このシステムができることは画像へのラベル付けだけであり、上記の質問には全く回答できないことに加えて、このシステムは「人間とは何か」「公園は普通屋外にあるということ」「人間には年齢があること」「天気は写真の写りを決めるだけのものではないということ」などなど、については何も分かっていない。

 

…つまり、間違いはこうだ。ロボットやAIシステムが何らかのタスクを実行する性能を示した、と普通の人々が耳にしたとしよう。そこで彼らは、その性能を汎用的な能力へと一般化し、それと同じのタスクを実行可能な人間であれば持っていると期待できる能力を考える。そして、人々はこの種の一般化をロボットやAIシステムにも適用してしまうのである。

今日のロボットやAIシステムが可能なことは、信じがたいまでに限られている。人間風の一般化は全く適用できない。このような一般化をする人々は非常に、非常に誤っている。*2

結局のところ、現在の「人工知能」システムは人間によって作られた道具です。道具は普通、人間の「能力」より優れた「性能」を発揮するように作られています。たとえば、電卓は計算において人間より優れており、自動車は移動や輸送において人間に勝っています。石でできた斧は硬さと攻撃力において人間を上回っており、紙とペンという単純なテクノロジーですら記録の保持において人間を越えています。「記憶」に関係する脳の物理的活動は非常に複雑ですが、一部の機能において人間越えを果たしているテクノロジー (紙とペン) は、既に紀元前から存在しています

けれども、紙が人間より記憶力に優れていると主張したり、石斧が意思を持って人間を襲い出すと考えたり、あるいは紙や石斧が自律的に自身を強化し始めたりすると想像することは、あまりに馬鹿げた呪術的思考であることは明らかです。本当に警戒するべきは、たとえば邪悪な人間が石斧を持って暴れたり、他人へと危害を与えることでしょう。

今日の「人工知能」においてもそれは同様です。ジャン・ガブリエル・ガナシア氏が著書の中でいみじくも指摘している通り、私たちが警戒しなければならないことは、人工知能が自律的に成長を始めたり、あるいは人類を支配し抹殺したりするような未来ではありません。人工知能を開発しビジネスに用いている企業が、シンギュラリティ論という壮大な与太話を使って、人工知能を使用する人間が引き起こす本当のリスクから人々の眼を逸らしている現状こそ、最も警戒する必要があります。

スーツケース語の誤謬

「思考」や「学習」という言葉は、”人工知能の父” マーヴィン・ミンスキー氏が言うところの「スーツケース語」であることも、この混乱に拍車をかけています。つまり、「思考」や「学習」という単語には、いろいろな動作や状態の意味が (スーツケースのように) 詰めこまれており、各々が意図するものと理解するものがバラバラであるような多義語であるということです。

「走る」、「(空を) 飛ぶ」や「泳ぐ」という言葉を取り上げてみると、何かが「飛んでいる」「泳いでいる」とはどういうものであるかは、日本語の母語話者であればおそらく確実に意見が一致するでしょう。「走る機械」、「飛ぶ機械」や「泳ぐ機械」も、おそらくどのようなものであるかは想像ができるでしょう。

その一方で、「思考する」「学習する」という語を考えてみます。すると、日常言語においてさえ、これらの言葉が非常に多くの動作や状態を表していることが理解できます。たとえば、「思考する」と言う心的な動作を取ってみても、過去の情景を思い出すこと、将来の計画を立てること、複雑なシステムやプログラムの構造を設計すること、感情を適切な文章で表現することなど、さまざまな動作が「思考する」という語で表現されています。「学習する」と言っても、おそらく新たな外国語を学習することと、一輪車の乗り方を学習することでは、必要なスキルも脳の部位も異なるはずです。これらの個々のスキルに対応できる機械学習システムを作ることは可能かもしれませんが、その数や組み合わせは膨大になるでしょう。

そして、機械学習分野においても、一種の専門用語としてスーツケース語が使用されています。ロドニー・ブルックス氏が挙げている通り、用語の例には予測、推定、学習、識別、認識、説明、意図、学習、推論、理解、などがあります。これらの用語が機械学習における専門用語として使用される際には、厳密な定義と意味を持って使用されています。けれども、専門外の人間が「機械学習システムが画像『認識』率において人間を上回った」と耳にしたとき、人々は自分自身のメンタルモデルを適用し、人間が「認識」するように機械も「認識」しているのだろうと想像してしまっているように見えます。

けれども、そのような想定は完全な誤りです。画像ラベリングシステムの例で言えば、システムはフリスビーや人間に関する事典的な知識を持っていません。また、システムに対して使われている「認識」という単語は、実際には一種の多次元ベクトルへの写像を意味しています。人間が「認識」するように、機械が画像を「認識」しているわけではありません。

スーツケース語の日常言語と専門用語における意味の差異が、今日の機械学習人工知能に対する巨大な誤解と過大評価を生み出している一因なのではないかと考えています。

 

(10/10追記)

もちろん、私は昨今の画像認識の進展自体を否認するつもりも、その有用性を否定するつもりもありません。一般物体認識は半世紀以上前から研究が続けられているテーマであり、ディープラーニングによる近年の進歩は本物で、それが経済的に大きな意味を持っていることは理解しています。けれども、単一の機能において人間を上回る性能を示したことをもって、シンギュラリティを引き起こすような「人工知能」の実現が可能であると主張することは難しい、と考えています。