シンギュラリティ教徒への論駁の書

“Anyone who believes that exponential growth can go on forever in a finite world is either a madman or an economist.” - Kenneth Boulding

クラークの三法則に関する断章 (2) 「不可能性の自己欺瞞」

今回も、前回に引き続いてクラークの三法則の第二法則を扱います。

『可能性の限界を測る唯一の方法は、不可能であるとされるところまで進んでみることである。』
"The only way of discovering the limits of the possible is to venture a little way past them into the impossible."

 

以前にも私は類似のテーマについて記事を書いていますが、何かが「不可能である」と示すことは、多くの場合において「不可能」であると言えます。なぜならば、「不可能である」ことを示すためには、未だ誰も思いついていない方法も含めてあらゆる可能性を潰さねばならない一方で、解決策(あるいは可能性)が一つでも示されれば、「不可能である」という主張は誤りになるからです。ここには一種の労力の非対称性が存在しています。「これまであらゆる人が失敗してきた」ということは言えても、そこから「未来永劫、それは不可能である」という結論を導くことはできません。

 

ゆえに、何かが不可能であるかを確かめるためには、この"法則" が述べる通り、可能であることを積み上げ示していく以外にありません。けれども、クラークの第二法則を「悪用」すれば、間違った主張、間違った理論を際限なく擁護することができてしまいます。科学哲学者のラカトシュポパー反証主義に対して反論している通り、何らかの理論の反証となりうる事例も「それは核心的な誤りではなく、単なる実験の不備やデータの不足だ」と主張できてしまうからです。

数学者・ソフトウェア工学者であり、情報技術と社会との関わりに関する人文学的な学際研究もある林晋氏は、自身の過去の研究テーマに関する失敗についてこう述べています。

学問的な事実が実験・調査などにより示されても、それを完全に正しいと言い切ることは難しい。ある主張の不可能性を示すことは特に難しい。
すべての研究者が暗黙の了解としているために見落とされている条件があり、それが見つかって、出来るわけがないと思われていたことが、簡単に実現されてしまうことは良くある。

これを「悪用」すると、「誤差です」「ちょっと間違えていましたが修正可能です」「データが十分でないだけです」とか言って、間違えた結論を擁護し続けることができる。
だから、最後は、社会がそれを認めるか認めないか、そういう社会的レベルでの決着になることさえある。これはSTAP細胞を巡って、我々が目撃しつつあることだ。*1

 
ここでも取り上げられているSTAP細胞の研究者が良い例でしょう。彼女が実験データを適切に扱っていなかったこと、論文に他人の文章からの盗用が存在するということは示すことができます。けれども、それらの証拠はなお「STAP細胞が存在しないこと」を証明するものではありません。仮にSTAP細胞を作成する手法を本当に発見していたのであれば、実験手順やデータの不備は、誰からも注目されることもなく、後から修正すれば許されていたでしょう。

つまり、どれほど「証拠が無いこと」を示したとしても、なおそれは「無いことの証拠」ではなく、「存在しない」「不可能である」ということを示すためにはしばしば大変な困難を伴います。


シンギュラリティ論と「収穫加速の法則」の実証的な根拠を議論する際、私が常に直面してきたのもこれと同様の「不可能性の証明」に関する問題です。

本論で私は、「近い将来においてシンギュラリティが発生するという予測は妥当であるのか」を検討してきました。けれども、私が言えることは、せいぜいが「近い将来においてシンギュラリティが発生するという根拠は無い」という主張のみであり、ここから「シンギュラリティは未来永劫に渡って発生しない」と結論付けることはできません。

けれども、同様に、「シンギュラリティが発生しない」ことを私が示せないという事実は、「シンギュラリティが到来する」ことの証明ではありません。(無知論証) シンギュラリティの発生に対する妥当な未来予測の根拠を示せない限り、「原理的には不可能ではない」という主張は単なる信念の表明に過ぎず、何ら意味のある議論ではありません。

 

今回も、クラークの法則を言い換えて記事を終えたいと思います。

『可能性の限界を消し去る唯一の方法は、不可能であるということを認めないことである』

 

不可能、不確定、不完全: 「できない」を証明する数学の力 (ハヤカワ・ノンフィクション文庫―数理を愉しむシリーズ)

不可能、不確定、不完全: 「できない」を証明する数学の力 (ハヤカワ・ノンフィクション文庫―数理を愉しむシリーズ)

クラークの三法則に関する断章 (1) 「可能でもできないコト」

テクノロジーの進歩に関する語りにおいて、頻繁に引用されるフレーズがあります。映画「2001年宇宙の旅」の原作者としても知られる、アーサー・C・クラークが述べた「クラークの三法則」です。

  1. 高名だが年配の科学者が可能であると言った場合、その主張はほぼ間違いない。また不可能であると言った場合には、その主張はおそらく間違っている。
  2. 可能性の限界を測る唯一の方法は、不可能であるとされるところまで進んでみることである。
  3. 十分に発達した科学技術は、魔法と見分けがつかない。

 

この「法則」は、厳密な意味での科学法則や経験則と呼べるものではなく、ちょっとした気のきいたアフォリズムのようなものです。おそらく、クラーク自身も厳密な「法則」を定義したとは考えていなかったでしょう。それゆえ、これから私が述べるつもりの分析は、非常に野暮なツッコミでしかないかもしれません。

けれども、この「法則」は、人工知能や未来技術について語る際にはよく引用されており、また、未来予測に関する誤りについて説明するために好都合な題材ですので、一種の余談として考察してみたいと思います。

 

第一法則 可能でもできないコト

『高名だが年配の科学者が可能であると言った場合、その主張はほぼ間違いない。また不可能であると言った場合には、その主張はおそらく間違っている。』
When a distinguished but elderly scientist states that something is possible, he is almost certainly right. When he states that something is impossible, he is very probably wrong.

まずは第一法則について検討します。実際のところ、この「法則」の前半部にはちょっとした注意が必要です。高名な科学者が「可能である」と言ったことであっても、実現していない技術は数多く存在しているからです。

 

核融合発電は、この好例でしょう。原理的には可能であり、長期間研究が続けられているのに、全く実現できていない技術であるからです。

1920~30年代の原子核物理学の発展、1950年代の水素核融合爆弾の実現により、人工的な原子核融合は理論上のみならず現実的にも可能であることが示され、いずれは核融合から有用なエネルギーを取り出せるはずだという確信が広まりました。

実際、核融合の研究は核分裂炉の実用化とほぼ同時に開始されており、多数の物理学者とエンジニアが、10~20年以内に核融合発電が実現できると信じていました。1960年代〜70年代に書かれた未来予測を読んでみると、1980年代ごろには核融合による発電所が実用化されると予想されており、人類は無尽蔵のエネルギーを自由に利用できると信じられていたようです。

けれども、1980年代には、実用化の時期は21世紀初頭に伸び、21世紀初頭である現在では、今世紀後半から22世紀初頭とまで言われています。つまり、研究が進めば進むほど、逆に実用化までの目処は遠ざかり続けています。

1930年代には、原子核物理学の進歩により核分裂の理論が確立され、ウラン核分裂は1938年に実証されています。1942年にはシカゴ大学で世界最初の原子炉が構築され、1945年には核分裂反応を利用した原子爆弾も作られました。そして、最初の商業原子炉は1956年に稼動しています。一方、水素核融合の発見は1920年代であり、水素核融合爆弾は1952年に成功しています。けれども、現在に至るまで、核融合からエネルギーを取り出すどころか、連続運転できる核融合炉すら存在していません。

投資の規模と費用も巨大化し続けています。現在建造されている国際的な核融合研究装置「ITER」は、もはや一国の予算ではまかないきれず、国際的な協力がなければ建設すらできません。

実際のところ、核融合から有意義な (=爆発以外の) エネルギーを取り出す技術が開発できるのかは分かりません。けれども、これまで優に半世紀以上に渡って核融合研究は人々の期待を裏切り続けてきました。現在の核融合研究もそれと同じである可能性は非常に高いでしょう。


あるいは、現在私が検討している人工知能研究自体も第一法則の1文目の反例です。最初期の、かつてダートマスに結集した「高名な」研究者たちも、繰り返し繰り返し人工知能に関する楽観的すぎる予測を述べています。

おそらく人類で最初に思考機械に関する詳細な思考実験を行い、「チューリングテスト」にもその名を残している数学者、計算機科学者であるアラン・チューリングは、「21世紀までには計算機で模倣ゲームをうまくやれるようになるだろう
*1」と述べていました。

1958年には、ハーバート・サイモンとアレン・ニューウェルは「10年以内にデジタルコンピュータはチェスの世界チャンピオンに勝つ」そして「10年以内にデジタルコンピュータは新しい重要な数学の定理を発見し証明する」と述べています。

その後もハーバート・サイモンは「20年以内に人間ができることは何でも機械でできるようになるだろう」(1965年)、マービン・ミンスキー「一世代のうちに人工知能を生み出す問題のほとんどは解決されるだろう」(1967年)、マービン・ミンスキー「3年から8年の間に、平均的な人間の一般的知能を備えた機械が登場するだろう」(1970年)

 

そして、現在進行中の第三次人工知能ブームも、確実に期待が過剰な状態であり、いずれバブルが弾けることは確実だろうと考えています。過去のブームにおいて問題となった、フレーム問題、自然言語の意味理解、常識的推論などの問題について、大きな進展があるようには見えないからです。

私が思うに、「人工知能はまだ言語の意味を理解できず、意味のある対話ができない」ということが理解されたとき、現在のブームは終了するだろうと予測しています。(そして、最悪の状況は、過剰な期待の裏返しにより日本の人工知能研究が萎縮・停滞し、逆に米国や中国では実用的な”機械学習”の研究と実用化が進み続け、更に日本と他国との差が広がることです。)

フェイスブック社で人工知能研究所の所長を務めるヤン・ルカン氏は、2013年のブログ投稿で、過剰な期待の危険性について厳しく警告しています。

人工知能は過去50年間に期待過剰のため4度"死んだ"。人々は大言壮語し (しばしば将来の投資家やファンドの注目を引くために)、けれども実現せず、その後に反動が続いた。ニューラルネットにおいても既に2度同じことが起こっている。1回目は60年代後半、2回目は90年代半ばである。*2


確かに、科学の発展によって、以前には不可能と思われていたことが可能となること自体は事実です。けれども、人間は原理的に可能であると言われたこと全てを実現してきたわけではありません。

認知科学者のスティーブン・ピンカーは、シンギュラリティに関するインタビューの中で次のように述べています。

人間の想像力の中で未来を想像できるということは、それが実現する見込が高い、あるいはそもそも実現可能であるということの証拠にはならない。*3


つまり、私はクラークの法則の最初の文は、以下の通り書き換えるべきであると考えています。

『高名だが年配の科学者が可能であると言った場合でも、その主張は正しいとは限らない。』 

人工知能と天然知能の違い

これまで何度か述べてきた通り、私は必ずしも「人間と同様の知能を持つ人工物」が不可能であるとは考えていません。けれども、人間と同様の知能を持つ「人工物」は、おそらく現在の「コンピュータ」ではなく、また、それが実現されるまでには現在想像されているよりも長い期間を要するでしょう。

これまでの人工知能研究が、なぜヒトと同等の知能を作り出せていないのかという問題は、回答が非常に難しい問題です。けれども、人間と同等の人工知能を作成するために必要であると考えられ、また、現在の人工知能研究ではあまり着目されていないと思われる点を三点挙げたいと思います。

 

まず、人間は後天的に得られる情報だけをもとにして学習しているわけではないということです。

精神転送に関する連載の中で、生後数日の新生児にすら人の顔を認識し識別する能力が備わっていることを示した研究を紹介しました。あるいは、母語獲得の過程において、子供が耳にする言葉は比較的少数の事例であり、また必ずしも周囲の大人から正解と誤りの事例を明示的に示されるわけではありません。それでも、子供は (何らかの障害が無ければ) ほぼ必ず正しい言語を習得することができます。五歳の子供ですら文法的な正しさと誤りを区別し、外国人の言語学習者が犯す間違いを指摘することが可能です。一方で、機械翻訳システムは人間が一生のうちに聞いたり読んだりする言語をはるかに越えた大量の事例をインプットされていますが、それでも不可解な間違いを犯すことがあります。

イマヌエル・カントは、「人間の心は時間や空間の枠組みを(少なくともいくらかは)アプリオリに持つ」ということを指摘しています。人間の知能は、進化の過程で獲得された本能的な能力に根差しています。この本能的な能力の原理が部分的にでも解明されない限りは、あらゆる面で人間を越える人工知能の実現は難しいのではないかと思います。


次に、人間の知能は自身の状況や思考、あるいは知能そのものに関するメタな認識を持つことができるということです。

私たちは普段、歩き方を意識せずとも無意識のうちに歩行しています。けれども、滑りやすい氷の上や不安定な山道を歩く際には、「歩く」というプロセス自体に注意を向け、次にどこに足を置くか、足に対する体重のかけ方をどのように移動させるかを検討して、意識的に歩行することができます。

人間がメタな認識を持つことができる対象は、身体的な運動に限りません。人間は自身の精神的活動、思考そのものに対しても再帰的に思考することができます。自分の記憶や能力といった単純なものから複雑な問題解決の推論の過程に至るまで意識的に注目することができ、それを言葉で説明することもできます。

この種のメタ認識には、おそらく「意識」と呼ばれる人間の精神活動が密接にかかわっています。人工知能が知識や記憶を統合的に処理し、一度学習した結果を別の領域で使用できるようになるためには、人間の持つ意識の機能が部分的にでも解明され、知識や知能そのものに対する認識がどのように生じているかを理解することが必要となると考えています。


最後に、人間の知能は他の知能を持つ主体との関わりの中でも発揮されるということです。

近年の「人工知能」研究では、ボードゲーム、画像認識、音声認識や自動運転など、抽象的な思考能力や外界の物に対する認識や相互作用が研究の対象となることが多いようです。けれども、私たちが日常で「知能」や思考能力を使用する場面は、抽象的な思考や外界の物体との関わりだけではありません。職場や家庭において、他人の意図や感情や知性や知識を推測しながら他人と会話し、お願いごとをしたり協力したりしているのではないでしょうか。つまり、人間は他人も自分と同じような心と知能を持っていることを認識し、自身の立場だけではなく他人の立場に立って考える能力を持つということです。

この種の他人の心や知能を推し量る能力も、進化の過程において、他者と協力し、あるいは支配し、時には騙したり裏切ったりすることを通して培われてきたと考えられます。「他者の意図を推測する能力」は、特に真の意味で言語を理解するためには必要不可欠な能力です。

 

以上の三点、すなわち、人間の本能に根差した知能、知能に対するメタ認識と他者の知能との相互作用が、真に人間らしい人工知能を作るためには必要になると考えています。もちろん、私は上記のことが人工物には原理的に永遠に不可能だと主張しているわけではありません。けれども、従来の機械学習手法の延長で上記の問題が解決できるとは考えにくいでしょう。

少なくとも、人間がこれらの問題に対してどう対応し、解決しているのかが解明されない限りは、人間を全般的に越える人工知能の実現は難しいだろうと考えています。

ことばの意味と画像:ディープラーニングは言語の意味を理解したのか

最近では、ディープラーニングの進歩によって、パターン認識の分野で大きな発展が起きています。特に、画像認識が急速に発達し認識率が高まったことによって、この手法を使い画像と言語を対応させることによって、言語の意味の理解も可能になるはずだ、という主張が聞かれます。

 

この種の言語に対する考え方の根底にあるのは、「言葉の意味とは、言葉が表す事物や情景 (イメージ) との対応関係である」という素朴な直観でしょう。


もちろん、言語を理解するためには、言語と外の世界との結び付きを理解することが必要になります。けれども、単語と外界の事物の画像を対応させることができるだけでは、言語を理解するためには全く不十分です。実際のところ、「意味を表わす画像」を表現できるような単語や文は、可能な言語表現の中のごく一部でしかないからです。

 

すぐに挙げられる反例としては、「哺乳類」「植物」「色」「家具」「道具」など、具体的な物やことがらをまとめるカテゴリを表す単語があります。確かに、個別具体的な哺乳類や植物や色の一事例を、画像として提示することはできます。けれども、個別の人間やパンダやカモノハシ、個別のバラ、「赤」や「青」といった個別の色、机やベッドそれ自体は、「哺乳類」、「植物」、「色」や「家具」というカテゴリの意味そのものを表現できません。

また、抽象的な概念を表す単語も、画像では表せません。「権利」、「義務」や「真理」、「善」、「美」、あるいは「存在」や「無」、「正しい」「誤り」といった単語は画像で表現できないでしょう。あるいは、もう少し具体的 (?) な概念であっても「社会」、「経済」、「制度」、「慣習」、「礼儀」なども画像では表現できません。これらの語を無理に表現しようとすれば、余計な要素が入り込むか、あるいは単語の意味の理解に必要な要素が抜け落ちてしまいます。

このようなカテゴリを表す語や抽象的な単語は、現実世界に対応するものが存在しないのだから、そもそも画像との対応を考える必要はない、という反論はありうるでしょう。けれども、完全に抽象的なものでなくても、画像や動画では表現が不可能な単語は大量に存在します。

たとえば、「会社」や「市役所」という語があります。会社が所在する建築物や市役所の庁舎、そこで働く人々、あるいはその組織を代表する社長や市長といった人を写した画像を挙げられるかもしれませんが、これらの画像は「会社」や「市役所」の意味を表したものではありません。所在地や構成員や代表者が変わっても、なお会社や市役所の本質は変化しないからです。これらの組織の本質は、それが果たす経済的・行政的な機能に存在しており、機能は画像では表現できません。

機能と同様に、役割や関係性を表す語も画像では表現できません。たとえば、私 (渡辺遼遠) は、会社での職種は「エンジニア」であり、職位は「主任」あるいは「平社員」であり、プロジェクト内では「サブチームリーダー」です。家庭の中では、私の両親にとっては「息子」であり、妻にとっての「夫」であり、息子から見れば「父親」です。渡辺の顔を写した写真は、私が社会的に持つ役割や家族との関係性によって定められる語を表すことはできません。同様に、「内閣総理大臣」という語を考えてみると、伊藤博文東条英機、近年で言えば小泉純一郎氏や安倍晋三氏など、首相を務めた個別の人物の具体例を挙げることはできます。けれども、これらの人物の写真によっては「内閣総理大臣」という言葉の意味を捉えることはできません。「内閣総理大臣」の本質的な意味は、日本国憲法で定められた行政機構における一種の役割、権能・職能に存在しており、それは眼には見えないものだからです。

 

ここまでに挙げた事例は全て「名詞」でした。物事や動作の様子を表す形容詞の中にも、画像で表現することが難しい語が存在します。

たとえば、「暑い」、「暖かい」、「寒い」、「涼しい」といった温度を表す形容詞は、暑そうな夏の風景や雪が降った冬の光景で表すことができるかもしれません。けれども、本質的にはこれらの形容詞が表しているのは温度に対する知覚・感覚であり、視覚的な映像ではありません。同様に、「甘い」、「辛い」、「すっぱい」といった味覚に関する語、「うるさい」、「静かだ」などの聴覚に関する語、「重い」、「軽い」、「固い」、「やわらかい」といった触覚に関する形容詞も、あまり画像ではうまく示すことはできなさそうです。そもそも、多くの形容詞は暗黙のうちに何らかの基準との比較を示しています。(「あの人は背が高い」と言った場合には、平均と比べて身長が高いという比較を意味しているように) このような、ものやことがらの間の量的・質的な比較も、画像で表すことは困難でしょう。

そして、何らかの動作や状態を表す動詞の中にも、画像や動画では表現しにくいものがあります。人間の内的・精神的な意思や意図を含んだ語です。たとえば、「愛する」、「信じる」、「崇拝する」という動詞で言えば、具体的な愛の行為や信仰行為や崇拝行為 (平伏礼など?) を画像として表現できるかもしれません。けれども、これらの動詞の本質は、人間の内的な意図、精神状態にあり、必ずしも外的に眼に見える行為そのものが動詞の意味ではありません。このような意図と動作が混ざった動詞の例には、「嫌う」、「避ける」、「逃げる」、「追いかける」、「探す」、「誇る」、「いばる」などなど、どれだけでも挙げることができるでしょう。

また、眼に見えない文脈によって、同じ状況であっても異なる表現をしなければならないことがあります。「机の上に置かれたカバンを手に取る」という状況であっても、そのカバンが当人のものであれば「手にする」、「取り返す」、他人のものであれば「盗む」、「拝借する」と表現しなければなりません。法的に言えば、所有権という概念自体は眼には見えず、その物を実際に占有している状態とは異なるものです。所有権と占有状態という文脈によって、同じ状況を表す画像であっても意味は異なります。これらの事例には、「一緒に出かける」に対する「デートする」、「殴る」に対する「罰する」などが挙げられます。

時間や数を表す語も、画像では表現できません。たとえば、「明日」、「昨日」、「一時間後」、「未来」、「過去」といった言葉はどのように画像や動画で表現できるのでしょうか。また、「5」という数を具体的な視覚的イメージに結び付けようとすれば、5つのりんご「🍎🍎🍎🍎🍎」や5つの点「・・・・・」などを使わざるをえないですが、具体的な物体やその配置自体は「5」という数の概念とは関係が無いものだからです。あるいは、数の5の意味を「5」という文字そのものに結び付けることは、記号と意味を直結させてしまう乱暴な議論です。

 

単語のレベルだけを取ってみても、視覚的な画像のみでは表現不可能な語は枚挙に暇がありません。さらに画像で表すことが困難なのは、文のレベルの意味です。画像や動画と直接対応付けられるような文章 (「りんごがお皿の上に乗っている」) は、私たちが話したり書いたりすることができる文章のうちのごく一部です。

意思、意図を表す文「そこへ行きたいです」、推量を表す文「あの人は私の知り合いかもしれない」「あの人は怒っているに違いない」、時間や条件を含む文「もし明日晴れたら外出します」、再帰的な文「『彼は「医者に余命宣告された」と信じている』ことを私は知っている」、量や程度を含む文「ほとんどの哺乳類は胎生だが、一部は卵生の哺乳類もいる」、命令・禁止文「ここに来なさい」「そこに入ってはいけません」、否定文東京スカイツリーは赤色ではない」、可能性を表す文「現在のスカイツリーは青色だが、赤色に塗られていたかもしれない」などは、一体どうやって画像や動画で表されるのかは分かりません。

 

具体例はまだいくらでも挙げることができるでしょうが、もうやめておきます。言葉の意味は、画像や動画のみではとても表現しきれません。そして、言葉は他の五感のみにも依存しているわけではありません。眼に見えず、聞こえず、触れることもできず、世界の中で「これ」と明示的に指し示すことも姿形を思い浮かべることができないような事物についても、私たちは語ることができます。

機械翻訳などの自然言語処理に関わる人々は、ヒトと同等の人工知能が作られるまでは言語の領域において人間が完全に代替されることはないだろう、と考える傾向にあるようです。私自身も言語に関して学べば学ぶほど、同様に人工物に言語を理解させることの困難さを感じます。

もちろん、言語に関する人間の認知タスクの一部を代替し、または強化するような「人工知能」の実現は、十分に可能でしょう。けれども、言語の意味を理解し、完全な機械翻訳を実現し、あるいはチューリングテストウォズニアックのコーヒーテストをパスできるような人工知能、そして、知能爆発的なシンギュラリティの種となる人工知能の実現は、人間と似たように感じ、考えることができる機械ができるまでは、非常に困難なのではないかと考えています。

 

参考文献

働きたくないイタチと言葉がわかるロボット  人工知能から考える「人と言葉」

働きたくないイタチと言葉がわかるロボット 人工知能から考える「人と言葉」

言語哲学大全1 論理と言語

言語哲学大全1 論理と言語

機能と手段:潜水艦は泳げるのか

「コンピュータは考えることができるか?という問いは、潜水艦は泳げるか、という問いと同じようなものだ」 - エドガー・ダイクストラ

人工知能について語るとき、よく次のようなことが言われます。

「自動車は馬のように走るわけではなく、飛行機は鳥のようにはばたくわけではなく、船や潜水艦は魚を模倣しているわけではない。また、眼や脳の視覚野の機能について完全に解明されているわけではないが、コンピュータビジョンや画像認識は実現できているではないか。同様に、コンピュータで知能を実現するにあたって、生物を模倣する必要はない。」

この指摘はある意味では妥当ではありますが、けれども「知能」の実現を考える上ではやや不正確な比喩だと言えます。これは、実現するべき「機能」と、機能を実現する「手段」の間の関係を考えると、違いが明確になります。

例を挙げます。飛行機の機能は「空中を飛行して移動すること」であり、船舶の機能は「水上または水中を移動すること」です。また、コンピュータビジョンの機能は、「可視光線の入力あるいは画像のピクセルを受け取り、物体を『認識』あるいは分類すること」です。ここでは、実現するべき機能の目的や仕様は明確に定めることができ、これらの機能を実現する上で生物学的な構造を模倣する必要はありません。

それでは、同様のアプローチで、構造を模倣せずに知能や意識という機能を再現できるのでしょうか。これは、知能や思考のもつ機能を形式的に、つまり工学的にコンピュータで扱える形に書き下せるかと言い替えられます。けれども、現在のところ、そもそも脳全体の知能としての機能をどのように具体的に記述すればいいのかは分かりません。それ以前に、知能や意識という機能が何なのか、新しいアイデアを考案するために必要な素材としての知識の量、あるいは私たちが持っている「常識」の量をどう測定するかなどを、人間はまだ定義できていない状態です。これが、脳の情報処理機能の解明にまつわる困難さです。

明確に定義されていない機能を、器質的、ハードウェア的な模倣なしに実現しようとしてもあまりうまくできるとは思えません。特に、「言語の意味理解」については相当に困難だろうと考えています。言語の意味とは一体何なのか、何ができれば言語の意味が理解できたことになるのか、という問題については、古き良き人工知能研究以前から哲学的な研究の歴史が存在していますが、結局のところ、あまり良く分かっていないというのが現状です。

性能vs.能力

f:id:liaoyuan:20171016212457p:plain

図:機械学習によって画像から生成されたキャプション「若者のグループがフリスビーの競技で遊んでいる」*1

もちろん、機能が明確に定義できる認知的タスクについては、人工的な再現が可能であるものも存在しています。実際に、店舗案内や電話応答など、限られた状況においては言語的なコミュニケーションができるシステムも存在します。そして、画像認識や音声認識システムなど、一部の機能においては人間を超える性能を示すシステムも存在しています。

この通り、眼や脳の視覚野の機能が完全に解明されていなくてもコンピュータビジョンは実現できるのだから、同様に、脳や知能の機能が解明されていなくても人間の能力を全般的に超える人工知能は可能であるはずだ、という主張がされています。

 

けれども、単一の機能、単一のタスクに対する「性能」と普遍的・汎用的な「能力」を混同することは、極めて重大な誤りです。MIT人工知能研究所の元所長であり、ロボット掃除機ルンバを製造するiRobot社の創業者でもあるロドニー・ブルックス氏は、次のように「性能 (performance)」と「能力 (competence)」を混同することの誤りについて指摘しています。

ここで、ある人が我々に「この写真には『公園でフリスビーで遊んでいる人々』が写っています」と伝えたと考えてみよう。我々は当然、この人が次のような質問にも回答する能力があると想定できるだろう。「フリスビーはどんな形をしていますか?」「人間はだいたいどのくらい遠くまでフリスビーを投げられますか?」「人間はフリスビーを食べられますか?」「一度にだいたい何人くらいの人がフリスビーで遊べますか?」「生後三ヶ月の人間はフリスビーで遊べますか?」「今日の天気はフリスビーで遊ぶのに適していますか?」… 今日の画像ラベリングシステムは、オンラインの写真に対して「公園でフリスビーで遊んでいる人々」のように、大抵正しい答えのラベルを返すことができる。しかし、上記の質問には答えることができない。

 

このシステムができることは画像へのラベル付けだけであり、上記の質問には全く回答できないことに加えて、このシステムは「人間とは何か」「公園は普通屋外にあるということ」「人間には年齢があること」「天気は写真の写りを決めるだけのものではないということ」などなど、については何も分かっていない。

 

…つまり、間違いはこうだ。ロボットやAIシステムが何らかのタスクを実行する性能を示した、と普通の人々が耳にしたとしよう。そこで彼らは、その性能を汎用的な能力へと一般化し、それと同じのタスクを実行可能な人間であれば持っていると期待できる能力を考える。そして、人々はこの種の一般化をロボットやAIシステムにも適用してしまうのである。

今日のロボットやAIシステムが可能なことは、信じがたいまでに限られている。人間風の一般化は全く適用できない。このような一般化をする人々は非常に、非常に誤っている。*2

結局のところ、現在の「人工知能」システムは人間によって作られた道具です。道具は普通、人間の「能力」より優れた「性能」を発揮するように作られています。たとえば、電卓は計算において人間より優れており、自動車は移動や輸送において人間に勝っています。石でできた斧は硬さと攻撃力において人間を上回っており、紙とペンという単純なテクノロジーですら記録の保持において人間を越えています。「記憶」に関係する脳の物理的活動は非常に複雑ですが、一部の機能において人間越えを果たしているテクノロジー (紙とペン) は、既に紀元前から存在しています

けれども、紙が人間より記憶力に優れていると主張したり、石斧が意思を持って人間を襲い出すと考えたり、あるいは紙や石斧が自律的に自身を強化し始めたりすると想像することは、あまりに馬鹿げた呪術的思考であることは明らかです。本当に警戒するべきは、たとえば邪悪な人間が石斧を持って暴れたり、他人へと危害を与えることでしょう。

今日の「人工知能」においてもそれは同様です。ジャン・ガブリエル・ガナシア氏が著書の中でいみじくも指摘している通り、私たちが警戒しなければならないことは、人工知能が自律的に成長を始めたり、あるいは人類を支配し抹殺したりするような未来ではありません。人工知能を開発しビジネスに用いている企業が、シンギュラリティ論という壮大な与太話を使って、人工知能を使用する人間が引き起こす本当のリスクから人々の眼を逸らしている現状こそ、最も警戒する必要があります。

スーツケース語の誤謬

「思考」や「学習」という言葉は、”人工知能の父” マーヴィン・ミンスキー氏が言うところの「スーツケース語」であることも、この混乱に拍車をかけています。つまり、「思考」や「学習」という単語には、いろいろな動作や状態の意味が (スーツケースのように) 詰めこまれており、各々が意図するものと理解するものがバラバラであるような多義語であるということです。

「走る」、「(空を) 飛ぶ」や「泳ぐ」という言葉を取り上げてみると、何かが「飛んでいる」「泳いでいる」とはどういうものであるかは、日本語の母語話者であればおそらく確実に意見が一致するでしょう。「走る機械」、「飛ぶ機械」や「泳ぐ機械」も、おそらくどのようなものであるかは想像ができるでしょう。

その一方で、「思考する」「学習する」という語を考えてみます。すると、日常言語においてさえ、これらの言葉が非常に多くの動作や状態を表していることが理解できます。たとえば、「思考する」と言う心的な動作を取ってみても、過去の情景を思い出すこと、将来の計画を立てること、複雑なシステムやプログラムの構造を設計すること、感情を適切な文章で表現することなど、さまざまな動作が「思考する」という語で表現されています。「学習する」と言っても、おそらく新たな外国語を学習することと、一輪車の乗り方を学習することでは、必要なスキルも脳の部位も異なるはずです。これらの個々のスキルに対応できる機械学習システムを作ることは可能かもしれませんが、その数や組み合わせは膨大になるでしょう。

そして、機械学習分野においても、一種の専門用語としてスーツケース語が使用されています。ロドニー・ブルックス氏が挙げている通り、用語の例には予測、推定、学習、識別、認識、説明、意図、学習、推論、理解、などがあります。これらの用語が機械学習における専門用語として使用される際には、厳密な定義と意味を持って使用されています。けれども、専門外の人間が「機械学習システムが画像『認識』率において人間を上回った」と耳にしたとき、人々は自分自身のメンタルモデルを適用し、人間が「認識」するように機械も「認識」しているのだろうと想像してしまっているように見えます。

けれども、そのような想定は完全な誤りです。画像ラベリングシステムの例で言えば、システムはフリスビーや人間に関する事典的な知識を持っていません。また、システムに対して使われている「認識」という単語は、実際には一種の多次元ベクトルへの写像を意味しています。人間が「認識」するように、機械が画像を「認識」しているわけではありません。

スーツケース語の日常言語と専門用語における意味の差異が、今日の機械学習人工知能に対する巨大な誤解と過大評価を生み出している一因なのではないかと考えています。

 

(10/10追記)

もちろん、私は昨今の画像認識の進展自体を否認するつもりも、その有用性を否定するつもりもありません。一般物体認識は半世紀以上前から研究が続けられているテーマであり、ディープラーニングによる近年の進歩は本物で、それが経済的に大きな意味を持っていることは理解しています。けれども、単一の機能において人間を上回る性能を示したことをもって、シンギュラリティを引き起こすような「人工知能」の実現が可能であると主張することは難しい、と考えています。

「原理的には」人工知能は不可能ではない

近年の「シンギュラリティ」に関する議論では、この言葉が「人間の能力を超えた (汎用) 人工知能が作られるタイミング」を指すという誤解があるようです。けれども、これまで述べてきた通り、「シンギュラリティ」の元々の使用法から言えば、この言葉が意味するところは「人類史において断絶的な進歩が発生する点」を指していますので、私もその意味で使用しています。

さて、人工知能の可能性と限界に関して検討していると、「人間という実例が存在する以上、人工知能が不可能であるという根拠は無い」という反論を受けることがあります。
私自身の立場としては、人間と同等の知的能力を持つ人工物が「原理的には」可能であることを否定しません。人間の脳は有限の大きさの物体であり、物理法則に従って動作しています。機械論の立場から、人間と同等の機能を持つ人工物の構成は「原理的には」不可能であるとは断言できません。個人的には、人工知能の実現は相当に「困難」だろうという感覚を持っていますが、けれども、たとえば熱力学の法則から永久機関が不可能である、というような意味で人工知能の不可能性が示されているわけではありません。

けれども、ここで私が検討しているのは、原理的な可能性ではなく、実際に実現されるまでの時間の見通しが妥当であるかどうかです。

カーツワイル氏は、2029年までに1人の人間と同レベルの人工知能が実現されると予測しています。この予測の根拠は、人間の脳の「機能」に関する大雑把な推算と、拡張ムーアの法則に基いた1000ドル当たりの計算速度の向上の傾向を外挿したものです。ムーアの法則が既に2000年代に破綻していることは以前述べた通りですが、この議論には更に巨大な問題が含まれています。実際のところ、知能は計算力ではなく、また計算力は知能ではないため、計算力向上と汎用人工知能の実現の間に直接的な因果関係は存在しないからです。

汎用人工知能の研究分野においては、研究者の間で合意された「知能」の理論は存在せず、一切の概念実証もなく、どのようにすれば人工知能が実現できるかが明確には分かっていません。人工知能の実現は、「方法は分かっているが実現するための計算力が足りない」という状況ではありません。そもそも、汎用的な人工知能の実現方法自体があまり分かっていない、という状況にあります。

現実に、汎用的な人工知能が実際に構築できるようになるまでにどれだけの時間が必要であるのかは全く不明です。MIT人工知能研究所の元所長であるロドニー・ブルックス氏のように、今後100年以上は汎用人工知能の実現は不可能であると考えている人工知能の専門家も存在しています*1。けれども、確実に言えることは、人間の脳の機能あるいは人間の脳のニューロンシナプスの数と拡張ムーアの法則から汎用人工知能の実現時期を見積もるカーツワイル氏の推定は、全く根拠も妥当性も無いということです*2

 

さて、汎用人工知能の実現時期については確実な予測は不可能ですが、仮に汎用人工知能が実現されたとして、それが「シンギュラリティ」と呼べる断絶的な高速の進歩をもたらすかどうかは更に検討する必要があります。すなわち、人工知能が更に「知能」の高い超人工知能を拡大再生産できるのか、そして、高い知能を持った人工知能が科学技術を高速で進歩させられるかどうか、という2点です。

この2つの論点に関しては、次の章で扱います。

*1:[FoR&AI] The Seven Deadly Sins of Predicting the Future of AI – Rodney Brooks

*2:非常に細かいですが、私は「2030年までにヒトレベル人工知能の実現は不可能である」と主張しているわけではなく、「2030年までにヒトレベル人工知能の実現が可能であるという見通しには根拠が無い」と述べていることに注意してください

人工知能研究と機械学習

前節では、精神転送 (マインドアップローディング) の実現可能性を検討することを通して、人間の脳の再現によって人工的な知能を構成する方法について検討しました。条件を緩和して、「ある個人の人格そのものの複製」という方法ではなく「一般的なヒトの脳のモデリングによる人工的な知能の実現」を考えたとしても、必要となる脳と知能の機能が解明されるまでには相当の時間を要します。少なくとも、カーツワイル氏が主張するように、ここ10年程度の単位で可能だとはあまり考えられません。

 

けれども、「人工的な知能」を作成するため方法は、脳の再現のみではありません。というよりも、過去半世紀ほど実践されてきた「人工知能」の研究では、必ずしも人間の脳を再現するというアプローチを取っていたわけではありません。人間の「思考」プロセスそのものを再現することを目指していたり、あるいは人間の思考とは全く関係のない形で、実用的な機械学習の技術が実現されてきました。

そこで、本節では過去の「人工知能」研究の歴史を簡単に振り返り、また「機械学習」の手法を通した人工的な知能の実現可能性について検討します。

序文から何度か書いてきている通り、私は人間と同程度の知能を持つ「人工物」ができうることは否定しません。けれども、その「人工的な知能」は、現在の技術の延長線上にはない可能性が高いこと、その実現時期に関するカーツワイル氏の見積りは過少である可能性が高いことを説明したいと考えています。