ことばの意味と画像：ディープラーニングは言語の意味を理解したのか

最近では、ディープラーニングの進歩によって、パターン認識の分野で大きな発展が起きています。特に、画像認識が急速に発達し認識率が高まったことによって、この手法を使い画像と言語を対応させることによって、言語の意味の理解も可能になるはずだ、という主張が聞かれます。

画像認識がディープラーニングによって急速に発展したことによって、新たな応用領域が生まれた。何でもいい。とにかく画像へ置き換えろ。そうすれば、画像認識の領域へ帰着できる。テキスト？画像に置き換えろ。化学式？画像に置き換えろ。数式処理？画像に置き換えろ。グラフの処理？画像に置き換えろ
— 小鳥遊りょう(jagurimath) (@jaguring1) 2017年9月8日

自然言語処理において、テキストをテキストとして扱う必要は必ずしもないと思っている。画像認識・画像生成の技術が急速に発展しているのだから、「文章が書かれた画像」を入力し、「その意味を表わす画像」を出力させる、というような形で、ニューラルネットワークを作ってもよいと思う。
— 小鳥遊りょう(jagurimath) (@jaguring1) 2016年12月16日

人間は言語を聴覚と視覚を用いて理解している（話す、聞く、読む、書く）。なので、自然言語処理というのは、「音声認識・音声生成」と「画像認識・画像生成」の両分野の知見を用いた、新しい発展があると思っている。
— 小鳥遊りょう(jagurimath) (@jaguring1) 2016年12月16日

「”りんご”という文字列が書かれた画像」を入力し、「りんごの画像」を出力させる。「”お皿”という文字列が書かれた画像」を入力し、「お皿の画像」を出力させる。「”お皿の上に置いてあるりんご”という文字列が書かれた画像」を入力し、「それを表現した画像」を出力させる。画像から画像へ。
— 小鳥遊りょう(jagurimath) (@jaguring1) 2016年12月16日

この種の言語に対する考え方の根底にあるのは、「言葉の意味とは、言葉が表す事物や情景 (イメージ) との対応関係である」という素朴な直観でしょう。

「人工知能は文の意味を理解していない」と言われる。確かにその通りだ。今はまだ。では「文の意味が理解できる」とは？文を見てそれが指す情景を思い浮かべたり、情景から新しい文を作れることだと思う。その研究が生まれつつある。2015年12月https://t.co/EndIsR3ZCw
— 小鳥遊りょう(jagurimath) (@jaguring1) 2016年3月28日

もちろん、言語を理解するためには、言語と外の世界との結び付きを理解することが必要になります。けれども、単語と外界の事物の画像を対応させることができるだけでは、言語を理解するためには全く不十分です。実際のところ、「意味を表わす画像」を表現できるような単語や文は、可能な言語表現の中のごく一部でしかないからです。

すぐに挙げられる反例としては、「哺乳類」「植物」「色」「家具」「道具」など、具体的な物やことがらをまとめるカテゴリを表す単語があります。確かに、個別具体的な哺乳類や植物や色の一事例を、画像として提示することはできます。けれども、個別の人間やパンダやカモノハシ、個別のバラ、「赤」や「青」といった個別の色、机やベッドそれ自体は、「哺乳類」、「植物」、「色」や「家具」というカテゴリの意味そのものを表現できません。

また、抽象的な概念を表す単語も、画像では表せません。「権利」、「義務」や「真理」、「善」、「美」、あるいは「存在」や「無」、「正しい」「誤り」といった単語は画像で表現できないでしょう。あるいは、もう少し具体的 (？) な概念であっても「社会」、「経済」、「制度」、「慣習」、「礼儀」なども画像では表現できません。これらの語を無理に表現しようとすれば、余計な要素が入り込むか、あるいは単語の意味の理解に必要な要素が抜け落ちてしまいます。

このようなカテゴリを表す語や抽象的な単語は、現実世界に対応するものが存在しないのだから、そもそも画像との対応を考える必要はない、という反論はありうるでしょう。けれども、完全に抽象的なものでなくても、画像や動画では表現が不可能な単語は大量に存在します。

たとえば、「会社」や「市役所」という語があります。会社が所在する建築物や市役所の庁舎、そこで働く人々、あるいはその組織を代表する社長や市長といった人を写した画像を挙げられるかもしれませんが、これらの画像は「会社」や「市役所」の意味を表したものではありません。所在地や構成員や代表者が変わっても、なお会社や市役所の本質は変化しないからです。これらの組織の本質は、それが果たす経済的・行政的な機能に存在しており、機能は画像では表現できません。

機能と同様に、役割や関係性を表す語も画像では表現できません。たとえば、私 (渡辺遼遠) は、会社での職種は「エンジニア」であり、職位は「主任」あるいは「平社員」であり、プロジェクト内では「サブチームリーダー」です。家庭の中では、私の両親にとっては「息子」であり、妻にとっての「夫」であり、息子から見れば「父親」です。渡辺の顔を写した写真は、私が社会的に持つ役割や家族との関係性によって定められる語を表すことはできません。同様に、「内閣総理大臣」という語を考えてみると、伊藤博文や東条英機、近年で言えば小泉純一郎氏や安倍晋三氏など、首相を務めた個別の人物の具体例を挙げることはできます。けれども、これらの人物の写真によっては「内閣総理大臣」という言葉の意味を捉えることはできません。「内閣総理大臣」の本質的な意味は、日本国憲法で定められた行政機構における一種の役割、権能・職能に存在しており、それは眼には見えないものだからです。

ここまでに挙げた事例は全て「名詞」でした。物事や動作の様子を表す形容詞の中にも、画像で表現することが難しい語が存在します。

たとえば、「暑い」、「暖かい」、「寒い」、「涼しい」といった温度を表す形容詞は、暑そうな夏の風景や雪が降った冬の光景で表すことができるかもしれません。けれども、本質的にはこれらの形容詞が表しているのは温度に対する知覚・感覚であり、視覚的な映像ではありません。同様に、「甘い」、「辛い」、「すっぱい」といった味覚に関する語、「うるさい」、「静かだ」などの聴覚に関する語、「重い」、「軽い」、「固い」、「やわらかい」といった触覚に関する形容詞も、あまり画像ではうまく示すことはできなさそうです。そもそも、多くの形容詞は暗黙のうちに何らかの基準との比較を示しています。(「あの人は背が高い」と言った場合には、平均と比べて身長が高いという比較を意味しているように) このような、ものやことがらの間の量的・質的な比較も、画像で表すことは困難でしょう。

そして、何らかの動作や状態を表す動詞の中にも、画像や動画では表現しにくいものがあります。人間の内的・精神的な意思や意図を含んだ語です。たとえば、「愛する」、「信じる」、「崇拝する」という動詞で言えば、具体的な愛の行為や信仰行為や崇拝行為 (平伏礼など？) を画像として表現できるかもしれません。けれども、これらの動詞の本質は、人間の内的な意図、精神状態にあり、必ずしも外的に眼に見える行為そのものが動詞の意味ではありません。このような意図と動作が混ざった動詞の例には、「嫌う」、「避ける」、「逃げる」、「追いかける」、「探す」、「誇る」、「いばる」などなど、どれだけでも挙げることができるでしょう。

また、眼に見えない文脈によって、同じ状況であっても異なる表現をしなければならないことがあります。「机の上に置かれたカバンを手に取る」という状況であっても、そのカバンが当人のものであれば「手にする」、「取り返す」、他人のものであれば「盗む」、「拝借する」と表現しなければなりません。法的に言えば、所有権という概念自体は眼には見えず、その物を実際に占有している状態とは異なるものです。所有権と占有状態という文脈によって、同じ状況を表す画像であっても意味は異なります。これらの事例には、「一緒に出かける」に対する「デートする」、「殴る」に対する「罰する」などが挙げられます。

時間や数を表す語も、画像では表現できません。たとえば、「明日」、「昨日」、「一時間後」、「未来」、「過去」といった言葉はどのように画像や動画で表現できるのでしょうか。また、「5」という数を具体的な視覚的イメージに結び付けようとすれば、5つのりんご「🍎🍎🍎🍎🍎」や5つの点「・・・・・」などを使わざるをえないですが、具体的な物体やその配置自体は「5」という数の概念とは関係が無いものだからです。あるいは、数の5の意味を「5」という文字そのものに結び付けることは、記号と意味を直結させてしまう乱暴な議論です。

単語のレベルだけを取ってみても、視覚的な画像のみでは表現不可能な語は枚挙に暇がありません。さらに画像で表すことが困難なのは、文のレベルの意味です。画像や動画と直接対応付けられるような文章 (「りんごがお皿の上に乗っている」) は、私たちが話したり書いたりすることができる文章のうちのごく一部です。

意思、意図を表す文「そこへ行きたいです」、推量を表す文「あの人は私の知り合いかもしれない」「あの人は怒っているに違いない」、時間や条件を含む文「もし明日晴れたら外出します」、再帰的な文「『彼は「医者に余命宣告された」と信じている』ことを私は知っている」、量や程度を含む文「ほとんどの哺乳類は胎生だが、一部は卵生の哺乳類もいる」、命令・禁止文「ここに来なさい」「そこに入ってはいけません」、否定文「東京スカイツリーは赤色ではない」、可能性を表す文「現在のスカイツリーは青色だが、赤色に塗られていたかもしれない」などは、一体どうやって画像や動画で表されるのかは分かりません。

具体例はまだいくらでも挙げることができるでしょうが、もうやめておきます。言葉の意味は、画像や動画のみではとても表現しきれません。そして、言葉は他の五感のみにも依存しているわけではありません。眼に見えず、聞こえず、触れることもできず、世界の中で「これ」と明示的に指し示すことも姿形を思い浮かべることができないような事物についても、私たちは語ることができます。

機械翻訳などの自然言語処理に関わる人々は、ヒトと同等の人工知能が作られるまでは言語の領域において人間が完全に代替されることはないだろう、と考える傾向にあるようです。私自身も言語に関して学べば学ぶほど、同様に人工物に言語を理解させることの困難さを感じます。

もちろん、言語に関する人間の認知タスクの一部を代替し、または強化するような「人工知能」の実現は、十分に可能でしょう。けれども、言語の意味を理解し、完全な機械翻訳を実現し、あるいはチューリングテストやウォズニアックのコーヒーテストをパスできるような人工知能、そして、知能爆発的なシンギュラリティの種となる人工知能の実現は、人間と似たように感じ、考えることができる機械ができるまでは、非常に困難なのではないかと考えています。