見出し画像

プロンプトエンジニアリングは魔術研究のようなもの――ChatGPTの基礎知識⑯by岡嶋裕史

彗星のごとく現れ、良くも悪くも話題を独占しているChatGPT。新たな産業革命という人もいれば、政府当局が規制に乗り出すという報道もあります。いったい何がすごくて、何が危険なのか? 我々の生活を一変させる可能性を秘めているのか? ITのわかりやすい解説に定評のある岡嶋裕史さん(中央大学国際情報学部教授、政策総合文化研究所所長)にかみ砕いていただきます。ちょっと乗り遅れちゃったな、という方も、本連載でキャッチアップできるはず。お楽しみに! そして本連載に大幅加筆をした『ChatGPTの全貌 何がすごくて、何が危険なのか?』(光文社新書)の刊行が8月18日に決まりました! 下記よりご予約ください。

新刊の予約はこちら!

過去の連載はこちら

岡嶋さんの好評既刊


プロンプトエンジニアリングは魔術研究のようなもの――ChatGPTの基礎知識⑯by岡嶋裕史

ブラックボックス問題

 もう一つはブラックボックスであることだ。

 中身のわかっていない技術は怖い。

「ガソリンで動く車は内燃機関を持っている。そこには可燃物が満載され、管理された爆発を繰り返しながら力を供給する」

 車を取り扱うとき、これを知っているか知らないかでその安全度は天下人と足軽ほどの隔たりを生むだろう。

 中身を知っていれば、車のまわりで火遊びするとあぶないんじゃないかと気づけるし、給油するときにはエンジンを切ろうと思えるかもしれない。

 黒魔術か何かで車が動いていると考えている人は、安全を志向したとしてもそのやり方が見当違いになるかもしれない。車を動かすマナに感謝を捧げるために給油口に聖火を突っ込むかもしれない。

情報システムは容易にブラックボックスに陥る

 中身がわからない情報システムはAIが初めてではない。
 
 情報システムは容易にブラックボックスに陥る。身の回りに、会社の中で代々受け継がれてきたExcelファイル(マクロつき)などがあれば中身を覗いてみるとよい。何が何だかわからないものばかりである。

 一人の担当者が作った単純なExcelファイルだって、「なんでこんなつくりにしたのか理解不能」で「なぜまっとうに動いているのか説明できない」のだ。作った本人が一年後にはその状態になる。

 それが大規模なチームで作るプログラムであればなおのことである。

「構造化されたシンプルでわかりやすいプログラムを書こう!」と教科書には書いてある。だが、その単純なことが至難なのである。上司の指示は朝令暮改、担当者は辞め、中途加入の要員は前職での流儀を手放さず、新人は無造作にコードを上書きする。協力会社との接続が決まったが、相手の仕様は不明である。

 こんな状況で教科書の手順が守れるはずもない。スパゲッティと呼ばれる大量の人間の思惑と怨念と焦燥と諦念(ていねん)がからみ合ったサグラダ・ファミリアのようなソフトウェアが出来上がるのだ。

 いい状態ではない。いい状態ではないが、指摘すれば自分で直す羽目に陥るし、何より直すことなど無理である。真っさらにして作り直したほうがよいが、作り直しても高確度で同じ過ちを繰り返すだろう。

 しかも、場当たり的な修正や対処を繰り返した結果、望み通りの出力を打ち出すのである。だから誰も文句を言わない。言って虎の尾を踏むなど愚か者のすることだ。腫れ物を扱うようにシステムに平伏し、安全運転を祈願する。

 虚言のように思われるかもしれないが、情報システムにおいてまま生じる事態である。だから何年も改修してもまったく統合できないシステムや、ちょっと機嫌を損ねると止まってしまって各所に甚大な被害を及ぼすシステムなどが現存するのだ。

ディープラーニングなんてわかりっこない

 そうなのか、情報システムとはAI以外もみんなそんなものなのか。じゃあいいや、ではなくて、それだけ根が深い問題なのだ。

 ディープラーニングが織り上げた繊麗極美の言語モデルに比べたら、人間が手で書いたプログラムなどシンプルなものである。それでも容易にブラックボックスになるのだから、LLM(大規模言語モデル)を解
きほぐすなど、不可能に近いのである。

 ディープラーニングの中間層など、何をやっているかわからない。

 中間層の中身を説明する図(ニューラルネットワークの最初のほうでは点や線に反応し、後ろのほうになってくると猫などの具体的なブツに反応する)としてグーグルの猫が有名だけど、絵というすごくわかりやすい題材で、かつものすごく捨象(しゃしょう)されたこの図だって、説明されれば「そうとも思えるかな」という程度である(図3‐2)。

 GPT-4 は詳細未公表だけど、GPT-3 は100層ほどの中間層を持ち、パラメータ数は1750億という。これをちゃんと理解するのは無理だ。

EUはAIの規制に乗り出す

 理解すべく動き出している人たちはいる。しくみのわからない揺りかごで安心して眠ることはできない。だからEUやFTC(米国連邦取引委員会)はAIに関する規制を策定中である。プライバシー保護の観点でGDPR(EU一般データ保護規則)を素早く、強力に施行したように、EUはこの種の規制が好きだし、上手でもある。人権の最前線を開拓しているのは自分たちだという自負もあるだろう。

 だからAIモデルの内部構造を明らかにし、ソースコードとデータセットを開示するようプレッシャーをかけるだろう。学習方法もオープンにするよう言及するはずだ。AIガバナンスというやつだ。2023年内には可決するだろうけど、少し遅れたとしても規制されること自体は既定路線だ。世間はAIを怖れている。EUはそれに乗る。

 だが、EUが望み通りの規制を敷いたとして、AIがブラックボックスであることには変わりがないだろう。

魔術研究そのもの

 モデルも、ソースコードも、データセットすら公開されているのに、なぜブラックボックスなのだ? と不思議に思うかもしれない。機械学習はこれらをベースに夥(おびただ)しい特徴量を抽出し、その相互関係を調整していく。その相互関係マップも公開されるだろうが、見ても理解できないのだ。大きすぎて。複雑すぎて。

 たとえば、描画AIの中にはソースコードもデータセットもオープンにしているものがある。以前に取り上げたStable Diffusion もそうだ。これらが公開されているのだから、利用者たちはStable Diffusion のことを深く理解して、どんなプロンプトを示せばどんな絵が吐き出されるかを掌握していただろうか?

 まったくそうではなかった。

 まさに森羅万象の神秘を紐解くように、自分の望む結果が出ることを祈ってプロンプトという呪文を組み上げ、唱える。うまくいかなければ呪文を解体して組み直す。また試す。いい結果が出れば、その呪文は定式化され社会に流布される。

 魔術研究そのものである。

 自然のロジックはわからないけれど、魔術はそれに働きかけ、自分に有利な結果を得る営みだ。私たちはStable Diffusion やChatGPT を相手に魔術研究をやっているのだ。そこにプロンプトエンジニアリングという名前をつけているのだ。

機械学習における過学習、破壊的忘却

 たとえば私たちは機械学習の過程における過学習や破壊的忘却すら十分に乗り越えられていない。過学習とは学びのためのデータセットに適合しすぎてしまい、本番で直面する多様なデータに対応できなくなってしまうこと、破壊的忘却とは学習を進めていくと以前に学んだことをすっぽり忘れてしまうことである。

 ふいに認知症にかかったかのように、あることができなくなってしまうのである。忘れたりサボったりしないことが機械の良さだと思っていたのに、いったいどうしたことだ。

 なぜこういうことが起こるのか、一応の説明はある。でも、銀の銃弾のような解決策はない。前に覚えたことを忘れないように、昔のデータでもたまにトレーニングするとか、学習するときにあまり劇的にパラメータを変更せず、大事なとこは変わらないようにするとか、そんなことを恐る恐るやっている。まるでリハビリだ。

プロンプトエンジニアリングの内実

 プロンプトエンジニアリングとは、おそらくネットワークのどの部分を刺激するかを探っていく行為だ。AIのニューラルネットワークは、人間の脳と同じで、何かの仕事をするとき、そのすべてを使っているわけではない。部分Aを使うことも、部分Bを使うこともあるだろう。同じ「読書感想文を書く」リクエストでも、部分Aが使われて文章が生成されると子どもっぽく、部分Bだと理知的になる、といったことが指摘されている。

 漫然とプロンプトを作ると部分Aが使われるか部分Bが使われるかわからないが、ある単語を入れたり、語順を変えたりすることで意図的にAやBを刺激するのだ。

 なお、プロンプトエンジニアリングを専門に行うプロンプトエンジニアは現在大変にもてはやされていて、とんでもない報酬でヘッドハントされている人もいる。「それなら自分もなってみよう!」と考える学生さんもいたりするが、長期的にはみんながAIの扱いに慣れていくこと、そのAIの扱い自体がだんだん簡便になっていくことが予想されるので、荒稼ぎできる時期は長くないと予想する。

 もちろん、どの時代、どの技術でもそうだが、魔術的にそれを上手に操れる人は莫大な利益と賞賛を手にするだろう。自分では絵は描けないけれども、画像生成AIを使ったときに絶佳(ぜっか)の技量を発揮する神絵師などは現れるだろう。

 これらの状況をまとめると、まず「AIの説明責任」「説明可能AI」とは言うけれど、全体像を理解することは困難で、一部を説明するにも高いコストがかかる。重視した特徴や学習データを示すことは可能だが、それを読み解くには高いリテラシが必要で、社会で求められている「わかりやすく、自然言語で示す」のはちょっとやそっとではできそうもない。そういうことになる。(続く)

岡嶋裕史(おかじまゆうし)
1972年東京都生まれ。中央大学大学院総合政策研究科博士後期課程修了。博士(総合政策)。富士総合研究所勤務、関東学院大学経済学部准教授・情報科学センター所長を経て、現在、中央大学国際情報学部教授、政策文化総合研究所所長。『ジオン軍の失敗』『ジオン軍の遺産』(以上、角川コミック・エース)、『ポスト・モバイル』(新潮新書)、『ハッカーの手口』(PHP新書)、『思考からの逃走』『実況! ビジネス力養成講義 プログラミング/システム』(以上、日本経済新聞出版)、『構造化するウェブ』『ブロックチェーン』『5G』(以上、講談社ブルーバックス)、『数式を使わないデータマイニング入門』『アップル、グーグル、マイクロソフト』『個人情報ダダ漏れです!』『プログラミング教育はいらない』『大学教授、発達障害の子を育てる』『メタバースとは何か』『Web3とは何か』(以上、光文社新書)など著書多数。

光文社新書ではTwitterで毎日情報を発信しています。ぜひフォローしてみてください!