見出し画像

金に糸目をつけなければ、誰でもGPT-4を作れる?――ChatGPTの基礎知識⑧by岡嶋裕史

彗星のごとく現れ、良くも悪くも話題を独占しているChatGPT。新たな産業革命という人もいれば、政府当局が規制に乗り出すという報道もあります。いったい何がすごくて、何が危険なのか? 我々の生活を一変させる可能性を秘めているのか? ITのわかりやすい解説に定評のある岡嶋裕史さん(中央大学国際情報学部教授、政策総合文化研究所所長)にかみ砕いていただきます。ちょっと乗り遅れちゃったな、という方も、本連載でキャッチアップできるはず。お楽しみに!

過去の連載はこちら

岡嶋さんの好評既刊

ChatGPTはここから始めることができます

金に糸目をつけなければ、誰でもGPT-4を作れる?――ChatGPTの基礎知識⑧by岡嶋裕史

途方もなくでかいシステムを微調整するすごさ

 GPT-4のすごさはさまざまに語られているが、私はモデルとデータセットの途方もないでかさを実現した点がこのシステムの白眉だと思う。

・データセットはスクレイピング(Webを自動巡回して情報を拾ってくる)で集めてるだけでしょ?
・モデルは機械学習で自動的に育つんでしょ?
・だったら金に糸目をつけなければ、GPT-4を作れるでしょ?

という評価はフェアではない。モデルがどんなに優秀でも、学習させるデータセットが汚染されていれば、AIは容易に差別をするし、著作権侵害をする。

 GPT-4がそれに十全に対応しているとは言わないけれど、世界的なAI懐疑やポリティカルコレクトネスの潮流にさらされるなかで、やれる範囲の対策を惜しんではいない。

※全部ChatGPTで統一したほうが可読性が高いだろうけど、ChatGPTの背後にはGPT-3.5が接続される場合も、GPT-4が接続される場合もある。今後登場すればそれがGPT-5になることだってあるだろう。そのため、なるべく本書のタイトルである「ChatGPT」を使いつつも、書き分けの必要性があるところでは「GPT-4」などと書く。

 データセットから差別的な情報、偏った情報、フェイクなどを取り去る地獄のような作業を経て世に出されている。

 モデルもそうだ。「機械学習で勝手に学ぶ」そこに間違いはない。だが、学んで育った結果が人間にとって望ましいものだとは限らない。あれは子どもを育てるようなもので、環境を整えてあげたり、動機付けをしてあげることはできるが、親の思い通りに育つことは保証されない。むしろ、「何でこうなっちゃったんだ」とうなだれるような結果のほうが多い。

 そこで初期条件を変え、「望ましい行動」の伝え方を工夫し、複数の「望ましい行動」同士に生じる矛盾をほぐす。これもデータセットから望ましくない情報を除去するのと同じく、砂漠の砂を箸でつまんで湖に捨てていくような仕事である。つらい。

 そして一度世に出した後も、「AIがヘイトスピーチを始めたぞ」なんて事態になれば、それを回避するために「ファインチューニング」をすることになる。ファインチューニングは英和辞書で調べれば微調整と出てくるので、ちょっと調整するだけに思える。

ChatGPTはシュヴァルの理想宮?

 でも、現実的にはそうではない。

 たとえばF1ではサーキットごとにマシンのセッティングを行う。これも車の調整と訳されるのだが、あれはちょっとウイングを立てるとか寝かせるとか、そんな生やさしい作業ではない。エアロダイナミクスからメカニカルまで、サーキットにあわせてマシンを作り替えていると表現したほうがよい。

 F1ドライバーが「予選の前のプラクティスでマシンを作っていく」などとインタビューに答えるのは伊達ではないのだ。

 AIのファインチューニングは、F1マシンのセッティングに近い。もちろん、モデルを最初から作ることと比較すれば「微」調整だけれど、作業の絶対量が「微」なわけではない。だから、最近はいかにファインチューニングの手間を省くか(しなくていいようにする、やるとして自動化する、使うデータが最小量ですむようにするなど)の研究が過熱している。

 この繊細微妙な崩れやすい大迷宮をOpenAIは作って見せたのである。賞賛されるべきことだ。ソフトウェアの内部構造は目に見えないので興味のない人にはまったくピンとこないと思うが、たぶんシュヴァルの理想宮に近い。フランスの郵便配達をしていた人が、ふとしたきっかけで拾ってきた石を庭に積み上げ始め、30年以上をかけて(1人で!)宮殿を完成させる話である。マジかよ。

シュヴァルの理想宮https://ja.wikipedia.org/wiki/%E3%82%B7%E3%83%A5%E3%83%B4%E3%82%A1%E3%83%AB%E3%81%AE%E7%90%86%E6%83%B3%E5%AE%AE#/media/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:Facteur_Cheval_-_Fa%C3%A7ade_Est.jpg

GPTのチームがやったことはこれに近いと思う。そのくらい大変なのだ。(続く)

岡嶋裕史(おかじまゆうし)
1972年東京都生まれ。中央大学大学院総合政策研究科博士後期課程修了。博士(総合政策)。富士総合研究所勤務、関東学院大学経済学部准教授・情報科学センター所長を経て、現在、中央大学国際情報学部教授、政策文化総合研究所所長。『ジオン軍の失敗』『ジオン軍の遺産』(以上、角川コミック・エース)、『ポスト・モバイル』(新潮新書)、『ハッカーの手口』(PHP新書)、『思考からの逃走』『実況! ビジネス力養成講義 プログラミング/システム』(以上、日本経済新聞出版)、『構造化するウェブ』『ブロックチェーン』『5G』(以上、講談社ブルーバックス)、『数式を使わないデータマイニング入門』『アップル、グーグル、マイクロソフト』『個人情報ダダ漏れです!』『プログラミング教育はいらない』『大学教授、発達障害の子を育てる』『メタバースとは何か』『Web3とは何か』(以上、光文社新書)など著書多数。

光文社新書ではTwitterで毎日情報を発信しています。ぜひフォローしてみてください!