公開から2ヶ月間で1億人のアクティブユーザを集める――ChatGPTの基礎知識⑦by岡嶋裕史

2023年6月9日 07:00

彗星のごとく現れ、良くも悪くも話題を独占しているChatGPT。新たな産業革命という人もいれば、政府当局が規制に乗り出すという報道もあります。いったい何がすごくて、何が危険なのか？　我々の生活を一変させる可能性を秘めているのか？　ITのわかりやすい解説に定評のある岡嶋裕史さん（中央大学国際情報学部教授、政策総合文化研究所所長）にかみ砕いていただきます。ちょっと乗り遅れちゃったな、という方も、本連載でキャッチアップできるはず。お楽しみに！

過去の連載はこちら

岡嶋さんの好評既刊

ChatGPTはここから始めることができます

公開から2ヶ月間で1億人のアクティブユーザを集める――ChatGPTの基礎知識⑦by岡嶋裕史

空前絶後の大ヒット

　プログラムが書ける人はそれでいいのだけれど、世の中の大半の人はそんなスキルを教育されていない。そこで「アプリの部分もOpenAIが作ってあげるよ！」とやったのが、ChatGPTである。

　本体のGPTだけ出して、ガワの部分を第三者（サードパーティー）に任せるのではなく、ガワもOpenAI製にしちゃおうというのである。GPTは言語にまつわる内容であればいろんなことができるが、ChatGPTはそれに会話に特化したガワを被せたことになる。

API（アプリケーション・プログラミング・インターフェース）＝ソフトウェアやプログラム同士をつなぐ窓口のこと

　これは当たった。なんせOpenAI自体の知名度と影響力が大きいし、ガワ部分であるChatGPTも洗練されている。OpenAIのWebサイトに行ってメールアドレスだけで使い始められる簡便性も素敵だ。結果的に公開から2ヶ月間で1億人のアクティブユーザを集めることに成功した。空前絶後の大ヒットである。自分だったらすぐに退職して左団扇の隠遁生活に入るだろうが、OpenAIの人たちは今もばりばり働き続けている。

　ChatGPTに難があるとすれば、2023年4月時点での最新版であるGPT-4ではなく、一世代前のGPT-3.5が接続されていることだが、ChatGPT Plusという1月20＄の有料プランに加入するとバックに位置する本体部分をGPT-4にすることができる。GPT-3.5とGPT-4が導き出す回答は体感レベルでも相当な懸隔が味わえるので、興味のある人は1か月だけでも契約してみるといいと思う。

特徴量

　GPTシリーズは、細かい派生モデルはあるが、基本的には1、2、3、3.5、4と発展してきた。世代が変わるごとに新しい技術が取り入れられているものの、引いた視角から見ればディープラーニングで訓練されたLLM（large language model）だなとくくることができる（GPT-4のマルチモーダルについては後述する）。

　以前に説明した将棋AIの発展と同じだ。最初は熟練のエンジニアが将棋のことを丹念に丹念に教えていた。しかし、それだけでは学習量を増やすことができない。そこで将棋AI同士が対局して棋譜を大量に自動生成し、それを機械学習するようなしくみに移行した。

　言語分野でも、書籍などから文章をかき集めてきて品詞などのラベルをつけたデータセットを作り、それをもとに教師あり学習をしたのである。しかし、容易に想像可能なように、このデータセット（コーパスという）を作るのは悪夢のような手間がかかる。

　そこでスクレイピング（Webから必要な情報を自動的に抽出する技術のこと）によりWebの文章をさらってくる。ここで「それぞれの単語に品詞ラベルをつけよう」などと思うと人死にが出る作業量になるので、それはしない。教師なし学習である（ヘイトスピーチやフェイクニュースは除外しないといけないので、手間がかからないわけではない）。

　これで巨大なコーパスが使えるようになった。OpenAIはコーパスを公開していないが、そのサイズはGPT-1で数ギガバイト、GPT-2で数十ギガバイト、GPT-3で数百ギガバイトと言われている。

　その巨大なデータの着目すべき点を特徴量という。パラメータという言い方もよく使われる。そのデータのどこに着目するのか、そこに着目することで何がわかるのか、を決めることに直結するので、特徴量を抽出するのは非常に大事な作業である。

　これは人間が行ってきたが（「飛車と王様の間隔が空いている方が勝率がいいらしいぞ」など）、ディープラーニングは特徴量の抽出と調整が上手で、かつ人間には無理な量を扱える。

　GPT-1の特徴量は1億、GPT-2で15億、GPT-3が1750億、GPT-3.5になると3500億、GPT-4に至って100兆に達したと言われている。GPT-1→2→3→4で、10倍、100倍、1000倍になっていて、でかくなる度合いが加速していることが見て取れる。

でかさは正義か？

　でかさとはそんなに正義なのかと問われれば、ある水準までは確実にイエスである。ここまでにも記したように、真面目な文章しか知らなかったモデルがユーモアのある文章を学び、特徴をつかんでいれば確実に活用の幅が広がる。

　で、そのまま人間の知性に達するだろうという考え方がある。

　コンピュータはそもそも人間の機能を模倣しているし、ディープラーニングで使うニューラルネットワークはまんま神経細胞のメタファーだ。もともと脳科学の研究から出てきた技術だが、近年では脳科学に対してフィードバックが行われている。

　あるポイントに絞って脳とコンピュータを見比べたときに、その構造と振る舞いに大きな差があるわけではない。しかし、それが生み出すものには大きな隔たりがある。コンピュータは極めて限定的な分野で言われたことを実行するだけだが、脳は意識も感情も生み出す。

　その差は複雑さである、とした説がある。それに従うならば、ニューラルネットワークをどんどんどんどんでかく、複雑にしていけばいずれは意識を生み出すことになる。

　いっぽう、でかさを追求することで進歩する時代は終わる、と考える人もいる。OpenAIのサム・アルトマンがそうだ。これからは違うアプローチを模索すると言っている。

　個人的にはもう少しでかさを追求することで性能はよくなると思うが、確かに特徴量の100兆を100京にしても伸び幅は逓減しそうである。ただ、GPT-4では文章だけでなく、画像も入力できるようになり、その画像を解釈して文章で説明するなどの機能が付加されている。「でかくする」の範疇に、「動画や音声を扱えること」も加えていくならば、大きくすることで人間に近づけるアプローチはまだ使えるだろう。（続く）

岡嶋裕史(おかじまゆうし)
1972年東京都生まれ。中央大学大学院総合政策研究科博士後期課程修了。博士(総合政策)。富士総合研究所勤務、関東学院大学経済学部准教授・情報科学センター所長を経て、現在、中央大学国際情報学部教授、政策文化総合研究所所長。『ジオン軍の失敗』『ジオン軍の遺産』(以上、角川コミック・エース)、『ポスト・モバイル』(新潮新書)、『ハッカーの手口』(ＰＨＰ新書)、『思考からの逃走』『実況！ビジネス力養成講義プログラミング／システム』(以上、日本経済新聞出版)、『構造化するウェブ』『ブロックチェーン』『５Ｇ』(以上、講談社ブルーバックス)、『数式を使わないデータマイニング入門』『アップル、グーグル、マイクロソフト』『個人情報ダダ漏れです!』『プログラミング教育はいらない』『大学教授、発達障害の子を育てる』『メタバースとは何か』『Web3とは何か』(以上、光文社新書)など著書多数。

光文社新書ではTwitterで毎日情報を発信しています。ぜひフォローしてみてください！

光文社新書公式Twitterをフォロー

新刊情報やセール情報ほか、noteの更新や光文社新書にまつわるあれこれがわかる！