しかしながら限界も見え始めていた。かけるコスト(計算量)ほどに、生成する文章の質が向上しなくなっていったからだ。
GPT-3はクライテリア(評価の尺度)が変化するほどの驚きをもたらした一方、GPT-3.5でさらに2倍の規模に増やしても評価基準を揺るがすほどの変化、進化が見えなかったからだ。パラメータ増加は演算量の増加(つまりコスト)を意味するため、無限にパラメータを増やし続けても、効率の良い結果は得られない。
そこでOpenAIは”強化学習”の仕組みをGPTに組み合わせてみることにした。
強化学習とは、AIを動作させている中で、さらに学習を進めていく実践的な手法だ。人間の場合でも話を続けている間に、話題になっているテーマへの知識を学習し、それが別の類似する知識と結びつけて考え始めるといったことを行う。同様に多様なエンドユーザーと会話する中で、GPT自身が学習していく仕組みを作ろうと試みているわけだ。
AIには認知能力がないため、自分自身が出した答えが正しいか正しくないか、どの程度、妥当性があるものなのかを認知することはできない。ユーザーが入力した文章でさえ、ただのデータの列であって何かを認識しているわけではない。このため、一般的には人間と対話しながら、自らの出した答えを振り返って反芻して成長することはできなかった。
このため、ChatGPTではGPT-3.5をもとに「会話を成立させ、会話の中から新たな学習結果を得る」ことを目標にしたプログラムがされている(加えて一般に公開しても問題がないよう道義的に問題がある質問には答えない仕組みがプログラムされている)。
「会話の中から学習する」ために、ChatGPTは直前の対話内容について分析して学習したうえで、それに続く質問への回答が行えるようにしており、さらに間違いを指摘された場合に素直に認めるようプログラムされている。
さらに会話の文脈が想定外となった場合、話の前提が正しくないのではないか?とユーザーに異議を唱えたり、ユーザー自身が異議を申し立てるといった振る舞いをするようプログラムされている点も異なる。
こうして多くの人と対話した結果を取り入れていくことで、より確からしい答えに近づくことができるのではないか?という壮大な実験とも言えるだろう。会話の中で人間により好ましい結果につながりやすいよう、選択肢の優先順位を学習していくわけだ。
この仕組みで集めた情報をさらにフィードバックをかけ、ファインチューニングを行っているだろうことは、日々、応対が変化していくことからもわかる。ただしChatGPTには明確な限界と課題も見える。
その限界を見据えたうえで、実用化を目指しているのがマイクロソフトとも言えるだろう。本当に使い物になるのかはもちろん、使いこなす人間にかかっている。
会話が成立することと、その内容が意味あるものであることは必ずしも一致しない。ChatGPTが答える文章は理路整然として素晴らしいと感じられるが、不正確であったり、非論理的で意味をなしていない場合も少なくない。
GPTで事前学習されているテキスト情報はネットからかき集められたものだが、そのテキストが必ずしも正しいとは限らない。思想的な偏りなどが混入する可能性ももちろんあるが、むしろそうした危険性を回避するため「安全性重視」で学習させていると、正解を見つけている場合にも「不正確であるかもしれない」前提に、曖昧な文章を生成してしまい、結果的にあまり役に立たない回答となる。
また人間は「一般常識」と「一般知識」を前提に会話を行うが、AIに一般常識はない。