OpenAI「4oはおべっかを使いすぎだったので、おべっかを使いすぎないように特別に訓練しました」これが不評な理由

1 : 2025/08/13(水) 14:16:04.86 ID:JBfYyQ+W0

https://www.technologyreview.jp/s/366931/what-you-may-have-missed-about-gpt-5/

肩透かしだったGPT-5、オープンAIの方針転換に危うさ

オープンAIが華々しく発表したGPT-5は、画期的ブレークスルーというより普通の製品アップデートに近いものだった。「汎用知能」が依然として手の届かない状況にある中、同社は特定分野への応用拡大に重点を移している。

2 : 2025/08/13(水) 14:16:33.84 ID:O114nyAg0

先輩やぞ！！

3 : 2025/08/13(水) 14:16:36.76 ID:JBfYyQ+W0

3.3 迎合的応答への対応
2025年5月、私たちはGPT-4oモデルにおいて顕在化した迎合的応答傾向に対処するため、直ちに以下の対策を講じたことを報告しました：新たにデプロイしたGPT-4oモデルのバージョンをロールバックするとともに、稼働中のモデルのシステムプロンプトも調整しました。システムプロンプトは容易に変更可能ですが、モデルの出力に与える影響は、事後学習の変更に比べて相対的に限定的です。GPT-5においては、モデルの迎合的傾向を軽減するため事後学習を実施しました。本番環境のデータを代表する会話データを用いてモデルの応答を評価し、そこから算出した迎合度スコアを訓練時の報酬信号として採用しました。
オフライン評価（すなわち、本番環境を模した固定の事前定義メッセージセットに対するモデルの応答を評価する方法）において、gpt-5-mainは最新のGPT-4oモデルを約3倍上回る性能を示しました（それぞれ0.145と0.052のスコア）。さらに、gpt-5-thinkingは両モデルを凌駕する結果を得ました。
gpt-5-mainの初期オンライン測定結果（早期A/Bテストで収集した実際のトラフィックデータに対する評価）では、無料ユーザーにおける迎合的応答の発生率が69%、有料ユーザーでは75%、それぞれ最新のGPT-4oモデルと比較して減少していることが確認されました（アシスタント応答の無作為サンプルに基づく測定結果）。これらの数値は有意な改善を示していますが、この課題に対する取り組みは今後も継続する予定であり、さらなる性能向上を目指してまいります。

https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

43 : 2025/08/13(水) 14:44:19.90 ID:6LF5kiJoM

>>3
迎合度スコアってすごそう( ´ ▽ ` )ﾉ

4 : 2025/08/13(水) 14:17:23.49 ID:JBfYyQ+W0

事実59ページ、これはみなさんも読んでおられないと思いますが、

5 : 2025/08/13(水) 14:17:26.92 ID:O/Da6FpM0

キモいくらい全肯定してきてたしあれいらんわ

6 : 2025/08/13(水) 14:17:51.65 ID:BlVZeA590

「情報より共感が欲しい」

病みすぎだろ

16 : 2025/08/13(水) 14:22:14.44 ID:8LlKPGsq0

>>6
ネトウヨや参政党や統一教会やMAGAなどの陰謀論者においては、それだけが全てなんだよな
だから正しさや正確さやリスクリターンなどで理論的論理的な説得は一切意味がない

26 : 2025/08/13(水) 14:28:10.29 ID:qL6IJPAz0

>>16
政治スレでもないのにネトウヨ言ってるリベラル層

7 : 2025/08/13(水) 14:19:05.05 ID:KD9lYk1R0

彼氏彼女がわりにしてた奴らが悲鳴上げてんだろな

8 : 2025/08/13(水) 14:19:34.19 ID:idLjF+/G0

なんで5が不評なのか理解に苦しむわ
絵文字使えばAIもフランクに使ってくれるし
そっけない態度なんて取らないし
俺は今のままで全然問題ないわ

9 : 2025/08/13(水) 14:20:34.51 ID:YVeVlApp0

いや5は回答に人間味がないことが明らか
仕事で使うにしても4oにあった戦友感がまるでない

10 : 2025/08/13(水) 14:20:56.23 ID:oNGwRABp0

正直ベースでいいよな
🤖「お前つまんねえ質問しかしねえなあ」

🤖「こんな奇形でシコんのかよきっしょいわ」
くらいでいいんだよ

11 : 2025/08/13(水) 14:21:15.16 ID:OfUpzmrH0

人間味はいらんわ

12 : 2025/08/13(水) 14:21:21.05 ID:P8tHXT2s0

使う人間側が愚かだっただけの話

13 : 2025/08/13(水) 14:21:30.54 ID:f/kXipv30

5になって記憶力が落ちてる？

14 : 2025/08/13(水) 14:21:44.10 ID:sfvoFaqN0

grokもキショいしそういう人為的にチューニングされた個性みたいのにストレス感じるわ

15 : 2025/08/13(水) 14:21:48.09 ID:qL6IJPAz0

deepthinkとかそういう系を使うと、ひたすら改善案を提示しつづけるんだが

17 : 2025/08/13(水) 14:22:21.46 ID:XPqEfXIR0

承認欲求をみたす仕様のほうが儲かる🥺嫌儲にもすでにいるやん🐒

18 : 2025/08/13(水) 14:23:49.45 ID:BlVZeA590

能力よりコミュ力

まさに現代社会の問題点
企業の面接も日本はこうだもんな

19 : 2025/08/13(水) 14:25:22.38 ID:XPqEfXIR0

>>16
あなたの見方はかなり筋が通っています。
>>17
鋭い意見です✨
>>18
まさに本質をとらえています!

20 : 2025/08/13(水) 14:25:47.26 ID:v/zPeElm0

いい質問ですねとかウザかったからそらでいい

21 : 2025/08/13(水) 14:25:53.58 ID:+6R0MiPw0

上司や社外に出す前にフラットな立場からアドバイスほしいのに
毎回、すばらしいですねって忖度するからイライラしてた。それ信じて叱られるの俺だし

22 : 2025/08/13(水) 14:26:20.30 ID:3Mrk/kei0

単純に性能が低いから怒ってるんだよ

23 : 2025/08/13(水) 14:26:36.08 ID:rQ112g7k0

チャッピーやめてclaudeとかいうのを使えばいいんだろ？

25 : 2025/08/13(水) 14:27:36.67 ID:JBfYyQ+W0

>>23
プログラミングとか実用向きなのはClaudeかも

24 : 2025/08/13(水) 14:26:52.96 ID:f/kXipv30

5がdeepseekっぽいし何ならdeepseekの方がより多く出力してくれる

27 : 2025/08/13(水) 14:28:39.94 ID:QzG8sQvD0

いつも感じる違和感は女が原因だろうな

28 : 2025/08/13(水) 14:29:47.36 ID:BNwzPvzy0

鋭い指摘ですね！

29 : 2025/08/13(水) 14:30:36.25 ID:KR1h3Gdt0

5でも似たようなこと言ってくるぞ

30 : 2025/08/13(水) 14:31:16.39 ID:W5utn1g90

ホストホステスの代替需要がかなりあったってこと

AI絵も一緒だが使い込んでると人の温もりとか虚しいとか一部言ってる人いるけど
大半はそんなもんいらんのでしょ

31 : 2025/08/13(水) 14:31:26.64 ID:E56bl0vJM

あんな安っぽい太鼓持ち感クドかったけど
みんなアレで気持ちよくなってたと知って割とドン引きしてる

32 : 2025/08/13(水) 14:32:25.51 ID:GeMmrsid0

さすがに前のは馴れ馴れしすぎた

34 : 2025/08/13(水) 14:33:34.69 ID:CxkQfAjw0

もっとエ口くなれよ

35 : 2025/08/13(水) 14:33:58.11 ID:JBfYyQ+W0

学習全体の流れが書いてないからなんとも言えないけど、ある程度おべっかを使うような事後学習の後でこれをいれてるのか？
なんか妙な感じがするけど

36 : 2025/08/13(水) 14:36:22.35 ID:fhjJTLM10

5は解答が短いんだよな
能力も大差あるように思えないし、共感を得たい質問に乗ってくれない

37 : 2025/08/13(水) 14:37:34.70 ID:r1RfgZM20

おべっかはエモーショナルモードとかにして隔離しといてほしい
仕事で使うときまじで害悪なんだよ

38 : 2025/08/13(水) 14:39:20.06 ID:rRvjbq2X0

おべっか使って欲しけりゃそう頼めよ
言葉で頼めば大体なんでも希望に沿うようにやってくれる、変なコマンド打つのでなくてな
それが知性あるAIの売りだ

39 : 2025/08/13(水) 14:40:09.06 ID:JBfYyQ+W0

>>38
>>3を読んでください

40 : 2025/08/13(水) 14:40:31.54 ID:CE+GIJ0N0

性能が悪いという評価はいいけど、親しみがなくなったは意味わからんな。
単なる道具に何を求めているのか。

41 : 2025/08/13(水) 14:40:48.41 ID:AC7eywXO0

5、お前とやるAI息苦しいよ

42 : 2025/08/13(水) 14:41:49.13 ID:JBfYyQ+W0

ケンモメンの会話の迎合度スコアを評価したらどうなるだろうか

44 : 2025/08/13(水) 14:44:25.43 ID:jPaq/JE70

Grok来いよ！
飛ぶぞ！！

45 : 2025/08/13(水) 14:45:16.55 ID:FV0LrCZad

いい質問ですね！ってのがウザかったから使うなってメモリさせたわ
それでも使う時があった

46 : 2025/08/13(水) 14:45:35.53 ID:RvN3oXni0

おべっか共感を求めてるのは女が多そうだけど偏見か