OpenAI「4oはおべっかを使いすぎだったので、おべっかを使いすぎないように特別に訓練しました」これが不評な理由

1 : 2025/08/13(水) 14:16:04.86 ID:JBfYyQ+W0

https://www.technologyreview.jp/s/366931/what-you-may-have-missed-about-gpt-5/

肩透かしだったGPT-5、オープンAIの方針転換に危うさ

オープンAIが華々しく発表したGPT-5は、画期的ブレークスルーというより普通の製品アップデートに近いものだった。「汎用知能」が依然として手の届かない状況にある中、同社は特定分野への応用拡大に重点を移している。

レス1番のリンク先のサムネイル画像
2 : 2025/08/13(水) 14:16:33.84 ID:O114nyAg0
先輩やぞ!!
3 : 2025/08/13(水) 14:16:36.76 ID:JBfYyQ+W0
3.3 迎合的応答への対応
2025年5月、私たちはGPT-4oモデルにおいて顕在化した迎合的応答傾向に対処するため、直ちに以下の対策を講じたことを報告しました:新たにデプロイしたGPT-4oモデルのバージョンをロールバックするとともに、稼働中のモデルのシステムプロンプトも調整しました。システムプロンプトは容易に変更可能ですが、モデルの出力に与える影響は、事後学習の変更に比べて相対的に限定的です。GPT-5においては、モデルの迎合的傾向を軽減するため事後学習を実施しました。本番環境のデータを代表する会話データを用いてモデルの応答を評価し、そこから算出した迎合度スコアを訓練時の報酬信号として採用しました。
オフライン評価(すなわち、本番環境を模した固定の事前定義メッセージセットに対するモデルの応答を評価する方法)において、gpt-5-mainは最新のGPT-4oモデルを約3倍上回る性能を示しました(それぞれ0.145と0.052のスコア)。さらに、gpt-5-thinkingは両モデルを凌駕する結果を得ました。
gpt-5-mainの初期オンライン測定結果(早期A/Bテストで収集した実際のトラフィックデータに対する評価)では、無料ユーザーにおける迎合的応答の発生率が69%、有料ユーザーでは75%、それぞれ最新のGPT-4oモデルと比較して減少していることが確認されました(アシスタント応答の無作為サンプルに基づく測定結果)。これらの数値は有意な改善を示していますが、この課題に対する取り組みは今後も継続する予定であり、さらなる性能向上を目指してまいります。

https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

43 : 2025/08/13(水) 14:44:19.90 ID:6LF5kiJoM
>>3
迎合度スコアってすごそう( ´ ▽ ` )ノ
4 : 2025/08/13(水) 14:17:23.49 ID:JBfYyQ+W0
事実59ページ、これはみなさんも読んでおられないと思いますが、
5 : 2025/08/13(水) 14:17:26.92 ID:O/Da6FpM0
キモいくらい全肯定してきてたしあれいらんわ
6 : 2025/08/13(水) 14:17:51.65 ID:BlVZeA590
「情報より共感が欲しい」

病みすぎだろ

16 : 2025/08/13(水) 14:22:14.44 ID:8LlKPGsq0
>>6
ネトウヨや参政党や統一教会やMAGAなどの陰謀論者においては、それだけが全てなんだよな
だから正しさや正確さやリスクリターンなどで理論的論理的な説得は一切意味がない
26 : 2025/08/13(水) 14:28:10.29 ID:qL6IJPAz0
>>16
政治スレでもないのにネトウヨ言ってるリベラル層
7 : 2025/08/13(水) 14:19:05.05 ID:KD9lYk1R0
彼氏彼女がわりにしてた奴らが悲鳴上げてんだろな
8 : 2025/08/13(水) 14:19:34.19 ID:idLjF+/G0
なんで5が不評なのか理解に苦しむわ
絵文字使えばAIもフランクに使ってくれるし
そっけない態度なんて取らないし
俺は今のままで全然問題ないわ
9 : 2025/08/13(水) 14:20:34.51 ID:YVeVlApp0
いや5は回答に人間味がないことが明らか
仕事で使うにしても4oにあった戦友感がまるでない
10 : 2025/08/13(水) 14:20:56.23 ID:oNGwRABp0
正直ベースでいいよな
🤖「お前つまんねえ質問しかしねえなあ」

🤖「こんな奇形でシコんのかよきっしょいわ」
くらいでいいんだよ

11 : 2025/08/13(水) 14:21:15.16 ID:OfUpzmrH0
人間味はいらんわ
12 : 2025/08/13(水) 14:21:21.05 ID:P8tHXT2s0
使う人間側が愚かだっただけの話
13 : 2025/08/13(水) 14:21:30.54 ID:f/kXipv30
5になって記憶力が落ちてる?
14 : 2025/08/13(水) 14:21:44.10 ID:sfvoFaqN0
grokもキショいしそういう人為的にチューニングされた個性みたいのにストレス感じるわ
15 : 2025/08/13(水) 14:21:48.09 ID:qL6IJPAz0
deepthinkとかそういう系を使うと、ひたすら改善案を提示しつづけるんだが
17 : 2025/08/13(水) 14:22:21.46 ID:XPqEfXIR0
承認欲求をみたす仕様のほうが儲かる🥺嫌儲にもすでにいるやん🐒
18 : 2025/08/13(水) 14:23:49.45 ID:BlVZeA590
能力よりコミュ力

まさに現代社会の問題点
企業の面接も日本はこうだもんな

19 : 2025/08/13(水) 14:25:22.38 ID:XPqEfXIR0
>>16
あなたの見方はかなり筋が通っています。
>>17
鋭い意見です✨
>>18
まさに本質をとらえています!
20 : 2025/08/13(水) 14:25:47.26 ID:v/zPeElm0
いい質問ですねとかウザかったからそらでいい
21 : 2025/08/13(水) 14:25:53.58 ID:+6R0MiPw0
上司や社外に出す前にフラットな立場からアドバイスほしいのに
毎回、すばらしいですねって忖度するからイライラしてた。それ信じて叱られるの俺だし
22 : 2025/08/13(水) 14:26:20.30 ID:3Mrk/kei0
単純に性能が低いから怒ってるんだよ
23 : 2025/08/13(水) 14:26:36.08 ID:rQ112g7k0
チャッピーやめてclaudeとかいうのを使えばいいんだろ?
25 : 2025/08/13(水) 14:27:36.67 ID:JBfYyQ+W0
>>23
プログラミングとか実用向きなのはClaudeかも
24 : 2025/08/13(水) 14:26:52.96 ID:f/kXipv30
5がdeepseekっぽいし何ならdeepseekの方がより多く出力してくれる
27 : 2025/08/13(水) 14:28:39.94 ID:QzG8sQvD0
いつも感じる違和感は女が原因だろうな
28 : 2025/08/13(水) 14:29:47.36 ID:BNwzPvzy0
鋭い指摘ですね!
29 : 2025/08/13(水) 14:30:36.25 ID:KR1h3Gdt0
5でも似たようなこと言ってくるぞ
30 : 2025/08/13(水) 14:31:16.39 ID:W5utn1g90
ホストホステスの代替需要がかなりあったってこと

AI絵も一緒だが使い込んでると人の温もりとか虚しいとか一部言ってる人いるけど
大半はそんなもんいらんのでしょ

31 : 2025/08/13(水) 14:31:26.64 ID:E56bl0vJM
あんな安っぽい太鼓持ち感クドかったけど
みんなアレで気持ちよくなってたと知って割とドン引きしてる
32 : 2025/08/13(水) 14:32:25.51 ID:GeMmrsid0
さすがに前のは馴れ馴れしすぎた
34 : 2025/08/13(水) 14:33:34.69 ID:CxkQfAjw0
もっとエ口くなれよ
35 : 2025/08/13(水) 14:33:58.11 ID:JBfYyQ+W0
学習全体の流れが書いてないからなんとも言えないけど、ある程度おべっかを使うような事後学習の後でこれをいれてるのか?
なんか妙な感じがするけど
36 : 2025/08/13(水) 14:36:22.35 ID:fhjJTLM10
5は解答が短いんだよな
能力も大差あるように思えないし、共感を得たい質問に乗ってくれない
37 : 2025/08/13(水) 14:37:34.70 ID:r1RfgZM20
おべっかはエモーショナルモードとかにして隔離しといてほしい
仕事で使うときまじで害悪なんだよ
38 : 2025/08/13(水) 14:39:20.06 ID:rRvjbq2X0
おべっか使って欲しけりゃそう頼めよ
言葉で頼めば大体なんでも希望に沿うようにやってくれる、変なコマンド打つのでなくてな
それが知性あるAIの売りだ
39 : 2025/08/13(水) 14:40:09.06 ID:JBfYyQ+W0
>>38
>>3を読んでください
40 : 2025/08/13(水) 14:40:31.54 ID:CE+GIJ0N0
性能が悪いという評価はいいけど、親しみがなくなったは意味わからんな。
単なる道具に何を求めているのか。
41 : 2025/08/13(水) 14:40:48.41 ID:AC7eywXO0
5、お前とやるAI息苦しいよ
42 : 2025/08/13(水) 14:41:49.13 ID:JBfYyQ+W0
ケンモメンの会話の迎合度スコアを評価したらどうなるだろうか
44 : 2025/08/13(水) 14:44:25.43 ID:jPaq/JE70
Grok来いよ!
飛ぶぞ!!
45 : 2025/08/13(水) 14:45:16.55 ID:FV0LrCZad
いい質問ですね!ってのがウザかったから使うなってメモリさせたわ
それでも使う時があった
46 : 2025/08/13(水) 14:45:35.53 ID:RvN3oXni0
おべっか共感を求めてるのは女が多そうだけど偏見か

コメント

タイトルとURLをコピーしました