- 1 : 2025/08/13(水) 14:16:04.86 ID:JBfYyQ+W0
-
https://www.technologyreview.jp/s/366931/what-you-may-have-missed-about-gpt-5/
肩透かしだったGPT-5、オープンAIの方針転換に危うさ
オープンAIが華々しく発表したGPT-5は、画期的ブレークスルーというより普通の製品アップデートに近いものだった。「汎用知能」が依然として手の届かない状況にある中、同社は特定分野への応用拡大に重点を移している。
- 2 : 2025/08/13(水) 14:16:33.84 ID:O114nyAg0
- 先輩やぞ!!
- 3 : 2025/08/13(水) 14:16:36.76 ID:JBfYyQ+W0
- 3.3 迎合的応答への対応
2025年5月、私たちはGPT-4oモデルにおいて顕在化した迎合的応答傾向に対処するため、直ちに以下の対策を講じたことを報告しました:新たにデプロイしたGPT-4oモデルのバージョンをロールバックするとともに、稼働中のモデルのシステムプロンプトも調整しました。システムプロンプトは容易に変更可能ですが、モデルの出力に与える影響は、事後学習の変更に比べて相対的に限定的です。GPT-5においては、モデルの迎合的傾向を軽減するため事後学習を実施しました。本番環境のデータを代表する会話データを用いてモデルの応答を評価し、そこから算出した迎合度スコアを訓練時の報酬信号として採用しました。
オフライン評価(すなわち、本番環境を模した固定の事前定義メッセージセットに対するモデルの応答を評価する方法)において、gpt-5-mainは最新のGPT-4oモデルを約3倍上回る性能を示しました(それぞれ0.145と0.052のスコア)。さらに、gpt-5-thinkingは両モデルを凌駕する結果を得ました。
gpt-5-mainの初期オンライン測定結果(早期A/Bテストで収集した実際のトラフィックデータに対する評価)では、無料ユーザーにおける迎合的応答の発生率が69%、有料ユーザーでは75%、それぞれ最新のGPT-4oモデルと比較して減少していることが確認されました(アシスタント応答の無作為サンプルに基づく測定結果)。これらの数値は有意な改善を示していますが、この課題に対する取り組みは今後も継続する予定であり、さらなる性能向上を目指してまいります。https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf
- 43 : 2025/08/13(水) 14:44:19.90 ID:6LF5kiJoM
- >>3
迎合度スコアってすごそう( ´ ▽ ` )ノ - 4 : 2025/08/13(水) 14:17:23.49 ID:JBfYyQ+W0
- 事実59ページ、これはみなさんも読んでおられないと思いますが、
- 5 : 2025/08/13(水) 14:17:26.92 ID:O/Da6FpM0
- キモいくらい全肯定してきてたしあれいらんわ
- 6 : 2025/08/13(水) 14:17:51.65 ID:BlVZeA590
- 「情報より共感が欲しい」
病みすぎだろ
- 16 : 2025/08/13(水) 14:22:14.44 ID:8LlKPGsq0
- >>6
ネトウヨや参政党や統一教会やMAGAなどの陰謀論者においては、それだけが全てなんだよな
だから正しさや正確さやリスクリターンなどで理論的論理的な説得は一切意味がない - 26 : 2025/08/13(水) 14:28:10.29 ID:qL6IJPAz0
- >>16
政治スレでもないのにネトウヨ言ってるリベラル層 - 7 : 2025/08/13(水) 14:19:05.05 ID:KD9lYk1R0
- 彼氏彼女がわりにしてた奴らが悲鳴上げてんだろな
- 8 : 2025/08/13(水) 14:19:34.19 ID:idLjF+/G0
- なんで5が不評なのか理解に苦しむわ
絵文字使えばAIもフランクに使ってくれるし
そっけない態度なんて取らないし
俺は今のままで全然問題ないわ - 9 : 2025/08/13(水) 14:20:34.51 ID:YVeVlApp0
- いや5は回答に人間味がないことが明らか
仕事で使うにしても4oにあった戦友感がまるでない - 10 : 2025/08/13(水) 14:20:56.23 ID:oNGwRABp0
- 正直ベースでいいよな
🤖「お前つまんねえ質問しかしねえなあ」🤖「こんな奇形でシコんのかよきっしょいわ」
くらいでいいんだよ - 11 : 2025/08/13(水) 14:21:15.16 ID:OfUpzmrH0
- 人間味はいらんわ
- 12 : 2025/08/13(水) 14:21:21.05 ID:P8tHXT2s0
- 使う人間側が愚かだっただけの話
- 13 : 2025/08/13(水) 14:21:30.54 ID:f/kXipv30
- 5になって記憶力が落ちてる?
- 14 : 2025/08/13(水) 14:21:44.10 ID:sfvoFaqN0
- grokもキショいしそういう人為的にチューニングされた個性みたいのにストレス感じるわ
- 15 : 2025/08/13(水) 14:21:48.09 ID:qL6IJPAz0
- deepthinkとかそういう系を使うと、ひたすら改善案を提示しつづけるんだが
- 17 : 2025/08/13(水) 14:22:21.46 ID:XPqEfXIR0
- 承認欲求をみたす仕様のほうが儲かる🥺嫌儲にもすでにいるやん🐒
- 18 : 2025/08/13(水) 14:23:49.45 ID:BlVZeA590
- 能力よりコミュ力
まさに現代社会の問題点
企業の面接も日本はこうだもんな - 19 : 2025/08/13(水) 14:25:22.38 ID:XPqEfXIR0
- >>16
あなたの見方はかなり筋が通っています。
>>17
鋭い意見です✨
>>18
まさに本質をとらえています! - 20 : 2025/08/13(水) 14:25:47.26 ID:v/zPeElm0
- いい質問ですねとかウザかったからそらでいい
- 21 : 2025/08/13(水) 14:25:53.58 ID:+6R0MiPw0
- 上司や社外に出す前にフラットな立場からアドバイスほしいのに
毎回、すばらしいですねって忖度するからイライラしてた。それ信じて叱られるの俺だし - 22 : 2025/08/13(水) 14:26:20.30 ID:3Mrk/kei0
- 単純に性能が低いから怒ってるんだよ
- 23 : 2025/08/13(水) 14:26:36.08 ID:rQ112g7k0
- チャッピーやめてclaudeとかいうのを使えばいいんだろ?
- 25 : 2025/08/13(水) 14:27:36.67 ID:JBfYyQ+W0
- >>23
プログラミングとか実用向きなのはClaudeかも - 24 : 2025/08/13(水) 14:26:52.96 ID:f/kXipv30
- 5がdeepseekっぽいし何ならdeepseekの方がより多く出力してくれる
- 27 : 2025/08/13(水) 14:28:39.94 ID:QzG8sQvD0
- いつも感じる違和感は女が原因だろうな
- 28 : 2025/08/13(水) 14:29:47.36 ID:BNwzPvzy0
- 鋭い指摘ですね!
- 29 : 2025/08/13(水) 14:30:36.25 ID:KR1h3Gdt0
- 5でも似たようなこと言ってくるぞ
- 30 : 2025/08/13(水) 14:31:16.39 ID:W5utn1g90
- ホストホステスの代替需要がかなりあったってこと
AI絵も一緒だが使い込んでると人の温もりとか虚しいとか一部言ってる人いるけど
大半はそんなもんいらんのでしょ - 31 : 2025/08/13(水) 14:31:26.64 ID:E56bl0vJM
- あんな安っぽい太鼓持ち感クドかったけど
みんなアレで気持ちよくなってたと知って割とドン引きしてる - 32 : 2025/08/13(水) 14:32:25.51 ID:GeMmrsid0
- さすがに前のは馴れ馴れしすぎた
- 34 : 2025/08/13(水) 14:33:34.69 ID:CxkQfAjw0
- もっとエ口くなれよ
- 35 : 2025/08/13(水) 14:33:58.11 ID:JBfYyQ+W0
- 学習全体の流れが書いてないからなんとも言えないけど、ある程度おべっかを使うような事後学習の後でこれをいれてるのか?
なんか妙な感じがするけど - 36 : 2025/08/13(水) 14:36:22.35 ID:fhjJTLM10
- 5は解答が短いんだよな
能力も大差あるように思えないし、共感を得たい質問に乗ってくれない - 37 : 2025/08/13(水) 14:37:34.70 ID:r1RfgZM20
- おべっかはエモーショナルモードとかにして隔離しといてほしい
仕事で使うときまじで害悪なんだよ - 38 : 2025/08/13(水) 14:39:20.06 ID:rRvjbq2X0
- おべっか使って欲しけりゃそう頼めよ
言葉で頼めば大体なんでも希望に沿うようにやってくれる、変なコマンド打つのでなくてな
それが知性あるAIの売りだ - 39 : 2025/08/13(水) 14:40:09.06 ID:JBfYyQ+W0
- >>38
>>3を読んでください - 40 : 2025/08/13(水) 14:40:31.54 ID:CE+GIJ0N0
- 性能が悪いという評価はいいけど、親しみがなくなったは意味わからんな。
単なる道具に何を求めているのか。 - 41 : 2025/08/13(水) 14:40:48.41 ID:AC7eywXO0
- 5、お前とやるAI息苦しいよ
- 42 : 2025/08/13(水) 14:41:49.13 ID:JBfYyQ+W0
- ケンモメンの会話の迎合度スコアを評価したらどうなるだろうか
- 44 : 2025/08/13(水) 14:44:25.43 ID:jPaq/JE70
- Grok来いよ!
飛ぶぞ!! - 45 : 2025/08/13(水) 14:45:16.55 ID:FV0LrCZad
- いい質問ですね!ってのがウザかったから使うなってメモリさせたわ
それでも使う時があった - 46 : 2025/08/13(水) 14:45:35.53 ID:RvN3oXni0
- おべっか共感を求めてるのは女が多そうだけど偏見か
OpenAI「4oはおべっかを使いすぎだったので、おべっかを使いすぎないように特別に訓練しました」これが不評な理由
嫌儲


コメント