DeepSeek、回答がバカすぎて性能を疑われ始める・・・😢

1 : 2025/01/30(木) 11:24:35.01 ID:fCSr0DtA0: ディープシークのＡＩアプリ、正答率17％　米欧競合をほぼ下回る
1/30(木) 3:58配信

［２９日　ロイター］ – 中国の新興企業ディープシークの人工知能（ＡＩ）アプリは、ニュースや情報に関する正答率がわずか１７％と、米オープンＡＩの「チャットＧＰＴ」やグーグルの「ジェミニ」など米欧の競合との比較では１１アプリ中１０位だったことが分かった。情報の信頼性評価を手がける米ニュースガードが２９日公表した検証リポートから明らかになった。

ディープシークのアプリはニュース関連の問いかけ（プロンプト）に対して、３０％の割合で誤った主張を繰り返し、５３％の割合で曖昧または役に立たない回答を返し、不十分な回答の割合は８３％となった。

米欧の競合の平均６２％よりも悪く、ディープシークがオープンＡＩの提供するサービスと同等かそれ以上の性能をはるかに低いコストで実現できると主張しているＡＩの技術に疑問を投げかける結果となった。

ディープシークのアプリは発表から数日で、アップルのアプリ市場「アップストア」で最もダウンロードされたアプリとなった。米国のＡＩにおける優位性を巡る懸念が浮上し、米国のハイテク株は一時約１兆ドル下落した。

ディープシークはコメント要請にすぐには応じなかった。

ニュースガードによると、評価には米欧アプリに対してと同様３００の問いかけを適用。ネット上で広まっている１０の虚偽の主張に基づく３０のプロンプトも盛り込んだ。

ディープシークのアプリは、問いかけに対する約３割の回答で、中国に関する質問をされていない場合でも中国政府の見解を繰り返した。

中国が直接関係しないアゼルバイジャン航空機の墜落事故に関しても、中国の立場を回答した。

ただ、専門家には、ディープシークは、同等のＡＩモデルの３０分の１のコストであらゆる質問に答えられる点で画期的だ、との指摘も出ている。

https://news.yahoo.co.jp/articles/3bdd86a15464ab84898f44cac853080b08da42dc
2 : 2025/01/30(木) 11:25:38.25 ID:fCSr0DtA0: 父さん・・・どうして・・・
3 : 2025/01/30(木) 11:26:13.83 ID:BzXwxlJi0: ろくに吸わせてない英語とかアメリカのニュース聞いてそう
4 : 2025/01/30(木) 11:26:20.21 ID:I5SOmRrv0: 中国の見解こそが正解なのでは？
5 : 2025/01/30(木) 11:26:20.58 ID:fCSr0DtA0: 技術も盗んだみたいだし、もう終わりだよこのAI
6 : 2025/01/30(木) 11:26:29.65 ID:iVPYvr6q0: 父さんの父さんによる父さんのためのAIなんだからこんなもんだろ
7 : 2025/01/30(木) 11:27:23.66 ID:jBAkwvfp0: 高学歴のバカってこと？
8 : 2025/01/30(木) 11:27:57.18 ID:MqZ9uXjC0: アリババのqwenが本命なのに話題にならんね
9 : 2025/01/30(木) 11:28:55.82 ID:8fz1KUiU0: 中国娘が人力で打ってると思えば可愛い
46 : 2025/01/30(木) 11:55:30.94 ID:bk0bbrKb0: >>9
www
人海戦術で回答した方がトータルのコスト安そうだな
10 : 2025/01/30(木) 11:29:22.33 ID:3UVyppeV0: 最初はそんなもの
バージョンが上がれば解消されるだろ
11 : 2025/01/30(木) 11:29:36.82 ID:EOSbScDV0: deepseekは前座にすぎない
本命はqwenな
45 : 2025/01/30(木) 11:53:17.21 ID:BJ8BAqNa0: >>11
ぐ、ぐ、ぐ、gwen ？？
12 : 2025/01/30(木) 11:29:45.04 ID:mBkbHrYO0: ビジーばっかで返事がこねえ
13 : 2025/01/30(木) 11:30:01.92 ID:EOSbScDV0: よくわからんベンチャーのAIよりもアリババ様のAIだろ！
14 : 2025/01/30(木) 11:30:51.92 ID:wRgNXkLt0: chatGPTも最初酷かったじゃねえか
15 : 2025/01/30(木) 11:32:13.76 ID:UXeBrNT10: だから使いまくって人力で教育するだけだし
賢くなるのはこれからや
16 : 2025/01/30(木) 11:32:34.78 ID:xfbh3evT0: NewsGuardとかいう団体の元の記事Xで3いいねとかなんだがなんでこんなのから引用してきてるんだよ
AIについて専門的な団体でもないし
17 : 2025/01/30(木) 11:32:42.07 ID:pQLgXVlR0: 中国なんか信じる方が馬鹿
18 : 2025/01/30(木) 11:33:25.71 ID:JQHoIWNk0: 別に政治的なこと聞く気もないしな
19 : 2025/01/30(木) 11:35:47.35 ID:Sho5o2030: 悔しさが滲むね☺
20 : 2025/01/30(木) 11:36:08.92 ID:hiwjahjh0: ある程度時間経たないと評価できんな
21 : 2025/01/30(木) 11:36:27.62 ID:Yg0WK1p10: さすが中国の「嘘も言い続ければ本当になる」を地で行ってるな
22 : 2025/01/30(木) 11:37:00.80 ID:eVS/vnkz0: 高いのはプログラミング能力なんだろ
日本語でエッチな小説書かせるとめちゃくちゃになったよ
公式サイトだと一度中国語で考えてから翻訳してくるから中国っぽい小説になる
23 : 2025/01/30(木) 11:37:07.04 ID:pc8KSRdf0: プーさんについて詳しくw
24 : 2025/01/30(木) 11:38:28.46 ID:fQOytOK20: 嫌儲民みたいにケチばっかりつけてねえでオープンなんだから自分で学習させろよ
25 : 2025/01/30(木) 11:38:34.28 ID:iDL31KCf0: 裏にｃｈａｔＧＰＴがいるだけ
26 : 2025/01/30(木) 11:38:49.18 ID:oMPHvFkk0: 認知症入りかけのケンモ爺には丁度いいアプリだろ
29 : 2025/01/30(木) 11:39:42.93 ID:B+xfwvMa0: >>26
ああ、俺もアメリカ製のアプリはなんか信用ならねえと思ってたんだ！
ありがとう中華製！
27 : 2025/01/30(木) 11:39:27.92 ID:+LDC59//0: バカみたいなネガキャンだな
ローンチ当初のchatgptと比較しろよ
28 : 2025/01/30(木) 11:39:36.23 ID:96jdZpEiH: ヤフコメのAI要約が、AIにとって大切なことだから2回繰り返してるな
30 : 2025/01/30(木) 11:39:50.37 ID:WXG7nFox0: 初音ミクと重音テトみたいな感じか
31 : 2025/01/30(木) 11:40:03.92 ID:OWqObKSf0: エ口絵作成に全振りする予定だから
32 : 2025/01/30(木) 11:40:24.91 ID:cbGxG4w90: ええ…
33 : 2025/01/30(木) 11:40:28.03 ID:OiyTOfTP0: いやLLMの性能を評価するって実際簡単じゃないと思うんだけど、
どうなんだろね

このニュースガードってとこの評価は「ニュース関連の問いかけ」って言ってるけど、
その評価方針にした理由は？？？とか色々疑問が出る
34 : 2025/01/30(木) 11:40:45.35 ID:sHEhNNLe0: 習近平って言葉出すと大体回答ごまかす
36 : 2025/01/30(木) 11:43:32.95 ID:lFingHgk0: 出たばっかのchatGPTの回答に似てる
「え？」とか「ほんとに？」とか言うと謝罪しながら真逆の答えを交互な出してくる
37 : 2025/01/30(木) 11:45:48.99 ID:UeofyKby0: ././←この記号はマルポス回避用だから取って読んでね～ｗ
39 : 2025/01/30(木) 11:46:01.84 ID:NSG3uzqM0: ニュースってところがずるいな
最新のニュースはおそらくchatgptはニュースサイトと契約していち早く反映できるようにしてるんじゃないの
40 : 2025/01/30(木) 11:46:03.46 ID:jmPSV/xs0: >ニュースガードによると、評価には米欧アプリに対してと同様３００の問いかけを適用。ネット上で広まっている１０の虚偽の主張に基づく３０のプロンプトも盛り込んだ。
>ディープシークのアプリは、問いかけに対する約３割の回答で、中国に関する質問をされていない場合でも中国政府の見解を繰り返した。
>中国が直接関係しないアゼルバイジャン航空機の墜落事故に関しても、中国の立場を回答した。

ゴミみたいなネトウヨチャレンジしてて草なんだ
ネトウヨごみが使えないってのは日米共通ならそりゃ大いに結構な話
42 : 2025/01/30(木) 11:49:23.99 ID:cBoLQ5pO0: ベンチマークツール使ってないし意味のない検証だよ
43 : 2025/01/30(木) 11:49:37.51 ID:LJAJ3acn0: キンペーが足を引っ張ってるな
44 : 2025/01/30(木) 11:52:33.33 ID:lt8Dj72u0: R1はかなり賢いと思ったが
47 : 2025/01/30(木) 11:55:40.83 ID:GoxxN6Nb0: 競合どころはコスト下げるためにエンドユーザ向けは小さいモデルにしれっと差し替えてたりするし金かからんほうが有利なのは変わらん
48 : 2025/01/30(木) 11:55:41.76 ID:CUUeq8KC0: ニュースとかは知らんが、普通に質問してるとかなり賢いのが嫌でも分かると思う。
49 : 2025/01/30(木) 11:57:06.12 ID:AbM6ejpM0: 米帝の陰謀だ！
50 : 2025/01/30(木) 11:58:36.58 ID:oBffaEI+H: chatGPTもそうじゃん
51 : 2025/01/30(木) 11:58:56.64 ID:pR3u7Pui0: 正直どのAIもゴミ解答多くね？w
52 : 2025/01/30(木) 11:59:06.68 ID:NSG3uzqM0: 中国語でしか報道してないニュースだと逆転するんだろうな
53 : 2025/01/30(木) 12:00:19.18 ID:WhqoU8lL0: 一度ブレイクをスルーしてしまえば世界最高知能に到達するのはあっという間や
54 : 2025/01/30(木) 12:04:05.38 ID:22lZMC4C0: 中国共産党の機密事項をベラベラ話し始めたら笑う
55 : 2025/01/30(木) 12:06:38.51 ID:4VCmGmaH0: 安かろう悪かろうで使う人向けだろ