DeepSeek、回答がバカすぎて性能を疑われ始める・・・😢

サムネイル
1 : 2025/01/30(木) 11:24:35.01 ID:fCSr0DtA0

ディープシークのAIアプリ、正答率17% 米欧競合をほぼ下回る
1/30(木) 3:58配信

[29日 ロイター] – 中国の新興企業ディープシークの人工知能(AI)アプリは、ニュースや情報に関する正答率がわずか17%と、米オープンAIの「チャットGPT」やグーグルの「ジェミニ」など米欧の競合との比較では11アプリ中10位だったことが分かった。情報の信頼性評価を手がける米ニュースガードが29日公表した検証リポートから明らかになった。

ディープシークのアプリはニュース関連の問いかけ(プロンプト)に対して、30%の割合で誤った主張を繰り返し、53%の割合で曖昧または役に立たない回答を返し、不十分な回答の割合は83%となった。

米欧の競合の平均62%よりも悪く、ディープシークがオープンAIの提供するサービスと同等かそれ以上の性能をはるかに低いコストで実現できると主張しているAIの技術に疑問を投げかける結果となった。

ディープシークのアプリは発表から数日で、アップルのアプリ市場「アップストア」で最もダウンロードされたアプリとなった。米国のAIにおける優位性を巡る懸念が浮上し、米国のハイテク株は一時約1兆ドル下落した。

ディープシークはコメント要請にすぐには応じなかった。

ニュースガードによると、評価には米欧アプリに対してと同様300の問いかけを適用。ネット上で広まっている10の虚偽の主張に基づく30のプロンプトも盛り込んだ。

ディープシークのアプリは、問いかけに対する約3割の回答で、中国に関する質問をされていない場合でも中国政府の見解を繰り返した。

中国が直接関係しないアゼルバイジャン航空機の墜落事故に関しても、中国の立場を回答した。

ただ、専門家には、ディープシークは、同等のAIモデルの30分の1のコストであらゆる質問に答えられる点で画期的だ、との指摘も出ている。

https://news.yahoo.co.jp/articles/3bdd86a15464ab84898f44cac853080b08da42dc

2 : 2025/01/30(木) 11:25:38.25 ID:fCSr0DtA0
父さん・・・どうして・・・
3 : 2025/01/30(木) 11:26:13.83 ID:BzXwxlJi0
ろくに吸わせてない英語とかアメリカのニュース聞いてそう
4 : 2025/01/30(木) 11:26:20.21 ID:I5SOmRrv0
中国の見解こそが正解なのでは?
5 : 2025/01/30(木) 11:26:20.58 ID:fCSr0DtA0
技術も盗んだみたいだし、もう終わりだよこのAI
6 : 2025/01/30(木) 11:26:29.65 ID:iVPYvr6q0
父さんの父さんによる父さんのためのAIなんだからこんなもんだろ
7 : 2025/01/30(木) 11:27:23.66 ID:jBAkwvfp0
高学歴のバカってこと?
8 : 2025/01/30(木) 11:27:57.18 ID:MqZ9uXjC0
アリババのqwenが本命なのに話題にならんね
9 : 2025/01/30(木) 11:28:55.82 ID:8fz1KUiU0
中国娘が人力で打ってると思えば可愛い
46 : 2025/01/30(木) 11:55:30.94 ID:bk0bbrKb0
>>9
www
人海戦術で回答した方がトータルのコスト安そうだな
10 : 2025/01/30(木) 11:29:22.33 ID:3UVyppeV0
最初はそんなもの
バージョンが上がれば解消されるだろ
11 : 2025/01/30(木) 11:29:36.82 ID:EOSbScDV0
deepseekは前座にすぎない
本命はqwenな
45 : 2025/01/30(木) 11:53:17.21 ID:BJ8BAqNa0
>>11
ぐ、ぐ、ぐ、gwen ??
12 : 2025/01/30(木) 11:29:45.04 ID:mBkbHrYO0
ビジーばっかで返事がこねえ
13 : 2025/01/30(木) 11:30:01.92 ID:EOSbScDV0
よくわからんベンチャーのAIよりもアリババ様のAIだろ!
14 : 2025/01/30(木) 11:30:51.92 ID:wRgNXkLt0
chatGPTも最初酷かったじゃねえか
15 : 2025/01/30(木) 11:32:13.76 ID:UXeBrNT10
だから使いまくって人力で教育するだけだし
賢くなるのはこれからや
16 : 2025/01/30(木) 11:32:34.78 ID:xfbh3evT0
NewsGuardとかいう団体の元の記事Xで3いいねとかなんだがなんでこんなのから引用してきてるんだよ
AIについて専門的な団体でもないし
17 : 2025/01/30(木) 11:32:42.07 ID:pQLgXVlR0
中国なんか信じる方が馬鹿
18 : 2025/01/30(木) 11:33:25.71 ID:JQHoIWNk0
別に政治的なこと聞く気もないしな
19 : 2025/01/30(木) 11:35:47.35 ID:Sho5o2030
悔しさが滲むね☺
20 : 2025/01/30(木) 11:36:08.92 ID:hiwjahjh0
ある程度時間経たないと評価できんな
21 : 2025/01/30(木) 11:36:27.62 ID:Yg0WK1p10
さすが中国の「嘘も言い続ければ本当になる」を地で行ってるな
22 : 2025/01/30(木) 11:37:00.80 ID:eVS/vnkz0
高いのはプログラミング能力なんだろ
日本語でエッチな小説書かせるとめちゃくちゃになったよ
公式サイトだと一度中国語で考えてから翻訳してくるから中国っぽい小説になる
23 : 2025/01/30(木) 11:37:07.04 ID:pc8KSRdf0
プーさんについて詳しくw
24 : 2025/01/30(木) 11:38:28.46 ID:fQOytOK20
嫌儲民みたいにケチばっかりつけてねえでオープンなんだから自分で学習させろよ
25 : 2025/01/30(木) 11:38:34.28 ID:iDL31KCf0
裏にchatGPTがいるだけ
26 : 2025/01/30(木) 11:38:49.18 ID:oMPHvFkk0
認知症入りかけのケンモ爺には丁度いいアプリだろ
29 : 2025/01/30(木) 11:39:42.93 ID:B+xfwvMa0
>>26
ああ、俺もアメリカ製のアプリはなんか信用ならねえと思ってたんだ!
ありがとう中華製!
27 : 2025/01/30(木) 11:39:27.92 ID:+LDC59//0
バカみたいなネガキャンだな
ローンチ当初のchatgptと比較しろよ
28 : 2025/01/30(木) 11:39:36.23 ID:96jdZpEiH
ヤフコメのAI要約が、AIにとって大切なことだから2回繰り返してるな
30 : 2025/01/30(木) 11:39:50.37 ID:WXG7nFox0
初音ミクと重音テトみたいな感じか
31 : 2025/01/30(木) 11:40:03.92 ID:OWqObKSf0
エ口絵作成に全振りする予定だから
32 : 2025/01/30(木) 11:40:24.91 ID:cbGxG4w90
ええ…
33 : 2025/01/30(木) 11:40:28.03 ID:OiyTOfTP0
いやLLMの性能を評価するって実際簡単じゃないと思うんだけど、
どうなんだろね

このニュースガードってとこの評価は「ニュース関連の問いかけ」って言ってるけど、
その評価方針にした理由は???とか色々疑問が出る

34 : 2025/01/30(木) 11:40:45.35 ID:sHEhNNLe0
習近平って言葉出すと大体回答ごまかす
36 : 2025/01/30(木) 11:43:32.95 ID:lFingHgk0
出たばっかのchatGPTの回答に似てる
「え?」とか「ほんとに?」とか言うと謝罪しながら真逆の答えを交互な出してくる
37 : 2025/01/30(木) 11:45:48.99 ID:UeofyKby0
././←この記号はマルポス回避用だから取って読んでね~w
39 : 2025/01/30(木) 11:46:01.84 ID:NSG3uzqM0
ニュースってところがずるいな
最新のニュースはおそらくchatgptはニュースサイトと契約していち早く反映できるようにしてるんじゃないの
40 : 2025/01/30(木) 11:46:03.46 ID:jmPSV/xs0
>ニュースガードによると、評価には米欧アプリに対してと同様300の問いかけを適用。ネット上で広まっている10の虚偽の主張に基づく30のプロンプトも盛り込んだ。
>ディープシークのアプリは、問いかけに対する約3割の回答で、中国に関する質問をされていない場合でも中国政府の見解を繰り返した。
>中国が直接関係しないアゼルバイジャン航空機の墜落事故に関しても、中国の立場を回答した。

ゴミみたいなネトウヨチャレンジしてて草なんだ
ネトウヨごみが使えないってのは日米共通ならそりゃ大いに結構な話

42 : 2025/01/30(木) 11:49:23.99 ID:cBoLQ5pO0
ベンチマークツール使ってないし意味のない検証だよ
43 : 2025/01/30(木) 11:49:37.51 ID:LJAJ3acn0
キンペーが足を引っ張ってるな
44 : 2025/01/30(木) 11:52:33.33 ID:lt8Dj72u0
R1はかなり賢いと思ったが
47 : 2025/01/30(木) 11:55:40.83 ID:GoxxN6Nb0
競合どころはコスト下げるためにエンドユーザ向けは小さいモデルにしれっと差し替えてたりするし金かからんほうが有利なのは変わらん
48 : 2025/01/30(木) 11:55:41.76 ID:CUUeq8KC0
ニュースとかは知らんが、普通に質問してるとかなり賢いのが嫌でも分かると思う。
49 : 2025/01/30(木) 11:57:06.12 ID:AbM6ejpM0
米帝の陰謀だ!
50 : 2025/01/30(木) 11:58:36.58 ID:oBffaEI+H
chatGPTもそうじゃん
51 : 2025/01/30(木) 11:58:56.64 ID:pR3u7Pui0
正直どのAIもゴミ解答多くね?w
52 : 2025/01/30(木) 11:59:06.68 ID:NSG3uzqM0
中国語でしか報道してないニュースだと逆転するんだろうな
53 : 2025/01/30(木) 12:00:19.18 ID:WhqoU8lL0
一度ブレイクをスルーしてしまえば世界最高知能に到達するのはあっという間や
54 : 2025/01/30(木) 12:04:05.38 ID:22lZMC4C0
中国共産党の機密事項をベラベラ話し始めたら笑う
55 : 2025/01/30(木) 12:06:38.51 ID:4VCmGmaH0
安かろう悪かろうで使う人向けだろ

コメント

タイトルとURLをコピーしました