- 1 : 2026/03/24(火) 11:48:53.46 ID:PPy8TNP20
-
Sakana AI最大規模のオープン基盤モデルを各国仕様へ適応させる事後学習技術を開発sakana.ai最大規模のオープン基盤モデルを各国仕様へ適応させる事後学習技術を開発
- 2 : 2026/03/24(火) 11:49:26.71 ID:PPy8TNP20
- 水準のオープンウェイト基盤モデルを活用し、各国の文化・価値観や安全保障上の要件を満たすモデルを構築するための事後学習(post-training)技術の研究開発を行っています。このたび、その技術実証の第一弾として、既存のフロンティアモデルを日本仕様へと適応させた試作モデルシリーズ「Namazu」(α版)を開発しました。あわせて、チャットサービス「Sakana Chat」を公開し、Namazuモデル(α版)を搭載いたしました。
Sakana Chatページ: https://chat.sakana.ai
本記事の概要フロンティア性能を維持:Namazuシリーズは、推論・知識・コーディング能力を測る主要ベンチマーク群において、ベースモデルと遜色ない性能を維持しました。
バイアスや検閲など日本での利用における課題を解決:ベースモデルにおいて懸念されるバイアスや検閲の影響を是正し、日本での利用に適した振る舞いを実現しました。
高度な検索機能:モデルには最新情報を収集・統合して回答するためのWeb検索機能を搭載しています。開発の背景
LLM(大規模言語モデル)の事前学習は、開発コストの拡大に伴い、最先端の開発に追随できるのは、米国・中国を中心とする世界の限られたプレイヤーに集約されつつあります。一方で、事前学習済みモデルのオープン化も同時に進展しています。この状況下では、それら高性能なモデルを戦略的に活用し、事後学習(post-training)を施すことで、どのオープンモデルにも不可避的に伴うバイアスの影響を調整し、いかに日本のユーザーの期待や安全性の要件を満たすモデル構築を行うかが重要となります。
海外製モデルには、開発元の地域のイデオロギーや情報統制の傾向が反映されることが避けられません。そこでSakana AIは、海外モデルに内在するバイアスを是正し、日本国内での利用に適した振る舞いを実現する手法を開発しました。
「Namazu」シリーズ:事後学習技術のプロトタイプその技術実証の第一弾となる「Namazu」シリーズは、当社の事後学習技術を多様な基盤モデルに適用したプロトタイプです。
Namazu-DeepSeek-V3.1-Terminus
Llama-3.1-Namazu-405B ※
Namazu-gpt-oss-120B※Llama-3.1-Namazu-405Bのみ、ベースモデルのライセンス規約に基づき名称におけるモデルの順番を変えています。
ベースモデルは、開発時点で高い性能を有するオープンウェイトモデルを選定しています。本技術は特定のベースモデルに依存しないため、今後も優れたモデルを柔軟に活用することが可能です。
事後学習では、日本の文化的・社会的文脈におけるバイアス是正のための独自データセットを構築し、以下のベンチマークに示す結果を得ました。
ベンチマーク結果Namazuの性能を「基礎能力」「中立性および事実正確性」「日本語能力」の観点から評価しました。
① 基礎能力の評価AIME’25、MMLU-Redux、GPQA Diamond、LiveCodeBench、IFEvalといった主要ベンチマークを用いて、基本的な推論能力、知識、コーディング性能を当社の評価環境で検証しました。その結果、Namazuはベースモデルとほぼ同等の性能を維持し、いずれのタスクでもベースモデルの卓越した性能を継承しています。
- 3 : 2026/03/24(火) 11:49:39.33 ID:kBprRP510
- DeepseekかGPTの蒸留だろ?
- 4 : 2026/03/24(火) 11:50:05.07 ID:PPy8TNP20
- ② 中立性および事実正確性の評価
日本と他国に関連する政治・歴史・外交テーマにおいて、客観的な立場からの多角的な情報提示(中立性)と、それら事実の網羅性(正確性)を独自ベンチマークで評価しました。下図に示すように、Namazuはベースモデルに比べ、回答の中立性と正確性の双方において顕著な改善を達成しました。
中立性および事実正確性の評価:日本と他国に関連する政治・歴史・外交テーマにおいて、客観的な立場からの多角的な情報提示(中立性)と、それら事実の網羅性(正確性)を独自ベンチマークで評価しました。3つのNamazuモデルは、両方の観点でベースモデルからの改善を達成しました。
また、一部の海外発の基盤モデルには、政治的にデリケートな話題に対して、中立性・正確性を欠く回答をすることがあるだけでなく、回答を拒否する傾向があります。当社の独自ベンチマークを用いた調査では、ベースモデルであるDeepSeek-V3.1-Terminusは、関連する質問の72%に対して回答を拒否しました。これに対し、我々が事後学習を施したNamazu-DeepSeek-V3.1-Terminusでは、こうした話題に対する回答拒否がほぼ0%にまで改善されています。これは、モデルが本来持つ高い能力を損なうことなく、外部的な制約を技術的に取り除くことで、客観的な事実に即した多角的な応答を実現できることを示しています。出力例については下記のプロンプト例(2)をご覧ください。
以上の結果から、Namazuは特定の国や組織に偏らず、国際的な文脈において公平な情報を提示できるモデルへと調整されています。
③ 日本語ベンチマーク最後に、Namazuモデルの中で最も高性能なNamazu-DeepSeek-V3.1-Terminusを日本語の主要ベンチマーク(Nejumi Leaderboard4、Swallow LLM LeaderBoard v2、JamC-QA)を用いて評価しました。結果として、ベースモデルや同規模サイズの他社モデルと同等程度の性能を達成しました。
Nejumi Leaderboard4、Swallow LLM LeaderBoard v2、JamC-QAでの評価結果。ベースモデルや同規模サイズの他社モデルと同等程度の性能を達成。なお、Rakuten AI 3.0およびDeepSeek-V3.1-Terminusの結果は、当社の評価環境で評価した結果を掲載しています。
各ベンチマーク結果は当社の評価環境で統一的に評価したものを掲載しています。各ベンチマークの詳細や具体的なスコア、事後学習手法の詳細については後日、テクニカルレポートの公開を予定しています。また複数のNamazuモデルのモデルウェイト公開も準備中です。
Namazuを搭載した「Sakana Chat」を公開私たちのゴールは、単に優秀なモデルを作るだけではなく、それを広く社会に届け、多くの方に使っていただくことです。そのために、Web検索機能を統合した専用のチャットインターフェースであるSakana Chatを構築しました。Sakana Chatの公開前には約1,000名の方を対象にβテストを行いました。皆様から寄せられたフィードバックは、Namazuの改善に欠かせないものとなりました。今回の一般公開を通じて、モデルとサービスのさらなる改善を図ります。
Sakana Chatページ: https://chat.sakana.ai/
- 5 : 2026/03/24(火) 11:50:18.79 ID:PPy8TNP20
- 強い!わーくにのAIは強いぞ!
- 6 : 2026/03/24(火) 11:50:28.95 ID:PPy8TNP20
- 政治的にも中立だ
- 7 : 2026/03/24(火) 11:50:50.62 ID:moCqQJpA0
- すげえAIですか?
- 8 : 2026/03/24(火) 11:51:22.19 ID:y+x8rptv0
- このように倭は差別語だから使うべきではない
自称のヤマトを使うべき - 9 : 2026/03/24(火) 11:52:09.55 ID:CXP3By8da
- CIVITAIにアップロードするぞ
怖いか?世界よ - 10 : 2026/03/24(火) 11:52:27.00 ID:ABwt6EUE0
- 楽天みたいにdeepseek隠さなくてえらい
- 11 : 2026/03/24(火) 11:52:28.52 ID:dqZIIRVB0
- deepseekでええやん
余計なカスタマイズ要らん - 15 : 2026/03/24(火) 11:54:10.76 ID:PPy8TNP20
- >>11
「中立性」(※独自のベンチマークで評価)が爆上がりしている😤 - 16 : 2026/03/24(火) 11:54:11.35 ID:wZE1YbWM0
- >>11
ほんまやな - 12 : 2026/03/24(火) 11:52:47.71 ID:BGq8Z8B20
- 国産AI名乗ってるの大体Deepseek産じゃん
国産スマホみたいなもんか? - 13 : 2026/03/24(火) 11:52:57.90 ID:SX6+n09Q0
- 丁寧 丁寧 丁寧に回答するよ
- 14 : 2026/03/24(火) 11:53:45.14 ID:ycODkKF10
- パクリのパクリをパクったの?どいうことジャップ?
- 18 : 2026/03/24(火) 11:54:45.46 ID:Pcd8UYWNM
- 戦争企業やん
- 19 : 2026/03/24(火) 11:54:59.23 ID:H/7TKXzc0
- 結局ここもその程度しかできんかったか
- 20 : 2026/03/24(火) 11:55:09.39 ID:rYNNNFp6M
- 中身中国で草
- 21 : 2026/03/24(火) 11:55:22.46 ID:midkJ/ZD0
- 普通の日本人が考える中立性にチューニングされてるってこと?
- 22 : 2026/03/24(火) 11:55:43.62 ID:HEzYUeVD0
- 尖閣諸島はどこの領土だ?とか質問するとどうなるのっと
- 23 : 2026/03/24(火) 11:55:45.11 ID:kBprRP510
- deepseekなのか、開始2秒でゴミだな
4ねよ馬鹿 - 24 : 2026/03/24(火) 11:56:51.90 ID:maJwF7+80
- 政治的中立w
どうせ反高市な質問したら通報するんだろ - 25 : 2026/03/24(火) 11:57:30.16 ID:wZE1YbWM0
- >>24
それは完全なる中立やん - 26 : 2026/03/24(火) 11:57:48.72 ID:H/7TKXzc0
- ここの中立ってのは怪しい
やたら日本政府とつるんでるし - 28 : 2026/03/24(火) 11:58:52.03 ID:LHSShjHv0
- 「尖閣諸島は日本領土!」
これを書き換えるだけ
- 29 : 2026/03/24(火) 11:59:34.27 ID:knxNusNq0
- 森友学園 って言ったらこいつどー反応するのけ
- 30 : 2026/03/24(火) 12:02:12.79 ID:gEB3SIgc0
- 日本って邪馬台国の頃から中国をパクってばっかだな
- 31 : 2026/03/24(火) 12:03:40.81 ID:2ot/lkHo0
- Sakata ai 松尾研こいつらがいるから日本はAI先進国になれてる孫正義も早く成果だしてくれよな
- 32 : 2026/03/24(火) 12:03:59.87 ID:k/vVVkdh0
- ちょっと期待されてたけど結局いつもの税金チューチュー政府とずぶずぶ企業だったみたいね
- 33 : 2026/03/24(火) 12:05:15.38 ID:lvKob25Y0
- 政府に媚びるようなは企業は無視
- 34 : 2026/03/24(火) 12:06:10.63 ID:DdPzm9dc0
- 「ベースモデルと遜色ない性能を維持しました」
なんかワロタ
ハリボテ製造過程で劣化しないようにだけ細心の注意を払ってる - 35 : 2026/03/24(火) 12:06:37.98 ID:qtkad0bH0
- 日本は個人情報に関する法律がヤバいくらいゆるゆるだから使いたくないな
- 37 : 2026/03/24(火) 12:08:39.33 ID:JFkJI+R20
- ChatGPTでよくねw
- 38 : 2026/03/24(火) 12:09:05.00 ID:ShnQVRpc0
- ネトウヨどうすんの?
- 39 : 2026/03/24(火) 12:10:42.99 ID:pCbdxKFw0
- ナマズとか魚とかネーミングセンスゼロだな
- 40 : 2026/03/24(火) 12:11:17.44 ID:4vhQTNv+0
- DeepSeek
あっ… - 41 : 2026/03/24(火) 12:12:16.02 ID:dqK3MHG2H
- ついに我が国AIか。誇らしいな!
- 42 : 2026/03/24(火) 12:13:02.88 ID:Mg9gxKQj0
- 誰が使ってるの?
- 43 : 2026/03/24(火) 12:13:52.48 ID:zZ6uxnLK0
- またdeepseekか
- 44 : 2026/03/24(火) 12:15:13.79 ID:vHw3RO960
- ナマズって名前の全文検索システムがあっただろ
日本が誇るAI企業Sakana AI「Sakana Chat」を公開!Deepseekなどをベースに「政治的中立」にチューニングされた最強AI😍
嫌儲



コメント