09 February 2026

140B.Open Models/ H200 = アルファード

とにかくヨシ！-Tonikaku Yoshi! | Japanese Meme Society

About

今回のポッドキャストの概要:
中国発のオープン・ローカルモデルを中心に、Qwen3の音声まわり（TTS/ASR）と、Kimi 2.5 Thinkingモデル、さらにそれらを動かすためのハードウェア規模感（H200＝アルファード比喩）について話しました。

Qwen3 Text-to-Speechで音声クローニング
　– 自分の声を3〜4秒程度でクローンして別テキストを読ませる実験
　– 音声のみ／音声＋文字起こしの2パターンで学習させたときの違い
　– 感情表現や話し方のクセをどこまで再現できるか、悪用リスクも含めた所感

Qwen3の「音声設計（ボイスデザイン）」機能
　– カスタムボイスとの違い
　– テキストプロンプトで性別・ピッチ・話速・感情（怒り・明るさなど）、残響（ホールで喋っている感じ）まで指定できる話
　– これまで「感情の乗った音声データで学習」していた手間が、プロンプト指定でどこまで代替できるかという期待

Qwen ASR：多言語対応の新しい音声認識モデル
　– 約1.7BパラメータのASRモデルが登場した話
　– 対応言語が約30言語＋中国語方言22種と、Whisper以降久々の大型多言語ASR
　– モデル側から直接タイムスタンプが出せるので、無音検出（VAD）と組み合わせて「どこで誰がしゃべっているか」まで取れるのでは、という構想
　– Whisperからの乗り換え候補として、日本語精度にも期待している点

Qwen VLM（Vision-Language Model）を触ってみた話
　– 画像×テキストのQwen VLMも試してみて、かなり良い印象だったこと
　– Qwen（クエイン）の読み方談義や、Alibabaがなぜここまで強力なオープンモデルを出してくるのか（技術力アピール／エコシステム狙いなど）について雑談

Kimi 2.5 Thinkingモデル：1Tパラメータ級の巨大LLM
　– Moonshot AIのKimi 2.5 Thinkingモデルが約1Tパラメータ、Hugging Face上のサイズ約595GBという規模感
　– Kimi公式チャットサイトで試せること、DeepSeek的な位置づけ
　– OpenAI GPT-4.2系・Claude Opus・Gemini 3 Pro等の“Thinking積み”と比較してもベンチマークは拮抗、一部タスクでは上回るスコアもあるという話
　– ローカルで動かせる前提なら、API課金モデルに対抗しうるポテンシャルと、バックエンドに資源を持つプレイヤーが有利になる構図

Kimi 2.5をローカルで動かすためのハードウェア規模
　– M3 Ultra Mac Studio × メモリ512GBマシンを2台、Thunderbolt 5接続で非量子化モデルを動かした事例：24トークン/秒ほど出たという報告
　– この構成で1台あたり約150万円級、それを2台＝約300万円という「車が買える」コスト感
　– 1ビット量子化モデルなら、ストレージ＋RAM＋VRAM合計240GB＆24GB GPU 1枚程度でも10トークン/秒で動くというガイドライン
　– フルモデルをGPUで回そうとするとH200 GPU×4枚クラス（1枚約500万→合計約2,000万円）という試算と、
　　「H200 1枚＝アルファード1台」「アルファード4台が机の上に乗っている」的な比喩トーク

H200＝アルファード比喩とインフラ時代の感覚
　– 高級ミニバン級の価格のGPUが4枚必要、というスケールの話から、
　　「APIを使うか自前でインフラを持つか」の判断軸
　– そんな規模で仕事を回す面白さと、景気のよいハード投資談義

Apple SiliconマシンとローカルLLMのこれから
　– M4/M5世代Macのメモリ上限や構成の違い
　– Apple Intelligenceの有無に関わらず、開発用ハードとしてMacが強く求められている感覚
　– Claude Codeなどによる開発自動化と、ローカル巨大モデルの登場で、今後の開発スタイルがさらに変わっていくのでは、という展望

次回もお楽しみに。