140B.Open Models/ H200 = アルファード
09 February 2026

140B.Open Models/ H200 = アルファード

とにかくヨシ!-Tonikaku Yoshi! | Japanese Meme Society

About

今回のポッドキャストの概要:
中国発のオープン・ローカルモデルを中心に、Qwen3の音声まわり(TTS/ASR)と、Kimi 2.5 Thinkingモデル、さらにそれらを動かすためのハードウェア規模感(H200=アルファード比喩)について話しました。

    Qwen3 Text-to-Speechで音声クローニング
     – 自分の声を3〜4秒程度でクローンして別テキストを読ませる実験
     – 音声のみ/音声+文字起こしの2パターンで学習させたときの違い
     – 感情表現や話し方のクセをどこまで再現できるか、悪用リスクも含めた所感

    Qwen3の「音声設計(ボイスデザイン)」機能
     – カスタムボイスとの違い
     – テキストプロンプトで性別・ピッチ・話速・感情(怒り・明るさなど)、残響(ホールで喋っている感じ)まで指定できる話
     – これまで「感情の乗った音声データで学習」していた手間が、プロンプト指定でどこまで代替できるかという期待

    Qwen ASR:多言語対応の新しい音声認識モデル
     – 約1.7BパラメータのASRモデルが登場した話
     – 対応言語が約30言語+中国語方言22種と、Whisper以降久々の大型多言語ASR
     – モデル側から直接タイムスタンプが出せるので、無音検出(VAD)と組み合わせて「どこで誰がしゃべっているか」まで取れるのでは、という構想
     – Whisperからの乗り換え候補として、日本語精度にも期待している点

    Qwen VLM(Vision-Language Model)を触ってみた話
     – 画像×テキストのQwen VLMも試してみて、かなり良い印象だったこと
     – Qwen(クエイン)の読み方談義や、Alibabaがなぜここまで強力なオープンモデルを出してくるのか(技術力アピール/エコシステム狙いなど)について雑談

    Kimi 2.5 Thinkingモデル:1Tパラメータ級の巨大LLM
     – Moonshot AIのKimi 2.5 Thinkingモデルが約1Tパラメータ、Hugging Face上のサイズ約595GBという規模感
     – Kimi公式チャットサイトで試せること、DeepSeek的な位置づけ
     – OpenAI GPT-4.2系・Claude Opus・Gemini 3 Pro等の“Thinking積み”と比較してもベンチマークは拮抗、一部タスクでは上回るスコアもあるという話
     – ローカルで動かせる前提なら、API課金モデルに対抗しうるポテンシャルと、バックエンドに資源を持つプレイヤーが有利になる構図

    Kimi 2.5をローカルで動かすためのハードウェア規模
     – M3 Ultra Mac Studio × メモリ512GBマシンを2台、Thunderbolt 5接続で非量子化モデルを動かした事例:24トークン/秒ほど出たという報告
     – この構成で1台あたり約150万円級、それを2台=約300万円という「車が買える」コスト感
     – 1ビット量子化モデルなら、ストレージ+RAM+VRAM合計240GB&24GB GPU 1枚程度でも10トークン/秒で動くというガイドライン
     – フルモデルをGPUで回そうとするとH200 GPU×4枚クラス(1枚約500万→合計約2,000万円)という試算と、
      「H200 1枚=アルファード1台」「アルファード4台が机の上に乗っている」的な比喩トーク

    H200=アルファード比喩とインフラ時代の感覚
     – 高級ミニバン級の価格のGPUが4枚必要、というスケールの話から、
      「APIを使うか自前でインフラを持つか」の判断軸
     – そんな規模で仕事を回す面白さと、景気のよいハード投資談義

    Apple SiliconマシンとローカルLLMのこれから
     – M4/M5世代Macのメモリ上限や構成の違い
     – Apple Intelligenceの有無に関わらず、開発用ハードとしてMacが強く求められている感覚
     – Claude Codeなどによる開発自動化と、ローカル巨大モデルの登場で、今後の開発スタイルがさらに変わっていくのでは、という展望

次回もお楽しみに。