
今回のポッドキャストの概要:
中国発のオープン・ローカルモデルを中心に、Qwen3の音声まわり(TTS/ASR)と、Kimi 2.5 Thinkingモデル、さらにそれらを動かすためのハードウェア規模感(H200=アルファード比喩)について話しました。
Qwen3 Text-to-Speechで音声クローニング
– 自分の声を3〜4秒程度でクローンして別テキストを読ませる実験
– 音声のみ/音声+文字起こしの2パターンで学習させたときの違い
– 感情表現や話し方のクセをどこまで再現できるか、悪用リスクも含めた所感
Qwen3の「音声設計(ボイスデザイン)」機能
– カスタムボイスとの違い
– テキストプロンプトで性別・ピッチ・話速・感情(怒り・明るさなど)、残響(ホールで喋っている感じ)まで指定できる話
– これまで「感情の乗った音声データで学習」していた手間が、プロンプト指定でどこまで代替できるかという期待
Qwen ASR:多言語対応の新しい音声認識モデル
– 約1.7BパラメータのASRモデルが登場した話
– 対応言語が約30言語+中国語方言22種と、Whisper以降久々の大型多言語ASR
– モデル側から直接タイムスタンプが出せるので、無音検出(VAD)と組み合わせて「どこで誰がしゃべっているか」まで取れるのでは、という構想
– Whisperからの乗り換え候補として、日本語精度にも期待している点
Qwen VLM(Vision-Language Model)を触ってみた話
– 画像×テキストのQwen VLMも試してみて、かなり良い印象だったこと
– Qwen(クエイン)の読み方談義や、Alibabaがなぜここまで強力なオープンモデルを出してくるのか(技術力アピール/エコシステム狙いなど)について雑談
Kimi 2.5 Thinkingモデル:1Tパラメータ級の巨大LLM
– Moonshot AIのKimi 2.5 Thinkingモデルが約1Tパラメータ、Hugging Face上のサイズ約595GBという規模感
– Kimi公式チャットサイトで試せること、DeepSeek的な位置づけ
– OpenAI GPT-4.2系・Claude Opus・Gemini 3 Pro等の“Thinking積み”と比較してもベンチマークは拮抗、一部タスクでは上回るスコアもあるという話
– ローカルで動かせる前提なら、API課金モデルに対抗しうるポテンシャルと、バックエンドに資源を持つプレイヤーが有利になる構図
Kimi 2.5をローカルで動かすためのハードウェア規模
– M3 Ultra Mac Studio × メモリ512GBマシンを2台、Thunderbolt 5接続で非量子化モデルを動かした事例:24トークン/秒ほど出たという報告
– この構成で1台あたり約150万円級、それを2台=約300万円という「車が買える」コスト感
– 1ビット量子化モデルなら、ストレージ+RAM+VRAM合計240GB&24GB GPU 1枚程度でも10トークン/秒で動くというガイドライン
– フルモデルをGPUで回そうとするとH200 GPU×4枚クラス(1枚約500万→合計約2,000万円)という試算と、
「H200 1枚=アルファード1台」「アルファード4台が机の上に乗っている」的な比喩トーク
H200=アルファード比喩とインフラ時代の感覚
– 高級ミニバン級の価格のGPUが4枚必要、というスケールの話から、
「APIを使うか自前でインフラを持つか」の判断軸
– そんな規模で仕事を回す面白さと、景気のよいハード投資談義
Apple SiliconマシンとローカルLLMのこれから
– M4/M5世代Macのメモリ上限や構成の違い
– Apple Intelligenceの有無に関わらず、開発用ハードとしてMacが強く求められている感覚
– Claude Codeなどによる開発自動化と、ローカル巨大モデルの登場で、今後の開発スタイルがさらに変わっていくのでは、という展望
次回もお楽しみに。