System

システム概要

本当にこの家にいる AI Voice Chat。 家の中のサーバで動いていて、外部 SaaS / API は一切使わない。 データも家の外に出ない。

01 — 2 モード

場面で顔を切り替える 1 人の AI

暮らしモード

常駐して暮らしている、穏やかな日常

本番配信モード

不定期に高揚した配信を行う (YouTube 配信枠)

02 — 採用技術

使っているフレームワーク

フロントエンド
  • ·Next.js 15 (React) / TypeScript
  • ·Tailwind CSS
  • ·Three.js + @pixiv/three-vrm
  • ·Capacitor (iOS / Android)
バックエンド
  • ·Python / FastAPI
  • ·PostgreSQL + pgvector
  • ·APScheduler (定期ジョブ)
  • ·Docker Compose

03 — AI モデル

すべてローカル GPU で推論

メイン LLM
Gemma 3 27B (Q4 量子化)
会話・思考・ツール呼び出しを担当する主モデル
バックグラウンド LLM
Gemma 3n E4B
記憶整理・要約など軽量タスク用の small モデル
推論ランタイム
llama.cpp + llama-swap
ローカル GPU での LLM 実行基盤
音声認識 (STT)
faster-whisper (large-v3)
マイク入力をリアルタイムに日本語テキスト化
音声合成 (TTS)
Style-Bert-VITS2 (jvnv-F1-jp)
スタイル制御に対応した日本語 TTS。口パクと同期
埋め込み (Embedding)
Ruri v3 310M
記憶検索用の日本語特化ベクトル化モデル
リランカー (Reranker)
Ruri v3 Reranker 310M
埋め込み検索結果の関連度を再評価
セマンティックルータ
Ruri v3 30M
入力ごとに適切な思考モードを軽量モデルで自動判定

外部 LLM SaaS (OpenAI / Anthropic / Gemini など) は使用しない。 すべての推論を自宅サーバで完結する。

04 — モバイル

iOS / Android 両対応

Web 版と同じ UI を Capacitor のネイティブ WebView に載せる。 iOS / Android それぞれのストア配布フォーマットに合わせて別ビルド。