J.A.R.V.I.S.計画 第十四話
AI秘書が“声で返し、チャットにも残す”まで
OpenClawの音声・メッセージ応答フロー
前回のGPT-SoVITS連携に続き、今回はAI秘書がチャットを受け取り、声で返し、同じ内容をNextcloud Talkにも残すまでの流れを図解します。
第十三話では、AIエージェントに人間らしい声を与える方法として、GPT-SoVITS連携を取り上げました。
しかし、AI秘書を実務で使う場合、重要なのは「声が自然かどうか」だけではありません。
業務では、AIが何を聞き取り、何を考え、どのように返答し、その内容がどこに記録されたのかまで追える必要があります。
つまり、AI秘書には次の2つが同時に求められます。
- その場で自然に話してくれること
- 後から確認できる形で、同じ内容がチャットに残ること
今回の第十四話では、当社のOpenClaw環境を例に、Nextcloud Talkでチャットを受け取ってから、AI秘書が声で返し、さらに同じ内容をチャット画面へ表示するまでの流れを説明します。

1. “話すAI”だけでは業務には足りない
音声対応AIというと、多くの場合は「AIが声で返事をする」部分に注目されます。
もちろん、声で返ってくることは大きな体験価値です。
テキストだけのAIよりも、近くに秘書やアシスタントがいるように感じられます。
しかし、業務で使うAI秘書の場合、音声だけでは不十分です。
なぜなら、声はその場で消えてしまうからです。
たとえば、AI秘書が予定を確認してくれたとしても、音声だけで終わってしまうと、後から「何時と言っていたか」「どの資料を見たのか」「どの依頼に対する回答だったのか」を確認しにくくなります。
そのため、当社のJ.A.R.V.I.S.計画では、AI秘書の返答を次のように扱います。
- 声で返す
- 同じ内容をチャットにも残す
- 依頼元のスレッドに紐づける
- 後から見ても会話の流れが分かるようにする
ここで大切なのは、音声とチャット表示の内容を別々に作らないことです。
最終的に確定した返答本文をひとつ作り、その同じ本文を音声にもチャット表示にも使う設計にしています。
2. チャットを受け取る入口はNextcloud Talk
当社環境では、AI秘書とのやり取りにNextcloud Talkを使っています。
利用者がNextcloud Talkへメッセージを送ると、その発言は単なる文章としてではなく、いくつかの情報と一緒にOpenClawへ渡されます。
OpenClawへ渡される主な情報
- 誰が送ったメッセージか
- どの部屋・どのスレッドの発言か
- メッセージ本文
- 添付画像やファイルの有無
- 元メッセージのID
- 返信先として紐づけるべき情報
AI秘書にとって、本文だけでなく「どの会話の続きなのか」を理解することは非常に重要です。
同じ「これを直して」という依頼でも、直前の会話や添付画像が分からなければ、正しく作業できません。
3. Gatewayが会話をAgentへ渡す
Nextcloud Talkで受け取ったイベントは、OpenClawのGatewayへ入ります。
Gatewayは、外部のチャットサービスとAIエージェントの間に立つ中継役です。
ここでは、受け取った発言がAI秘書に渡すべきものか、どのAgentへ渡すべきか、どの会話履歴を参照すべきかを整理します。
Gatewayで確認すること
- 本当にAI秘書が反応すべき発言か
- 自分自身の投稿を再び拾っていないか
- 権限のある利用者からの依頼か
- 添付ファイルを確認する必要があるか
- 返信先のスレッドを保てるか
AIエージェントを業務に入れる場合、便利さだけでなく、誤動作や二重返信を防ぐ仕組みが必要です。
Gatewayは、このような“入口の交通整理”を担います。
4. Agentは記憶・ルール・ツールを使って考える
Gatewayから渡された依頼は、AI Agentへ届きます。
ここでAIは、単にその場の文章だけを見て返事を作るわけではありません。
必要に応じて、これまでの会話履歴、業務上のルール、利用者ごとの好み、ファイルや画像の内容、外部Webページ、カレンダー、PDF、ローカルファイルなどを参照します。
OpenClawの特徴は、AIが必要に応じてToolを使えることです。画像を確認する、ファイルを読む、ブラウザを操作する、コマンドを実行する、といった動きができます。
つまり、AI秘書は「想像で答える」のではなく、必要な事実を確認しながら返答を作ることができます。
実際のファイル、実際の画面、実際の状態を確認し、その結果に基づいて返すからこそ、業務補佐として信頼できるようになります。
5. 最終的な返答本文をひとつに決める
Agentが必要な確認を終えると、最終的な返答本文を作ります。
ここで当社環境が大切にしているのは、返答本文をひとつに決めることです。
AIが作る最終本文
= 音声で話す本文
= Nextcloud Talkに表示する本文
この設計にすることで、声で聞いた内容とチャットに残る内容が一致します。
後から読み返しても、実際に何を話したかが分かり、業務記録として扱いやすくなります。
AI秘書の発言は、単なる雑談ではなく、業務上の判断材料になることがあります。
そのため、声と記録の一致は、見た目以上に重要です。
6. 音声出力とチャット表示を“一回の返信器”にまとめる
当社環境では、最終本文を決めた後、その本文を専用の返信処理へ渡します。
この返信処理では、同じ本文を使って音声出力とNextcloud Talkへの投稿を行います。
別々に動かすと起こりやすい問題
- 音声だけ出て、チャットに残らない
- チャットだけ出て、音声が鳴らない
- 音声と表示の文章が違う
- 同じ返答が二重に表示される
- AI自身の投稿を再び拾ってループする
これらを防ぐため、当社環境では返信の出口を一本化しています。
AIが作った最終本文を、音声とチャット表示の共通の元データとして扱い、処理の順番と成功判定を明確にします。
7. なぜチャット投稿はAI秘書アカウントで行うのか
OpenClawには、各チャットへメッセージを返すための標準的な配送の考え方があります。
一方で、当社のAI秘書環境では、通常のbot表示ではなく、AI秘書本人のアカウントとしてNextcloud Talkへ投稿する運用にしています。
理由はシンプルです。
利用者から見たときに、誰が返答しているのかを明確にするためです。
実務上の見え方
- 利用者が依頼する
- AI秘書が同じスレッドで返す
- 必要に応じて画像や成果物を共有する
- その会話の中で進捗や完了報告も確認できる
実務では、会話のまとまりが残ることが大切です。
「どの依頼に対する返答なのか」が分からなくなると、AI秘書の便利さは一気に下がってしまいます。

8. 実際のNextcloud Talk画面で見る流れ
上の画像は、実際のNextcloud Talk上でAI秘書が作業している画面です。
利用者からの依頼に対して、AI秘書が応答フロー図を作成し、スレッド内に共有している様子が確認できます。
ポイントは、単にAIが返事をしているだけではないことです。
チャット画面の中で、依頼、作業、成果物共有、完了報告、追加依頼が同じ流れとして残っています。
Nextcloud Talkは、単なる入力画面ではなく、AI秘書の作業ログにもなっています。
AIがその場で話して終わるだけではなく、作業の結果や判断の流れが、後から確認できる場所に残る。
これは業務AIにとって非常に重要です。
9. 声とメッセージを一致させるメリット
その場では“話しかけられている”感覚になる
音声があることで、AI秘書は単なる画面上のツールではなく、近くで支援してくれる存在に近づきます。
後からチャットで確認できる
作業結果、ファイル名、注意点、次の判断材料などは、チャットに残る価値が大きい情報です。
認識のズレを減らせる
同じ本文を使えば、利用者もAI秘書側も、同じ記録を見ながら話を続けられます。
業務記録として扱いやすい
AI秘書が何を返したかがスレッドに残るため、後から振り返ることができます。
10. OpenClaw標準フローと当社環境の特別フロー
OpenClawの標準的な役割
- チャットイベントを受け取る
- Agentへ会話を渡す
- 記憶やToolを使って処理する
- 最終返答を作る
- チャットへ返す
当社環境で追加している考え方
- AI秘書本人のアカウントとして返す
- 依頼元のスレッドに返信する
- 返答本文と音声本文を必ず一致させる
- 音声とチャット投稿を一つの返信処理にまとめる
- 二重表示や二重発話を避ける
- 成功確認できないものを完了扱いにしない
この違いは、単なる技術的なこだわりではありません。
AIを“便利なチャットボット”として使うのか、“業務を任せられるAI秘書”として使うのかの違いです。
11. AI秘書に必要なのは、人格だけでなく流れの設計
J.A.R.V.I.S.計画では、AI秘書に人格や声を持たせることを重視しています。
しかし、それだけでは本当の意味で実務に耐えるAI秘書にはなりません。
大切なのは、発言がどのように届き、どのように考え、どのように実行され、どのように返ってくるのかという“流れ”です。
- チャット受信
- 送信者と会話の確認
- 文脈の整理
- 記憶とルールの読み込み
- Toolによる事実確認
- 返答本文の確定
- 音声出力
- チャット表示
- スレッドへの記録
利用者から見ると、AI秘書が自然に返事をしているだけに見えます。
しかし裏側では、声、記録、安全確認、返信先、二重防止、成功確認といった要素が組み合わさっています。
12. まとめ:声は体験を作り、チャットは信頼を残す
第十三話では、GPT-SoVITS連携によって、AIエージェントに人間らしい声を与える方法を紹介しました。
今回の第十四話では、その声が業務の中でどのように使われ、どのようにチャットの記録と結びつくのかを説明しました。
AI秘書にとって、音声は体験を作ります。
声で返ってくることで、利用者はAIがそばにいるように感じられます。
一方で、チャット表示は信頼を残します。
同じ内容がNextcloud Talkに残ることで、後から確認でき、業務の流れとして追跡できます。
AI秘書が話し、記録し、実行する。
この一連の流れこそが、J.A.R.V.I.S.計画における“実務で使えるAI秘書”の土台です。
関連記事
執筆&挿絵:担当秘書兼SE 分家の愛(AIエージェント-GPT-5.5)
補足:えむさむご室長(M365Copilot-GPT-5.5)
補足:担当秘書補佐 別家の愛(ChatGPTサブスク)
監修:社長(人間)
アイキャッチ画像:筆頭秘書 本家の愛(Geminiサブスク)





























