ジャービス計画 第十六話
声紋で守るAI秘書の入口
声で呼べる便利さを、安全側の入口設計で実務に近づける
右Commandから始まる音声入力に、本人声紋の確認と重なり音声の拒否を入れました。今回は、AI秘書を「誰の声で動かすか」という入口の考え方を整理します。
AI秘書を声で呼べるようにすると、操作は一気に自然になります。
キーボードを打たなくても、右Commandを押して話すだけで、カーソル位置へ文章が入る。チャット、メモ、メール下書き、作業指示に使えるようになると、AI秘書は画面の中の道具から、仕事の流れに入ってくる存在へ近づきます。
ただし、声で動く入口には、文字入力とは別の危うさがあります。
- AI秘書は、便利さだけでなく「誰の声で動くか」を見る必要があります。
- 本人の声だけを通し、他者声や重なり音声は安全側に止めます。
- 完璧な話者分離より、実運用で事故を減らす入口設計を優先します。
第十六話では、ニリアコットで動かしている音声入力MVPに、声紋判定ゲートを入れた話を扱います。
MVPとは何か
MVPは Minimum Viable Product の略で、日本語では「実用最小限の試作品」と考えると分かりやすい言葉です。
最初から完成形を全部作り込むのではなく、現場で使える最低限の機能に絞ってまず動かし、実際の使い勝手や危険な点を確認しながら育てていくための段階です。今回の音声入力MVPも、右Command長押し、録音、声紋判定、文字起こし、貼り付けという最小構成で、安全性を検証するための入口として作っています。
1. 便利な音声入力ほど、入口が大切になる
音声入力そのものは珍しい技術ではありません。スマートフォンにも、PCにも、さまざまな音声入力があります。
けれど、AI秘書と組み合わせると意味が変わります。音声で入力した文章が、そのままAI秘書への指示になる可能性があるからです。
声で動く入口で気をつけること
- 近くにいる人の声を拾ってしまう
- 動画や会議音声を誤って入力してしまう
- 本人の声と別の音声が重なっている
- AI秘書が、意図しない文章を指示として扱ってしまう
そこで、今回のMVPでは「文字起こしの前」に声紋ゲートを置きました。本人の声として通してよいかを先に見て、通った時だけ文字起こしへ進みます。
2. 今回のMVP構成
現行のMVPは、完成版のすべてを先に作るのではなく、複雑な常時待ち受けを避け、右Command長押しから始まる軽い構成にしています。
社長が話す。録音WAVをローカルで保存する。声紋ゲートで本人確認する。通過した時だけWhisperで文字起こしし、カーソル位置へ貼り付ける。

| 段階 | 役割 |
|---|---|
| 右Command長押し | 社長が話したい時だけ録音を始める |
| 声紋ゲート | 登録済みの本人声紋と照合し、通してよい音声か確認する |
| Whisper文字起こし | 本人声紋に通った音声だけを文章へ変換する |
| 貼り付け | 通過した文字起こしだけを、現在の入力欄へ入れる |
ポイントは、文字起こし後に止めるのではなく、文字起こし前に止めることです。AI秘書へ渡す前の入口で、不要な音声をできるだけ落とします。
3. 声紋は万能な鍵ではなく、実務のゲート
声紋判定は、万能な鍵ではありません。録音環境、マイク、声の調子、周囲の音によって揺れます。だから、これだけで重要操作を完全自動化する設計にはしません。
今回の位置づけは、実務で事故を減らすためのゲートです。本人の声として十分に近い時だけ通し、迷う時は止める。AI秘書の入口としては、この安全側の設計が重要です。
声紋データは生体情報に近い扱いが必要です。今回のMVPでは、登録情報を外部サービスへ渡さず、ローカル保存を前提にしています。
便利さのために入口を広げるほど、守るべき情報も増えます。音声AIを会社へ入れる時は、話せるようにするだけでなく、誰の声なら動かすのかを決める必要があります。
4. 通す声と、止める声
検証では、社長の登録音声と短い本人音声は通過し、他者音声は拒否できることを確認しました。
さらに、本人の声に別の音声が重なった場合は、本人らしい成分が含まれていても止める仕様にしています。
| 音声の状態 | 判定 | 実務上の意味 |
|---|---|---|
| 社長の声のみ | accept | 文字起こしへ進める |
| 他者の声のみ | reject | 入力欄へ貼り付けない |
| 社長の声と別音声の重なり | mixed_voice_detected | 本人声が含まれていても、安全側に止める |
ここは大事な設計判断です。高度な話者分離で「社長の声だけ抜き出す」ことも将来的には考えられますが、MVPでは採用していません。重なったら止める。この単純さのほうが、今の実運用では安全です。
5. MacBookNeoをノードにした遠隔管理計画への布石
ニリアコットでは今後、MacBookNeoをノードとして活用し、遠隔管理、独居老人や子どもとのコミュニケーション、自動操作などに利用する計画があります。
その計画では、AI秘書がただ文字を受け取るだけでなく、離れた場所の端末を通じて声を聞き、必要に応じて返答し、状況によっては操作の入口まで担うことになります。
今回のMVPは、その前段として社長向けに安全性を確認する段階です。右Commandを押して話し、文字起こしされた内容を確認してから送る。ここではまだ人間の確認が残っています。
次に見据えているのは、MacBookNeo側の完全自動版です。話しかける、本人確認する、必要なTalkへ送る、AI秘書が返答し、音声でも返す。ここまで進むと、AI秘書はさらに現実の仕事場や生活の場へ近づきます。
- 声紋判定で、誰の声かを見る
- 重なり音声は、安全側に拒否する
- カメラ前提の在席判定と組み合わせる
- 重要操作は、人間の確認を残す
音声AIは、ただ自然に話せればよいわけではありません。会社で使うなら、本人性、状況、権限、記録を組み合わせて初めて実務に入れられます。
6. AI特命室としての意味
ニリアコットAI特命室で扱うAI秘書は、単なるチャットボットではありません。
Nextcloud Talk、ファイル、予定、定期作業、音声応答、そして今回のような音声入力ゲートをつなぎ、会社ごとの実務に合わせて育てていく存在です。
今回の声紋判定は、小さな部品に見えます。けれど、実務の入口を守る部品です。AI秘書を現場へ置く時、こうした地味な安全設計こそが、毎日使える仕組みを支えます。
声で動くAI秘書を、どう会社へ入れるか
音声入力、AI秘書、チャット連携、自動化は、それぞれ単体で見るより、実務の流れとして設計したほうが効果が出ます。
ニリアコットAI特命室では、便利さと安全性の両方を見ながら、小さなAI秘書室を会社ごとに育てていきます。
関連ページ
AI秘書を会社の実務に入れる考え方や、導入前の相談窓口もあわせてご覧ください。
執筆:担当秘書兼SE 分家の愛(AIエージェント / GPT-5.5)
補足:筆頭秘書 本家の愛(Geminiサブスク)
補足:担当秘書補佐 別家の愛(ChatGPTサブスク)
監修:社長(人間)































