命を救い、人生を変える手術を受ける前、若いアメリカ人のアレクシス・“レクシー”・ボーガンの声は活気に満ちていた。
彼女は車の中でテイラー・スウィフトやザック・ブライアンのバラードを大声で歌うのが好きだった。彼女は、行儀の悪い未就学児を囲い込んだり、友達と政治について議論したりしているときでも、いつも笑っていた。学生時代、彼女は合唱団のソプラノ歌手でした。
そして一夜にしてその声は消えた。
昨年8月、医師らは彼女の脳の後部付近に留まっていた腫瘍を切除した。 1か月後に呼吸管が抜けたとき、ボーガンさんは飲み込むのが難しくなり、両親に「こんにちは」と声をかけるのに力を入れた。
数カ月間のリハビリテーションにより彼女は回復したが、言語障害は依然として残っている。友人、見知らぬ人、そして彼女自身の家族は、彼女が何を伝えようとしているのか理解するのに苦労しています。
4月、21歳の彼女は昔の声を取り戻した。本物ではなく、ChatGPT メーカー OpenAI の人工知能 (AI) 技術によって生成された音声クローンで、電話アプリから呼び出すことができます。
彼女の 10 代の声の 15 秒のタイム カプセル (学校のプロジェクト用に録画した料理デモンストレーション ビデオからソース) でトレーニングされた彼女の合成だが驚くほどリアルな AI 音声は、彼女が言いたいことをほぼ何でも言うことができるようになりました。
彼女が携帯電話にいくつかの単語や文を入力すると、アプリが即座にそれを読み上げます。
「こんにちは、グランデ アイスブラウンシュガー オーツミルクシェイク エスプレッソをいただけますか」と、スターバックスのドライブスルーで車の窓に電話をかざしたボーガンさんの AI の声が言った。
専門家らは、AIによる音声クローン技術の急速な進歩により、電話詐欺が増幅され、民主的な選挙が混乱し、生死を問わず、自分の声を再現して話したことがないことを言うことに同意しなかった人々の尊厳を侵害する可能性があると警告している。
これは、ジョー・バイデン米国大統領を模倣したニューハンプシャー州の有権者に対するディープフェイクのロボコールを作成するために使用されています。
米国のメリーランド州では、当局が最近、AIを使用して校長が人種差別的な発言をしている偽の音声クリップを生成したとして高校の体育部長を起訴した。
しかし、ボーガン氏とロードアイランド州ライフスパン病院グループの医師チームは、リスクを正当化する用途を発見したと信じている。
失われた声を再現する
ボーガンさんは、彼女の症状を抱えている唯一の人物で、失われた声を再生することに成功した最初の人物の一人です。OpenAIの新しい音声エンジン。
新興企業のイレブンラボなど、他のAIプロバイダーの一部も、現在法廷で音声クローンを使用している弁護士を含め、言語障害や言語喪失を抱える人々を対象に同様のテクノロジーをテストしている。
ブラウン大学医学部およびロードアイランド病院の神経外科レジデントであるロハイド・アリ医師は、「レクシーが技術の発展の先駆者となることを期待している」と語った。
同氏は、衰弱性脳卒中、咽頭がん、神経変性疾患を患う数百万人が恩恵を受ける可能性があると述べた。
「私たちはリスクを認識する必要がありますが、患者と社会的利益のことを忘れることはできません」と試験運用に携わるもう一人の研修医ファティマ・ミルザ博士は語った。 「私たちはレクシーに本当の声を取り戻すお手伝いをすることができ、彼女は自分自身に最も忠実な言葉で話すことができるようになりました。」
結婚しているミルザとアリは、AI チャットボットを使用して患者の医療同意書を簡素化するライフスパンでの以前の研究プロジェクトにより、ChatGPT メーカー OpenAI の注目を集めました。
サンフランシスコの同社は、今年初めに新しい AI 音声ジェネレーターの有望な医療用途を探していたときに連絡を取りました。
回復が遅い
ボーガンさんは手術からまだゆっくりと回復しつつあった。
この病気は昨年の夏に始まり、頭痛、かすみ目、顔の垂れ下がりを伴い、プロビデンスのハスブロ小児病院の医師らを警戒させた。
彼らは、ゴルフボールほどの大きさの血管腫瘍が彼女の脳幹を圧迫し、血管と脳神経に絡まっていることを発見した。
小児神経外科医のコンスタンティナ・スヴォコス医師は、「出血を抑えて腫瘍を取り除くのは闘いだった」と語った。
スヴォコス氏によると、腫瘍の位置と重症度に加え、10時間に及ぶ手術の複雑さにより、ボーガンさんの舌の筋肉と声帯の制御が損なわれ、食事や会話が困難になったという。
「声を失ったとき、私のアイデンティティの一部が奪われたような気分です」とボーガンさんは語った。
今年は栄養チューブが登場しました。言語療法は続けられ、静かな部屋でも彼女は明瞭に話せるようになりましたが、自然な声の完全な明瞭さを取り戻す兆しはありません。
「ある時点から、私は自分の声がどのようなものかを忘れ始めていました」とボーガンは語った。 「今では自分の声にだいぶ慣れてきました。」
AIに話し方を「トレーニング」させる
プロビデンス郊外ノース・スミスフィールドにある家族の家で電話が鳴ると、彼女はそれを母親に押し当てて電話に出た。
彼女は、騒がしいレストランに行くたびに、友人たちに負担をかけていると感じていました。難聴のある彼女の父親は、彼女のことを理解するのに苦労しました。
病院に戻ると、医師たちは OpenAI のテクノロジーを実験するパイロット患者を探していました。
「スヴォコス博士の頭に最初に浮かんだのはレクシーさんでした」とアリさんは語った。 「私たちはレクシーに連絡を取り、彼女が興味を持つかどうかを確認しました。彼女がどのような反応を示すかはわかりませんでした。彼女はそれを試して、それがどのように機能するかを知りたがっていました。」
ボーガンさんは、AI システムに彼女の話し方を「訓練」するために、彼女の声の適切な録音を見つけるために、数年前に遡る必要がありました。それは彼女がパスタサラダの作り方を説明したビデオでした。
彼女の医師は意図的にわずか 15 秒のクリップを AI システムに供給しました。調理音により、ビデオの他の部分が不完全になります。また、これは OpenAI に必要なすべてであり、より長いサンプルを必要とする以前のテクノロジーを改善するものでした。
彼らはまた、インターネット上に自分の声の痕跡を残さない将来の患者にとって、15 秒から何か役立つ情報を得ることは非常に重要である可能性があることもわかっていました。親戚に残した短いボイスメールで十分かもしれません。
「彼女の声を聞くたびにとても感動します」
初めてテストしたとき、誰もが音声クローンの品質に驚きました。単語の発音の間違いやイントネーションの欠落など、時折発生する不具合はほとんど知覚できませんでした。
4月、医師らはボーガンさんのみが使用できる特注の電話アプリをボーガンさんに装備させた。
「彼女の声を聞くたびにとても感情的になります」と母親のパメラ・ボーガンさんは目に涙を浮かべながら語った。
レクシー・ボーガンは、「あのサウンドを再び手に入れることができて素晴らしいと思う」と付け加え、それが「このすべてが起こる前と同じくらい私の自信をいくらか高めた」と述べた。
彼女は現在、このアプリを 1 日に約 40 回使用し、将来の患者に役立つことを願ってフィードバックを送信しています。
彼女の最初の実験の 1 つは、彼女が教育助手として働いている幼稚園の子供たちに話しかけることでした。
彼女はロボットのような反応を期待して「ハハハハ」と入力した。驚いたことに、それは彼女の昔の笑い声に似ていました。
彼女はターゲットとマーシャルズでアイテムの場所を尋ねるためにそれを使用しました。それは彼女が父親と再びつながるのに役立ちました。そして、ファストフードを注文するのも簡単になりました。
ボーガンの医師らは他の意欲的なロードアイランド州患者の声のクローン作成を開始し、その技術を世界中の病院に導入したいと考えている。
OpenAIは、まだ一般公開されていない音声エンジンの利用拡大に慎重に取り組んでいると述べた。
多くの小規模な AI スタートアップ企業がすでに音声クローン サービスをエンターテイメント スタジオに販売したり、より広く利用できるようにしたりしています。
ほとんどの音声生成ベンダーは、なりすましや悪用を禁止していると述べていますが、使用条件をどのように強制するかは企業によって異なります。
AI 音声クローン作成への幅広いアクセス
「私たちは、サービスで音声が使用されるすべての人が継続的に同意していることを確認したいと考えています」と、OpenAI のこの製品の責任者である Jeff Harris 氏は述べています。
「私たちは、それが政治的な文脈で使用されないようにしたいと考えています。そのため、私たちはテクノロジーを提供する相手を非常に限定するというアプローチをとりました。」
ハリス氏は、OpenAIの次のステップには、ユーザーが自分の声だけを複製できるようにする安全な「音声認証」ツールの開発が含まれると述べた。それは「突然言語能力を失ったレクシーさんのような患者にとっては限界かもしれない」と同氏は言う。
「したがって、テクノロジーへのもう少し自由なアクセスを提供するには、特に医療提供者と高い信頼関係を築く必要があると考えています。」
ボーガンさんは、同様の、またはより重度の言語障害を持つ人々をテクノロジーがどのように助けることができるかを考えることに重点を置いている点で医師たちに感銘を与えました。
「このプロセス全体を通じて彼女が行ったことの一部は、これを微調整して変更する方法を考えることです」とミルザ氏は語った。 「彼女は私たちにとって素晴らしいインスピレーションを与えてくれました。」
今のところ、音声エンジンで会話できるようにするには携帯電話をいじらなければなりませんが、ボーガンさんは、ロボットのような音を発する電気喉頭や人工音声など、音声回復のための古い治療法を改良して人体と融合させる AI 音声エンジンを想像しています。またはリアルタイムで単語を翻訳することもできます。
彼女は年齢を重ねるにつれて何が起こるか確信が持てなくなり、AI の声は 10 代の頃と同じように聞こえ続けます。おそらくこのテクノロジーにより、彼女の AI 音声が「老化」する可能性がある、と彼女は言いました。
今のところ、「声が完全に戻ったわけではないが、自分の声を再び見つけるのに役立つ何かがある」と彼女は語った。