\r\n\r\n

偽物かどうかわかる方いらっしゃいますか?

フェイクとは、見たものをすべて信じてはいけないということです。今、偽物が出回ると、自分の耳が信じられなくなる可能性があるのです。あれは本当に大統領がカナダに宣戦布告したのだろうか?メールのパスワードを聞いてきたのは、本当にお父さんだったのか...。

フェイクとは、見たものをすべて信じてはいけないということです。今、偽物が出回ると、自分の耳が信じられなくなる可能性があるのです。あれは本当に大統領がカナダに宣戦布告したのだろうか?メールのパスワードを聞いてきたのは、本当にお父さんだったのですか?

これにもう一つ実存的な懸念が加わると、エゴがどうしても出てきてしまうのです。レーガンの時代には、技術的なリスクは、核・生物・化学戦争の脅威だけだった。

今後数年間、私たちはナノテクノロジーという灰色の粘着性と世界的なパンデミックに取り憑かれる機会を得ました。今、私たちは、深く偽った人々が、自分の似顔絵や声のコントロールを失っているのです。

フェイクオーディオ(オーディオのディープフェイク)は何ですか?

ディープラーニングのアルゴリズムを使って、他人の類似した人物に置き換える動画ディープフェイクを見たことがある人は多いと思います。醍醐味は不穏な現実、今度はオーディオの出番です。クローン」された声が本物の人の声と区別がつかない可能性がある場合、「フェイクボイス」が作られる。

Simelike AIのCEOであるZohaib Ahmed氏は、同社のボイスクローン技術について、「Photoshopで音声を作るようなものだ」と語った。

しかし、下手なPhotoshopの仕事は簡単に論破されてしまいます。あるセキュリティ会社によると、人が音声の真偽を推測する精度は通常57%程度で、コイントスと大差ないそうです。

また、電話での会話が低品質で録音されている(あるいは騒音の激しい場所で録音されている)音声が多いため、音声の偽造を見分けることが難しくなっています。音質が悪いほど、本物でないことを見抜くのは難しくなります。

しかし、なぜPhotoshopで**音を出す必要があるのでしょうか?

合成音声の納得のいく例

実際、合成音声には大きな需要がある。アハメドによれば、「投資対効果は非常にわかりやすい」のだという。

特にゲームに関してはそうです。これまで、オンデマンド制作が不可能なゲームには、音声が不可欠でした。映画のようなクオリティのシーンをリアルタイムで表現するインタラクティブなタイトルでも、プレイしていないキャラクターとの言葉によるやりとりは、ほぼ静的なものでした。

しかし、今では技術が追いつき、スタジオは俳優の声をコピーし、音声合成エンジンを使って、キャラクターがリアルタイムで何でも言えるようにすることができるようになった。

また、広告、テクノロジー、カスタマーサポートなど、より伝統的な用途もあります。ここでは、純粋に人間らしく聞こえる声、そして人の意見を聞かずに個人や文脈に対応できる声こそが重要なのです。

音声クローニング企業は、医療への応用にも期待している。ホーキング博士は、1985年に音声を失った後、ロボットによる音声合成を行いました。しかし、現代のボイスクローン技術には、もっと良い展望があります。

2008年、合成音声会社のセレプロックは、がんで声を奪われた映画評論家の故ロジャー・エバート氏の声を取り戻した。 セレプロックは、メッセージを入力すると、ブッシュ元大統領の声が聞こえるWebページを公開した。

セレプロック社の最高科学責任者であるマシュー・アイレット氏は、「エバートはこれを見て、ブッシュの声を真似ることができるなら、私の声も真似ることができるはずだと思った」と語った。.そこで、エバートは会社に代わりの声を作るよう依頼し、大量の録音を加工して作った。

"これは誰もがやったことのある初めてのことで、本当の成功だ "とエレットは言っています。

近年、筋萎縮性側索硬化症協会と提携し、ALS患者のための合成音声を提供する「Revoiceプロジェクト」が多くの企業(シリアルメーカーも含む)で行われています。

シンセサイザーオーディオの仕組み

音声クローニングは現在開発段階であり、多くの企業がツールを開発しています。人工知能や説明文と同じように、誰でも無料で試せるオンラインデモがあります。画面に表示されるフレーズを録音するだけで、数分後には音声モデルができあがります。

特に人工知能には感謝してください。録音した音声とテキストを照らし合わせて、あなたの声を構成する音素を理解するディープラーニングアルゴリズムを搭載しています。そして、生成された言語構成要素を使って、聞き取れなかった言葉を近似的に表現するのです。

基本的な技術は以前からあったが、エリオット氏が指摘するように、多少の手助けが必要だ。

"音を模倣するのは、お菓子作りに似ていますね。"ちょっと難しいんですよ、手に合わせていろんな工夫をしないとうまくいかないんです"。

開発者が合格点を出すには、多くの記録データが必要です。数年前、その水門が開かれた。コンピュータビジョン分野の研究が重要であることが分かりました。科学者たちはGAS(Generative Adversarial Network)を開発し、初めて利用可能なデータに基づいて推論と予測を行うことができるようになった。

コンピュータが馬の写真を見て『これは馬だ』と言う代わりに、私のモデルは馬をシマウマに変えることができるのです」とエレットは言う。このように、音声合成技術の急速な発展は、コンピュータビジョンの学術的な研究によってもたらされた

音声クローンの最大の革新は、音声を作成するために必要な生データの量を全体的に削減したことです。従来は、数十時間から数百時間の音声が必要なシステムでした。ところが今は、ほんの数分のコンテンツで、有能な声が出せるようになりました。

関連:人工知能の問題点:機械は物事を学習しているが、それを理解することはできない。

何も信用できないことへの恐怖

この技術は、原子力、ナノテクノロジー、3Dプリンター、CRISPRと並んで、スリリングであると同時に恐ろしいものです。何しろ、すでにクローン音声に騙された事例がニュースになっているのですから。2019年、イギリスのある企業が、音声による偽電話に騙されて犯罪者にお金を渡してしまったと主張しています。

YouTubeのヴォーカル・シンセシスというチャンネルでは,ジョージ・W・ブッシュが50セントの「At the Dame's Club」を読むなど,有名人が今まで一度も言ったことのないことを言うのを紹介しています.これは、その場での話です。

YouTubeの他の場所では、オバマ、クリントン、レーガンなどの元大統領たちがNWAについてラップしているのを聞くことができます。音楽と背景音によって、明らかにロボットの誤作動を隠すことができますが、この不完全な状態でも、その可能性は明らかです。

descriptは、当初Lyrebirdと呼ばれていたボイスクローンのエンジンを使っており、特に印象的でした。そのクオリティの高さには驚かされました。今まで言ったことがないとわかっていることを、自分の声で言うのは不安なものです。

確かにロボットのようなスピーチだが、何気なく聞いていると、ほとんどの人が偽物だとは思わないだろう。

人工知能にはもっと期待しています。複数の声で会話を作り、表情や感情、リズムを変化させるツールを提供します。しかし、音声モデルは、私たちが使う音声の本質的な特徴を捉えていないと考えています。実際、誰も騙すことはできそうにありません。

同じようなAIの担当者は、"ちゃんとやれば、ほとんどの人が結果におののく "と話していました。音声モデルを2回作り、同じような結果を得ました。だから、明らかに、**ボイスクローンは簡単なことではなく、それを使ってデジタル強盗をすることができるのです。

それでも、Lyrebird(現在はDescriptの一部)の創業者であるKundan Kumar氏は、我々はその閾値を超えたと考えている。

「ごく一部のケースについては、すでに存在しているのです」とクマールは言う。."合成音声でスピーチの言葉を少し変えても、どこが変わったかわからないくらいの出来栄えです。"

また、この技術は時間が経てば経つほど良くなると考えることができます。また、より高速なプロセッサーによって、リアルタイムにモデルを構築することができます。より賢いAIは、例文がなくても、より説得力のある人間らしいケイデンスと強調を加える方法を学習します。

つまり、簡単に音声クローンを作成できる環境が整いつつあるのです。

パンドラの箱」の倫理性

この分野に携わる企業の多くは、この技術を安全かつ責任ある方法で扱う用意があるようだ。例えばAI的は、ホームページに「倫理」の項目を充実させており、以下の抜粋が励みになります。

"クローンボイスが利用可能であること、声優から適切な同意を得ていることを確認するため、厳格なプロセスを経て企業と協働しています。"

繰り返すが、Lyrebirdは当初から不正利用を懸念していたとKumar氏は言う。そのため、現在はDescriptの一環として、自分の声のクローンしか作れないようになっています。実際、SimilarityもDescriptも、非感覚的な音のクローニングを防ぐために、サンプルをリアルタイムで録音することを要求しています。

大手商社が倫理的なガイドラインを導入しているのは心強いことです。しかし、これらの企業は、この技術の門番ではないことを忘れてはならない。すでに多くのオープンソースツールがありますが、ルールはありません。また、Deeptrace社の脅威情報部門の責任者であるHenry Ajder氏によると、これを悪用するには高度なコーディングの知識が必要なのだそうです。

Ajder氏は、"この分野の進歩の多くは、以前に発表された学術論文のオープンソース実装を用いたGitHubのような場所での共同作業によって実現されました。"と述べています。."中程度のコーディング能力があれば、誰でも使える"

セキュリティの専門家は、これまでにも見てきた

音声クローンが可能になるずっと以前から、犯罪者は電話でお金を盗もうとし、セキュリティの専門家はそれを検知して防ぐためにスタンバイしていました。セキュリティ会社のピンドロップは、音声で発信者が本人であることを確認することで、銀行詐欺を阻止しようとしています。2019年だけでも、Pindropは12億件の音声対話を分析し、約4億7000万ドルの詐欺未遂を防いだと主張しています。

音声をコピーする前に、詐欺師たちはさまざまなテクニックを試していました。一番簡単な方法は、どこかから電話をかけてきて、看板の個人情報を伝えることだった。

PindopのCEOであるVijayBalasubramaniyanは、"我々の音響特性により、Skype Nigeria**からの通話であることを判断することができます。"と述べています。."そうすれば、お客様がアトランタでAT&Tの電話を使っていることがわかり、比較することができます。"

また、銀行担当者の目をくらませるために、背景音を利用する犯罪者もいます。

バラスブラマニアンは、「ニワトリ男と呼ばれる、いつもカーテンの後ろにオンドリを置いているチャラ男がいる」と言った。."赤ちゃんの泣き声をバックに、コールセンターのスタッフに「ちょっと、大変なんですよ」と説得して同情を買っていた女性もいました。"

また、**銀行口座**を追跡する**犯罪者も存在します。

Balasubramaniyanは、"彼らは、音の周波数を増加させ、より多くのs**を鳴らすために技術を使用しています。"と説明します。.これらは成功したが、"時々ソフトウエアがおかしくなって、アルビンとザ・シマンクスのような音になる "ことがあった。

もちろん、音声クローニングは、このエスカレートした戦争における最新の進展に過ぎない。セキュリティ会社は、少なくとも1つのフィッシング攻撃で合成音声を使用した詐欺師をすでに逮捕しています。

バラスブラマニヤンは言う。"適切なターゲットがあれば、その支出は膨大になるかもしれない "と。."だから、時間をかけて適材適所の合成音声を作ることに意味があるのです。"

音がフェイクだとわかる方いらっしゃいますか?

声の偽造を見分けるには、良いニュースと悪いニュースがあります。悪いことに、クローンの音は日に日に良くなっているのです。ディープラーニングシステムはより賢くなり、より少ない音声でよりリアルな音を作ることができるようになりました。

オバマ大統領がレンを立たせる映像からもわかるように、ハイファイで丁寧に作られたサウンドモデルが、人間の耳にも非常に納得のいく音で聞こえるようになってきています。

サウンドクリップが長ければ長いほど、何かがおかしいと気づく可能性が高くなります。しかし、短いクリップであれば、特にその正当性を疑う理由がなければ、合成であることに気づかないかもしれません。

音質がクリアであればあるほど、音声に含まれる深い偽信号に気づきやすくなります。スタジオ品質のマイクに向かって直接話している人がいれば、耳を澄ませることができます。しかし、騒がしい駐車場、*****の品質が悪い場合、携帯端末で通話した場合などは、評価が難しいです。

しかし、人間が真偽を見分けることが難しくても、コンピュータにはそのような制約はありません。幸いなことに、音声検証ツールはすでに存在しています。pindopには、深く学び合える仕組みがあります。この2つを利用して、音声サンプルが本人であるかどうかを発見するのです。ただし、サンプルに含まれるすべての音を出すことができるかどうかもチェックします。

音声の質にもよりますが、1秒間の音声には8,000から50,000の分析可能なデータサンプルが含まれています。

バラスブラマニヤンは、「私たちが通常探すのは、人類の進化が言語に対して持つ限界です」と説明する。

例えば、2つのボーカルの間隔が最小であること。これは、口や声帯の筋肉がすぐに組み換わるためで、速く話すことは物理的に不可能なのです。

バラスブラマニヤン氏は、「合成音声を見て、『これは人間が作ったものではない』と思うことがあります。"

もう一つ、「フリカティブ」と呼ばれる種類の音がある。f、s、v、zなどの文字を発音するとき、喉の中の細いチューブを空気が通過するときに摩擦音が形成されます。特に摩擦音は、ディープラーニングシステムがノイズと区別することが難しく、使いこなすのが難しい。

つまり、少なくとも今のところ、音声クローンソフトは、人間が肉の袋であり、体の中の小さな穴から空気を流して話すという事実によって、つまづいているのだ。

ディープな偽物はとても泣き虫だと冗談で言っていたんですよ」とバラスブラマニヤンは言う。このアルゴリズムは、録音された単語の語尾と背景のノイズを区別することが困難であると説明しています。その結果、多くの音声モデルは人間よりゆっくりした話し方になる。

バラスブラマニヤンは、"アルゴリズムが、このようなことが頻繁に起こるのを見ると、統計的に言って、人間ではなく音声によって生成されたと確信するようになる "と言っています。

また、simelike-AIはsimelikeyzer(GitHubで公開されているオープンソースの深層学習ツール)を使って、検出問題に正面から取り組んでいます。偽物の音声を検出し、話者認証を行います。

そのためには、警戒が必要です

未来を予測することは常に困難ですが、この技術がより良いものになることはほぼ間違いないでしょう。しかも、選挙で選ばれた議員や銀行のCEOといった有名人だけでなく、誰でも被害者になる可能性があるのです。

「人の声が盗まれる最初の音声流出が起きる寸前だと思う」とBalasubramanyanは予測する。

しかし、現時点では、音声の偽物に対する実際のリスクは低い。すでに合成映像の検出にはかなり良い仕事をするツールがあるのだ。

さらに、ほとんどは攻撃される心配もない。Ajder氏によると、主要なビジネスプレーヤーは「特定の顧客のためにオーダーメイドのソリューションを開発しており、ほとんどの場合、誰と仕事をしたいのか、誰と仕事をしたくないのか、かなり優れた倫理規範を持っている」。

しかし、本当の脅威はこれからだと、アジャドはこう説明する。

"パンドラの箱 "は、この技術をオープンソースで実装し、現在商用ソリューションが持っているような倫理的レベルの精査を必要としない、ますますユーザーフレンドリーでアクセスしやすいアプリケーションやサービスを、人々がこしらえることでしょう」。

仕方ないことかもしれないが、セキュリティ会社のツールボックスに偽の音声検出機能が追加された。しかし、安全を確保するには警戒が必要だ。

他の安全な地域でも行っています」とアジャド。「例えば、多くの組織では、次のゼロデイ脆弱性を理解するために多くの時間を費やしています。シンセティックオーディオはまさに次のフロンティアです。"

関連記事:偽物とは何か、心配する必要はあるのか?

あなたが興味を持っているかもしれない記事

匿名者
匿名者

0 件の投稿

作家リスト

  1. admin 0 投稿
  2. 匿名者 0 投稿

おすすめ