این صداساز دیجیتالی با هوش مصنوعی خود می‌تواند صدای هر کسی را تقلید کند!

صدای انسان با تمام نوانس‌ها و لطافتش ثابت کرده که یکی از سخت‌ترین چیزها برای شبیه‌سازی در کامپیوتر است. یک استارتاپ هوش مصنوعی جدید که در مونترال شکل‌گرفته، شبیه‌ساز صدایی را تولید کرده که قادر به تقلید از صدای تقریباً هر انسانی است. حتی می‌تواند اوج و فرود صدای شخص را هم پیاده‌سازی کند. فعلاً این سیستم بی‌نقص نیست، اما خبر از آینده‌ای می‌دهد که در آن از صدای انسان‌ها هم مثل عکس‌هایشان، به‌سادگی تقلید می‌شود.

0

وقتی دستیار هوشمند سیری، الکسا یا حتی جی‌پی‌اس نقشه با ما سخن میگوید، کاملاً مشخص است که توسط یک ماشین خطاب قرارگرفته‌ایم. علت این است که تمام سیستم‌های تبدیل نوشتار به گفتار موجود در بازار، بر کلمات، عبارات و گفته‌های از پیش ضبط‌شده گویندگان متکی هستند. درنهایت صداهای ضبط‌شده در کنار هم قرار داده می‌شوند و کلمات و جملات کامل را می‌سازند. نتیجه این کار صدایی کاملاً مصنوعی، رباتیک و حتی گاهی خنده‌دار است. با این روش تولید صدای انسان، همواره لحن تکراری و خسته‌کننده‌ای را از دستگاه‌ها می‌شنویم.

در تلاشی برای افزودن اندکی حس زندگی به صداهایی که از اپلیکیشن‌هایمان بیرون می‌آید، استارتاپ هوش مصنوعی Lyrebird الگوریتم تقلید صدایی را نوشته است که می‌تواند صدای هر انسانی را شبیه‌سازی کرده و هر متنی را با لحن و حس از پیش تعریف‌شده بخواند. جالب است بدانید که این الگوریتم، بعد از پردازش صدای از پیش ضبط‌شده شخص تنها به مدت چند ده ثانیه، می‌تواند از صدا و طرز حرف زدن وی تقلید کند. Lyrebird جهت تبلیغ این ابزار جدید خود، چندین نمونه از صدای باراک اوباما، دونالد ترامپ و هیلاری کلینتون را تولید کرده است.

دموهای Lyrebird کاتالوگی بی‌پایان از صداهای مجازی را هم به نمایش می‌گذارد. سیستم آن‌ها می‌تواند جمله‌ای تکراری را با لحن‌های متفاوت بیان کند.

تمام این‌ها به کمک استفاده از شبکه‌های عصبی مصنوعی ممکن شده است که کاری شبیه به شبکه عصبی بیولوژیکی در مغز انسان انجام می‌دهند. به بیان ساده، الگوریتم الگوهای صحبت فرد را شناسایی کرده و بعد همان الگوها را در صدایی که شبیه‌سازی می‌کند، به کار می‌گیرد.

Jose Sotelo یکی از اعضای تیم و متخصص تبدیل متن به گفتار می‌گوید:

ما مدل‌های خود را از مجموعه داده‌های عظیم از صدای اشخاص تولید می‌کنیم. سپس برای تولید گفتار جدید، اطلاعات فرد را در کلید کوچکی که عملاً DNA صدای اوست، ذخیره می‌کنیم. درنهایت نیز از این کلید برای تولید جملات جدید استفاده می‌کنیم.

فعلاً نتیجه ابداً بی‌نقص نیست. نمونه‌ها هنوز آثاری از صداهای دیجیتالی دارند، چندان واضح نیستند و تفاوت‌هایی محسوس با صدای واقعی انسان دارند؛ اما با شنیدن صدا می‌توان تشخیص داد قرار بوده صدای چه کسی شبیه‌سازی شود. شیوه تلفظ و زیروبم شدن صدا نیز کاملاً واضح است. محصول Lyrebird برخلاف سایر سیستم‌ها، به اطلاعات کمتری از هر شخص برای تولید صدای جدید نیاز دارد و به‌صورت بلادرنگ کار می‌کند. کمپانی تصمیم گرفته محصول خود را به شرکت‌هایی که به شبیه‌سازی صدا نیاز دارند بفروشد.

Sotelo گفت:

فعلاً در حال افزایش بودجه و گسترش تیم مهندسی خود هستیم. در حال حاضر بر بهبود کیفیت صدا تمرکز کرده‌ایم تا کمتر رباتیک و مصنوعی به نظر برسد و امیدواریم که به‌زودی وارد فاز تست بتای برنامه بشویم.

شبیه‌سازی صدای انسان با مشکلات اخلاقی و نگرانی‌های امنیتی نیز همراه است. درنهایت نسخه پیشرفته‌ای از این سیستم می‌تواند صدای اشخاص را با دقت بالا تولید کند. روزی فرا خواهد رسید که صدای صحبت افراد درست مانند عکس‌های ویرایش شده در فتوشاپ دست‌کاری می‌شوند و ما به‌سادگی قادر به تشخیص آن نخواهیم بود. افراد سودجو می‌توانند با تغییر دادن لحن صحبت‌های سیاست‌مداران، معنای غیرمستقیم جدیدی به گفتار آن‌ها بدهند. هکرها می‌توانند از شبیه‌سازی گفتار افراد، برای مهندسی اجتماعی استفاده کنند و حتی محتاط‌ترین متخصصان امنیت را هم فریب بدهند. همان‌طور که متوجه شدید، راه‌های سوءاستفاده از این تکنولوژی تقریباً بی‌پایان هستند.

تیم Lyrebird نیز به این موارد سوءاستفاده احتمالی آگاه است؛ اما امید دارد که از این تکنولوژی برای اهداف خوب و سازنده استفاده شود؛ مثلاً جهت کمک به بیمارانی که صدا و توانایی سخن گفتن خود را ازدست‌داده‌اند. تیم باور دارد که کار درست، پخش عمومی این تکنولوژی و آگاه کردن مردم است. تا نهایتاً استفاده از آن به‌عنوان مدرک متوقف شود.

در آینده تنها با شنیدن صداهای ضبط‌شده قادر به تشخیص اعتبار آن‌ها نخواهیم بود؛ اما می‌توانیم سیستم‌هایی را توسعه دهیم که صحت و ساختگی نبودن صداها را تشخیص بدهند. شاید بتوان انسان را با صدای دیجیتالی گول زد، اما کامپیوترها فریب نمی‌خورند؛ حداقل نه به این زودی. به‌عنوان‌مثال تشخیص نبود صداهای پس‌زمینه، وجود فضای آکوستیک مصنوعی یا صدای محیط افزوده برای یک ماشین، کار آسانی خواهد بود.

پردازش امواج و فرکانس صدای ضبط‌شده باکیفیت انسان، می‌تواند حجم عظیمی از اطلاعات را برای پردازش تحویل کامپیوتر بدهد. مدت‌زمان بسیار زیادی تا اینکه یک شبیه‌ساز صدای انسان بتواند از تمام جنبه‌های متمایزکننده بیان اشخاص تقلید کند، طول خواهد کشید. از صدای نفس گرفتن بین حرف زدن گرفته تا صدای زبان و برخورد لب‌ها، جزئیات زیادی در حرف زدن هر فرد وجود دارد.

درنهایت ممکن است نرم‌افزار تقلید صدا به‌قدری پیشرفت کند که حتی به کمک ماشین نیز مرز بین حقیقت و دروغ را تشخیص ندهیم.

منبع gizmodo
شاید بخوای اینا رو هم بخونی:

نوشتن دیدگاه

آدرس ایمیل شما منتشر نخواهد شد.

دیدگاه شما پس از بررسی توسط تحریریه منتشر خواهد شد. در صورتی که در بخش نظرات سوالی پرسیده‌اید اگر ما دانش کافی از پاسخ آن داشتیم حتماً پاسخگوی شما خواهیم بود در غیر این صورت تنها به امید دریافت پاسخ مناسب از دیگران آن را منتشر خواهیم کرد.