ربات جدید مایکروسافت هر صدایی را تقلید می‌کند

به گزارش شبکه خبری ICTPRESS، مایکروسافت جدیدترین پژوهش‌های خود را در زمینه تبدیل متن به گفتار با مدلی به نام VALL-E نشان داده است که می‌تواند صدای افراد را تنها از یک نمونه صوتی سه ثانیه‌ای شبیه‌سازی کند.

پژوهشگران شرکت مایکروسافت این مدل چشمگیر جدید هوش مصنوعی تبدیل متن به گفتار را به نحوی طراحی کرده‌اند که می‌تواند فقط چند ثانیه به یک صدا گوش دهد، سپس آن صدا را تقلید کند و هرچه کاربر دوست دارد، بگوید.

گفتار نه تنها می‌تواند با صدای گوینده، بلکه با لحن احساسی وی و حتی آکوستیک یک اتاق همخوانی داشته باشد.

مایکروسافت می‌گوید، روزی می‌توان از این ربات برای برنامه‌های کاربردی تبدیل متن به گفتار سفارشی یا پیشرفته استفاده کرد، اگرچه مانند فناوری دیپ‌فیک(جعل عمیق)، خطر سوءاستفاده را نیز به همراه دارد.

ربات هوش مصنوعی VALL-E چیزی است که مایکروسافت آن را «مدل زبان عصبی کدک»(neural codec language model) می‌نامد که از شبکه فشرده‌سازی عصبی شرکت «متا» موسوم به Encodec مشتق شده است که صدا را از ورودی متن و نمونه‌های کوتاه از بلندگوی هدف تولید می‌کند.

پژوهشگران در مقاله‌ای، نحوه آموزش دیدن VALL-E را با ۶۰ هزار ساعت گفتار انگلیسی از بیش از ۷۰۰۰ سخنران در کتابخانه صوتی LibriLight متا شرح داده‌اند. صدایی که این ربات سعی می‌کند تقلید کند باید با صدای داده‌های آموزشی مطابقت داشته باشد.

این گروه دقیقاً نشان می‌دهد که این کار توسط VALL-E چقدر خوب انجام می‌شود. بنابراین برای هر عبارتی که می‌خواهید هوش مصنوعی آن را بگوید، یک پیام سه ثانیه‌ای از گوینده برای تقلید کافی است.

البته نتایج کار این ربات در حال حاضر، ترکیبی است و برخی از آنها شبیه به صدای ماشینی و برخی دیگر به طرز شگفت آوری واقعی هستند.

این واقعیت که VALL-E لحن احساسی نمونه‌های اصلی را حفظ می‌کند، نکته برجسته آن است. همچنین کاملاً با محیط آکوستیک مطابقت دارد، بنابراین اگر گوینده صدای خود را در سالن پژواک ضبط کند، خروجی VALL-E نیز به نظر می‌رسد که از همان مکان آمده است.

کار Vall-E در تقلید لهجه‌ها نیز بسیار خوب است و حداقل لهجه‌های آمریکایی، بریتانیایی و چند لهجه اروپایی را به خوبی تقلید می‌کند.

مایکروسافت برای بهبود این مدل قصد دارد داده‌های آموزشی خود را «برای بهبود عملکرد مدل در قواعد زبانی، سبک گفتاری و شباهت به صدای سخنران» افزایش دهد. همچنین در حال بررسی راه‌هایی برای کاهش کلماتی است که نامفهوم یا فراموش شده‌اند.

پیامدهای این نوع فناوری کاملاً واضح است. از جنبه مثبت می‌توان این گونه در نظر گرفت که کاربران می‌توانند از این ربات بخواهند مثلا لیست خرید آنها را با صدای هنرپیشگان و صداپیشگان مشهور برایشان بخواند. یا اگر بازیگری در نیمه راه فیلمبرداری یک فیلم فوت کند، می‌توان با استفاده از این فناوری و جلوه‌های ویژه پروژه را پایان رساند.

اما جنبه منفی آن نیز این است که خبر خوبی برای صداپیشه‌ها و گویندگان نیست، چرا که هوش مصنوعی ممکن است بتواند گویندگی را به سرعت و بسیار ارزان انجام دهد، اما خب نمی‌توان انتظار زیادی از آن داشت تا چندان هنرمندانه باشد.

پتانسیل کلاهبرداری با این فناوری نیز بسیار بالاست. اگر یک کلاهبردار بتواند برای سه ثانیه با شما تلفنی صحبت کند، می‌تواند صدای شما را بدزدد و با آن با خویشاوندانتان تماس بگیرد یا با آن می‌توان هر دستگاه امنیتی تشخیص صدا را دور زد.

مایکروسافت احتمالاً به دلیل خطرات ذاتی این ربات هوش مصنوعی که می‌تواند کلمات دلخواه را در دهان شخص دیگری بگذارد، کد آن را به صورت منبع‌باز قرار نداده است، چرا که از آنجایی که VALL-E می‌تواند گفتار را به صورتی ترکیب کند که هویت گوینده را تقلید کند، ممکن است خطرات بالقوه‌ای در استفاده نادرست، مانند جعل صدا یا جعل هویت داشته باشد.

این الگوریتم جدید نمونه‌ای از بسیاری از الگوریتم‌های هوش مصنوعی است که می‌تواند صدای ضبط شده یک فرد را تقلید کند و کلمات و جملاتی را بیان کند که شخص مورد نظر هرگز آنها را بازگو نکرده است.

ظهور هوش مصنوعی‌های خلاق مانند DALL-E، ربات گفتگوگر ChatGPT، الگوریتم‌های دیپ‌فیک مختلف و تعداد بی‌شماری از الگوریتم‌های دیگر به نظر می‌رسد که در چند ماه گذشته در نقطه عطف قرار گرفته و شروع به خارج شدن از آزمایشگاه‌ها و ورود به دنیای واقعی کرده است. این فناوری‌ها نیز مانند همه تغییرات دیگر، فرصت‌ها و خطراتی را به همراه دارند و حاکی از آن هستند که ما واقعاً در زمان جالبی زندگی می‌کنیم.