به احتمال زیاد، ویدیوهای دیپفیک را مشاهده کردهاید. در این ویدیوها از الگوریتمهای یادگیری عمیق استفاده شده و بدین ترتیب رفتارهای دو نفر با یکدیگر جایگزین میشوند. در صدای دیپفیک یک صوت شبیهسازی شده غیرقابل تشخیص استفاده شده تا بدین ترتیب بتوان صدای مصنوعی فرد موردنظر را تولید کرد؛ دقیقا همانند فتوشاپ کردن صدا.
حداقل فتوشاپهای غیرحرفهای را میتوان تشخیص داد، اما در مورد دیپفیک صوتی فقط میتوان حدس زد، آن هم با میزان درستی 57 درصد! علاوه بر این، از آنجایی که بسیاری از ضبطهای صدا توسط میکروفن گوشیها انجام میپذیرد (یا در محیطهای پر سروصدا)، پس دیپفیک صوتی میتوانند بهتر کار خود را انجام دهد. حال سؤال اینجا است که چرا یک شخص باید به فتوشاپ کردن صدا بپردازد؟
یکی از این موارد به صنعت بازیهای ویدیویی مربوط میشود. در گذشته امکان نداشت که صدا را به محض درخواست، ایجاد کرد. حتی در عناوین تعاملی که از گرافیک سینمایی نیز برخوردار هستند، ارتباطات کلامی با شخصیتهای غیرقابل بازی، چندان پویا به نظر نمیرسند.
حال با پیشرفت فناوری، استودیوهای بازیسازی نیز میتوانند صدای شخصیتها را شبیهسازی کرده و با استفاده از یک موتور تبدیل کننده متن به صوت، سخنان شخصیتهای درون بازیها را پویاتر نشان دهند. در واقع این فرایند در زمان واقعی رخ داده و از پیش تعیین و رندر نمیشود.
البته این فناوری استفادههایی نیز در تبلیغات، فناوری و خدمات پشتیبانی از مشتریان دارد. در اینجا نیز صدای یک انسان قابل اعتماد شبیهسازی شده و متون گفتار نیز توسط هوش مصنوعی تعیین و ادا میشوند. شرکتهای شبیهسازی صدا، در مورد کاربردهای پزشکی این فناوری نیز هیجانزده هستند. البته این موضوع چندان جدید نبوده و در واقع استیون هاوکینگ نیز از صدای مصنوعی استفاده میکرد. اما حال چنین مواردی میتوانند بهبود بیشتری را تجربه کنند.
در سال 2008، شرکت شبیهسازی صدای CereProc، صدای راجر ایبرت (Roger Ebert) را پس از سرطان گرفتن وی، شبیهسازی کرد. همچنین این شرکت وبسایتی را نیز ایجاد کرده بود که در آن مردم میتوانستند متنی را تایپ کرده و سپس این متن با صدای جورج بوش، بیان شود.
شبیهسازی صدا در حال حاضر از محبوبیت مناسبی برخوردار است. شرکتهایی همانند Resemble AI و Descript وبسایتهایی را دایر کردهاند که میتوانید در آنها بهصورت رایگان، صدای خود را شبیهسازی کنید. در این زمینه هوش مصنوعی و مخصوصا الگوریتمهای یادگیری عمیق هستند که میتوانند صدای ضبط شده را با متن مربوطه تطبیق داده و در نتیجه صدای شما را شبیهسازی کنند. در ادامه هوش مصنوعی از بلوکهای ساختاری زبان استفاده کرده تا بدین ترتیب بتواند تقریبی از کلماتی را که تا به حال از زبان شما نشنیده، به دست آورد.
متیو آیلت (Matthew Aylett)؛ مدیر ارشد علمی شرکت CereProc میگوید: “پایه این فناوری مدتها است که وجود دارد، اما تنها به مقداری کمک نیاز دارد. کپی کردن صدا همانند درست کردت شیرینی است. این کار کمی سخت بوده و همچنین راههای مختلفی نیز جهت انجام آن وجود دارند.”
توسعهدهندگان جهت کسب نتایج مورد قبول، به مقادیر زیادی از صداهای ضبط شده نیاز دارند. چند سال پیش، دانشمندان شبکههای GAN را توسعه دادند. بدین ترتیب برای اولین بار، امکان قیاس از دادههای موجود فراهم شد. آیلت میگوید: “به جای اینکه یک رایانه، تصویری را از یک اسب مشاهده کند و بگوید که این اسب است، مدل من اکنون میتواند یک اسب را به یک گورخر تبدیل کند. بنابراین پیشرفتهای شبیهسازی صدا، مدیون تلاشهای آکادمیک حوزه رایانه هستند.”
یکی از مهمترین پیشرفتها در زمینه شبیهسازی صدا، مربوط به کاهش حجم صدای اولیه موردنیاز است. در گذشته حجم بالایی از صدای شخص موردنیاز بود، اما اکنون تنها چند دقیقه کافی است.
اگر پس از گوش دادن به صدای یک شخص، به سختی بتوانیم مصنوعی بودن آن را متوجه شویم، آنگاه این موضوع میتواند حاوی خبرهای خوب و بدی برای ما باشد. خبر خوب این است که هوش مصنوعی و سیستمهای یادگیری عمیق در حال تکامل بوده و جهت تولید صدایی واقعی، به ورودیهای کمتری احتیاج دارند. خبر بد هم این است که تشخیص موارد تقلبی و همچنین کلاهبرداریها نیز مشکلتر میشود.
هر چقدر طول یک فایل کمتر باشد و در محیطهای شلوغتری نیز ضبط شده باشد، آنگاه تشخیص دیپفیک بودن آن نیز سختتر خواهد شد. نکتهای که در این بین وجود دارد، این است که اگر انسانها قادر به تشخیص صدای تقلبی نباشند، در هر صورت کامپیوترها قادر به انجام این کار خواهند بود. خوشبختانه ابزارهای تصدیق هماکنون نیز وجود دارند. شرکت Pindrop ابزاری را استفاده میکند که حتی اگر تمامی صداهای فایل مورد بررسی نیز توسط شخص واقعی ضبط شده باشند، بازهم بتواند مصنوعی بودن صدای شبیهسازی شده را تشخیص دهد.
بسته به کیفیت صدا، هر ثانیه از مکالمه میتواند بین 8000 الی 50000 نمونه داده جهت تحلیل را در بر داشته باشد. بالاسوبرامانیان میگوید: “چیزی که ما به دنبال آن هستیم، محدودیتهای گفتاری ناشی از تکامل انسانها هستند. بهعنوان مثال، دو صدای آواز، حداقل تفاوتهایی را با یکدیگر دارند، زیرا به دلیل محدودیتهای فیزیکی، نمیتوان برخی از عبارات را از حدی سریعتر بیان کرد. مثلا با شنیدن برخی از صداهای ترکیبی، میگوییم که امکان ندارد این صدا متعلق به یک انسان باشد، زیرا برای ادای آن، فرد باید یک گردن 7 فوتی داشته باشد.”
برخی صداها نیز وجود دارند که سایشی نامیده میشود (حروفی همانند F ،S ،V و Z). سیستمهای یادگیری عمیق بهسختی میتوانند این صداها را از نویزها تمایز دهند. الگوریتمهای هوش مصنوعی بهسختی میتوانند پایان کلمات را از نویز پسزمینه تمایز دهند، بنابراین محو شدن کلمات در چنین مدلهایی، بیش از گفتار واقعی انسانها رخ میدهد. به همین دلیل رایانهها آسانتر میتوانند مصنوعی بودن صدا را تشخیص دهند.
مقابله با دیپفیک، هوشیاری میطلبد
پیشبینی دقیق آینده دیپفیک صوتی، دشوار است. اما میتوان گفت که ما در آستانه کلاهبرداریهای صوتی قرار داریم، هر چند که خطر وقوع چنین مواردی در حال حاضر پایین بوده و ابزارهای تشخیصی نیز میتوانند کار خود را بهخوبی انجام دهند.
هنری آجِر (Henry Ajder)؛ مدیر بخش تهدید اطلاعاتی در Deeptrace، میگوید: “اگر مردم ابزارهای دیپفیک صوتی متن-باز را به یکدیگر متصل کرده و سپس آنها را در قالب اپلیکیشن و یا سرویسهای کاربرپسند (و بدون تعهدات اخلاقی) عرضه کنند، آنگاه مشکلات متعددی در این زمینه به وجود خواهند آمد.”
بدین ترتیب، حیاتی است که شرکتهای امنیتی خود را در برابر چنین تهدیدهایی مقاوم کرده و بهعنوان مثال بتوانند آسیبپذیری روز-صفر بعدی را بهتر درک کنند که طبیعتا دیپفیک صوتی کاندیدای اصلی این موضوع خواهد بود.
منبع:howtogeek