- تکنولوژی

دیپ‌فیک صوتی چیست؟

به احتمال زیاد، ویدیوهای دیپ‌فیک را مشاهده کرده‌اید. در این ویدیوها از الگوریتم‌های یادگیری عمیق استفاده شده و بدین ترتیب رفتارهای دو نفر با یکدیگر جایگزین می‌شوند. در صدای دیپ‌فیک یک صوت شبیه‌سازی شده غیرقابل تشخیص استفاده شده تا بدین ترتیب بتوان صدای مصنوعی فرد موردنظر را تولید کرد؛ دقیقا همانند فتوشاپ کردن صدا.

حداقل فتوشاپ‌های غیرحرفه‌ای را می‌توان تشخیص داد، اما در مورد دیپ‌فیک صوتی فقط می‌توان حدس زد، آن هم با میزان درستی 57 درصد! علاوه بر این، از آنجایی که بسیاری از ضبط‌های صدا توسط میکروفن گوشی‌ها انجام می‌پذیرد (یا در محیط‌های پر سروصدا)، پس دیپ‌فیک صوتی می‌توانند بهتر کار خود را انجام دهد. حال سؤال اینجا است که چرا یک شخص باید به فتوشاپ کردن صدا بپردازد؟

یکی از این موارد به صنعت بازی‌های ویدیویی مربوط می‌شود. در گذشته امکان نداشت که صدا را به محض درخواست، ایجاد کرد. حتی در عناوین تعاملی که از گرافیک سینمایی نیز برخوردار هستند، ارتباطات کلامی با شخصیت‌های غیرقابل بازی، چندان پویا به نظر نمی‌رسند.

حال با پیشرفت فناوری، استودیوهای بازی‌سازی نیز می‌توانند صدای شخصیت‌ها را شبیه‌سازی کرده و با استفاده از یک موتور تبدیل کننده متن به صوت، سخنان شخصیت‌های درون بازی‌ها را پویاتر نشان دهند. در واقع این فرایند در زمان واقعی رخ داده و از پیش تعیین و رندر نمی‌شود.

البته این فناوری استفاده‌هایی نیز در تبلیغات، فناوری و خدمات پشتیبانی از مشتریان دارد. در اینجا نیز صدای یک انسان قابل اعتماد شبیه‌سازی شده و متون گفتار نیز توسط هوش مصنوعی تعیین و ادا می‌شوند. شرکت‌های شبیه‌سازی صدا، در مورد کاربردهای پزشکی این فناوری نیز هیجان‌زده هستند. البته این موضوع چندان جدید نبوده و در واقع استیون هاوکینگ نیز از صدای مصنوعی استفاده می‌کرد. اما حال چنین مواردی می‌توانند بهبود بیشتری را تجربه کنند.

‌در سال 2008، شرکت شبیه‌سازی صدای CereProc، صدای راجر ایبرت (Roger Ebert) را پس از سرطان گرفتن وی، شبیه‌سازی کرد. همچنین این شرکت وب‌سایتی را نیز ایجاد کرده بود که در آن مردم می‌توانستند متنی را تایپ کرده و سپس این متن با صدای جورج بوش، بیان شود.

شبیه‌سازی صدا در حال حاضر از محبوبیت مناسبی برخوردار است. شرکت‌هایی همانند  Resemble AI و Descript وب‌سایت‌هایی را دایر کرده‌اند که می‌توانید در آن‌ها به‌صورت رایگان، صدای خود را شبیه‌سازی کنید. در این زمینه هوش مصنوعی و مخصوصا الگوریتم‌های یادگیری عمیق هستند که می‌توانند صدای ضبط شده را با متن مربوطه تطبیق داده و در نتیجه صدای شما را شبیه‌سازی کنند. در ادامه هوش مصنوعی از بلوک‌های ساختاری زبان استفاده کرده تا بدین ترتیب بتواند تقریبی از کلماتی را که تا به حال از زبان شما نشنیده، به دست آورد.

متیو آیلت (Matthew Aylett)؛ مدیر ارشد علمی شرکت CereProc می‌گوید: “پایه این فناوری مدت‌ها است که وجود دارد، اما تنها به مقداری کمک نیاز دارد. کپی کردن صدا همانند درست کردت شیرینی است. این کار کمی سخت بوده و همچنین راه‌های مختلفی نیز جهت انجام آن وجود دارند.”

توسعه‌دهندگان جهت کسب نتایج مورد قبول، به مقادیر زیادی از صداهای ضبط شده نیاز دارند. چند سال پیش، دانشمندان شبکه‌های GAN را توسعه ‌دادند. بدین ترتیب برای اولین بار، امکان قیاس از داده‌های موجود فراهم شد. آیلت می‌گوید: “به جای اینکه یک رایانه، تصویری را از یک اسب مشاهده کند و بگوید که این اسب است، مدل من اکنون می‌تواند یک اسب را به یک گورخر تبدیل کند. بنابراین پیشرفت‌های شبیه‌سازی صدا، مدیون تلاش‌های آکادمیک حوزه رایانه هستند.”

یکی از مهم‌ترین پیشرفت‌ها در زمینه شبیه‌سازی صدا، مربوط به کاهش حجم صدای اولیه موردنیاز است. در گذشته حجم بالایی از صدای شخص موردنیاز بود، اما اکنون تنها چند دقیقه کافی است.

اگر پس از گوش دادن به صدای یک شخص، به سختی بتوانیم مصنوعی بودن آن را متوجه شویم، آنگاه این موضوع می‌تواند حاوی خبرهای خوب و بدی برای ما باشد. خبر خوب این است که هوش مصنوعی و سیستم‌های یادگیری عمیق در حال تکامل بوده و جهت تولید صدایی واقعی، به ورودی‌های کمتری احتیاج دارند. خبر بد هم این است که تشخیص موارد تقلبی و همچنین کلاهبرداری‌ها نیز مشکل‌تر می‌شود.

هر چقدر طول یک فایل کمتر باشد و در محیط‌های شلوغ‌تری نیز ضبط شده باشد، آنگاه تشخیص دیپ‌فیک بودن آن نیز سخت‌تر خواهد شد. نکته‌ای که در این بین وجود دارد، این است که اگر انسان‌ها قادر به تشخیص صدای تقلبی نباشند، در هر صورت کامپیوترها قادر به انجام این کار خواهند بود. خوشبختانه ابزارهای تصدیق هم‌اکنون نیز وجود دارند. شرکت Pindrop ابزاری را استفاده می‌کند که حتی اگر تمامی صداهای فایل مورد بررسی نیز توسط شخص واقعی ضبط شده باشند، بازهم بتواند مصنوعی بودن صدای شبیه‌سازی شده را تشخیص دهد.

بسته به کیفیت صدا، هر ثانیه از مکالمه می‌تواند بین 8000 الی 50000 نمونه داده جهت تحلیل را در بر داشته باشد. بالاسوبرامانیان می‌گوید: “چیزی که ما به دنبال آن هستیم، محدودیت‌های گفتاری ناشی از تکامل انسان‌ها هستند. به‌عنوان مثال، دو صدای آواز، حداقل تفاوت‌هایی را با یکدیگر دارند، زیرا به دلیل محدودیت‌های فیزیکی، نمی‌توان برخی از عبارات را از حدی سریع‌تر بیان کرد. مثلا با شنیدن برخی از صداهای ترکیبی، می‌گوییم که امکان ندارد این صدا متعلق به یک انسان باشد، زیرا برای ادای آن، فرد باید یک گردن 7 فوتی داشته باشد.”

برخی صداها نیز وجود دارند که سایشی نامیده می‌شود (حروفی همانند F ،S ،V و Z). سیستم‌های یادگیری عمیق به‌سختی می‌توانند این صداها را از نویزها تمایز دهند. الگوریتم‌های هوش مصنوعی به‌سختی می‌توانند پایان کلمات را از نویز پس‌زمینه تمایز دهند، بنابراین محو شدن کلمات در چنین مدل‌هایی، بیش از گفتار واقعی انسان‌ها رخ می‌دهد. به همین دلیل رایانه‌ها آسان‌تر می‌توانند مصنوعی بودن صدا را تشخیص دهند.

مقابله با دیپ‌‎فیک، هوشیاری می‌طلبد

پیش‌بینی دقیق آینده دیپ‌فیک صوتی، دشوار است. اما می‌توان گفت که ما در آستانه کلاهبرداری‌های صوتی قرار داریم، هر چند که خطر وقوع چنین مواردی در حال حاضر پایین بوده و ابزارهای تشخیصی نیز می‌توانند کار خود را به‌خوبی انجام دهند.

هنری آجِر (Henry Ajder)؛ مدیر بخش تهدید اطلاعاتی در Deeptrace، می‌گوید: “اگر مردم ابزارهای دیپ‌فیک صوتی متن-باز را به یکدیگر متصل کرده و سپس آن‌ها را در قالب اپلیکیشن و یا سرویس‌های کاربرپسند (و بدون تعهدات اخلاقی) عرضه کنند، آنگاه مشکلات متعددی در این زمینه به وجود خواهند آمد.”

بدین ترتیب، حیاتی است که شرکت‌های امنیتی خود را در برابر چنین تهدیدهایی مقاوم کرده و به‌عنوان مثال بتوانند آسیب‌پذیری روز-صفر بعدی را بهتر درک کنند که طبیعتا دیپ‌فیک صوتی کاندیدای اصلی این موضوع خواهد بود.

منبع:howtogeek

دیدگاهتان را بنویسید