پایگاه خبری علم و فناوری

1404-01-26 18:59
- شماره خبر : 16364

علمی، پژوهشی و فناوری

هوش مصنوعی FantasyTalking معرفی شد؛ ساخت شخصیت‌های سخنگوی واقع‌گرایانه+فیلم

محققان چینی هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کرده‌اند که می‌تواند فقط با یک تصویر پرتره ثابت، ویدیوهایی واقع‌گرایانه و قابل‌کنترل از چهره‌های درحال صحبت تولید کند

به گزارش پایگاه خبری علم و فناوری :محققان چینی هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کرده‌اند که می‌تواند فقط با یک تصویر پرتره ثابت، ویدیوهایی واقع‌گرایانه و قابل‌کنترل از چهره‌های درحال صحبت تولید کند. این مدل از معماری پیشرفته مبتنی‌بر Video Diffusion Transformer بهره می‌برد و با استفاده از تکنیک‌های هماهنگ‌سازی صوتی-تصویری، هماهنگی دقیقی میان حرکات لب، حالات چهره، حرکات بدن و صدای ورودی ایجاد می‌کند.

طبق توضیحات صفحه Github این پروژه، در قلب آن استراتژی دومرحله‌ای برای همگام‌سازی صوت و تصویر وجود دارد. در مرحله اول، مدل با آموزش در سطح کلیپ، حرکات کلی صحنه شامل چهره، اشیای اطراف و پس‌زمینه را با صدای ورودی هماهنگ می‌کند. در مرحله دوم، جزئیات حرکات لب با دقت فریم‌به‌فریم و با استفاده از ماسک‌های خاصی اصلاح می‌شود تا کامل با صدا منطبق شود.

این فناوری می‌تواند کاربردهای گسترده‌ای در صنعت سرگرمی، آموزش و ارتباطات داشته باشد و به تولید محتوای واقع‌گرایانه و جذاب کمک کند. با پیشرفت‌های بیشتر در این زمینه، انتظار می‌رود که هوش مصنوعی FantasyTalking تحولی در نحوه تعامل ما با شخصیت‌های دیجیتال ایجاد کند.