مشاهده اخبار از طریق شبکه های اجتماعیمشاهده
محققان چینی هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کردهاند که میتواند فقط با یک تصویر پرتره ثابت، ویدیوهایی واقعگرایانه و قابلکنترل از چهرههای درحال صحبت تولید کند
به گزارش پایگاه خبری علم و فناوری :محققان چینی هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کردهاند که میتواند فقط با یک تصویر پرتره ثابت، ویدیوهایی واقعگرایانه و قابلکنترل از چهرههای درحال صحبت تولید کند. این مدل از معماری پیشرفته مبتنیبر Video Diffusion Transformer بهره میبرد و با استفاده از تکنیکهای هماهنگسازی صوتی-تصویری، هماهنگی دقیقی میان حرکات لب، حالات چهره، حرکات بدن و صدای ورودی ایجاد میکند.
طبق توضیحات صفحه Github این پروژه، در قلب آن استراتژی دومرحلهای برای همگامسازی صوت و تصویر وجود دارد. در مرحله اول، مدل با آموزش در سطح کلیپ، حرکات کلی صحنه شامل چهره، اشیای اطراف و پسزمینه را با صدای ورودی هماهنگ میکند. در مرحله دوم، جزئیات حرکات لب با دقت فریمبهفریم و با استفاده از ماسکهای خاصی اصلاح میشود تا کامل با صدا منطبق شود.
این فناوری میتواند کاربردهای گستردهای در صنعت سرگرمی، آموزش و ارتباطات داشته باشد و به تولید محتوای واقعگرایانه و جذاب کمک کند. با پیشرفتهای بیشتر در این زمینه، انتظار میرود که هوش مصنوعی FantasyTalking تحولی در نحوه تعامل ما با شخصیتهای دیجیتال ایجاد کند.
1403/03/22 12:05
1403/03/22 11:56
1403/03/22 11:46
1403/03/22 11:37
1403/03/22 11:34
1403/03/22 10:14
1403/03/22 09:34
1403/03/22 09:32
1403/03/22 08:53