هوش مصنوعی جدید nVidia برای تبدیل متن به ویدئو، سرعت دیوانه کننده ای از پیشرفت را نشان می دهد
“خواهد شد اسمیت در حال خوردن اسپاگتی» همین یک یا دو ماه پیش هوش مصنوعی تولید متن به ویدیو را شبیه یک شوخی به نظر میرساند، اما nVidia اکنون سیستم جدیدی را به نمایش گذاشته است که به نظر میرسد تلاشهای قبلی را از آب درآورده است. سرعت پیشرفت در اینجا شگفتانگیز است.
که در کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگوی ۲۰۲۳ ارائه شد، تولیدکننده ویدیوی جدید nVidia به عنوان یک مدل انتشار پنهان (LDM) شروع به کار کرد که برای تولید تصاویر از متن آموزش دیده است، و سپس یک مرحله اضافی را معرفی می کند که در آن سعی می کند تصویر را با استفاده از آنچه از مطالعه هزاران ویدیوی موجود آموخته است متحرک کند.
این زمان را به عنوان یک بعد ردیابی شده اضافه می کند و LDM وظیفه تخمین چیزی که احتمالاً تغییر می کند را دارد. در هر ناحیه از یک تصویر در یک دوره معین. تعدادی فریم کلیدی در طول دنباله ایجاد میکند، سپس از LDM دیگری برای درونیابی فریمها در بین فریمهای کلیدی استفاده میکند و تصاویری با کیفیت مشابه برای هر تصویر در دنباله ایجاد میکند.
????این غم انگیز است! هیچ چیز در این ویدیو واقعی نیست، همه چیز #AI است تولید شده توسط تیم NVIDIA با استفاده از LDM های ویدئویی خود!
این یک شبیهسازی سناریوی رانندگی خاص است که با آموزش یک LDM فقط با تصویر شرطی شده با جعبه محدود است
و موارد دیگر در موضوع ???? pic.twitter.com/sQIPLE6x7H
— Min Choi (@minchoi) 20 آوریل 2023
nVidia سیستم را با استفاده از فیلمهای کمکیفیت به سبک داشکم آزمایش کرد و دریافت که میتواند چندین دقیقه از این نوع ویدیو را بهصورت «از لحاظ زمانی منسجم» با وضوح ۱۰۲۴×۵۱۲ تولید کند. وضوح پیکسل – یک شاهکار بی سابقه در این زمینه پر سرعت.
اما همچنین میتواند با وضوح بسیار بالاتر و در طیف وسیعی از سبکهای بصری دیگر کار کند. این تیم از این سیستم برای تولید مجموعه ای از ویدئوهای نمونه با وضوح 1280 در 2048 پیکسل، به سادگی از طریق پیام های متنی استفاده کرد. این ویدیوها هر کدام شامل 113 فریم هستند و با سرعت 24 فریم در ثانیه رندر می شوند، بنابراین مدت زمان آنها حدود 4.7 ثانیه است. به نظر می رسد که فشار دادن بسیار فراتر از آن از نظر زمان کل، همه چیز را از بین می برد و چیزهای عجیب و غریب بیشتری را معرفی می کند.
آنها هنوز به وضوح توسط هوش مصنوعی تولید می شوند، و هنوز اشتباهات عجیب و غریب زیادی وجود دارد. همچنین به نوعی واضح است که فریم های کلیدی در بسیاری از ویدیوها با سرعت عجیب و کند شدن حرکت در اطراف آنها قرار دارند. اما از نظر کیفیت تصویر، اینها یک جهش باورنکردنی به جلو نسبت به آنچه با ModelScope در آغاز این ماه.
NVIDIA مدلی را برای تولید متن با وضوح بالا برای تولید ویدیو اعلام می کند. میتواند ویدیوهایی با وضوح حداکثر 1280 x 2048 تولید کند. pic.twitter.com/waRXCQFWfa— bleedingedge.ai (@bleedingedgeai) 23 آوریل
بسیار باورنکردنی است که این سیستمهای هوش مصنوعی شگفتانگیز را در این روزهای شکلگیری تماشا کنید و متوجه شوید که تصاویر و ویدیوها چگونه کار میکنند. به همه چیزهایی که آنها باید بفهمند فکر کنید – فضای سه بعدی، و اینکه چگونه یک افکت اختلاف منظر واقعی ممکن است در صورت جابجایی دوربین به دنبال داشته باشد. سپس نحوه رفتار مایعات وجود دارد، از منظره پرتاب کننده امواجی که به صخره ها در هنگام غروب خورشید برخورد می کنند، تا حرکت آرامی که توسط یک اردک شنا به جا می ماند، تا نحوه مخلوط شدن و کف کردن شیر بخار پز هنگام ریختن آن در قهوه.
سپس انعکاسهای ظریفی در حال تغییر روی یک کاسه انگور در حال چرخش است. یا نحوه حرکت یک مزرعه گل در باد. یا نحوه انتشار شعله های آتش در امتداد کنده ها در آتش کمپ و لیسیدن به سمت بالا در آسمان. این یعنی چیزی از تنوع گسترده رفتارهای انسانی و حیوانی که برای بازآفرینی نیاز دارد، چیزی نمی گوید.
???? NVIDIA تحقیق متن به ویدئو را منتشر کرد
“Align your Latent:سنتز ویدئویی با وضوح بالا با مدلهای انتشار پنهان”
“فقط 2.7 بیلیون از این پارامترها بر روی ویدئوها آموزش داده میشوند. این بدان معناست که مدلهای ما بهطور قابلتوجهی کوچکتر از مدلهای چندین کار همزمان هستند.… pic.twitter.com/z868xAkwyT
— Zaesar ???? aifilms.ai ???? (@zaesarius) 19 آوریل 2023
از نظر من، این تجسم سرعت وحشیانه پیشرفت در سراسر طیف وسیعی از پروژههای هوش مصنوعی مولد، از مدلهای زبانی مانند ChatGPT گرفته تا سیستمهای تولید تصویر، ویدئو، صدا و موسیقی است. شما نگاهی اجمالی به این سیستم ها می اندازید و به طور مسخره ای غیرممکن به نظر می رسند، سپس به طرز خنده داری بد هستند، و نکته بعدی که می دانید، به طرز شگفت آوری خوب و بسیار مفید هستند. ما در حال حاضر جایی بین خنده دار بد و شگفت آور خوب هستیم.
به نظر می رسد nVidia در طراحی این سیستم به دنبال ارائه اولین توانایی جهانی برای گرفتن تصاویر و همچنین اعلان های متنی است، یعنی شما ممکن است بتوانید تصاویر خود یا تصاویر خود را از هر ژنراتور هوش مصنوعی آپلود کنید و آنها را به صورت ویدیو توسعه دهید. برای مثال، با توجه به تعدادی عکس از کرمیت قورباغه، توانست ویدیویی از او در حال نواختن گیتار و آواز خواندن یا تایپ کردن روی لپتاپ تولید کند.
بنابراین به نظر میرسد که در مقطعی نسبتاً زود، میتوانید این هوش مصنوعیها را به هم متصل کنید تا اشکال سرگرمی یکپارچهای مضحک ایجاد کنید. یک مدل زبان ممکن است یک کتاب کودکان بنویسد و یک تولید کننده تصویر آن را نشان دهد. سپس مدلی مانند این ممکن است متن هر صفحه را بگیرد و از آن برای متحرک سازی تصاویر استفاده کند، و سایر هوش مصنوعی ها در جلوه های صوتی واقعی، صداها و تنظیم دقیق ترک های موسیقی. یک کتاب کودک به یک فیلم کوتاه تبدیل میشود و حس بصری تصاویر را کاملاً حفظ میکند.
و از آنجا، آنها ممکن است شروع به مدلسازی کل محیطها برای هر صحنه به صورت سهبعدی، ایجاد یک تجربه VR همهجانبه یا ساختن یک بازی ویدیویی پیرامون داستان کنند. و اگر این اتفاق بیفتد، میتوانید مستقیماً با هر شخصیتی درباره هر چیزی که دوست دارید صحبت کنید، زیرا کاراکترهای AI سفارشی از قبل قادر به انجام مکالمات کلامی بسیار پیچیده و آموزنده هستند.
“متراز کردن پنهانهای خود: ترکیب ویدئو با وضوح بالا با مدلهای انتشار پنهان” از NVIDIA برخی با وضوح بسیار بالا ، خروجی متن به ویدیوی منسجم زمانی از این مدل، که روی دنبالههای ویدیویی بهخوبی تنظیم میشود (با یک ارتقاء مقیاسکننده زمانی آگاه). pic.twitter.com/LEjTohe39k
— بن فرنز (@ben_ferns) 19 آوریل 2023
احمقانهتر از همه، هوش مصنوعی فراگیر احتمالاً در نوشتن اعلانها برای به دست آوردن نتایج برجسته از سایر هوش مصنوعیهای زنجیره، و همچنین ارزیابی نتایج و درخواست تجدیدنظر، بسیار بهتر از شما یا من خواهد بود. – بنابراین کل این پروژه ها می توانند از یک درخواست واحد و چند درخواست تغییر تکرار شونده تولید شوند. این چیزها کاملاً تکان دهنده است. در نقطهای نزدیکتر از آنچه فکر میکنید، میتوانید در عرض چند دقیقه از ایده مفهومی به یک فرنچایز سرگرمی کامل بپرید.
در حال حاضر، nVidia با این سیستم بهجای یک پروژه تحقیقاتی برخورد میکند. به عنوان یک محصول مصرفی احتمالاً، شرکت علاقه چندانی به پرداخت هزینه های پردازش یک سیستم باز ندارد – که احتمالاً قابل توجه است. احتمالاً همچنین به دنبال اجتناب از مسائل مربوط به حق نسخهبرداری است که ممکن است از مجموعه دادههای آموزشی آن ناشی شود، و واضح است که وقتی این سیستمها شروع به تولید ویدیوی واقعی از چیزهایی میکنند که هرگز رخ ندادهاند، خطرات دیگری نیز وجود دارد که باید از آنها اجتناب کرد.
اما اشتباه نکنید: این چیزها در راه است، و با سرعتی به دست میآیند که ممکن است برای شما هیجانانگیز یا وحشتناک باشد. ما در زمانهایی زندگی میکنیم که بهعنوان زمانهای جالبی به یاد میمانند – اگر هر کسی که در اطراف است یادآوری را انجام دهد.
منبع: nVidia
منبع: اطلس نیوز