پیشنهادی فروشگاه فایل کارینت
تکنولوژی

هوش مصنوعی جدید nVidia برای تبدیل متن به ویدئو، سرعت دیوانه کننده ای از پیشرفت را نشان می دهد

“خواهد شد اسمیت در حال خوردن اسپاگتی» همین یک یا دو ماه پیش هوش مصنوعی تولید متن به ویدیو را شبیه یک شوخی به نظر می‌رساند، اما nVidia اکنون سیستم جدیدی را به نمایش گذاشته است که به نظر می‌رسد تلاش‌های قبلی را از آب درآورده است. سرعت پیشرفت در اینجا شگفت‌انگیز است.

که در کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگوی ۲۰۲۳ ارائه شد، تولیدکننده ویدیوی جدید nVidia به عنوان یک مدل انتشار پنهان (LDM) شروع به کار کرد که برای تولید تصاویر از متن آموزش دیده است، و سپس یک مرحله اضافی را معرفی می کند که در آن سعی می کند تصویر را با استفاده از آنچه از مطالعه هزاران ویدیوی موجود آموخته است متحرک کند.

این زمان را به عنوان یک بعد ردیابی شده اضافه می کند و LDM وظیفه تخمین چیزی که احتمالاً تغییر می کند را دارد. در هر ناحیه از یک تصویر در یک دوره معین. تعدادی فریم کلیدی در طول دنباله ایجاد می‌کند، سپس از LDM دیگری برای درون‌یابی فریم‌ها در بین فریم‌های کلیدی استفاده می‌کند و تصاویری با کیفیت مشابه برای هر تصویر در دنباله ایجاد می‌کند.

nVidia سیستم را با استفاده از فیلم‌های کم‌کیفیت به سبک داش‌کم آزمایش کرد و دریافت که می‌تواند چندین دقیقه از این نوع ویدیو را به‌صورت «از لحاظ زمانی منسجم» با وضوح ۱۰۲۴×۵۱۲ تولید کند. وضوح پیکسل – یک شاهکار بی سابقه در این زمینه پر سرعت.

اما همچنین می‌تواند با وضوح بسیار بالاتر و در طیف وسیعی از سبک‌های بصری دیگر کار کند. این تیم از این سیستم برای تولید مجموعه ای از ویدئوهای نمونه با وضوح 1280 در 2048 پیکسل، به سادگی از طریق پیام های متنی استفاده کرد. این ویدیوها هر کدام شامل 113 فریم هستند و با سرعت 24 فریم در ثانیه رندر می شوند، بنابراین مدت زمان آنها حدود 4.7 ثانیه است. به نظر می رسد که فشار دادن بسیار فراتر از آن از نظر زمان کل، همه چیز را از بین می برد و چیزهای عجیب و غریب بیشتری را معرفی می کند.

آنها هنوز به وضوح توسط هوش مصنوعی تولید می شوند، و هنوز اشتباهات عجیب و غریب زیادی وجود دارد. همچنین به نوعی واضح است که فریم های کلیدی در بسیاری از ویدیوها با سرعت عجیب و کند شدن حرکت در اطراف آنها قرار دارند. اما از نظر کیفیت تصویر، اینها یک جهش باورنکردنی به جلو نسبت به آنچه با ModelScope در آغاز این ماه.

بسیار باورنکردنی است که این سیستم‌های هوش مصنوعی شگفت‌انگیز را در این روزهای شکل‌گیری تماشا کنید و متوجه شوید که تصاویر و ویدیوها چگونه کار می‌کنند. به همه چیزهایی که آنها باید بفهمند فکر کنید – فضای سه بعدی، و اینکه چگونه یک افکت اختلاف منظر واقعی ممکن است در صورت جابجایی دوربین به دنبال داشته باشد. سپس نحوه رفتار مایعات وجود دارد، از منظره پرتاب کننده امواجی که به صخره ها در هنگام غروب خورشید برخورد می کنند، تا حرکت آرامی که توسط یک اردک شنا به جا می ماند، تا نحوه مخلوط شدن و کف کردن شیر بخار پز هنگام ریختن آن در قهوه.

سپس انعکاس‌های ظریفی در حال تغییر روی یک کاسه انگور در حال چرخش است. یا نحوه حرکت یک مزرعه گل در باد. یا نحوه انتشار شعله های آتش در امتداد کنده ها در آتش کمپ و لیسیدن به سمت بالا در آسمان. این یعنی چیزی از تنوع گسترده رفتارهای انسانی و حیوانی که برای بازآفرینی نیاز دارد، چیزی نمی گوید.

از نظر من، این تجسم سرعت وحشیانه پیشرفت در سراسر طیف وسیعی از پروژه‌های هوش مصنوعی مولد، از مدل‌های زبانی مانند ChatGPT گرفته تا سیستم‌های تولید تصویر، ویدئو، صدا و موسیقی است. شما نگاهی اجمالی به این سیستم ها می اندازید و به طور مسخره ای غیرممکن به نظر می رسند، سپس به طرز خنده داری بد هستند، و نکته بعدی که می دانید، به طرز شگفت آوری خوب و بسیار مفید هستند. ما در حال حاضر جایی بین خنده دار بد و شگفت آور خوب هستیم.

به نظر می رسد nVidia در طراحی این سیستم به دنبال ارائه اولین توانایی جهانی برای گرفتن تصاویر و همچنین اعلان های متنی است، یعنی شما ممکن است بتوانید تصاویر خود یا تصاویر خود را از هر ژنراتور هوش مصنوعی آپلود کنید و آنها را به صورت ویدیو توسعه دهید. برای مثال، با توجه به تعدادی عکس از کرمیت قورباغه، توانست ویدیویی از او در حال نواختن گیتار و آواز خواندن یا تایپ کردن روی لپ‌تاپ تولید کند.

بنابراین به نظر می‌رسد که در مقطعی نسبتاً زود، می‌توانید این هوش مصنوعی‌ها را به هم متصل کنید تا اشکال سرگرمی یکپارچه‌ای مضحک ایجاد کنید. یک مدل زبان ممکن است یک کتاب کودکان بنویسد و یک تولید کننده تصویر آن را نشان دهد. سپس مدلی مانند این ممکن است متن هر صفحه را بگیرد و از آن برای متحرک سازی تصاویر استفاده کند، و سایر هوش مصنوعی ها در جلوه های صوتی واقعی، صداها و تنظیم دقیق ترک های موسیقی. یک کتاب کودک به یک فیلم کوتاه تبدیل می‌شود و حس بصری تصاویر را کاملاً حفظ می‌کند.

و از آنجا، آنها ممکن است شروع به مدل‌سازی کل محیط‌ها برای هر صحنه به صورت سه‌بعدی، ایجاد یک تجربه VR همه‌جانبه یا ساختن یک بازی ویدیویی پیرامون داستان کنند. و اگر این اتفاق بیفتد، می‌توانید مستقیماً با هر شخصیتی درباره هر چیزی که دوست دارید صحبت کنید، زیرا کاراکترهای AI سفارشی از قبل قادر به انجام مکالمات کلامی بسیار پیچیده و آموزنده هستند.

احمقانه‌تر از همه، هوش مصنوعی فراگیر احتمالاً در نوشتن اعلان‌ها برای به دست آوردن نتایج برجسته از سایر هوش مصنوعی‌های زنجیره، و همچنین ارزیابی نتایج و درخواست تجدیدنظر، بسیار بهتر از شما یا من خواهد بود. – بنابراین کل این پروژه ها می توانند از یک درخواست واحد و چند درخواست تغییر تکرار شونده تولید شوند. این چیزها کاملاً تکان دهنده است. در نقطه‌ای نزدیک‌تر از آنچه فکر می‌کنید، می‌توانید در عرض چند دقیقه از ایده مفهومی به یک فرنچایز سرگرمی کامل بپرید.

در حال حاضر، nVidia با این سیستم به‌جای یک پروژه تحقیقاتی برخورد می‌کند. به عنوان یک محصول مصرفی احتمالاً، شرکت علاقه چندانی به پرداخت هزینه های پردازش یک سیستم باز ندارد – که احتمالاً قابل توجه است. احتمالاً همچنین به دنبال اجتناب از مسائل مربوط به حق نسخه‌برداری است که ممکن است از مجموعه داده‌های آموزشی آن ناشی شود، و واضح است که وقتی این سیستم‌ها شروع به تولید ویدیوی واقعی از چیزهایی می‌کنند که هرگز رخ نداده‌اند، خطرات دیگری نیز وجود دارد که باید از آنها اجتناب کرد.

اما اشتباه نکنید: این چیزها در راه است، و با سرعتی به دست می‌آیند که ممکن است برای شما هیجان‌انگیز یا وحشتناک باشد. ما در زمان‌هایی زندگی می‌کنیم که به‌عنوان زمان‌های جالبی به یاد می‌مانند – اگر هر کسی که در اطراف است یادآوری را انجام دهد.

منبع: nVidia

منبع: اطلس نیوز

امتیاز بدید
‫0/5 ‫(0 نظر)
مشاهده بیشتر

تحریریه کارینت

مطالب فناوری، آموزشی، ترفند های وب و موبایل و کلی مطلب دیگه رو در وبلاگ کارینت دنبال کنید :) | ما را در تلگرام دنبال کنید (@karynet)

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

همچنین ببینید
بستن
دکمه بازگشت به بالا