جدیدترین مدل OpenAI Sora میتواند ویدیو تولید کند – و ظاهر مناسبی دارند
OpenAI، به دنبال استارت آپ هایی مانند Runway و غول های فناوری مانند گوگل و متا، در حال ورود به تولید ویدیو است.
OpenAI امروز از Sora، یک مدل GenAI که ویدیو را از متن ایجاد می کند، رونمایی کرد. OpenAI ادعا میکند که با توجه به توضیح مختصر یا دقیق یا یک تصویر ثابت، Sora میتواند صحنههایی شبیه فیلم 1080p با شخصیتهای متعدد، انواع مختلف حرکت و جزئیات پسزمینه ایجاد کند.
Sora همچنین میتواند کلیپهای ویدیویی موجود را «بسط» کند - تمام تلاش خود را برای پر کردن جزئیات از دست رفته انجام میدهد.
OpenAI در یک پست وبلاگ می نویسد: "Sora درک عمیقی از زبان دارد و آن را قادر می سازد تا به طور دقیق اعلان ها را تفسیر کند و شخصیت های قانع کننده ای ایجاد کند که احساسات پر جنب و جوش را بیان می کنند." " مدل نه تنها آنچه را که کاربر در اعلان درخواست کرده است، بلکه چگونگی وجود آن چیزها در دنیای فیزیکی را نیز درک می کند."
اکنون، در صفحه نمایشی OpenAI برای Sora، انفجارهای زیادی وجود دارد - بیانیه بالا یک مثال است. اما نمونههای انتخاب شده از این مدل، حداقل در مقایسه با سایر فناوریهای تبدیل متن به ویدیو که دیدهایم، نسبتاً چشمگیر به نظر میرسند .
برای شروع، Sora میتواند ویدیوها را در طیف وسیعی از سبکها (مثلاً واقعی، متحرک، سیاه و سفید، و غیره) تا یک دقیقه تولید کند - بسیار طولانیتر از اکثر مدلهای تبدیل متن به ویدیو. و این ویدیوها انسجام معقولی را حفظ میکنند به این معنا که همیشه تسلیم چیزی نمیشوند که من دوست دارم آن را «عجیب هوش مصنوعی» بنامم، مانند اجسامی که در جهتهای فیزیکی غیرممکن حرکت میکنند.
این گشت و گذار در یک گالری هنری را که همگی توسط Sora ایجاد شده است، تحلیل کنید (غذا بودن را نادیده بگیرید - فشرده سازی از ابزار تبدیل ویدیو به GIF من):
یا این انیمیشن شکفتن یک گل:
من می گویم که برخی از ویدیوهای سورا با یک سوژه انسان نما - برای مثال رباتی که در برابر منظره شهری ایستاده است یا شخصی که در مسیری برفی قدم می زند - دارای کیفیت بازی ویدیویی هستند، شاید به این دلیل که چیزهای زیادی در جریان نیست. در پس زمینه. عجایب هوش مصنوعی میتواند در بسیاری از کلیپها نفوذ کند، مانند اتومبیلهایی که در یک جهت حرکت میکنند و سپس به طور ناگهانی دنده عقب میروند یا بازوها در پوشش لحاف ذوب میشوند.
OpenAI - با همه موارد فوق العاده اش - تصدیق می کند که این مدل کامل نیست. می نویسد:
[سورا] ممکن است با شبیه سازی دقیق فیزیک یک صحنه پیچیده مشکل داشته باشد و ممکن است موارد خاصی از علت و معلول را درک نکند. به عنوان مثال، ممکن است فردی از یک کوکی گاز بگیرد، اما پس از آن، کوکی ممکن است علامت نیش نداشته باشد. این مدل همچنین ممکن است جزئیات فضایی یک اعلان را اشتباه بگیرد، به عنوان مثال، اختلاط چپ و راست، و ممکن است با توصیف دقیق رویدادهایی که در طول زمان رخ میدهند، مانند دنبال کردن یک مسیر دوربین خاص، مشکل داشته باشد.
OpenAI بسیار Sora را به عنوان یک پیشنمایش تحقیقاتی قرار میدهد، و اطلاعات کمی در مورد دادههای مورد استفاده برای آموزش مدل (کمتر از 10000 ساعت ویدیوی "با کیفیت بالا") فاش میکند و از در دسترس قرار دادن Sora به طور کلی خودداری میکند. دلیل آن احتمال سوء استفاده است. OpenAI به درستی اشاره می کند که بازیگران بد می توانند از مدلی مانند Sora به روش های بی شماری سوء استفاده کنند.
OpenAI می گوید در حال کار با کارشناسان است تا مدل اکسپلویت ها و ابزارهای ساخت را تحلیل کند تا تشخیص دهد که آیا یک ویدیو توسط سورا تولید شده است یا خیر. این شرکت همچنین او میگوید که اگر مدل را در یک محصول عمومی بسازد، مطمئن میشود که ابردادههای منشأ در خروجیهای تولید شده گنجانده شده است.
OpenAI می نویسد: "ما سیاست گذاران، مربیان و هنرمندان در سراسر جهان را برای درک نگرانی های آنها و شناسایی موارد استفاده مثبت از این فناوری جدید درگیر خواهیم کرد. " با وجود تحقیقات و آزمایشهای گسترده، ما نمیتوانیم تمام روشهای مفیدی که مردم از فناوری ما استفاده میکنند و همچنین همه راههایی که مردم از آن سوء استفاده میکنند را پیشبینی کنیم. به همین دلیل است که ما بر این باوریم که یادگیری از استفاده در دنیای واقعی یک جزء حیاتی در ایجاد و انتشار سیستمهای هوش مصنوعی ایمن در طول زمان است.
ارسال نظر