سایت خبرکاو

جستجوگر هوشمند اخبار و مطالب فناوری

جدیدترین مدل OpenAI Sora می‌تواند ویدیو تولید کند – و ظاهر مناسبی دارند

OpenAI، به دنبال استارت آپ هایی مانند Runway و غول های فناوری مانند گوگل و متا، در حال ورود به تولید ویدیو است. OpenAI امروز از Sora، یک مدل GenAI که ویدیو را از متن ایجاد می کند، رونمایی کرد. OpenAI ادعا می‌کند که با توجه به توضیح مختصر یا دقیق یا یک تصویر ثابت، Sora می‌تواند صحنه‌هایی شبیه فیلم 1080p با شخصیت‌های متعدد، انواع مختلف حرکت و جزئیات پس‌زمینه ایجاد کند. Sora همچنین می‌تواند کلیپ‌های ویدیویی ...

OpenAI، به دنبال استارت آپ هایی مانند Runway و غول های فناوری مانند گوگل و متا، در حال ورود به تولید ویدیو است.

OpenAI امروز از Sora، یک مدل GenAI که ویدیو را از متن ایجاد می کند، رونمایی کرد. OpenAI ادعا می‌کند که با توجه به توضیح مختصر یا دقیق یا یک تصویر ثابت، Sora می‌تواند صحنه‌هایی شبیه فیلم 1080p با شخصیت‌های متعدد، انواع مختلف حرکت و جزئیات پس‌زمینه ایجاد کند.

Sora همچنین می‌تواند کلیپ‌های ویدیویی موجود را «بسط» کند - تمام تلاش خود را برای پر کردن جزئیات از دست رفته انجام می‌دهد.

OpenAI در یک پست وبلاگ می نویسد: "Sora درک عمیقی از زبان دارد و آن را قادر می سازد تا به طور دقیق اعلان ها را تفسیر کند و شخصیت های قانع کننده ای ایجاد کند که احساسات پر جنب و جوش را بیان می کنند." " مدل نه تنها آنچه را که کاربر در اعلان درخواست کرده است، بلکه چگونگی وجود آن چیزها در دنیای فیزیکی را نیز درک می کند."

اکنون، در صفحه نمایشی OpenAI برای Sora، انفجارهای زیادی وجود دارد - بیانیه بالا یک مثال است. اما نمونه‌های انتخاب شده از این مدل، حداقل در مقایسه با سایر فناوری‌های تبدیل متن به ویدیو که دیده‌ایم، نسبتاً چشمگیر به نظر می‌رسند .

برای شروع، Sora می‌تواند ویدیوها را در طیف وسیعی از سبک‌ها (مثلاً واقعی، متحرک، سیاه و سفید، و غیره) تا یک دقیقه تولید کند - بسیار طولانی‌تر از اکثر مدل‌های تبدیل متن به ویدیو. و این ویدیوها انسجام معقولی را حفظ می‌کنند به این معنا که همیشه تسلیم چیزی نمی‌شوند که من دوست دارم آن را «عجیب هوش مصنوعی» بنامم، مانند اجسامی که در جهت‌های فیزیکی غیرممکن حرکت می‌کنند.

این گشت و گذار در یک گالری هنری را که همگی توسط Sora ایجاد شده است، تحلیل کنید (غذا بودن را نادیده بگیرید - فشرده سازی از ابزار تبدیل ویدیو به GIF من):

OpenAI Sora

اعتبار تصویر: OpenAI

یا این انیمیشن شکفتن یک گل:

OpenAI Sora

اعتبار تصویر: OpenAI

من می گویم که برخی از ویدیوهای سورا با یک سوژه انسان نما - برای مثال رباتی که در برابر منظره شهری ایستاده است یا شخصی که در مسیری برفی قدم می زند - دارای کیفیت بازی ویدیویی هستند، شاید به این دلیل که چیزهای زیادی در جریان نیست. در پس زمینه. عجایب هوش مصنوعی می‌تواند در بسیاری از کلیپ‌ها نفوذ کند، مانند اتومبیل‌هایی که در یک جهت حرکت می‌کنند و سپس به طور ناگهانی دنده عقب می‌روند یا بازوها در پوشش لحاف ذوب می‌شوند.

OpenAI Sora

اعتبار تصویر: OpenAI

OpenAI - با همه موارد فوق العاده اش - تصدیق می کند که این مدل کامل نیست. می نویسد:

[سورا] ممکن است با شبیه سازی دقیق فیزیک یک صحنه پیچیده مشکل داشته باشد و ممکن است موارد خاصی از علت و معلول را درک نکند. به عنوان مثال، ممکن است فردی از یک کوکی گاز بگیرد، اما پس از آن، کوکی ممکن است علامت نیش نداشته باشد. این مدل همچنین ممکن است جزئیات فضایی یک اعلان را اشتباه بگیرد، به عنوان مثال، اختلاط چپ و راست، و ممکن است با توصیف دقیق رویدادهایی که در طول زمان رخ می‌دهند، مانند دنبال کردن یک مسیر دوربین خاص، مشکل داشته باشد.

OpenAI بسیار Sora را به عنوان یک پیش‌نمایش تحقیقاتی قرار می‌دهد، و اطلاعات کمی در مورد داده‌های مورد استفاده برای آموزش مدل (کمتر از 10000 ساعت ویدیوی "با کیفیت بالا") فاش می‌کند و از در دسترس قرار دادن Sora به طور کلی خودداری می‌کند. دلیل آن احتمال سوء استفاده است. OpenAI به درستی اشاره می کند که بازیگران بد می توانند از مدلی مانند Sora به روش های بی شماری سوء استفاده کنند.

OpenAI می گوید در حال کار با کارشناسان است تا مدل اکسپلویت ها و ابزارهای ساخت را تحلیل کند تا تشخیص دهد که آیا یک ویدیو توسط سورا تولید شده است یا خیر. این شرکت همچنین او میگوید که اگر مدل را در یک محصول عمومی بسازد، مطمئن می‌شود که ابرداده‌های منشأ در خروجی‌های تولید شده گنجانده شده است.

OpenAI می نویسد: "ما سیاست گذاران، مربیان و هنرمندان در سراسر جهان را برای درک نگرانی های آنها و شناسایی موارد استفاده مثبت از این فناوری جدید درگیر خواهیم کرد. " با وجود تحقیقات و آزمایش‌های گسترده، ما نمی‌توانیم تمام روش‌های مفیدی که مردم از فناوری ما استفاده می‌کنند و همچنین همه راه‌هایی که مردم از آن سوء استفاده می‌کنند را پیش‌بینی کنیم. به همین دلیل است که ما بر این باوریم که یادگیری از استفاده در دنیای واقعی یک جزء حیاتی در ایجاد و انتشار سیستم‌های هوش مصنوعی ایمن در طول زمان است.

خبرکاو