متا یک مدل هوش مصنوعی جدید دارد که می تواند هر شیء را در یک ویدیو در حین حرکت برچسب زده و دنبال کند. Segment Anything Model 2 (SAM 2) قابلیت های مدل قبلی خود، SAM را که محدود به تصاویر بود، گسترش می دهد و فرصت های جدیدی را برای ویرایش و تجزیه و تحلیل ویدیو باز می کند.
بخش بندی بلادرنگ SAM 2 یک جهش فنی بالقوه بزرگ است. این نشان میدهد که چگونه هوش مصنوعی میتواند تصاویر متحرک را پردازش کند و بین عناصر روی صفحه تمایز قائل شود، حتی زمانی که آنها در اطراف یا خارج از کادر حرکت میکنند و دوباره به داخل باز میگردند.
Segmentation اصطلاحی است که نشان می دهد چگونه نرم افزار تعیین می کند که کدام پیکسل ها در یک تصویر به کدام اشیاء تعلق دارند. یک دستیار هوش مصنوعی که می تواند این کار را انجام دهد پردازش یا ویرایش تصاویر پیچیده را بسیار آسان تر می کند. این پیشرفت SAM اصلی متا بود. SAM به بخشبندی تصاویر سونار از صخرههای مرجانی، تجزیه تصاویر ماهوارهای برای کمک به تلاشهای امدادی در بلایای طبیعی و حتی تجزیه و تحلیل تصاویر سلولی برای تشخیص سرطان پوست کمک کرده است.
SAM 2 ظرفیت ویدیو را افزایش می دهد، که این کار کوچکی نیست و تا همین اواخر امکان پذیر نبود. به عنوان بخشی از اولین SAM 2، متا یک پایگاه داده از 50000 ویدیو ایجاد شده برای آموزش این مدل را به اشتراک گذاشت. این بالاتر از 100000 ویدیوی دیگری است که متا از آنها استفاده کرده است. همراه با تمام دادههای آموزشی، تقسیمبندی ویدیوی بلادرنگ مقدار قابلتوجهی از قدرت محاسباتی را میگیرد، پس در حالی که SAM 2 در حال حاضر باز و رایگان است، احتمالاً برای همیشه به همین شکل باقی نخواهد ماند.
بخش موفقیت
با استفاده از SAM 2، ویرایشگرهای ویدئویی میتوانند اشیاء درون یک صحنه را راحتتر از تواناییهای محدود نرمافزار ویرایش فعلی و بسیار فراتر از تنظیم دستی هر فریم، جداسازی و دستکاری کنند. متا تصور می کند که SAM 2 نیز انقلابی در ویدیوهای تعاملی ایجاد کند. به لطف مدل هوش مصنوعی، کاربران می توانند اشیاء را در ویدیوهای زنده یا فضاهای مجازی انتخاب و دستکاری کنند.
متا فکر میکند که SAM 2 میتواند نقش مهمی در توسعه و آموزش سیستمهای بینایی کامپیوتری، بهویژه در خودروهای خودران، ایفا کند. ردیابی دقیق و کارآمد اشیاء برای این سیستم ها برای تفسیر و پیمایش ایمن محیط آنها ضروری است. قابلیت های SAM 2 می تواند فرآیند حاشیه نویسی داده های بصری را تسریع کند و داده های آموزشی با کیفیت بالا را برای این سیستم های هوش مصنوعی ارائه دهد.
بسیاری از هیاهوهای ویدیویی هوش مصنوعی در مورد تولید ویدیو از طریق پیام های متنی است. مدلهایی مانند Sora، Runway و Google Veo از OpenAI به دلایلی توجه زیادی را به خود جلب میکنند. با این حال، نوع توانایی ویرایش ارائه شده توسط SAM 2 ممکن است نقش مهمتری در تعبیه هوش مصنوعی در ایجاد ویدیو داشته باشد.
و در حالی که متا ممکن است در حال حاضر برتری داشته باشد، سایر توسعه دهندگان ویدیوی هوش مصنوعی مشتاق تولید نسخه خود هستند. به عنوان مثال، تحقیقات اخیر گوگل به آپشن های خلاصهسازی ویدیو و تشخیص اشیا منجر شده است که در YouTube آزمایش میکند. Adobe و ابزارهای هوش مصنوعی Firefly آن نیز بر روی ویرایش عکس و ویدیو متمرکز شدهاند و شامل آپشن های پر کردن محتوا و بازفریمسازی خودکار هستند.
ارسال نظر