مدل جدید هوش مصنوعی متا هر شیء موجود در ویدیوهای شما را برچسب گذاری و ردیابی می کند

شناسهٔ خبر: 663620 - تاریخ: جولای 31, 2024

(اعتبار تصویر: متا)

متا یک مدل هوش مصنوعی جدید دارد که می تواند هر شیء را در یک ویدیو در حین حرکت برچسب زده و دنبال کند. Segment Anything Model 2 (SAM 2) قابلیت های مدل قبلی خود، SAM را که محدود به تصاویر بود، گسترش می دهد و فرصت های جدیدی را برای ویرایش و تجزیه و تحلیل ویدیو باز می کند.

بخش بندی بلادرنگ SAM 2 یک جهش فنی بالقوه بزرگ است. این نشان می‌دهد که چگونه هوش مصنوعی می‌تواند تصاویر متحرک را پردازش کند و بین عناصر روی صفحه تمایز قائل شود، حتی زمانی که آنها در اطراف یا خارج از کادر حرکت می‌کنند و دوباره به داخل باز می‌گردند.

Segmentation اصطلاحی است که نشان می دهد چگونه نرم افزار تعیین می کند که کدام پیکسل ها در یک تصویر به کدام اشیاء تعلق دارند. یک دستیار هوش مصنوعی که می تواند این کار را انجام دهد پردازش یا ویرایش تصاویر پیچیده را بسیار آسان تر می کند. این پیشرفت SAM اصلی متا بود. SAM به بخش‌بندی تصاویر سونار از صخره‌های مرجانی، تجزیه تصاویر ماهواره‌ای برای کمک به تلاش‌های امدادی در بلایای طبیعی و حتی تجزیه و تحلیل تصاویر سلولی برای تشخیص سرطان پوست کمک کرده است.

SAM 2 ظرفیت ویدیو را افزایش می دهد، که این کار کوچکی نیست و تا همین اواخر امکان پذیر نبود. به عنوان بخشی از اولین SAM 2، متا یک پایگاه داده از 50000 ویدیو ایجاد شده برای آموزش این مدل را به اشتراک گذاشت. این بالاتر از 100000 ویدیوی دیگری است که متا از آنها استفاده کرده است. همراه با تمام داده‌های آموزشی، تقسیم‌بندی ویدیوی بلادرنگ مقدار قابل‌توجهی از قدرت محاسباتی را می‌گیرد، پس در حالی که SAM 2 در حال حاضر باز و رایگان است، احتمالاً برای همیشه به همین شکل باقی نخواهد ماند.

بخش موفقیت

با استفاده از SAM 2، ویرایشگرهای ویدئویی می‌توانند اشیاء درون یک صحنه را راحت‌تر از توانایی‌های محدود نرم‌افزار ویرایش فعلی و بسیار فراتر از تنظیم دستی هر فریم، جداسازی و دستکاری کنند. متا تصور می کند که SAM 2 نیز انقلابی در ویدیوهای تعاملی ایجاد کند. به لطف مدل هوش مصنوعی، کاربران می توانند اشیاء را در ویدیوهای زنده یا فضاهای مجازی انتخاب و دستکاری کنند.

متا فکر می‌کند که SAM 2 می‌تواند نقش مهمی در توسعه و آموزش سیستم‌های بینایی کامپیوتری، به‌ویژه در خودروهای خودران، ایفا کند. ردیابی دقیق و کارآمد اشیاء برای این سیستم ها برای تفسیر و پیمایش ایمن محیط آنها ضروری است. قابلیت های SAM 2 می تواند فرآیند حاشیه نویسی داده های بصری را تسریع کند و داده های آموزشی با کیفیت بالا را برای این سیستم های هوش مصنوعی ارائه دهد.

بسیاری از هیاهوهای ویدیویی هوش مصنوعی در مورد تولید ویدیو از طریق پیام های متنی است. مدل‌هایی مانند Sora، Runway و Google Veo از OpenAI به دلایلی توجه زیادی را به خود جلب می‌کنند. با این حال، نوع توانایی ویرایش ارائه شده توسط SAM 2 ممکن است نقش مهمتری در تعبیه هوش مصنوعی در ایجاد ویدیو داشته باشد.

و در حالی که متا ممکن است در حال حاضر برتری داشته باشد، سایر توسعه دهندگان ویدیوی هوش مصنوعی مشتاق تولید نسخه خود هستند. به عنوان مثال، تحقیقات اخیر گوگل به آپشن های خلاصه‌سازی ویدیو و تشخیص اشیا منجر شده است که در YouTube آزمایش می‌کند. Adobe و ابزارهای هوش مصنوعی Firefly آن نیز بر روی ویرایش عکس و ویدیو متمرکز شده‌اند و شامل آپشن های پر کردن محتوا و بازفریم‌سازی خودکار هستند.

دیگر اخبار

بیشتر بخوانید

تمساح و زرافه سر سفره هفت‌سین سینما /تصویر متفاوت بهرام افشاری در فیلمی ساخته خودش

جانی دپ «مودی» را تمام کرد/ انتشار تصاویری از فیلم

شما همچنین ممکن است دوست داشته باشید ...

اریک هال شوارتز یک نویسنده مستقل برای TechRadar با بیش از 15 سال تجربه در پوشش تقاطع جهان و فناوری است. در پنج سال گذشته، او به‌عنوان سرپرست برای Voicebot.ai خدمت کرد و در زمینه گزارش‌دهی در زمینه هوش مصنوعی و مدل‌های زبان بزرگ پیشرو بود. او از آن زمان در محصولات مدل‌های هوش مصنوعی مولد، مانند ChatGPT، Anthropic's Claude، Google Gemini، و هر ابزار رسانه مصنوعی دیگر متخصص شد. تجربه او طیف وسیعی از رسانه ها را شامل می شود، از جمله رویدادهای چاپی، دیجیتال، پخش و زنده. اکنون، او به گفتن داستان‌هایی که مردم می‌خواهند و نیاز دارند در مورد فضای به‌سرعت در حال تکامل هوش مصنوعی و تأثیر آن بر زندگی‌شان بشنوند، ادامه می‌دهد. اریک در شهر نیویورک مستقر است.