زاکربرگ به همراه جنسن هوانگ، مدیر عامل انویدیا، آخرین هوش مصنوعی ویژن متا را به نمایش گذاشت.

شناسهٔ خبر: 662567 - تاریخ: جولای 30, 2024

متا سال گذشته با Segment Anything، یک مدل یادگیری ماشینی که می‌توانست تقریباً هر چیزی را در یک تصویر به سرعت و به‌طور قابل اعتماد شناسایی و ترسیم کند، موفقیت قابل‌توجهی داشت. دنباله‌ای که مارک زاکربرگ، مدیرعامل آن روز دوشنبه در SIGGRAPH روی صحنه رفت، مدل را به حوزه ویدیویی می‌برد و نشان می‌دهد که میدان چقدر سریع در حال حرکت است.

Segmentation اصطلاح فنی برای زمانی است که یک مدل بینایی به یک تصویر نگاه می کند و قطعات را انتخاب می کند: "این یک سگ است، این یک درخت پشت سگ است" امیدوارم، و نه "این درختی است که از یک سگ رشد می کند." این برای دهه‌ها اتفاق افتاده است، اما اخیراً بسیار بهتر و سریع‌تر شده است و Segment Anything یک گام بزرگ به جلو است.

Segment Anything 2 (SA2) یک پیگیری طبیعی است، زیرا به طور بومی برای ویدیو و نه فقط تصاویر ثابت اعمال می شود. البته می‌توانید اولین مدل را روی هر فریم ویدیو به‌صورت جداگانه اجرا کنید، اما این کارآمدترین گردش کار نیست.

بیشتر بخوانید

این دسته موجران مشمول معافیت مالیاتی بر اجاره می‌شوند

دانشمندان از این مواد برای مطالعه، مانند صخره های مرجانی و زیستگاه های طبیعی، چیزهایی مانند آن استفاده می کنند. زاکربرگ در گفتگو با جنسن هوانگ، مدیرعامل انویدیا، گفت: «اما اینکه بتوانید این کار را در ویدیو انجام دهید و آن را بدون عکس بگیرید و به آن بگویید چه می‌خواهید، بسیار جالب است. »

البته پردازش ویدئو از نظر محاسباتی بسیار سخت‌تر است و گواهی بر پیشرفت‌های صورت گرفته در صنعت در کارایی است که SA2 می‌تواند بدون ذوب کردن مرکز داده اجرا کند. البته، هنوز هم یک مدل بزرگ است که برای کار کردن به سخت افزار جدی نیاز دارد، اما تقسیم بندی سریع و انعطاف پذیر حتی یک سال پیش عملاً غیرممکن بود.

این مدل، مانند مدل اول، باز و رایگان برای استفاده خواهد بود، و خبری از نسخه میزبانی شده نیست، چیزی که این شرکت‌های هوش مصنوعی گاهی ارائه می‌دهند. اما یک نسخه آزمایشی رایگان وجود دارد.

طبیعتاً چنین مدلی برای آموزش به حجم زیادی داده نیاز دارد و متا همچنین یک پایگاه داده بزرگ و حاشیه نویسی از 50000 ویدیو را که فقط برای این منظور ایجاد کرده است منتشر می کند. در مقاله ای که SA2 را توصیف می کند، پایگاه داده دیگری از بیش از 100000 ویدیوی «در دسترس داخلی» نیز برای آموزش استفاده شده است، و این یکی در دسترس عموم قرار نمی گیرد - من از متا برای اطلاعات بیشتر در مورد اینکه این چیست و چرا منتشر نمی شود درخواست کرده ام. . (حدس ما این است که از پروفایل های عمومی اینستاگرام و فیس بوک تهیه شده است. )

نمونه هایی از داده های آموزشی برچسب گذاری شده

متا چند سالی است که در حوزه هوش مصنوعی "باز" پیشرو بوده است، اگرچه در واقع (همانطور که زاکربرگ در گفتگو اظهار داشت) برای مدت طولانی با ابزارهایی مانند PyTorch این کار را انجام می دهد. اما اخیراً، LLaMa، Segment Anything و چند مدل دیگر که آزادانه ارائه می‌شوند، به نوار نسبتاً قابل دسترسی برای عملکرد هوش مصنوعی در آن مناطق تبدیل شده‌اند، اگرچه «باز بودن» آنها موضوع بحث است.

دیگر اخبار

روزیاتو: M1917؛ داستان حیرت انگیز و جالب اولین تانکی که ایالات متحده ساخت + ویدیو

زاکربرگ بيان کرد که این گشاده رویی کاملاً از خوبی قلب آنها در متا نیست، اما این بدان معنا نیست که نیت آنها ناپاک است:

این فقط مانند یک نرم افزار نیست که بتوانید بسازید - شما به یک اکوسیستم در اطراف آن نیاز دارید. اگر ما آن را منبع باز نمی کردیم، تقریباً حتی به خوبی کار نمی کرد، درست است؟ ما این کار را انجام نمی‌دهیم زیرا مردمی نوع‌دوست هستیم، حتی اگر فکر می‌کنم این برای اکوسیستم مفید خواهد بود - ما این کار را انجام می‌دهیم زیرا فکر می‌کنیم این چیزی را که در حال ساختن آن هستیم، می‌سازد. بهترین."