زاکربرگ به همراه جنسن هوانگ، مدیر عامل انویدیا، آخرین هوش مصنوعی ویژن متا را به نمایش گذاشت.
متا سال گذشته با Segment Anything، یک مدل یادگیری ماشینی که میتوانست تقریباً هر چیزی را در یک تصویر به سرعت و بهطور قابل اعتماد شناسایی و ترسیم کند، موفقیت قابلتوجهی داشت. دنبالهای که مارک زاکربرگ، مدیرعامل آن روز دوشنبه در SIGGRAPH روی صحنه رفت، مدل را به حوزه ویدیویی میبرد و نشان میدهد که میدان چقدر سریع در حال حرکت است.
Segmentation اصطلاح فنی برای زمانی است که یک مدل بینایی به یک تصویر نگاه می کند و قطعات را انتخاب می کند: "این یک سگ است، این یک درخت پشت سگ است" امیدوارم، و نه "این درختی است که از یک سگ رشد می کند." این برای دههها اتفاق افتاده است، اما اخیراً بسیار بهتر و سریعتر شده است و Segment Anything یک گام بزرگ به جلو است.
Segment Anything 2 (SA2) یک پیگیری طبیعی است، زیرا به طور بومی برای ویدیو و نه فقط تصاویر ثابت اعمال می شود. البته میتوانید اولین مدل را روی هر فریم ویدیو بهصورت جداگانه اجرا کنید، اما این کارآمدترین گردش کار نیست.
دانشمندان از این مواد برای مطالعه، مانند صخره های مرجانی و زیستگاه های طبیعی، چیزهایی مانند آن استفاده می کنند. زاکربرگ در گفتگو با جنسن هوانگ، مدیرعامل انویدیا، گفت: «اما اینکه بتوانید این کار را در ویدیو انجام دهید و آن را بدون عکس بگیرید و به آن بگویید چه میخواهید، بسیار جالب است. »
البته پردازش ویدئو از نظر محاسباتی بسیار سختتر است و گواهی بر پیشرفتهای صورت گرفته در صنعت در کارایی است که SA2 میتواند بدون ذوب کردن مرکز داده اجرا کند. البته، هنوز هم یک مدل بزرگ است که برای کار کردن به سخت افزار جدی نیاز دارد، اما تقسیم بندی سریع و انعطاف پذیر حتی یک سال پیش عملاً غیرممکن بود.
این مدل، مانند مدل اول، باز و رایگان برای استفاده خواهد بود، و خبری از نسخه میزبانی شده نیست، چیزی که این شرکتهای هوش مصنوعی گاهی ارائه میدهند. اما یک نسخه آزمایشی رایگان وجود دارد.
طبیعتاً چنین مدلی برای آموزش به حجم زیادی داده نیاز دارد و متا همچنین یک پایگاه داده بزرگ و حاشیه نویسی از 50000 ویدیو را که فقط برای این منظور ایجاد کرده است منتشر می کند. در مقاله ای که SA2 را توصیف می کند، پایگاه داده دیگری از بیش از 100000 ویدیوی «در دسترس داخلی» نیز برای آموزش استفاده شده است، و این یکی در دسترس عموم قرار نمی گیرد - من از متا برای اطلاعات بیشتر در مورد اینکه این چیست و چرا منتشر نمی شود درخواست کرده ام. . (حدس ما این است که از پروفایل های عمومی اینستاگرام و فیس بوک تهیه شده است. )
متا چند سالی است که در حوزه هوش مصنوعی "باز" پیشرو بوده است، اگرچه در واقع (همانطور که زاکربرگ در گفتگو اظهار داشت) برای مدت طولانی با ابزارهایی مانند PyTorch این کار را انجام می دهد. اما اخیراً، LLaMa، Segment Anything و چند مدل دیگر که آزادانه ارائه میشوند، به نوار نسبتاً قابل دسترسی برای عملکرد هوش مصنوعی در آن مناطق تبدیل شدهاند، اگرچه «باز بودن» آنها موضوع بحث است.
زاکربرگ بيان کرد که این گشاده رویی کاملاً از خوبی قلب آنها در متا نیست، اما این بدان معنا نیست که نیت آنها ناپاک است:
این فقط مانند یک نرم افزار نیست که بتوانید بسازید - شما به یک اکوسیستم در اطراف آن نیاز دارید. اگر ما آن را منبع باز نمی کردیم، تقریباً حتی به خوبی کار نمی کرد، درست است؟ ما این کار را انجام نمیدهیم زیرا مردمی نوعدوست هستیم، حتی اگر فکر میکنم این برای اکوسیستم مفید خواهد بود - ما این کار را انجام میدهیم زیرا فکر میکنیم این چیزی را که در حال ساختن آن هستیم، میسازد. بهترین."
به هر حال مطمئناً به خوبی استفاده خواهد شد. GitHub را اینجا تحلیل کنید.
ارسال نظر