مدل های خیلی زیاد
چند مدل هوش مصنوعی خیلی زیاد است؟ بستگی به نحوه نگاه شما دارد، اما 10 عدد در هفته احتمالا کمی زیاد است. این تقریباً همان تعداد است که در چند روز گذشته شاهد عرضه آنها بودهایم، و اگر این امکان را داشتیم که شروع کنیم، گفتن اینکه آیا و چگونه این مدلها با یکدیگر مقایسه میشوند، به طور فزایندهای سخت است. پس فایده چیست؟
ما در زمان عجیبی در تکامل هوش مصنوعی قرار داریم، اگرچه البته در تمام مدت بسیار عجیب بوده است. ما شاهد تکثیر مدلهای کوچک و بزرگ، از توسعهدهندگان خاص تا مدلهای بزرگ و با بودجه خوب هستیم.
بیایید فقط فهرست این هفته را پایین بیاوریم، درست است؟ من سعی کرده ام آنچه را که هر مدل را متمایز می کند فشرده کنم.
LLaMa-3: جدیدترین مدل زبان بزرگ پرچمدار "باز" متا. (اصطلاح "باز" در حال حاضر مورد مناقشه است، اما این پروژه به طور گسترده توسط جامعه استفاده می شود.)
Mistral 8×22: مدل «مخلوطی از متخصصان»، در سمت بزرگ، از لباس فرانسوی که از فضای باز که زمانی در آغوش میکشیدند دوری می کرد.
Stable Diffusion 3 Turbo: یک SD3 ارتقا یافته برای همراهی با API جدید Stability باز. قرض گرفتن "توربو" از نامگذاری مدل OpenAI کمی عجیب است، اما خوب است.
دستیار هوش مصنوعی Adobe Acrobat: "با اسناد خود صحبت کنید" از گوریل سند 800 پوندی. با این حال، مطمئناً این بیشتر یک بسته بندی برای ChatGPT است.
Reka Core: از یک تیم کوچک که قبلاً توسط هوش مصنوعی بزرگ استفاده می شد، یک مدل چند وجهی ساخته شده از ابتدا که حداقل از نظر اسمی با سگ های بزرگ قابل رقابت است.
Idefics2: یک مدل چندوجهی بازتر، ساخته شده بر روی مدل های اخیر کوچکتر Mistral و Google.
OLMo-1.7-7B: یک نسخه بزرگتر از LLM AI2، در میان بازترین ها، و پله ای برای مدل آینده در مقیاس 70B.
Pile-T5: نسخه ای از مدل T5 قابل اعتماد قدیمی که در پایگاه داده کد Pile به خوبی تنظیم شده است. همان T5 که می شناسید و دوست دارید اما کدنویسی بهتری دارد.
Cohere Compass: یک «مدل تعبیهشده» (اگر قبلاً نمیدانید، نگران آن نباشید) با تمرکز بر ترکیب انواع دادهها برای پوشش موارد استفاده بیشتر.
Imagine Flash: جدیدترین مدل تولید تصویر متا، با تکیه بر روش تقطیر جدید برای تسریع انتشار بدون افت کیفیت.
بی حد و حصر: «هوش مصنوعی شخصیشده که با چیزهایی که دیدهاید، گفتهاید یا شنیدهاید قدرت میگیرد. من یک برنامه وب، برنامه مک، برنامه ویندوز و یک پوشیدنی هستم. 😬
این 11 است، زیرا زمانی که من این را می نوشتم یکی اعلام شد. و این همه مدل های منتشر شده یا پیش نمایش شده در این هفته نیست! فقط آنهایی هستند که دیدیم و بحث کردیم. اگر بخواهیم شرایط را برای گنجاندن کمی راحت کنیم، ده ها مورد وجود خواهد داشت: برخی از مدل های موجود با تنظیم دقیق، برخی ترکیبات ترکیبی مانند Idefics 2، برخی تجربی یا طاقچه، و غیره. ناگفته نماند ابزارهای جدید این هفته برای ساختن (تورچتون) و مبارزه با هوش مصنوعی (Glaze 2.0) مولد!
از این بهمن بی پایان چه کنیم؟ ما نمی توانیم همه آنها را "بازبینی" کنیم. پس ، چگونه می توانیم به شما، خوانندگان خود، کمک کنیم تا همه این موارد را درک کرده و با آنها همراه باشید؟
حقیقت این است که شما نیازی به ادامه دادن ندارید. برخی از مدلها مانند ChatGPT و Gemini به کل پلتفرمهای وب تبدیل شدهاند که موارد استفاده و نقاط دسترسی متعدد را شامل میشوند. سایر مدلهای زبان بزرگ مانند LLaMa یا OLMo - اگرچه از نظر فنی معماری پایه را به اشتراک میگذارند - در واقع نقش یکسانی را ایفا نمیکنند. آنها در نظر گرفته شده اند که در پس زمینه به عنوان یک سرویس یا جزء زندگی کنند، نه در پیش زمینه به عنوان یک نام تجاری.
برخی سردرگمی های عمدی در مورد این دو مورد وجود دارد، زیرا توسعه دهندگان مدل ها می خواهند کمی از سر و صداهای مرتبط با نسخه های اصلی پلت فرم هوش مصنوعی، مانند GPT-4V یا Gemini Ultra را قرض بگیرند. همه از شما می خواهند که فکر کنید آزادی آنها مهم است. و اگرچه احتمالاً برای کسی مهم است، اما تقریباً مطمئناً آن شخص شما نیستید.
در مورد آن به معنای دسته بندی گسترده و متنوع دیگری مانند اتومبیل ها فکر کنید. هنگامی که آنها برای اولین بار اختراع شدند، شما فقط "یک ماشین" خریدید. سپس کمی بعد، می توانید بین یک ماشین بزرگ، یک ماشین کوچک و یک تراکتور یکی را انتخاب کنید. امروزه صدها خودرو سالانه عرضه میشوند، اما احتمالاً نیازی نیست از هر ده تای آنها حتی یکی از آنها آگاه باشید، زیرا از هر ده خودرو، 9 تا خودروی مورد نیاز شما یا حتی خودرویی نیستند که این اصطلاح را درک میکنید. به طور مشابه، ما از دوران بزرگ/کوچک/تراکتوری هوش مصنوعی به سمت دوران تکثیر در حال حرکت هستیم و حتی متخصصان هوش مصنوعی نیز نمیتوانند همه مدلهای عرضهشده را همگام و آزمایش کنند.
طرف دیگر این ماجرا این است که ما مدت ها قبل از اینکه ChatGPT و سایر مدل های بزرگ عرضه شوند، در این مرحله بودیم. افراد بسیار کمتری 7 یا 8 سال پیش در مورد این مطلب میخواندند، اما با این وجود ما آن را پوشش دادیم زیرا به وضوح یک فناوری بود که منتظر لحظهی ظهور خود بود. مقالهها، مدلها و تحقیقات دائماً منتشر میشد، و کنفرانسهایی مانند SIGGRAPH و NeurIPS با مهندسان یادگیری ماشینی پر میشد که یادداشتها را مقایسه میکردند و بر روی کار یکدیگر میساختند. در اینجا یک داستان درک بصری است که در سال 2011 نوشتم!
آن فعالیت همچنان هر روز ادامه دارد. اما از آنجایی که هوش مصنوعی به یک تجارت بزرگ تبدیل شده است - مسلماً بزرگترین در حال حاضر در فناوری - این پیشرفتها کمی وزن بیشتری داشته است، زیرا مردم کنجکاو هستند که آیا یکی از اینها ممکن است به اندازه ChatGPT جهش بزرگی نسبت به ChatGPT داشته باشد.
حقیقت ساده این است که هیچیک از این مدلها قدم بزرگی نخواهد داشت، زیرا پیشرفت OpenAI بر اساس یک تغییر اساسی در معماری یادگیری ماشین است که هر شرکت دیگری اکنون پذیرفته است و جایگزین نشده است. پیشرفتهای تدریجی مانند یک یا دو امتیاز بهتر در یک معیار مصنوعی، یا زبان یا تصاویر متقاعدکنندهتر، تنها چیزی است که ما باید منتظر آن باشیم.
یعنی هیچ کدوم از این مدل ها مهم نیست؟ قطعا آنها انجام می دهند. شما از نسخه 2.0 به 3.0 بدون 2.1، 2.2، 2.2.1 و غیره نمی رسید. و گاهی اوقات این پیشرفتها معنادار هستند، کاستیهای جدی را برطرف میکنند، یا آسیبپذیریهای غیرمنتظره را آشکار میکنند. ما سعی می کنیم موارد جالب را پوشش دهیم، اما این فقط کسری از تعداد کامل است. ما در واقع روی قطعهای کار میکنیم که تمام مدلهایی را که فکر میکنیم کنجکاوهای ML باید از آنها آگاه باشند، جمعآوری میکند، و در حدود یک دوجین است.
نگران نباشید: وقتی یک مورد بزرگ از راه می رسد، شما می دانید، و نه فقط به این دلیل که TechCrunch آن را پوشش می دهد. به همان اندازه که برای ما واضح است، برای شما نیز آشکار خواهد شد.
ارسال نظر