چرا پایگاه های داده برداری لحظه ای را می گذرانند که چرخه هیپ هوش مصنوعی به اوج می رسد
پایگاههای اطلاعاتی برداری، با قضاوت بر اساس تعداد استارتآپهایی که وارد این فضا میشوند و سرمایهگذارانی که به دنبال یک تکه از کیک هستند، بسیار محبوب هستند . تکثیر مدلهای زبان بزرگ (LLM) و جنبش مولد AI (GenAI) زمینه مناسبی را برای شکوفایی فناوریهای پایگاه داده برداری ایجاد کرده است.
در حالی که پایگاههای داده سنتی رابطهای مانند Postgres یا MySQL برای دادههای ساختاریافته مناسب هستند - انواع دادههای از پیش تعریفشده که میتوانند به طور منظم در ردیفها و ستونها ذخیره شوند - این برای دادههای بدون ساختار مانند تصاویر، ویدئوها، ایمیلها، رسانههای اجتماعی چندان خوب کار نمیکند. پستها و هر دادهای که به یک مدل داده از پیش تعریفشده پایبند نیست.
از سوی دیگر، پایگاههای داده برداری، دادهها را در قالب جاسازیهای برداری ذخیره و پردازش میکنند، که متن، اسناد، تصاویر و سایر دادهها را به نمایشهای عددی تبدیل میکند که معنا و روابط بین نقاط داده مختلف را به تصویر میکشد. این برای یادگیری ماشین مناسب است ، زیرا این بانک اطلاعاتی داده ها را به صورت مکانی از آنجایی که هر مورد به دیگری مربوط می شود ، ذخیره می کند و بازیابی داده های مشابه مشابه را آسان می کند.
این به ویژه برای LLM ها مانند GPT-4 OpenAI مفید است، زیرا به چت ربات هوش مصنوعی اجازه می دهد تا با تجزیه و تحلیل مکالمات مشابه قبلی، زمینه یک مکالمه را بهتر درک کند. جستجوی برداری همچنین برای همه انواع برنامههای بلادرنگ، مانند توصیههای محتوا در شبکههای اجتماعی یا برنامههای تجارت الکترونیک مفید است، زیرا میتواند به آنچه کاربر جستجو کرده است نگاه کند و موارد مشابه را با ضربان قلب بازیابی کند.
جستجوی برداری همچنین می تواند به کاهش "توهمات" در برنامه های LLM کمک کند، از طریق ارائه اطلاعات اضافی که ممکن است در مجموعه داده آموزشی اصلی موجود نبوده باشد.
آندره زایرنی ، مدیرعامل و یکی از بنیانگذاران استارتاپ جستجوی برداری Qdrant، به TechCrunch توضیح داد: «بدون استفاده از جستجوی شباهت برداری، همچنان میتوانید برنامههای AI/ML توسعه دهید، اما باید بازآموزی و تنظیم دقیقتری انجام دهید.» پایگاه داده های برداری زمانی وارد عمل می شوند که مجموعه داده بزرگی وجود داشته باشد و شما به ابزاری برای کار با جاسازی های برداری به روشی کارآمد و راحت نیاز دارید.
در ژانویه، Qdrant 28 میلیون دلار بودجه برای سرمایه گذاری در رشد کسب کرد که باعث شد در سال گذشته به یکی از 10 استارتاپ منبع باز تجاری تبدیل شود. و این تنها راه اندازی پایگاه داده برداری است که اخیراً پول نقد جمع آوری کرده است - Vespa، Weaviate، Pinecone و Chroma مجموعاً 200 میلیون دلار در سال گذشته برای ارائه های مختلف بردار جمع آوری کردند.
از ابتدای سال، ما همچنین شاهد بودیم که Index Ventures یک دور اولیه 9.5 میلیون دلاری را به Superlinked، پلتفرمی که دادههای پیچیده را به جاسازیهای برداری تبدیل میکند، هدایت میکند. و چند هفته به عقب ، Y Combinator (YC) از گروه خود در زمستان '24 ، که شامل Lantern ، یک استارتاپ است که یک موتور جستجوی بردار میزبان را برای Postgres می فروشد ، رونمایی کرد.
در جاهای دیگر، Marqo در اواخر سال گذشته یک دور اولیه 4.4 میلیون دلاری به دست آورد، و بلافاصله پس از آن یک دور سری A با دلار 12.5 میلیون دلاری در فوریه به دست آورد. پلتفرم Marqo طیف کاملی از ابزارهای برداری را در اختیار شما قرار می دهد که شامل تولید بردار، ذخیره سازی و بازیابی است و به کاربران امکان می دهد ابزارهای شخص ثالث مانند OpenAI یا Hugging Face را دور بزنند و همه چیز را از طریق یک API ارائه می دهد.
تام هامر و جسی ان. کلارک، بنیانگذاران Marqo، قبلاً در نقشهای مهندسی در آمازون کار میکردند، جایی که به «نیاز برآورده نشده عظیم» برای جستجوی معنایی و انعطافپذیر در روشهای مختلف مانند متن و تصاویر پی بردند. و این زمانی بود که آنها از کشتی پریدند تا Marqo را در سال 2021 تشکیل دهند.
کلارک به TechCrunch گفت: «کار با جستجوی بصری و روباتیک در آمازون زمانی بود که من واقعاً به جستجوی برداری نگاه میکردم – به راههای جدیدی برای کشف محصول فکر میکردم و این به سرعت به جستجوی برداری نزدیک شد. "در رباتیک، من از جستجوی چند وجهی برای جستجو در بسیاری از تصاویرمان استفاده می کردم تا تشخیص دهم که آیا چیزهای اشتباهی مانند شلنگ ها و بسته ها وجود دارد یا خیر. در غیر این صورت حل این مشکل بسیار چالش برانگیز بود.»
شرکت را وارد کنید
در حالی که پایگاههای داده برداری لحظهای را در میان هولناک ChatGPT و جنبش GenAI سپری میکنند، آنها نوشدارویی برای هر سناریو جستجوی سازمانی نیستند.
پیتر او میگوید : «پایگاههای اطلاعاتی اختصاصی تمایل دارند به طور کامل بر موارد استفاده خاص متمرکز شوند و از این رو میتوانند معماری خود را برای عملکرد در وظایف مورد نیاز و همچنین تجربه کاربر طراحی کنند، در مقایسه با پایگاههای داده همهمنظوره، که باید آن را در طراحی فعلی تطبیق دهند.» Zaitsev، بنیانگذار شرکت پشتیبانی و خدمات پایگاه داده Percona، به TechCrunch توضیح داد.
در حالی که پایگاههای داده تخصصی ممکن است در یک چیز به استثنای موارد دیگر برتری داشته باشند، به همین دلیل است که ما شروع به دیدن پایگاههای متداول مانند Elastic ، Redis ، OpenSearch ، Cassandra ، Oracle ، و MongoDB کردهایم که هوشمندهای جستجوی پایگاه داده برداری را به ترکیب اضافه میکنند. ارائه دهندگان خدمات ابری مانند Azure مایکروسافت ، AWS آمازون و Cloudflare .
زایتسف این آخرین روند را با اتفاقی که بیش از یک دهه پیش با JSON رخ داد، مقایسه میکند، زمانی که برنامههای وب رایجتر شدند و توسعهدهندگان به یک قالب داده مستقل از زبان نیاز داشتند که خواندن و نوشتن برای انسان آسان باشد. در آن صورت، یک کلاس پایگاه داده جدید در قالب پایگاه های داده اسنادی مانند MongoDB ظاهر شد، در حالی که پایگاه های داده رابطه ای موجود نیز پشتیبانی JSON را معرفی کردند.
زایتسف به TechCrunch گفت: «من فکر میکنم همین امر احتمالاً در مورد پایگاههای داده برداری اتفاق میافتد. «کاربرانی که در حال ساخت برنامههای هوش مصنوعی بسیار پیچیده و در مقیاس بزرگ هستند، از پایگاههای داده جستجوی برداری اختصاصی استفاده میکنند، در حالی که افرادی که نیاز به ساخت کمی عملکرد هوش مصنوعی برای برنامههای موجود خود دارند، احتمالاً از قابلیت جستجوی برداری در پایگاههای دادهای که قبلاً استفاده میکنند، استفاده میکنند. ”
اما زائرنی و همکارانش Qdrant شرط میبندند که راهحلهای بومی که کاملاً حول بردارها ساخته شدهاند، «سرعت، ایمنی حافظه و مقیاس» مورد نیاز هنگام انفجار دادههای برداری را ارائه میکنند، در مقایسه با شرکتهایی که جستجوی برداری را بهعنوان یک فکر بعدی انجام میدهند.
زائرنی گفت: "طرح آنها این است که "در صورت نیاز می توانیم جستجوی برداری را نیز انجام دهیم." هدف ما این است که جستجوی برداری پیشرفته را به بهترین شکل ممکن انجام می دهیم. همه چیز در مورد تخصص است. ما در واقع توصیه می کنیم با هر پایگاه داده ای که قبلاً در پشته فناوری خود دارید شروع کنید. اگر جستجوی برداری جزء مهمی از راه حل شما باشد، در برخی مواقع، کاربران با محدودیت هایی مواجه خواهند شد.
ارسال نظر