Tokenizers توضیح داده شد – چگونه Tokenizers به هوش مصنوعی در درک زبان کمک می کند

شناسهٔ خبر: 460496 - تاریخ: مارس 27, 2024

توکنایزرها ابزارهای اساسی هستند که هوش مصنوعی را قادر می سازد تا زبان انسان را تشریح و تفسیر کند. بیایید ببینیم که چگونه توکن سازها به سیستم های هوش مصنوعی کمک می کنند تا زبان را درک و پردازش کنند.

در دنیای به سرعت در حال تکامل پردازش زبان طبیعی (NLP)، توکن سازها نقشی محوری دارند.

توکنایزرها قهرمانان گمنام در پشت صحنه هستند که زبان انسان را برای ماشین ها معنا می کنند.

بیایید بدانیم توکن سازها چیست و موارد استفاده آنها را تحلیل کنیم. ما همچنین شما را با Huggingface، یک پلتفرم پیشرو در هوش مصنوعی و NLP آشنا خواهیم کرد.

ما همچنین یک نمونه کد ساده را با استفاده از کتابخانه Huggingface Tokenizer مرور خواهیم کرد.

توکن سازها چیست؟

تصور کنید که می‌خواهید به یک ربات یاد بدهید که زبان‌های انسانی را بفهمد و صحبت کند. اولین چالشی که با آن روبرو خواهید شد این است که چگونه زبان را به قطعاتی تقسیم کنید که ربات بتواند آن را هضم کند. اینجاست که توکن سازها وارد می شوند.

دیگر اخبار

جایگزین پژو پارس آماده تحویل به مشتریان!

توکن سازها زبان پیچیده را به قطعات قابل مدیریت تجزیه می کنند و متن خام را به شکل ساختاری تبدیل می کنند که مدل های هوش مصنوعی به راحتی می توانند آن را پردازش کنند. این مرحله به ظاهر ساده بسیار مهم است و ماشین ها را قادر می سازد تا تفاوت های ظریف ارتباط انسانی را درک کنند.

به توکن سازها مانند سرآشپزهایی فکر کنید که قبل از پختن غذا، مواد را خرد می کنند. بدون این مرحله، تهیه غذاهای پیچیده (یا درک جملات پیچیده) بسیار سخت تر خواهد بود.

از طریق توکن سازی، سیستم های هوش مصنوعی می توانند الگوها را تشخیص دهند، زمینه را درک کنند و پاسخ هایی را تولید کنند که به طور فزاینده ای شبیه به تعامل انسانی است.

با تقسیم پیچیدگی های زبان به قطعات قابل هضم، توکن سازها نه تنها قابلیت های زبانی هوش مصنوعی را افزایش می دهند، بلکه راه را برای مدل های یادگیری ماشینی شهودی، کارآمد و دقیق تر هموار می کنند.

توکن سازهای Huggingface چیست؟

Huggingface شرکتی است که در خط مقدم هوش مصنوعی و NLP قرار دارد.

آنها بیشتر به خاطر کتابخانه Transformers خود شناخته می شوند که دسترسی به مدل های پیشرفته NLP را آسان کرده است.

در قلب نوآوری های آنها کتابخانه توکن سازها قرار دارد، ابزاری قدرتمند که برای تبدیل متن به قالبی طراحی شده است که مدل های هوش مصنوعی می توانند آن را درک کنند. این کتابخانه برای توسعه دهندگان و محققانی که روی پروژه های هوش مصنوعی کار می کنند ضروری است.

بیشتر بخوانید

طبق گزارش‌ها، سیسکو قصد دارد هزاران شغل را در بازسازی بزرگ کاهش دهد

توکنایزرهای Hugging Face نه تنها کارآمد و سریع هستند، بلکه از طیف گسترده ای از زبان ها نیز پشتیبانی می کنند و آنها را به ابزاری همه کاره برای وظایف جهانی NLP تبدیل می کند. آنها برای عملکرد بهینه سازی شده اند و تضمین می کنند که می توانند حجم زیادی از متن را بدون کاهش سرعت یا دقت کنترل کنند.

چیزی که توکن سازهای Hugging Face را متمایز می کند، ادغام آنها با کتابخانه Transformers است، سنگ بنای دیگری از اکوسیستم هوش مصنوعی Hugging Face.

این ادغام امکان پردازش یکپارچه داده های متنی را فراهم می کند و آن را برای کارهای پیچیده مانند ترجمه، خلاصه سازی و تجزیه و تحلیل احساسات آماده می کند.

کتابخانه توکن سازها به طور مداوم به روز می شود و آخرین یافته های تحقیقاتی و بازخورد جامعه را برای افزایش قابلیت های خود در خود جای می دهد.

کد ساده نمونه ای از کتابخانه توکنایزر Huggingface

بیایید دستمان را با یک کد کثیف کنیم. ما از کتابخانه Huggingface Tokenizer برای توکن کردن یک جمله ساده استفاده خواهیم کرد.

ابتدا، بیایید کتابخانه Huggingface Transformers را نصب کنیم. (اگر آن را در نوت بوک Google Collab نصب می کنید، قبل از دستور از ! استفاده کنید).

 pip install transformers

ابتدا، اجازه دهید کلاس AutoTokenizer را از کتابخانه Transformers وارد کنیم. AutoTokenizer یک کلاس کارخانه است که می تواند به طور خودکار توکنایزر مربوط به یک مدل از پیش آموزش دیده را که ما مشخص کرده ایم بارگذاری کند (در این مورد، مدل bert-base-uncased ).

 from transformers import AutoTokenizer

سپس با فراخوانی متد from_pretrained یک نمونه از کلاس AutoTokenizer ایجاد می کنیم. این توکنایزر برای کار با مدل BERT طراحی شده است و به گونه ای پیکربندی شده است که بین حروف بزرگ و کوچک ( پس "بدون حروف") تفاوت قائل نشود.

 tokenizer=AutoTokenizer.from_pretrained("bert-base-uncased")

حالا بیایید یک رشته برای توکنینگ اعلام کنیم.

 text = "Hello, and welcome to the world of Tokenizers"

بیایید از روش tokenize توکنایزر با متن نمونه به عنوان آرگومان آن استفاده کنیم.

 tokens = tokenizer.tokenize(text)

روش tokenize متن ورودی را به فهرستی از نشانه‌ها یا کلمات/زیر واژه‌ها تقسیم می‌کند که مدل از قبل آموزش‌دیده شده روی آن‌ها آموزش داده شده است. برای مدل‌هایی مانند BERT، کلمات ممکن است به واحدهای کوچک‌تر (کلمات فرعی یا نویسه‌ها) تقسیم شوند تا کلمات خارج از واژگان را به طور مؤثرتری مدیریت کنند.

ما همچنین فهرست نشانه ها را به فهرست ی از اعداد صحیح (شناسه های رمز) تبدیل می کنیم. هر عدد صحیح مربوط به یک نشانه خاص در واژگان توکنایزر است.

این تبدیل ضروری است زیرا مدل های یادگیری ماشین مستقیماً متن را درک نمی کنند. آنها با داده های عددی کار می کنند.

 token_ids = tokenizer.convert_tokens_to_ids(tokens)

ما تمام شده ایم. بیایید هر دو توکن و شناسه مربوط به آنها را چاپ کنیم.

 print("Tokens:", tokens) print("Token IDs:", token_ids)

پس این قطعه کد یک توکنایزر از پیش آموزش دیده را برای مدل BERT بارگذاری می کند، یک جمله نمونه را توکن می کند و آن توکن ها را به شناسه های مربوطه تبدیل می کند. این شناسه‌ها همان چیزی است که مدل‌های یادگیری ماشین پردازش می‌کنند.

در اینجا پاسخ است:

 Tokens: ['hello', ',', 'and', 'welcome', 'to', 'the', 'world', 'of', 'token', '##izer', '##s'] Token IDs: [7592, 1010, 1998, 6160, 2000, 1996, 2088, 1997, 19204, 17629, 2015]

این توکن‌ها و شناسه‌های توکن برای آموزش مدل‌های یادگیری ماشین بسیار مهم هستند. آنها متن را به یک قالب عددی تبدیل می کنند که مدل ها می توانند آن را پردازش کنند و درک تفاوت های ظریف زبان را امکان پذیر می کنند.

توکن‌هایی مانند ##izer و ##s نمونه‌هایی از نحوه برخورد توکنایزر با کلمات یا بخش‌هایی از کلمات هستند که ممکن است در واژگان اصلی آن نباشند.

پیشوند ## نشان می دهد که اینها واحدهای زیر کلمه یا پسوندهایی هستند که بدون فاصله به نشانه قبلی متصل شده اند. این به مدل این امکان را می دهد که با تقسیم کردن آنها به اجزای فرعی شناخته شده، طیف وسیعی از واژگان، از جمله کلمات جدید یا غیر معمول را مدیریت کند.

نتیجه

Tokenizers برای NLP اساسی هستند و کتابخانه Huggingface Transformers یک جعبه ابزار گسترده برای کار با آنها فراهم می کند.

با درک و استفاده از توکن سازها، می‌توانیم شکاف بین زبان انسان و درک ماشین را پر کنیم و طیف وسیعی از برنامه‌های کاربردی را در هوش مصنوعی باز کنیم.

چه یک توسعه دهنده باتجربه باشید و چه تازه کار NLP، غواصی در روش های توکن سازی یک راه عالی برای تقویت مهارت های یادگیری ماشینی شما است.

امیدواریم از این مقاله لذت برده باشید. اگر سوالی دارید در نظرات با من در میان بگذارید. برای آموزش هفتگی هوش مصنوعی به اندازه بایت، به سایت turingtalks.ai مراجعه کنید .

خبرکاو