Tokenizers توضیح داده شد – چگونه Tokenizers به هوش مصنوعی در درک زبان کمک می کند
توکنایزرها ابزارهای اساسی هستند که هوش مصنوعی را قادر می سازد تا زبان انسان را تشریح و تفسیر کند. بیایید ببینیم که چگونه توکن سازها به سیستم های هوش مصنوعی کمک می کنند تا زبان را درک و پردازش کنند.
در دنیای به سرعت در حال تکامل پردازش زبان طبیعی (NLP)، توکن سازها نقشی محوری دارند.
توکنایزرها قهرمانان گمنام در پشت صحنه هستند که زبان انسان را برای ماشین ها معنا می کنند.
بیایید بدانیم توکن سازها چیست و موارد استفاده آنها را تحلیل کنیم. ما همچنین شما را با Huggingface، یک پلتفرم پیشرو در هوش مصنوعی و NLP آشنا خواهیم کرد.
ما همچنین یک نمونه کد ساده را با استفاده از کتابخانه Huggingface Tokenizer مرور خواهیم کرد.
توکن سازها چیست؟
تصور کنید که میخواهید به یک ربات یاد بدهید که زبانهای انسانی را بفهمد و صحبت کند. اولین چالشی که با آن روبرو خواهید شد این است که چگونه زبان را به قطعاتی تقسیم کنید که ربات بتواند آن را هضم کند. اینجاست که توکن سازها وارد می شوند.
توکن سازها زبان پیچیده را به قطعات قابل مدیریت تجزیه می کنند و متن خام را به شکل ساختاری تبدیل می کنند که مدل های هوش مصنوعی به راحتی می توانند آن را پردازش کنند. این مرحله به ظاهر ساده بسیار مهم است و ماشین ها را قادر می سازد تا تفاوت های ظریف ارتباط انسانی را درک کنند.
به توکن سازها مانند سرآشپزهایی فکر کنید که قبل از پختن غذا، مواد را خرد می کنند. بدون این مرحله، تهیه غذاهای پیچیده (یا درک جملات پیچیده) بسیار سخت تر خواهد بود.
از طریق توکن سازی، سیستم های هوش مصنوعی می توانند الگوها را تشخیص دهند، زمینه را درک کنند و پاسخ هایی را تولید کنند که به طور فزاینده ای شبیه به تعامل انسانی است.
با تقسیم پیچیدگی های زبان به قطعات قابل هضم، توکن سازها نه تنها قابلیت های زبانی هوش مصنوعی را افزایش می دهند، بلکه راه را برای مدل های یادگیری ماشینی شهودی، کارآمد و دقیق تر هموار می کنند.
توکن سازهای Huggingface چیست؟
Huggingface شرکتی است که در خط مقدم هوش مصنوعی و NLP قرار دارد.
آنها بیشتر به خاطر کتابخانه Transformers خود شناخته می شوند که دسترسی به مدل های پیشرفته NLP را آسان کرده است.
در قلب نوآوری های آنها کتابخانه توکن سازها قرار دارد، ابزاری قدرتمند که برای تبدیل متن به قالبی طراحی شده است که مدل های هوش مصنوعی می توانند آن را درک کنند. این کتابخانه برای توسعه دهندگان و محققانی که روی پروژه های هوش مصنوعی کار می کنند ضروری است.
توکنایزرهای Hugging Face نه تنها کارآمد و سریع هستند، بلکه از طیف گسترده ای از زبان ها نیز پشتیبانی می کنند و آنها را به ابزاری همه کاره برای وظایف جهانی NLP تبدیل می کند. آنها برای عملکرد بهینه سازی شده اند و تضمین می کنند که می توانند حجم زیادی از متن را بدون کاهش سرعت یا دقت کنترل کنند.
چیزی که توکن سازهای Hugging Face را متمایز می کند، ادغام آنها با کتابخانه Transformers است، سنگ بنای دیگری از اکوسیستم هوش مصنوعی Hugging Face.
این ادغام امکان پردازش یکپارچه داده های متنی را فراهم می کند و آن را برای کارهای پیچیده مانند ترجمه، خلاصه سازی و تجزیه و تحلیل احساسات آماده می کند.
کتابخانه توکن سازها به طور مداوم به روز می شود و آخرین یافته های تحقیقاتی و بازخورد جامعه را برای افزایش قابلیت های خود در خود جای می دهد.
کد ساده نمونه ای از کتابخانه توکنایزر Huggingface
بیایید دستمان را با یک کد کثیف کنیم. ما از کتابخانه Huggingface Tokenizer برای توکن کردن یک جمله ساده استفاده خواهیم کرد.
ابتدا، بیایید کتابخانه Huggingface Transformers را نصب کنیم. (اگر آن را در نوت بوک Google Collab نصب می کنید، قبل از دستور از ! استفاده کنید).
pip install transformers
ابتدا، اجازه دهید کلاس AutoTokenizer
را از کتابخانه Transformers وارد کنیم. AutoTokenizer
یک کلاس کارخانه است که می تواند به طور خودکار توکنایزر مربوط به یک مدل از پیش آموزش دیده را که ما مشخص کرده ایم بارگذاری کند (در این مورد، مدل bert-base-uncased ).
from transformers import AutoTokenizer
سپس با فراخوانی متد from_pretrained
یک نمونه از کلاس AutoTokenizer
ایجاد می کنیم. این توکنایزر برای کار با مدل BERT طراحی شده است و به گونه ای پیکربندی شده است که بین حروف بزرگ و کوچک ( پس "بدون حروف") تفاوت قائل نشود.
tokenizer=AutoTokenizer.from_pretrained("bert-base-uncased")
حالا بیایید یک رشته برای توکنینگ اعلام کنیم.
text = "Hello, and welcome to the world of Tokenizers"
بیایید از روش tokenize
توکنایزر با متن نمونه به عنوان آرگومان آن استفاده کنیم.
tokens = tokenizer.tokenize(text)
روش tokenize
متن ورودی را به فهرستی از نشانهها یا کلمات/زیر واژهها تقسیم میکند که مدل از قبل آموزشدیده شده روی آنها آموزش داده شده است. برای مدلهایی مانند BERT، کلمات ممکن است به واحدهای کوچکتر (کلمات فرعی یا نویسهها) تقسیم شوند تا کلمات خارج از واژگان را به طور مؤثرتری مدیریت کنند.
ما همچنین فهرست نشانه ها را به فهرست ی از اعداد صحیح (شناسه های رمز) تبدیل می کنیم. هر عدد صحیح مربوط به یک نشانه خاص در واژگان توکنایزر است.
این تبدیل ضروری است زیرا مدل های یادگیری ماشین مستقیماً متن را درک نمی کنند. آنها با داده های عددی کار می کنند.
token_ids = tokenizer.convert_tokens_to_ids(tokens)
ما تمام شده ایم. بیایید هر دو توکن و شناسه مربوط به آنها را چاپ کنیم.
print("Tokens:", tokens) print("Token IDs:", token_ids)
پس این قطعه کد یک توکنایزر از پیش آموزش دیده را برای مدل BERT بارگذاری می کند، یک جمله نمونه را توکن می کند و آن توکن ها را به شناسه های مربوطه تبدیل می کند. این شناسهها همان چیزی است که مدلهای یادگیری ماشین پردازش میکنند.
در اینجا پاسخ است:
Tokens: ['hello', ',', 'and', 'welcome', 'to', 'the', 'world', 'of', 'token', '##izer', '##s'] Token IDs: [7592, 1010, 1998, 6160, 2000, 1996, 2088, 1997, 19204, 17629, 2015]
این توکنها و شناسههای توکن برای آموزش مدلهای یادگیری ماشین بسیار مهم هستند. آنها متن را به یک قالب عددی تبدیل می کنند که مدل ها می توانند آن را پردازش کنند و درک تفاوت های ظریف زبان را امکان پذیر می کنند.
توکنهایی مانند ##izer
و ##s
نمونههایی از نحوه برخورد توکنایزر با کلمات یا بخشهایی از کلمات هستند که ممکن است در واژگان اصلی آن نباشند.
پیشوند ##
نشان می دهد که اینها واحدهای زیر کلمه یا پسوندهایی هستند که بدون فاصله به نشانه قبلی متصل شده اند. این به مدل این امکان را می دهد که با تقسیم کردن آنها به اجزای فرعی شناخته شده، طیف وسیعی از واژگان، از جمله کلمات جدید یا غیر معمول را مدیریت کند.
نتیجه
Tokenizers برای NLP اساسی هستند و کتابخانه Huggingface Transformers یک جعبه ابزار گسترده برای کار با آنها فراهم می کند.
با درک و استفاده از توکن سازها، میتوانیم شکاف بین زبان انسان و درک ماشین را پر کنیم و طیف وسیعی از برنامههای کاربردی را در هوش مصنوعی باز کنیم.
چه یک توسعه دهنده باتجربه باشید و چه تازه کار NLP، غواصی در روش های توکن سازی یک راه عالی برای تقویت مهارت های یادگیری ماشینی شما است.
امیدواریم از این مقاله لذت برده باشید. اگر سوالی دارید در نظرات با من در میان بگذارید. برای آموزش هفتگی هوش مصنوعی به اندازه بایت، به سایت turingtalks.ai مراجعه کنید .
ارسال نظر