تبدیل codepoint به utf8

CodePoint چیه؟

هرکدوم از دکمه های کیبرد در سیستم یه تعریفی داره برای مثال وقتی دکمه L رو فشار میدید همین کاراکتر در صفحه نمایش نشون داده میشه به هر کدوم از دکمه ها یک عدد اختصاص داده شده که به مجموع اینها میگن CharacterSet.

ما چند تا کاراکتر ست معروف داریم ASCII,ISO-8859,Windows-1256 و کامل ترینشون unicode هست که شامل کاراکترست های utf8,utf16,utf32 میشه. میتونید لیست کاملی از کاراکترست های موجود به همراه کد پینت هاشون رو اینجا ببینید.

همچنین باید گم که کاراکتر ست ASCII زیر مجموعه ای از unicode قرا داده شده.

برای مثال، قبل از ایجاد استاندارد unicode تنها کاراکترست برای زبان فارسی windows-1256 بود که میتونید لیستش رو اینجا ببینید.

کدپینت یه کد هکس هست مثل u0627 یا U+0627 یا X0627

تو این پروژه که دارم کار میکنم موردی پیش اومد که یه رشته وجود داشت که کاراکترهاش کدپینت بودن و نه خود کاراکتر مثل

باید این کدها رو به کاراکتر متناظرشون تبدیل می کردم، خیلی به جواب نزدیک شده بودم  ولی نتوستم خودم پیدا کنم جواب اصلی رو آقای Stefan Gehrig اینجا دادند که پائین قرار دادم و یه راه حل دیگه هم هست که اینجا میتونید ببینید.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *