عنوان
|
پیشنهاد یک روش جدید فشرده سازی رشته های یونیکد چند زبانه
|
نوع پژوهش
|
مقالات در همایش ها
|
کلیدواژهها
|
یونیکد، چند زبانه، پردازش متن، فشرده سازی
|
چکیده
|
استاندارد یونیکد یا Unicode ابتدا برای زبان انگلیسی و کشورهای انگلیسی زبان ایجاد شد و در ادامه برای سایر زبان ها در کشورهای مختلف دستورالعملی را تدوین نمود. با دستورالعمل یونیکد برای ذخیره سازی داده های چند زبانه مانند کدگذاری نویسه ها یا کاراکترهای: عربی و فارسی، روی رایانه ها نیاز به توسعه فضایی حداقل دو بایت است. لذا ارائه روشهای مؤثر فشرده سازی برای متنهای چند زبانه بدلیل اهمیت فضای ارسال اطلاعات ضرورت پیدا می کند. روشهای متداول فشرده سازی نظیر لغتنامه و تصادفی و هافمن می توانند برای فشرده سازی رشته های چند زبانه به کار روند. ولی متأسفانه رشته های فشرده شده با این روشها غیر قابل پردازش می شوند، زیرا این روشهای فشرده سازی کلاً ساختار رشته را به هم می ریزند. بنابراین جستجوی یک رشته ساده در میان رشته فشرده شده با مشکل مواجه می شود. این مقاله روشی برای فشرده سازی رشته های چند زبانه یونیکد ارائه می کند که رشته های فشرده شده همچنان قابل پردازش هستند و یک رشته را می توان میان رشته فشرده شده جستجو کرد و با این شیوه برای فرستادن پیامک یا SMS که فقط 140 بایت فضا موجود است، تعداد کاراکترهای فارسی قابل انتقال از روی سامانه ها نسبت به انگلیسی به دو برابر افزایش می یابد.
|
پژوهشگران
|
وحید میگلی (نفر اول)، محسن میگلی (نفر دوم)، فاطمه نعمتی (نفر سوم)، حسین مهتدی (نفر چهارم)
|