طراحی معماری خلاصه‌ساز محتوای وب فارسی و ارائه‌ی راهکار برای کاهش هزینه‌ها

عنوان مقاله: طراحی معماری خلاصه‌ساز محتوای وب فارسی و ارائه‌ی راهکار برای کاهش هزینه‌ها

شماره سند: 5

کلیدواژگان:خلاصه ساز-وب فارسی-پردازش اطلاعات-محتوا-معماری-هزینه

چکیده‌ی مقاله:

با گسترش روزافزون داده‌ها و محتوای دیجیتال به زبان فارسی در بستر وب، نیاز به ابزارهای هوشمند برای پردازش زبان طبیعی، به‌ویژه در زمینه‌ی خلاصه‌سازی متون، به یک ضرورت اساسی بدل شده است. ابزارهای خلاصه‌ساز می‌توانند نقش مهمی در کاهش زمان پردازش اطلاعات، بهبود بهره‌وری کاربران و توسعه‌ی سامانه‌های جستجو و بازیابی اطلاعات ایفا کنند. با وجود پیشرفت‌های چشم‌گیر در حوزه‌ی پردازش زبان طبیعی برای زبان‌های انگلیسی و دیگر زبان‌های پرکاربرد، هنوز خلاهای زیادی در زمینه‌ی خلاصه‌سازی خودکار متون فارسی وجود دارد. این پژوهش با هدف طراحی معماری‌ای اختصاصی برای خلاصه‌سازی محتوای وب فارسی و ارائه‌ی راهکاری عملی برای کاهش هزینه‌های پیاده‌سازی و اجرا انجام شده است.

در گام نخست، به بررسی معماری‌های مطرح خلاصه‌سازی متون در زبان‌های دیگر پرداخته شده و قابلیت انطباق آن‌ها با زبان فارسی ارزیابی شده است. سپس محدودیت‌ها و چالش‌های خاص مرتبط با زبان فارسی و بستر فناوری در ایران شناسایی و تحلیل گردیده‌اند. از جمله‌ی این محدودیت‌ها می‌توان به کمبود منابع زبانی باکیفیت، هزینه‌های بالای آموزش مدل‌های یادگیری عمیق، و عدم دسترسی گسترده به زیرساخت‌های پردازش موازی اشاره کرد. با توجه به این شرایط، معماری پیشنهادی این پژوهش به‌گونه‌ای طراحی شده است که هم از نظر ساختاری با ویژگی‌های زبان فارسی سازگار باشد و هم امکان پیاده‌سازی آن با هزینه‌های قابل‌قبول در محیط‌های داخلی فراهم گردد.

در نهایت، نسخه‌ای از معماری طراحی‌شده پیاده‌سازی شده و بر مبنای آن، هزینه‌های مربوطه مورد بررسی قرار گرفته است. به منظور بهینه‌سازی عملکرد سیستم و کاهش هزینه‌های اجرایی، روشی ترکیبی طراحی شده که با استفاده از مدل‌های محلی ومعماری RAG (هوش مصنوعی مولد بازیابی محور) هزینه‌ها را کاهش می‌دهد. تمامی مراحل طراحی، تحلیل، پیاده‌سازی، ارزیابی و بهینه‌سازی در این گزارش مستند شده و می‌تواند به‌عنوان پایه‌ای برای توسعه‌ی ابزارهای کاربردی خلاصه‌سازی فارسی و همچنین بهبود زیرساخت‌های پردازش زبان طبیعی در محیط‌های بومی مورد استفاده قرار گیرد.

فهرست مطالب

فهرست-5