چکیدهی مقاله:
با گسترش روزافزون دادهها و محتوای دیجیتال به زبان فارسی در بستر وب، نیاز به ابزارهای هوشمند برای پردازش زبان طبیعی، بهویژه در زمینهی خلاصهسازی متون، به یک ضرورت اساسی بدل شده است. ابزارهای خلاصهساز میتوانند نقش مهمی در کاهش زمان پردازش اطلاعات، بهبود بهرهوری کاربران و توسعهی سامانههای جستجو و بازیابی اطلاعات ایفا کنند. با وجود پیشرفتهای چشمگیر در حوزهی پردازش زبان طبیعی برای زبانهای انگلیسی و دیگر زبانهای پرکاربرد، هنوز خلاهای زیادی در زمینهی خلاصهسازی خودکار متون فارسی وجود دارد. این پژوهش با هدف طراحی معماریای اختصاصی برای خلاصهسازی محتوای وب فارسی و ارائهی راهکاری عملی برای کاهش هزینههای پیادهسازی و اجرا انجام شده است.
در گام نخست، به بررسی معماریهای مطرح خلاصهسازی متون در زبانهای دیگر پرداخته شده و قابلیت انطباق آنها با زبان فارسی ارزیابی شده است. سپس محدودیتها و چالشهای خاص مرتبط با زبان فارسی و بستر فناوری در ایران شناسایی و تحلیل گردیدهاند. از جملهی این محدودیتها میتوان به کمبود منابع زبانی باکیفیت، هزینههای بالای آموزش مدلهای یادگیری عمیق، و عدم دسترسی گسترده به زیرساختهای پردازش موازی اشاره کرد. با توجه به این شرایط، معماری پیشنهادی این پژوهش بهگونهای طراحی شده است که هم از نظر ساختاری با ویژگیهای زبان فارسی سازگار باشد و هم امکان پیادهسازی آن با هزینههای قابلقبول در محیطهای داخلی فراهم گردد.
در نهایت، نسخهای از معماری طراحیشده پیادهسازی شده و بر مبنای آن، هزینههای مربوطه مورد بررسی قرار گرفته است. به منظور بهینهسازی عملکرد سیستم و کاهش هزینههای اجرایی، روشی ترکیبی طراحی شده که با استفاده از مدلهای محلی ومعماری RAG (هوش مصنوعی مولد بازیابی محور) هزینهها را کاهش میدهد. تمامی مراحل طراحی، تحلیل، پیادهسازی، ارزیابی و بهینهسازی در این گزارش مستند شده و میتواند بهعنوان پایهای برای توسعهی ابزارهای کاربردی خلاصهسازی فارسی و همچنین بهبود زیرساختهای پردازش زبان طبیعی در محیطهای بومی مورد استفاده قرار گیرد.



