علمی، پژوهشی و فناوری

ساخت مترجم هوشمند بومی با قابلیت رقابت با "گوگل ترنسلیت" توسط محقق ایرانی

یک جوان نخبه با طراحی سامانه هوشمند ترجمه "سیمرغ"، ثابت کرد مدل‌های بومی می‌توانند در دقت و کیفیت، با سرویس جهانی "گوگل ترنسلیت" رقابت کرده و حتی در مواردی آن را پشت سر بگذارند. "علیرضا سیمرغ" با مقایسه سه معماری مختلف، مدلی ارائه داده که علاوه بر استقلال از اینترنت، امتیاز علمی بالاتری نیز کسب کرده است.

به گزارش خبرگزاری علم و فناوری از استان مرکزی؛ یک تحول بزرگ برای کاربران فارسی‌زبان در حال رخ دادن است: یک مترجم دقیق، رایگان و همیشه در دسترس که حتی بدون اینترنت نیز کار می‌کند! در گفت‌وگوی اختصاصی با علیرضا سیمرغ، پژوهشگر جوان ایرانی و خالق سامانه «سیمرغ ترنسلیتور»، از انگیزه‌های او برای ایجاد این پروژه نوآورانه و جزئیات فنی آن پرسیدیم.

 

از آرزو تا واقعیت

علیرضا سیمرغ هستم، متولد ۵ آبان ۱۳۷۶ من فارغ‌التحصیل مقطع کارشناسی در رشته مهندسی برق-قدرت و فارغ التحصیل مقطع کارشناسی ارشد در رشته مهندسی برق-کنترل هستم.

 

1- حوزه‌های اصلی علاقه‌مندی علمی شما کدام‌اند و چه سابقه‌ای در حوزه هوش مصنوعی دارید؟

زمینه‌های اصلی علاقه‌مندی علمی من شامل:
• طراحی کنترل‌کننده
• هوش مصنوعی
• سیستم‌های چندعاملی و کنترل مشارکتی
• رباتیک
• کنترل فازی
می‌باشد و در این حوزه‌ها به ویژه در زمینه هوش مصنوعی فعالیت داشته‌ام.

 

2-انگیزه و جرقه اولیه برای شروع این پروژه چه بود؟ آیا نیاز خاصی در جامعه یا چالش شخصی شما را به سمت ساخت این سامانه سوق داد؟

انگیزه اصلی از یک نیاز ملموس جامعه نشأت گرفت. بسیاری از هموطنان در موقعیت‌های تحصیلی، کاری و حتی زندگی روزمره با چالش ترجمه دقیق و سریع متون انگلیسی مواجه هستند. هرچند ابزارهایی مانند Google Translate در دسترس هست، اما این سرویس‌ها همیشه به‌ویژه در متون تخصصی و جملات پیچیده از دقت کافی برخوردار نیستند.

این مسئله جرقه اولیه‌ای بود برای ایجاد مدلی که بتواند از جنبه کیفی و تجربه کاربری، جایگزین یا مکمل مناسبی برای ابزارهای موجود باشد. از سوی دیگر، علاقه شخصی من به حوزه پردازش زبان طبیعی و یادگیری عمیق نیز سهم مهمی در آغاز این پروژه داشت.

من در این مسیر بر آن بودم که چالش‌های واقعی ترجمه ماشینی را با بهره‌گیری از روش‌های مختلف  از جمله معماری‌های پیشرفته‌ای مانند Transformer و مدل‌های Seq2Seq - مورد بررسی قرار دهیم و در عین حال، سامانه‌ای کاربردی برای عموم مردم و متخصصان فراهم آوریم. به بیان دیگر، این پروژه تلفیقی از یک نیاز اجتماعی و انگیزه‌ای علمی-شخصی بود که هم پاسخگوی نیاز کاربران فارسی‌زبان است و هم گامی در جهت پیشبرد دانش و تجربه در حوزه ترجمه ماشینی به شمار می‌رود.

 

3-آیا نام خاصی برای این پروژه یا سامانه در نظر گرفته‌اید؟ فلسفه انتخاب این نام چیست؟

نام این سامانه "Simorgh Translator" (مترجم سیمرغ) است. این نام از نام خانوادگی من برگرفته شده است. انتخاب این نام علاوه بر ایجاد هویت مستقل برای سامانه، بیانگر تعلق خاطر و مسئولیتی است که در قبال توسعه و بهبود این محصول احساس می‌کنم.

 

4-انتخاب سه معماری متفاوت برای مقایسه عملکرد در ترجمه انگلیسی به فارسی

پژوهشگران در این مطالعه، سه معماری «Transformer»، «Seq2Seq» و «Google Translate» را برای مقایسه عملکرد در ترجمه متون انگلیسی به فارسی انتخاب کردند. هدف از این انتخاب، بررسی نتایج سه روش «مدرن و پیشرفته»، «کلاسیک اما پرکاربرد» و «سرویس تجاری پراستفاده» در شرایط یکسان بود.

معیارهای این مقایسه بر پایه «تنوع در معماری» و «میزان استفاده» تعیین شد:

· مدل‌های مبتنی بر Transformer: به عنوان نماینده‌ی روش‌های مدرن و پیشرفته

· مدل‌های مبتنی بر Seq2Seq: به عنوان روشی سنتی‌تر اما همچنان پرکاربرد

· سرویس Google Translate: به دلیل استفاده گسترده و جایگاه مرجع در میان کاربران

این مقایسه به روشن‌شدن نقاط قوت و ضعف هر روش و درک بهتر تفاوت‌های میان معماری‌های علمی-پژوهشی و سرویس‌های تجاری کمک می‌کند.

 

مدل Transformer مبتنی بر mT5:

دلیل انتخاب مدل mT5 از میان سایر مدل‌های مبتنی بر Transformer چه بود و مزیت اصلی این مدل چندزبانه در پروژه شما چه بود؟

 mT5 به عنوان جامع‌ترین و پیشرفته‌ترین نسخه مدل T5 انتخاب شد که ویژگی کلیدی آن آموزش چندزبانه است. این قابلیت به مدل امکان می‌دهد نه تنها انگلیسی و فارسی، بلکه ساختارهای زبانی متنوع، الگوهای دستوری و معانی ظریف طیف وسیعی از زبان‌ها را درک کند.

مزیت اصلی mT5 برای ما، بهره‌گیری از دانش ازپیش-آموخته‌شده آن بود که امکان fine-tuning (تنظیم دقیق) مدل برای ترجمه انگلیسی-فارسی را تنها با استفاده از حجم محدودی از داده‌ها فراهم می‌کرد. این "انتقال دانش" از زبان‌های مختلف به ویژه در پردازش جملات پیچیده و اصطلاحات تخصصی، منجر به بهبود محسوسی در کیفیت ترجمه در مقایسه با سایر مدل‌ها شد.

 

مدل Seq2Seq مبتنی بر T5:

چگونه از مدل T5 برای وظیفه ترجمه جمله به جمله (Seq2Seq) استفاده کردید؟

مدل T5 ذاتاً بر مبنای معماری Seq2Seq طراحی شده که شامل دو بخش اصلی است:

· کدگذار (Encoder): مسئول دریافت و درک جمله ورودی انگلیسی

·کدگشا (Decoder): مسئول تولید جمله معادل فارسی بر اساس درک کدگذار

در این پروژه، ما از این قابلیت ذاتی مدل برای ترجمه مستقیم استفاده کردیم. با آموزش مدل روی دیتاست Opus100 (شامل جفت جملات موازی انگلیسی-فارسی)، سیستم یاد گرفت چگونه در مقابل هر جمله انگلیسی، معادل فارسی آن را تولید کند.

 

5-دلیل انتخاب دیتاست Opus100 و روش پیش‌پردازش داده‌ها چه بود؟

 دیتاست Opus100 به دلایل زیر انتخاب شد:

·معتبرترین و گسترده‌ترین منبع داده‌های موازی در حوزه ترجمه ماشینی

·شامل جملات هم‌تراز در صدها زبان زنده دنیا

·دارای حجم مناسبی از داده‌های انگلیسی-فارسی با کیفیت استاندارد

داده‌های این دیتاست پس از گذراندن مراحل پیش‌پردازش شامل پاکسازی، نرمال‌سازی و قالب‌بندی، در اختیار مدل قرار گرفت تا امکان آموزش مؤثر فراهم شود.

 

6-برای ارزیابی کیفیت ترجمه از چه معیارهای علمی استفاده شد و نتایج کلی این مقایسه چه بود؟

 در این پژوهش از معیار علمی BLEU Score برای ارزیابی عینی کیفیت ترجمه‌ها استفاده شد. این معیار با مقایسه ترجمه ماشینی با ترجمه‌های مرجع انسانی، امتیازی بین ۰ تا ۱۰۰ ارائه می‌دهد که نشان‌دهنده میزان دقت و نزدیکی به ترجمه ایده‌آل است. پس از آزمایش بر روی ۲۰۰۰ جمله مختلف، میانگین امتیازات به‌دست‌آمده به‌عنوان شاخص نهایی کیفیت در نظر گرفته شد.

 

نتایج شگفت‌انگیز رقابت:

آنالیز داده‌ها نشان داد مدل Seq2Seq طراحی شده در این پروژه با امتیاز ۱۴.۱۱۴۰ در صدر قرار گرفته و حتی از Google Translate با امتیاز ۱۳.۹۲۳۳ پیشی گرفته است. مدل Transformer (mT5) نیز با امتیاز ۱۲.۹۸۲۷ در رتبه سوم جای گرفت.

 

تخصص‌های هر مدل در یک نگاه:

• Seq2Seq (مدل برتر):

·نقاط قوت: دقت بالاتر در متون عمومی، استقلال از اینترنت، خروجی رسمی و طبیعی

·نقاط ضعف: وابستگی به کیفیت داده‌های آموزشی

·کاربرد ایده‌آل: متون رسمی، علمی و تخصصی

 

• Google Translate (رتبه دوم):

·نقاط قوت: ترجمه روان محاوره‌ای، سرعت بالا، پوشش گسترده اصطلاحات روزمره

·نقاط ضعف: وابستگی به اینترنت، دقت کمتر در متون تخصصی

·کاربرد ایده‌آل: مکالمات روزمره و متون غیررسمی

 

• Transformer - mT5 (رتبه سوم):

·نقاط قوت: درک عمیق ساختارهای پیچیده، چندزبانه بودن

·نقاط ضعف: نیاز به تنظیمات تخصصی‌تر

·کاربرد ایده‌آل: جملات پیچیده و متون چندزبانه

نکته کلیدی: هر یک از این سه روش بسته به نوع متن و نیاز کاربر می‌توانند انتخاب بهینه‌ای باشند، اما برتری مدل بومی Seq2Seq در متون رسمی، دستاوردی قابل توجه برای فناوری داخلی محسوب می‌شود.

 

7-ایده ادغام ترجمه صوتی و متنی چگونه شکل گرفت؟ چه کاربردی را برای این ویژگی متصور بودید؟

ایده ادغام قابلیت‌های ترجمه صوتی و متنی از مشاهده نیازهای ملموس کاربران در موقعیت‌های واقعی شکل گرفت. در زندگی روزمره و محیط‌های کاری، کاربران همیشه امکان تایپ متون انگلیسی را ندارند و نیازمند راه‌حلی برای برقراری ارتباط سریع و مستقیم از طریق گفتار هستند. از سوی دیگر، سیستم‌های ترجمه صرفاً متنی نمی‌توانند تجربه کاربری روان و کاملی ارائه دهند.

بر این اساس، قابلیت تشخیص گفتار انگلیسی و ترجمه همزمان آن به فارسی در سامانه طراحی شده است تا کاربران بتوانند به سادگی و تنها با صحبت کردن به زبان انگلیسی، متن معادل فارسی را دریافت کنند. این ویژگی کاربردهای گسترده‌ای در محیط‌های آموزشی برای زبان‌آموزان، جلسات کاری بین‌المللی، سفرهای خارجی و نیز برای افراد با توانایی‌های مختلف دارد که تایپ کردن برایشان دشوار است. این نوآوری، سامانه را از یک مترجم متنی ساده به یک دستیار هوشمند چندوجهی تبدیل می‌کند.

 

8-بزرگ‌ترین چالش در تشخیص گفتار زبان فارسی چیست (مثل لهجه‌ها، نویز محیطی، تفاوت در آواها) و شما چگونه سعی کردید این چالش را مدیریت کنید؟

در بخش تشخیص گفتار این سامانه، با توجه به اینکه ورودی سیستم، گفتار انگلیسی است، چالش‌های اصلی مشابه دیگر سیستم‌های تشخیص گفتار انگلیسی می‌باشد. مهم‌ترین این چالش‌ها شامل تفاوت در لهجه‌های گوناگون انگلیسی، نویزهای محیطی، و تفاوت در تلفظ و آواهای کاربران مختلف است. برای مدیریت این چالش‌ها، از الگوریتم‌های پیشرفته پیش‌پردازش سیگنال برای کاهش نویز و بهبود کیفیت صوت ورودی استفاده شده است. همچنین مدل تشخیص گفتار با داده‌های متنوعی از لهجه‌های مختلف انگلیسی آموزش دیده تا بتواند با دقت قابل قبولی گفتار کاربران گوناگون را تشخیص دهد. علاوه بر این، مکانیزم‌های تصحیح خطا و درک contexto در مراحل پس‌پردازش پیاده‌سازی شده تا دقت نهایی سیستم در تشخیص گفتار افزایش یابد.

 

بخش چهارم: چالش‌ها، دستاوردها و چشم‌انداز

9-بزرگ‌ترین چالش فنی که در طول اجرای این پروژه با آن روبرو شدید چه بود و چگونه بر آن غلبه کردید؟ 

در مسیر اجرای این پروژه، بزرگ‌ترین چالش فنی، مدیریت همزمان سه معماری متفاوت ترجمه با نیازمندی‌های خاص هر یک بود. از سویی، مدل mT5 به دلیل ماهیت چندزبانه خود به تنظیمات ظریف و منابع پردازشی سنگین نیاز داشت؛ از سوی دیگر، مدل Seq2Seq مستلزم پیش‌پردازش دقیق و کامل داده‌ها بود تا بتواند خروجی مطلوبی تولید کند. همچنین وابستگی Google Translate به اینترنت، چالش مضاعفی در فرآیند آزمایش ایجاد می‌کرد. در کنار این موارد، حجم عظیم داده‌ها و محدودیت سخت‌افزاری برای آموزش مدل‌های یادگیری عمیق، زمان انجام پروژه را به طور قابل توجهی افزایش داده بود.

برای غلبه بر این موانع، راهکارهای متعددی به کار گرفته شد: استفاده از مجموعه داده استاندارد Opus100 همراه با پیش‌پردازش دقیق، اجرای مرحله‌ای آموزش مدل Seq2Seq برای بهینه‌سازی مصرف منابع، و بهره‌گیری از پلتفرم‌های ابری مانند Google Colab برای دسترسی به قدرت پردازشی GPU. این راهبردها اگرچه ساده به نظر می‌رسند، اما همان کلیدهای طلایی بودند که قفل مشکلات پیچیده پروژه را گشودند و نشان دادند چگونه می‌توان با ترکیب هوشمندی و perseverance، بر دشوارترین موانع فنی غلبه کرد.

 

10-آیا یک رابط کاربری (User Interface) برای این سامانه طراحی کرده‌اید؟  چه امکاناتی دارد؟
برای سهولت دسترسی کاربران نهایی، سه رابط کاربری مجزا به صورت برنامه‌های قابل اجرای ویندوز طراحی شده است. هر یک از این رابط‌ها که به ترتیب مربوط به مدل‌های Transformer، Google Translate و Seq2Seq هستند، از سه بخش اصلی تشکیل شده‌اند: بخش ورودی متن انگلیسی، بخش نمایش ترجمه فارسی و بخش سرویس‌های صوتی. کاربران می‌توانند به سادگی و بدون نیاز به نرم‌افزارهای جانبی، هم از طریق تایپ مستقیم متن و هم از طریق گفتار، متون انگلیسی را وارد کرده و ترجمه فارسی آن را دریافت نمایند. همچنین امکان شنیدن تلفظ صحیح کلمات و جملات انگلیسی نیز در این رابط‌ها پیش‌بینی شده است. این طراحی کاربرپسند، دسترسی آسان به خروجی تمامی مدل‌ها را برای مقایسه و استفاده فراهم می‌سازد.

 

11-به نظر شما اصلی‌ترین دستاورد علمی-فناورانه این پروژه چیست؟ آیا این پروژه می‌تواند مبنایی برای تحقیقات آکادمیک یا توسعه یک محصول تجاری باشد؟

اصلی‌ترین دستاورد علمی-فناورانه این پروژه، انجام نخستین مقایسه جامع عملی میان سه رویکرد متفاوت ترجمه ماشینی در حوزه انگلیسی به فارسی است. این پژوهش به طور ملموس نشان می‌دهد که مدل‌های بومی آموزش‌دیده‌ای همچون Seq2Seq قادرند همتراز با ابزارهای تجاری بین‌المللی عمل کنند، نقش حیاتی انتخاب معماری مناسب با توجه به ماهیت متن (رسمی یا غیررسمی) را برجسته می‌سازد.

از جنبه علمی، این پروژه با بهره‌گیری از داده‌های استاندارد Opus100 و معیارهای سنجش عینی مانند BLEU، پایه‌ای مستحکم برای تحقیقات آتی در حوزه ارتقای ترجمه ماشینی فارسی فراهم می‌آورد. از منظر فناورانه، تلفیق هوشمندانه قابلیت‌های ترجمه متنی و صوتی، امکان کارکرد بدون اتکای کامل به اینترنت، و قابلیت سازگاری مدل‌ها با حوزه‌های تخصصی، بستر مناسبی برای تبدیل این سامانه به یک دستیار ترجمه هوشمند و کاربردی برای همگان و سازمان‌ها ایجاد کرده است.

 

12-طرح‌ها و چشم‌اندازهای آینده شما برای توسعه این پروژه چیست؟

چشم‌انداز بلندمدت این پروژه، توسعه یک دستیار هوشمند چندزبانه پیشرفته است که فراتر از ترجمه انگلیسی به فارسی عمل کند. در این راستا، برنامه‌ریزی شده تا پوشش زبانی سیستم به تدریج گسترش یابد و امکان ترجمه پویا بین زبان‌های مختلف میسر شود. این توسعه گام‌به‌گام، همزمان دو مسیر موازی را دنبال می‌کند: از یک سو، به عنوان بستری پژوهشی برای محققان دانشگاهی عمل خواهد کرد که می‌توانند معماری‌های مختلف ترجمه ماشینی را بر روی آن آزمایش و ارزیابی کنند؛ و از سوی دیگر، قابلیت تبدیل به یک محصول تجاری جامع را دارد که بتواند نیازهای متنوع کاربران عادی و سازمان‌ها در حوزه‌های تخصصی مختلف را پاسخگو باشد.

 

13-صحبت پایانی؟ چه توصیه یا پیامی برای دیگر جوانان و دانشجویانی که ایده‌ای در سر دارند اما ممکن است از شروع کار بترسند، دارید؟ 

به عنوان صحبت پایانی، به همه جوانان و دانشجویان علاقه‌مند می‌گویم: اجازه ندهید ترس از ناشناخته‌ها، شما را از شروع کردن بازدارد. هر ایده بزرگ و نوآورانه‌ای، روزی تنها یک جرقه کوچک در ذهن فردی جسور بوده است. رمز موفقیت در این است که این جرقه را با اقدامات کوچک اما پیوسته زنده نگه دارید. فراموش نکنید که در عصر حاضر، منابع ارزشمندی مانند دیتاست‌های آماده، کتابخانه‌های متن‌باز و پلتفرم‌های ابری در دسترس هستند که می‌توانند مسیر یادگیری و اجرای ایده‌های شما را کوتاه‌تر و هموارتر کنند. همچنین، قدرت همکاری و مشورت را دست کم نگیرید - گاهی یک هم‌تیمی خوب یا راهنمایی یک استاد باتجربه می‌تواند کلید حل بزرگ‌ترین چالش‌های شما باشد. هر گام کوچکی که برمی‌دارید، حتی اگر در نگاه اول ناچیز به نظر برسد، شما را به هدفتان نزدیک‌تر می‌کند و سرمایه‌ای از تجربه برای شما فراهم می‌سازد. شجاعت شروع و پایداری در ادامه، همان کلیدهای طلایی هستند که درهای موفقیت را به روی شما می‌گشایند.

خبرنگار: طاهره جوکار

انتهای خبر/

 

 

 

 

 

https://stnews.ir/short/4ym1v
اخبار مرتبط
تبادل نظر
نام:
ایمیل: ایمیل خود را با فرمت مناسب وارد کنید
نظر: