DEVELOPMENT THE DATASET FOR AUTOMATIC TRANSLATION SYSTEM

Ghanem, Dahey G.

doi:10.21608/auej.2023.297051

DEVELOPMENT THE DATASET FOR AUTOMATIC TRANSLATION SYSTEM

Document Type : Original Article

Author

Dahey G. Ghanem

Department of Systems Engineering and Computers, Faculty of Engineering, Al-Azhar University, Egypt.

10.21608/auej.2023.297051

Abstract

The Automatic translation systems (ATS) for translation text have extent widely in recent years. The ARS developed to correct several types of text errors explained by the Mossop's prototype such as spelling, typographical, syntactic, semantic, word, and formal ones. The ARS need a large amount of data training in its forms. There is a shortage in German-Arabic datasets for translation and revision purposes. Building dataset is the most time-consuming and the most important part of the text translation process. We make an effort to analyze and work on this large amount of data Sentences, and the form of text free dataset on the ARS, most efforts focus on German and Arabic data. Despite the increase in the number of Arabic, users and the increase in Arabic content on ARS. Therefore, in this paper, Arabic dataset built to use in text translation purpose. This research offers the German-Arabic dataset from the Taxonomy of errors in post-editing text for growth the ARS. Our dataset gathered from A Game of Throne saga in German (GR) and Arabic (AR) saga. Our dataset consists of 65,000 bilingual sentences collected from Text. The most significant penalties of this research were the Mossop's prototype terminates to explain all errors; and the prototype had to be lengthy in demand to include the Consistency. Finally, human evaluators were employed to grade the quality of ATS outputs and to revision them. We used a Rapid Miner tool to evaluate the performance of our dataset, the dataset accuracy of 95.12%.

إنتشرت أنظمة المراجعة التلقائية للنص المترجم على نطاق واسع في السنوات الأخيرة. تم تطوير نظام المراجعة التلقائية للنص المترجم لتصحيح عدة أنواع من أخطاء النص المترجم التي ذكرها النموذج الأولي لـموسوب مثل الإملائية ، والمطبعية ، والنحوية ، والدلالية ، والكلامية ، والشكلية. يحتاج نظام المراجعة التلقائية للنص المترجم إلى كمية كبيرة من البيانات في أشكالها لعمل تدريب عليها. هناك نقص في مجموعات البيانات الألمانية-العربية لأغراض الترجمة والمراجعة. يعد إنشاء مجموعة البيانات الجزء الأكثر استهلاكا للوقت والأكثر أهمية في عملية ترجمة النص. لقد قمنا ببذل جهدًا لتحليل هذه الكمية الكبيرة من جمل البيانات والعمل عليها وتشكيل مجموعة البيانات النصية الحالية من نظام المراجعة التلقائية للنص المترجم ، وتركز معظم الجهود على البيانات الألمانية والعربية. على الرغم من زيادة عدد المستخدمين للغة العربية وزيادة المحتوى العربي على نظام المراجعة التلقائية للنص المترجم. لذلك في هذه الورقة ، تم بناء مجموعة البيانات الألمانية-العربية لاستخدامها في أغراض ترجمة النص. يقدم هذا البحث مجموعة البيانات الألمانية العربية من تصنيف الأخطاء في نص ما بعد تصحيح الترجمة لنظام المراجعة التلقائية للنص المترجم. تم جمع مجموعة البيانات الخاصة بنا من ملحمة لعبة العروش باللغتين الألمانية والعربية وتتكون مجموعة البيانات الخاصة بنا من 65000 جملة ثنائية اللغة تم جمعها من النص. كانت أهم نتائج هذا البحث هي عجز النموذج الأولي لـموسوب لشرح جميع الأخطاء ؛ وكان يجب أن يكون النموذج الأولي طويلاً ليشمل الاتساق. قمنا بتقييم صحة مجموعة البيانات الخاصة بالترجمة الألية والتدقيق بواسطة الخبراء البشريين. استخدمنا أداة Rapid Miner لتقييم أداء مجموعة البيانات الخاصة بنا وكانت دقة مجموعة البيانات 95.12٪.

Keywords