צור מערכת תרגום מכונה משלך עבור כל תחום ומשימה עסקית
ערכת כלים לתרגום מכונה
הכנת נתונים
ניתוח, סינון, סימון קורפוסים מקבילים וחד-לשוניים. צור בלוקים לנתוני בדיקה ואימות
אימון דוגמניות
אימון ארכיטקטורה עצבית מותאמת אישית עם רשימות משימות מקבילות, ניתוח GPU והערכת איכות
פְּרִיסָה
כאשר הכשרת המודל מסתיימת ניתן לפרוס אותו אוטומטית כ-API או זמין להורדה לשימוש לא מקוון
מתחיל למומחה
לוח המחוונים משלב את הטכניקות הלשוניות והסטטיסטיות העדכניות ביותר המשמשות להכשרת התוכנה לדומיינים של לקוחות ולשיפור איכות התרגום. בתמונה למטה: בצד ימין יש רשימה של משימות ושרתי GPU שעליהם מתאמנים דגמים. במרכז הפרמטרים של הרשת העצבית, ולהלן מערכי הנתונים שישמשו לאימון.

עבודה עם נתונים מקבילים
העבודה על שפה חדשה החלה בהכנת מערכי נתונים. ללוח המחוונים יש הרבה מערכי נתונים מוגדרים מראש ממקורות פתוחים כמו ויקיפדיה, הפרלמנט האירופי, Paracrawl, Tatoeba ואחרים. כדי להגיע לאיכות תרגום ממוצעת, מספיקות 5 מיליון שורות מתורגמות.

כוונון מילון ואסימונים
מערכי נתונים הם שורות טקסט המתורגמות משפה אחת לאחרת. לאחר מכן הטוקנייזר מפצל את הטקסט לאסימונים ויוצר מהם מילונים, ממוינים לפי תדירות המפגש עם האסימון. האסימון יכול להיות תווים בודדים, הברות או מילים שלמות. עם Lingvanex Data Studio אתה יכול לשלוט בכל התהליך של יצירת מילוני אסימון SentencePiece עבור כל שפה בנפרד.

סינון נתונים והערכת איכות
יותר מ-20 מסננים זמינים לסינון קורפוסים מקבילים וחד-לשוניים כדי לקבל את מערך הנתונים האיכותי מנתונים פתוחים או מנותחים. אתה יכול לסמן ישויות בשם, ספרות וכל אסימון אחר כדי לאמן את המערכת כדי להשאיר כמה מילים לא מתורגמות או מתורגמות בצורה ספציפית.
