Ստեղծեք ձեր սեփական մեքենայական թարգմանության համակարգը ցանկացած տիրույթի և բիզնես առաջադրանքի համար
Մեքենայի թարգմանության գործիքակազմ
Տվյալների պատրաստում
Վերլուծել, զտել, նշել զուգահեռ և միալեզու կորպուսները: Ստեղծեք բլոկներ թեստի և վավերացման տվյալների համար
Մոդելների ուսուցում
Վերապատրաստեք հատուկ նեյրոնային ճարտարապետությունը զուգահեռ աշխատատեղերի ցուցակներով, GPU-ի վերլուծությամբ և որակի գնահատմամբ
Տեղակայում
Երբ մոդելի ուսուցումն ավարտվի, այն կարող է ավտոմատ կերպով տեղակայվել որպես API կամ հասանելի՝ ներբեռնելու համար անցանց օգտագործման համար
Սկսնակից մինչև փորձագետ
Dashboard-ը համատեղում է լեզվական և վիճակագրական վերջին տեխնիկան, որն օգտագործվում է ծրագրաշարը հաճախորդների տիրույթներին սովորեցնելու և թարգմանության որակը բարելավելու համար: Ստորև նկարում. աջ կողմում ներկայացված է առաջադրանքների և GPU սերվերների ցանկը, որոնց վրա մոդելները վերապատրաստվում են: Կենտրոնում նեյրոնային ցանցի պարամետրերն են, իսկ ստորև ներկայացված են տվյալների հավաքածուները, որոնք կօգտագործվեն ուսուցման համար:

Աշխատեք զուգահեռ տվյալների հետ
Նոր լեզվի վրա աշխատանքը սկսվեց տվյալների հավաքածուների պատրաստմամբ: Վահանակը ունի բազմաթիվ կանխորոշված տվյալների հավաքածուներ բաց աղբյուրներից, ինչպիսիք են Վիքիպեդիան, Եվրոպական խորհրդարանը, Paracrawl, Tatoeba և այլն: Թարգմանության միջին որակի հասնելու համար բավական է 5M թարգմանված տող:

Բառարան և Tokenizer Tuning
Տվյալների հավաքածուները մի լեզվից մյուսը թարգմանված տեքստի տողեր են: Այնուհետև թոքենիզատորը տեքստը բաժանում է նշանների և դրանցից ստեղծում բառարաններ՝ դասավորված ըստ նշանի հանդիպելու հաճախականության: Նշանը կարող է լինել կամ առանձին նիշ, վանկ կամ ամբողջական բառեր: Lingvanex Data Studio-ի միջոցով դուք կարող եք վերահսկել SentencePiece նշանային բառարանների ստեղծման ողջ գործընթացը յուրաքանչյուր լեզվի համար առանձին:

Տվյալների զտում և որակի գնահատում
Ավելի քան 20 զտիչներ հասանելի են զուգահեռ և միալեզու կորպուսները զտելու համար՝ բաց աղբյուրներից կամ վերլուծված տվյալներից որակյալ տվյալների ստացման համար: Դուք կարող եք նշել անուններով կազմված սուբյեկտները, թվանշանները և ցանկացած այլ նշաններ՝ համակարգին վերապատրաստելու համար, որպեսզի որոշ բառեր չթարգմանվեն կամ թարգմանվեն հատուկ ձևով:
