Erstellen Sie Ihr eigenes maschinelles Übersetzungssystem für jeden Bereich und jede Geschäftsaufgabe
Werkzeugkasten für maschinelle Übersetzung
Vorbereitung der Daten
Parsen, Filtern, Markieren paralleler und einsprachiger Korpora. Blöcke für Test- und Validierungsdaten erstellen
Modell Ausbildung
Trainieren einer benutzerdefinierten neuronalen Architektur mit parallelen Auftragslisten, GPU-Analysen und Qualitätseinschätzung
Einsatz
Wenn das Modelltraining abgeschlossen ist, kann es automatisch als API bereitgestellt werden oder für die Offline-Nutzung heruntergeladen werden.
Vom Anfänger zum Experten
Dashboard kombiniert die neuesten linguistischen und statistischen Techniken, die verwendet werden, um die Software auf Kundendomänen zu trainieren und die Übersetzungsqualität zu verbessern. In der Abbildung unten: rechts ist eine Liste der Aufgaben und GPU-Server, auf denen Modelle trainiert werden. In der Mitte befinden sich die Parameter des neuronalen Netzes, und darunter die Datensätze, die für das Training verwendet werden.

Arbeiten mit parallelen Daten
Die Arbeit an einer neuen Sprache begann mit der Vorbereitung der Datensätze. Das Dashboard enthält viele vordefinierte Datensätze aus offenen Quellen wie Wikipedia, Europäisches Parlament, Paracrawl, Tatoeba und anderen. Um eine durchschnittliche Übersetzungsqualität zu erreichen, reichen 5 Millionen übersetzte Zeilen aus.

Abstimmung von Wörterbuch und Tokenizer
Datensätze sind Textzeilen, die von einer Sprache in eine andere übersetzt werden. Dann zerlegt der Tokenizer den Text in Token und erstellt daraus Wörterbücher, sortiert nach der Häufigkeit des Auftretens des Tokens. Das Token kann entweder aus einzelnen Zeichen, Silben oder ganzen Wörtern bestehen. Mit Lingvanex Data Studio können Sie den gesamten Prozess der Erstellung von SentencePiece Token-Wörterbüchern für jede Sprache separat steuern.

Datenfilterung und Qualitätseinschätzung
Es stehen mehr als 20 Filter zur Verfügung, mit denen parallele und einsprachige Korpora gefiltert werden können, um einen qualitativ hochwertigen Datensatz aus Open-Source- oder geparsten Daten zu erhalten. Sie können benannte Entitäten, Ziffern und andere Token markieren, um das System so zu trainieren, dass einige Wörter nicht übersetzt oder auf bestimmte Weise übersetzt werden.

Kontaktieren Sie uns jetzt
Und erhalten Sie kostenlosen Zugang zu unseren Lösungen!