AudioPalm: Google schafft multimodale KI, indem Palm2 und AudioLM fusioniert werden
Aufklärung über Eigenpositionen: Diese Aktien aus dem Artikel halten TraderFox-Redakteure aktuell
Das Beste aus beiden Welten
Google hat kürzlich zwei KI-Modelle zusammengeführt, um Übersetzungen mit Originalstimmen zu ermöglichen. Es geht um die Modelle AudioLM, das auf Ton basierend ist, und Palm-2, das auf Text basierend ist. Aus dieser Fusion entstand ein neues Modell namens Audiopalm, das nicht nur Texte schreiben und übersetzen, sondern auch in der gewünschten Stimme wiedergeben kann.
Wenn jemand auf Deutsch etwas sagt, wiederholt Googles Sprachmodell es in einer anderen Sprache, aber mit einer Stimme, die sehr nah am Original liegt. Google wiederholt dieses Beispiel in seinem Forschungspapier zu AudioPalm mit mehreren Sprachen und Inhalten, um zu erklären, wie das neu geschaffene Sprachmodell (Large Language Model, LLM) mit einer multimodalen Architektur funktioniert.
Drei Sekunden einer Audioaufnahme sind für AudioPalm ausreichend, um eine Originalstimme nachzuahmen. Die Zeitspanne, die Microsoft und Meta für ihre Sprachmodelle zur Übersetzung benötigen, entspricht ungefähr dieser Zeitspanne.
Echtzeit, Transkripte und Intonation
Wie seine Konkurrenten kann AudioPalm Sprache plausibel weiterführen, wenn eine Aufnahme endet oder gestört wird. Es gibt Übersetzungen von Sprache zu Text, die in Echtzeit erfolgen. Google behauptet, dass Sprachkombinationen, die nicht im Training verwendet werden, dennoch effektiv sind. AudioPalm hat die Fähigkeit, Texte in die Ausgangssprache oder direkt in eine andere Sprache zu transkribieren. Google könnte solche Dienste nutzen, um Untertitel für Youtube-Videos zu erstellen oder die Originalstimme zu verwenden, um sie zu synchronisieren. Es besteht die Möglichkeit, dass dies auch für die Filmindustrie und andere Anwendungen von Bedeutung sein könnte.
Ein weiterer Schritt für KI-Übersetzungen
Audiopalm ist ein wichtiger Fortschritt in der KI-Übersetzungstechnologie. In Bereichen wie Voiceover-Technik oder der Unterhaltungsindustrie eröffnet die Fähigkeit, Texte mit originalgetreuen Stimmen wiederzugeben, neue Möglichkeiten. Es ist ungewiss, wie Audiopalm in der Praxis eingesetzt und welche Auswirkungen es auf die Sprachtechnologie haben wird. Jedoch wird es entscheidend sein, wann die Technologie einsatzbereit ist.