Text-to-Speech für Mobjects

beamer · Beitrag von **beamer** » 03.08.20, 21:36

Unter dem Thema DAM hier im Forum unter forum.mobjects.com/viewtopic.php?f=2&t=2337&start=15#p14666 hatte Michael ein paar Fragen zur Sprach-Software TextAloud. Ich habe diese Software mit Erfolg und sehr viel erzeugter Freude bei einer ersten Show verwendet. Hier ist ein kurzer Bericht bei Heise www.heise.de/download/product/textaloud-30197. Und hier sind alternative Software-Tools für solche Zwecke: alternativeto.net/software/textaloud/. TextAloud kostet allerdings was und Balabolka dagegen ist kostenlos.

Das Teure bei dieser Sprachausgabe für Mobjects sind die Stimmen, welche ca 150 EUR kosten und meist nicht kommerziell und auch nicht öffentlich verwendet werden dürfen. Aber die Stimmen sind einfach gut. Ich verwende eine weibliche Kinderstimme, welche beim Publikum sehr gut ankommt.

Hier die Fragen von Michael:

Wie muss man sich das in der Praxis vorstellen? Sprache ist ja so viel mehr als nur das geschrieben Wort.

Am besten die kostenlose Testversion von TextAloud oder eine andere Software installierten. Aus einer Textdatei mit speziellen Steuer-Tags wird die Sprache direkt ausgegeben oder als MP3 exportiert.

Kann man unterschiedliche Stimmen auswählen?

Ja, das geht. Allerdings muss jede Stimme einzeln erworben werden. Die Stimmen kann man online bei den diversen Anbietern testen. Hier findet man Samples einiger Stimmen: nextup.com/acapela.html

Wie ist das mit unterschiedlichen Eigenschaften der Sprache: laut-leise, spannend-nüchtern, etc.?

Laut/leise, Schnell/langsam funktioniert einfach. Spannend/Nüchtern geht nicht. Ein Fragezeichen ab Satzende wird aber z. B. erkannt. Manche Worte, bei denen eine Software/Stimme gewisse Ausspracheprobleme hat, können etwas aufwändig phonetisch korrigiert werden. Das ist bei mir bislang ganz selten der Fall gewesen (Z. B. bei Eigennamen, Ortsnamen...).

Wie lange dauert es, bis ein Text als Tondatei passend für die m.objects-show fertig gestellt ist?

Das geht wirklich ruckzuck. Und das Schöne ist, dass jederzeit Korrekturen und Änderungen möglich sind. Die MP3s sind dann in Mobjects erneut einzulesen.

Ich hatte mich auch mit dem Gedanken beschäftigt, einen professionellen Sprechers zu beauftragen. Das kostet für eine längere Show um die 100 EUR. Allerdings muss ich alles vorher exakt vorbereiten und kann selbst keinerlei Änderungen vornehmen. Auch ist das Schneiden sehr viel Arbeit. Die Erstellung mit Sprachsoftware ist dagegen günstiger und schneller. Theoretisch kann man auch eine Show damit vorbereiten und wenn man zufrieden ist, nächträglich einem echtem, guten Sprecher geben. Der sieht dann dir richtigen Bilder zum Text und kann seine Sprache noch besser an den Bildinhalt anpassen.

Viele Grüße von Rudy