Meine Referenz war diese Qualität.
https://json2video.com/ai-voices/azure/voices/
Wie gesagt, für Lesungen ganz ok, aber noch stark emotionslos, wenn auch die Nuancierung schon ausgezeichnet ist.
Ich vermute, dass auseinandergeschriebene Wörter natürlich getrennt gesprochen werden. Die KI weiß ja nicht, was zusammengehört und was nicht. Deshalb klingt „Adventure Treff“ sehr falsch, weil es nicht so gesprochen wird, wie wir es aussprechen würden. Der Tonhöhenbogen fehlt, weil jedes Wort einzeln abgesetzt wird.
Dazu: bei Prompts in Bildgeneratoren erkennt KI oft nicht die deutsche Schreibweise (also zusammengeschrieben). Die KI wird mit Englisch trainiert, also liest sie GETRENNTschreibung besser, auch wenn das falsche deutsche Rechtschreibung wäre. Sie übersetzt also „Bahnhofs Gebäude“ eindeutiger als „Bahnhofsgebäude“, oder, noch schlimmer: „Bahnhof Gebäude“...


