Ich möchte in VB eine TTS engine programmieren.
Aber: Mit meiner eigenden Stimme
Was muss ich Aufzeichnen?
Mit jeder Silbe dauert es zulang und jeder Laut hört sich Sch***e an
Danke für Antworten
Ich möchte in VB eine TTS engine programmieren.
Aber: Mit meiner eigenden Stimme
Was muss ich Aufzeichnen?
Mit jeder Silbe dauert es zulang und jeder Laut hört sich Sch***e an
Danke für Antworten
tja,
ich habe zwar keine ahnung, was vb ist und was eine tts engine ist, jedoch haben sie das problem schon im kern erfasst. die deutsche sprache hat ein lautmaterial von ca. 20 vokalphonemen und ca. 20 konsonantische phonemen. Damit müsste sich jedes deutsche wort generieren lassen. Jedoch geht die natürlichkeit verloren, da die coartikulation, also die verbindung von lauten beim sprechen nicht in der engine berücksichtigt wird. moderne datenbanken für ansagen (z.B. u-bahn ansagen) arbeiten daher mit ganzen worten, da hier das semantische feld eingegrenzt ist (bei einer u-bahn ansage wird vermutlich nie ein wort wie „küchengerät“ benutzt, jedoch z.b. alle zahlen. folglich werden alle benötigten zahlen eingesprochen) sie werden also entweder nicht umhin können, sich viel arbeit zu machen, oder aber abstriche bei der klangqualität machen. seien sie nicht besorgt, an der generation von menschlicher sprache arbeiten wissenschaftler seit mehr als hundert jahren und zu einem begfriedigenden ergebnis zwischen aufwand und nutzen ist noch niemand so recht gekommen.
Sorry, bin kein TTS-Experte.
Wolfgang
Hier einen link
Vieleicht kannst Du was damit anfangen.
Ist allerdings für Delphi7 gedacht.
http://www.blong.com/Conferences/DCon2002/Speech/Spe…
Gruß
hallo
leider kann ich dir nicht weiter helfen.
viele Grüße
M. Parrino
Tut mir Leid, aber das ist eher eine Frage für Computerexperten, und hat mit Stimme nur am Rande zu tun.
Grüße,
Peter
Ok, Danke
Hallo!
Um es vorweg zu nehmen, ich bin kein Experte im Programmieren. Aber ich denke, ich habe Ihr Grundproblem verstanden. Sie suchen eine Möglichkeit, aus möglichst wenigen „Sprachbausteinen“ Ihre Sprache zu synthetisieren.
Zum einen benötigen Sie meiner Ansicht nach keine Silben oder Töne sondern die kleinstmöglichen Bausteine, die PHONE und PHONEME (Phon, das / Phonem, das). Die „IPA“ hat auf ihren Internetseiten Phone und Phoneme der deutschen Sprache aufgelistet und mit Tonbeispielen versehen. Schwierig daran ist allerdings, dass es keine einheitliche Aussprache des Standarddeutschen für den gesamten deutschen Sprachraum gibt. Aber Sie benötigen auch nicht unbedingt alle Phone und Phoneme, sondern nur die für Sie geläufigsten. Um eine halbwegs annehmbare Ausgabequalität zu erzeugen dürfte das reichen.
Um die Stimme komplett zu simulieren, reicht es nicht.
Ihre eigene Stimme besteht nicht alleine aus diesen einzelnen statischen Bausteinen. Sie wird vielmehr dynamisch aus diesen Bausteinen zusammen gesetzt. Es kommt nicht alleine auf die Frequenz des Tones (z.B. 440 Hz für den Ton ‚a‘ ), sondern auch auf die für jeden Sprecher charakteristischen „Unterfrequenzen“ an. Hier könnten Sie sich vielleicht näher über die „Formanten“ (f3 und f4)informieren. Ich denke, das würde hier den Rahmen sprengen.
Das letzte wichtige Merkmal ist die Lautstärke bzw. der „Schalldruckpegel“. Mit technischen Hilfsmitteln dürfte dieser Punkt noch der am einfachsten zu realisierende Aspekt sein.
Schlussfolgerung 1:
eine x-beliebige Stimme künstlich zu erzeugen ist sehr zeitaufwändig (sieht mit ‚Ä‘ fürchterlich aus, oder?).
Schlussfolgerung 2:
Die eigene Stimme täuschend echt zu simulieren ist durch den immensen Rechenaufwand der nötig wäre, mit handelsüblichen Mitteln nicht möglich.
Schlussfolgerung 3:
Die Hollywood-Tricks aus Mission Impossible und ähnlichen Filmen, in denen bestimmte Stimmen täuschend echt vom Computer simuliert werden sind (noch)Fiktion.
Ich hoffe, ich konnte Ihren Überlegungen einige neue Denkanstöße geben.
MfG!
S.
Hallo,
ich muss leider passen: Ich habe weder die Info/Aussage noch die Frage verstanden. Möglicherweise ein Generationsproblem?! Ich drück’ dir die Daumen, dass du doch noch zu deinen Antworten kommst!
ich antworte nur, weil man das generell soll bei „wr-weiß-was?“ -ich weiß nicht mal, wovon die Rede ist, sorry…