Stimmsignale und Realstrukturen

 


Mein Ansatz, die digitalisierte Stimme als Struktur bzw. Realstruktur zu betrachten, wird hier schematisch erläutert. Man unterscheidet in der Festkörperphysik, Festkörperchemie und speziell in der Kristallographie zwischen idealen Strukturen und realen Strukturen. Gemeint in diesem Zusammenhang ist die Anordnung der Atome oder deren Positionen in einem Festkörper (kristalliner Festkörper). Eine Idealstruktur ist aufgebaut aus periodischen Anordnungen von Struktureinheiten (Elementarzellen) in allen Raumrichtungen (x,y,z). Eine 3-D-Elementarzelle von Kupfer-Gold (Cu3Au) ist in Abb. 1 gezeigt. Einfachheitshalber werden die Strukturen als zweidimensionale Projektionen auf die XY-Ebene dargestellt (Abb. 2). Eine Idealstruktur von Cu3Au ist in Abb. 3 schematisiert. Die Struktur ist in allen Raumrichtungen identisch aufgebaut. Bei höheren Temperaturen (ca. 420°C) wechseln die Cu-Atome und Au-Atome durch Diffusion über die Leerstellen ihre Position im Gitter und es entstehen andere Struktureinheiten, wie gezeigt in Abb. 2. Wenn der Platzwechselvorgang abgeschlossen ist, dann entsteht eine Struktur, bei der alle Strukturvarianten aus Abb. 2 beteiligt sind. Solche Strukturen nennt man fehlgeordnete Strukturen, bzw. Realstrukturen (Abb. 4).


 


Eine eindimensionale Fourier-Transformation (Frequenzraum) der Idealstruktur von Abb. 3 (Cu3Au) ist dargestellt in Abb. 5 und darunter in Abb. 6 als Vergleich die Fouriertransformierte der fehlgeordneten, bzw. der Realstruktur von Cu3Au. Bei der Idealstruktur sind die Maxima im Frequenzraum diskret. Im Gegensatz dazu sind die Maxima der Realstruktur verbreitert, bzw. diffuser. Die Diffusität der Maxima ist verursacht durch die Störung der Periodizität bei den Atompositionen gegenüber der Realstruktur.


 


Nun zu dem Ansatz Stimme als Realstruktur. Ein Sprachsignal wurde mit Hilfe eines hochwertigen Mikrofons aufgenommen, im Rechner digitalisiert und ist in Abb. 7a) dargestellt. Bei der vorliegenden Methode wird ein solches Sprachsignal als Realstruktur betrachtet. Von dem Gesichtspunkt der Realstruktur-Forschung beinhaltet ein solches Sprachsignal oder Struktur sämtliche Merkmale einer Stimme. Diese Merkmale (z.B. Frequenzlage, Diffusität, zeitliche Veränderung des Signals, die Korrelation im Signal (Vektoren)) liefern ein Stimmprofil für den Sprecher, wenn sie richtig aus dem Sprachsignal oder der Struktur mathematisch extrahiert werden. Um alle Merkmale der Stimme zu erfassen, muss das Signal eine repräsentative Länge aufweisen. Eine repräsentative Länge liegt bei 40-80 Sekunden Sprachdauer.
Zum Vergleich mit den Realstrukturen wird das Sprachsignal von Abb. 7a) in Abb. 7b) fourier-transformiert (Frequenz-Raum). Hier wird der Vergleich zu den Realstrukturen deutlich. Die Maxima sind teilweise diffus und gerade die diffusen Komponenten liefern wertvolle Informationen über die Stimmcharakteristik.