ppt

Inwiefern unterscheiden sich „Voiceprints“
und Fingerabdrücke bezüglich der
Zuverlässigkeit der Sprecheridentifikation?
Wie zuverlässig ist eine visuelle,
spektrographische Analyse im Vergleich zu
einer auditiven Analyse für die
Identifikation der Sprecheridentität?
1. Fingerabdrücke
-
-
-
-
-
Die ersten bekannten Fingerabdrücke gehen auf die
neolithische Zeit zurück
1686 bemerkte der italienische Anatom Marcello
Malpighi, dass sich die menschlichen Fingerabdrücke von
einander unterscheiden.
Erst 1823 hat J.E. Purkinje den ersten Traktat publiziert, in
dem er die Papillarleisten (papillary ridges) in 19 Arten
klassifiziert hatte (die Purkinje Muster).
Herschel sammelte Fingerabdrücke innerhalb von 30
Jahren und ist zum Schluss gekommen, dass die papilläre
Falten (papillary folds) sehr beständig sind.
Die erste wissenschaftliche Studie zu den
Fingerabdrücken stammt vom berühmten britischen
Genetiker und Anthropologen Francis Galton (1888)
Die Haut, die aus Erhöhungen (ridges) besteht,
beinhaltet Schweißdrüsen, durch die Schweiß
vermischt mit dem Talg an die Oberfläche kommt.
Beim Kontakt mit der glatten Oberfläche hinterlässt
diese Flüssigkeit bemerkbare Spuren. Eindeutig
bestimmbar im Alter von 4 Monaten, gewinnbar von
den Leichen (und Mumien), unveränderlich und
unbeweglich machen Fingerabdrücke wahre
individuelle Eigenschaft aus.
2. Genetische Fingerabdrücke

Kontinuität der spezifischen Eigenschaften alles Lebenden
ist durch die Informationen gewährleistet, die während der
Zellteilung weitergeleitet werden.

Das in jeder Zelle vorhandene genetische Material setzt sich
aus der im Zellnukleus enthaltenen DNS und der in den
Mitochondrien enthaltenen DNS.

Die molekulare Struktur der DNS war 1953 von Watson und
Crick entdeckt: die aus zwei verflochtenen Ketten gebildete
und aus fest zusammengebundenen Nukleotiden
zusammengesetzte Doppelhelix.

Nur ein Teil der DNS funktioniert wie ein Kode, der jeder
Zelle Synthese der für sie nötiger Moleküle erlaubt. Diese
Bereiche, genannt Mini-Satelliten, bestehen aus sich
wiederholenden Abfolgen der Nukleotiden (20 bis 70), die
abhängig von der Einzelperson 3 bis 10 mal abgebildet sind.

1985 haben Wilson, Jeffreys und Thein entdeckt, dass
bestimmte Abfolgenfamilien ein gemeinsames Muster
aufweisen: eine Molekularkette, die aus einer Abfolge der
Nukleinsäure besteht und mindestens 20 Nukleotiden
enthält.

Da die Moleküle beim Erbgang weitergeleitet werden, ist es
möglich, die Identitätsforschung auf den Familien
durchzuführen.
Da die Wahrscheinlichkeit zwei Menschen mit
demselben genetischen Profil zu treffen, extrem klein
ist, scheint die genetische Analyse die zuverlässigste
der heute entwickelten Methoden zu sein.
3. Voiceprints

Menschen besitzen die Fähigkeit, bekannte Stimmen zu
erkennen.

Man kann aber nicht sagen, dass jede Stimme Eigenschaften
besitzt, die sie einmalig unter allen anderen Stimmen
erscheinen lassen.

Es gibt keine Beweise dafür, dass die Phonetiker in der
Stimmenidentifikation besser als die Laien sind.

1980 wurde auf dem Colloqium of British Academic
Phoneticians die Aussage gutgeheißen: „Die Phonetiker
sollten sich nicht für Experten in der Sprecheridentifikation
halten, bevor sie sich als solche beweisen können“.



1962 erschien in Nature ein Artikel mit dem Titel
„Voiceprint identification“.
Dieser fehlerhafte metaphorische Terminus „Voiceprint“
lässt viele Menschen glauben, dass die graphische
Darstellung der Stimme (Sonagramm) genau so zuverlässig
wie die Struktur der Papillarleisten der Fingerabdrücke oder
der genetischen Fingerabdrücke ist, und dass sie die
zuverlässige Sprecheridentifizierung erlaubt.
Aber kein Sprachspezialist hat Beweise für die
Zuverlässigkeit der Sprecheridentifikation durch
Spektrogrammanalyse gefunden.
Vergleich von Fingerabdrücken, genetischen
Fingerabdrücken und Sprachsignalen
Allgemeine
Genetischer
Fingerabdruck
Fingerabdruck
Sprachsignal
Zellenstruktur
Fingerformspuren
auf der Oberfläche
Folgen der
Geometrisch
Temporal und spektral
Keine nach dem
vierten Monat
Kann vom Sprecher
selbst oder durch Stress
verändert werden
Charakteristik
Parameter
Multilokuläre
Teile der DNS
Artikulatorenbewegung
Veränderlichkeit
Nein
Alterseinfluss
Nein
Nein
Wichtig mit
Erwachsenwerden
Einfluss des
Gesundheitszustandes
Nein
Nein
Wichtig für Vokal- und
Nasaltrakt und Lungen
Spracheinfluss
Nein
Nein
Sehr wichtig
Vergleich von Fingerabdrücken, genetischen
Fingerabdrücken und Sprachsignalen
Genetischer
Fingerabdruck
Fingerabdruck
Sprachsignal
Möglichkeit, die Leiche
zu identifizieren
Ja
Ja
Nein
Möglichkeit der
Geschlechtsidentifikation
Ja
Nein
Ungewiss
Möglichkeit, die
Familienzugehörigkeit zu
bestimmen
Ja
Nein
Nein
4. Sprecherauthentifikation und Sprecheridentifikation
Um herauszufinden, wie zuverlässig eine visuelle,
spektrographische Analyse im Vergleich zu einer auditiven Analyse
für die Identifikation der Sprecheridentität ist, wurde eine Studie
gestartet.
Die Studie beschäftigte sich mit folgendem Experiment:
Die Testperson bekommt Samples desselben Sprachmusters, erzeugt
von einer Zahl der Sprecher. Dann wird ihr ein Kontrollstimulus
präsentiert, eine neue Version des Musters eines der Sprecher. Ihre
Aufgabe ist, den Sprecher zu identifizieren; dabei darf sie die
vorgeführten Samples so oft sie will hören. Diese Technik heißt
matching-from-sample procedure.
Sprecheridentifikation wurde auf zwei verschiedene Weisen der
Sprachmaterialpräsentation untersucht: 1). Sprachmaterial wurde
über Kopfhörer präsentiert; 2). Sprachmaterial wurde visuell als
Spektrogramm präsentiert.
Fragen, die zu Beginn der Studie gestellt wurden:

Wie vergleichbar ist die Leistung der Testpersonen in
visuellen und Hörtests?

Hängt die Fähigkeit der Sprecheridentifikation von den
Eigenschaften des verwendeten Musters: seiner Länge,
seines phonetischen Inhalts etc?

Gibt es individuelle Unterschiede in der Identitätsfähigkeit
der Stimmen, und gibt es Unterschiede zwischen Menschen
in ihrer Fähigkeit, Stimmen auditiv und visuell zu
unterscheiden?

Wie treten Menschen in Bestätigungstests auf, in denen der
Sprecher des Musters als einer der Gruppe der in der
Samplebibliothek präsentierten Sprecher zu identifizieren
ist?
Zwei Experimentarten wurden durchgeführt:
(1) Reihe der closed Tests, in denen es
Samplebibliothek von acht Sprechern gab, und die
Kontrollmuster von einem der Sprecher zu
produzieren waren;
(2) Reihe der open Tests, in denen dieselbe
Samplebibliothek von acht Sprechern verwendet
wurde, aber die Kontrollmuster könnten oder könnten
nicht von einem dieser Sprecher produziert worden
sein.
Auswahl der Sprecher

Es wurde beschlossen, eine Bibliothek der Wörter vorzubereiten, die
von 24 männlichen Sprechern im Alter von 20 bis 40 Jahren
gesprochen wurden, dessen Stimme man für typisch männlich hielt,
und die keinen starken Akzent und keine signifikanten Abweichungen
in der Artikulation hatten. Dafür wurden Aufnahmen von 59 Männern
gemacht, als jeder einen Textabschnitt und drei isolierte Spondeus
Wörter (spondee ) vorgelesen hat.

Als nächstes wurde eine Gruppe der Sprachforscher zusammengestellt
und gebeten, die Sprecherstimmen nach bestimmten Merkmalen zu
bewerten: (a) niedrig-hoch, voll-dünn, tief- flach; (b) langsam-schnell;
(c) klar-unklar, rau-sanft; (d) ohne regionalen Akzent - mit regionalem
Akzent; (e) gute Artikulation - schlechte Artikulation; (f) ohne nasale
Resonanz - mit starker nasalen Resonanz.
Die Sprecher mit untypischer Artikulation, starkem Akzent und
nasaler Resonanz wurden sofort ausgeschlossen.
Für die restlichen Sprecher wurden abhängig von der
durchschnittlichen Bewertung der Merkmale a, b, c und d und ihrer
Vokaltraktlänge Verteilungskurven erstellt.
Um die Zahl der Sprecher auf 24 zu reduzieren, wurden 2 Kriterien
verwendet:
(1) Sprecher mit extremen Werten (wie sehr langsames Tempo oder
seht niedrige Tonhöhe) wurden ausgeschlossen ;
(2) Eigenschaften der ausgewählten Sprecher beinhalteten
angemessene Verteilung verschiedener Merkmale.
Durch diese Prozedur wurde eine homogene Gruppe von acht
bekannten Sprechern ausgewählt, deren Sprachmuster beim
Experiment zum Vergleich dienen werden. Die gebliebenen 16
Sprecher wurden als unbekannte Sprecher verwendet, deren
Sprachmuster zum Vergleich bei den open Tests nicht verfügbar sein
werden.
Auswahl des Sprschmaterials
Es sollte eine halbwegs große Auswahl an
Sprachlauten repräsentiert werden, so dass man die
relative Wichtigkeit verschiedener Klassen der
Sprachlaute bei der Sprecheridentifikation mit zwei
Methoden einschätzen könnte. Die Musterlänge war
auch sehr wichtig.
Der betonte Vokal
vorne
1. Baseball
2. Sidewalk
3. Pancake
X
X
X
4. Dovetail
7. That
8. Base
9. Side
10. A baseball glove
11. That sidewalk is brocken
X
X
X
5. Yardstick
6. Scarecrow
hinten
X
X
X
X

Die Tabelle zeigt, dass einige kurze Wörter auch ein Teil der
längeren Wörter oder Phrasen sind. Somit war es möglich, die
Fähigkeit der Testpersonen, den Sprecher aufgrund isoliert
ausgesprochenen Wortes mit ihrer Fähigkeit, den Sprecher
aufgrund längerer, dasselbe Wort enthaltenen Einheit, zu
vergleichen.

Sechs der Wörter auf der Liste sind Spondeus Wörter. Da
beide Silben betont werden, obwohl die Hauptbetonung auf
der ersten Silbe liegt, dachte man, dass jede Silbe einen
Beitrag zur Sprecheridentifikation leisten könnte. Diese
Wörter wurden so ausgesucht, dass hintere und vordere Vokale
etwa gleich in betonten Silben vertreten waren, und relativ
breite Verteilung der Konsonanten auf verschiedenen
Positionen im Wort beinhalteten.
Auswahl der Testpersonen
Aus insgesamt 10 Hochschulstudenten, die sich für
die Teilnahme in Experimenten beworben haben,
wurden sechs ausgesucht (drei Männer und drei
Frauen). Die Auswahl basierte auf Durchleuchtung
ihres Gehörs und aufgrund der Untersuchung ihrer
Fähigkeit, sich mit sechs früher unbekannten
Stimmen vertraut zu fühlen. Da nur zwei Studenten
nach der Durchleuchtung ausgeschlossen wurden,
wurde die endgültige Auswahl von drei Männern und
drei Frauen per Zufall getroffen. Ihr
Durchschnittsalter war 19,5 Jahre und Englisch war
ihre Muttersprache.
Closed Tests






Materialien für die closed Tests bestanden aus fünf Wiederholungen
der elf Wörter aus der Tabelle, die von acht bekannten Sprechern
aufgenommen wurden.
Es wurden zwei Reihen der Vergleichsmuster zusammengestellt.
Für jedes Wort wurde eine Reihe der Vergleichseinheiten den drei
Testpersonen und die andere Reihe der Vergleichseinheiten den
anderen drei präsentiert.
Im Falle der Hörtests konnte die Testperson jedes der
Vergleichsmuster oder die Kontrolleinheit durch das Drücken eines
der neun angemessen beschrifteten Schalter hören.
Die Sprache wurde mit Geräuschen vermischt, um
Atmungsgeräusche, Bewegungsgeräusche und Klicks zu maskieren.
Vor den Hörtests wurde jeder Testperson die Möglichkeit gegeben,
einmal jedes der acht Vergleichsmuster zu hören.



Im Falle der visuellen Tests war jedes Kontrollmuster ein
Spektrogramm eines Wortes und die Vergleichsmuster waren acht
Spektrogramme, die eine Äußerung des Wortes durch jeden der acht
Sprecher darstellten. So war die Testperson im Stande, das gegebene
Kontrollspektrogramm mit jedem der Vergleichsspektrogramme zu
vergleichen.
Der Test bestand aus 32 Äußerungen eines gegebenen Wortes.
Jede Testperson nahm an 28 closed Tests (14 Hörtests und 14
visuellen Tests) teil.

Für jede Testperson und jeden Test wurden den Vergleichsmustern
verschiedene Nummern von 1 bis 8 zugeteilt.


Muster wurden in einer zufälligen Reihenfolge präsentiert.
Durchschnittlich machten die Testpersonen zwei Hörtests und zwei
visuelle Tests während einer einzelnen Sitzung.
Open Tests

Der Ablauf der open Tests war ziemlich ähnlich mit dem der closed
Tests, nur dass die Äußerungen der unbekannten Sprecher in den
Kontrollsamples der bekannten Sprecher enthalten waren.



Zwei der elf Wörter wurden verwendet (sidewalk und dovetail).
Es wurden vier Testpersonen gebraucht.
Jede Testperson hat an 12 Tests teilgenommen (sechs Hörtests und
sechs visuellen Tests).

Die verwendeten Wörter, Testmuster, Konditionen und
Vergleichsmuster wurden vom Test zu Test für jede Testperson
zufällig angeordnet.

Die Instruktionen für die Testpersonen waren grundsätzlich dieselben
wie in closed Tests. Allerdings wurden die Testpersonen informiert,
dass die Kontrollmuster von einem der acht bekannten Sprecher
stammen könnten oder nicht.

Die erste Aufgabe der Testperson war, zu bestimmen, ob das
vorgeführte Muster von einem der acht Sprecher stammte, und
dann musste man eingeben, wie sicher man sich bei der
Entscheidung war.

Falls die Testperson angab, dass das Kontrollmuster von einem
der acht Sprecher stammte, musste sie den Sprecher
identifizieren und eingeben, wie sicher sie sich bei der
Entscheidung war.
Ergebnisse der Closed Tests



Nach 14 Tests (etwa vier Aufnahmestunden) lief der Lernprozess
schneller für Hörtests als für visuelle Tests ab. Nach der Erklärung des
experimentellen Ablaufs, haben die Testpersonen etwa die gleiche Zeit
für beide Tests gebraucht- etwas über 1 min für die Entscheidung.
Die benötigte Zeit für Hörtests hat nach sechs Tests sehr schnell auf
weniger als die Hälfte gesunken, wobei die Zeit für die visuellen Tests
viel langsamer abnahm. Die benötigte Zeit scheint vor allem von der
Länge der Äußerung abzuhängen. Für die Hörtests schwankt die
durchschnittliche Zeit für die Identifikation von 26 sec für das Wort
side bis 47 sec für einen Satz. Für die visuellen Tests ist die
Spannweite von 37 sec für das Wort base bis 61 sec für einen Satz.
Für die Hörtests lag die Fehlerquote etwa bei 18% und fiel auf 6% bei
späteren Tests. Bei visuellen Tests fiel die Fehlerquote von 28% auf
21% während vergleichbaren Zeitabschnitts.


Die Präzision, mit der die Testpersonen den Sprecher identifiziert
haben, schwankte deutlich. Für die visuellen Tests gibt es mit der
wachsenden Länge der Äußerung ständige Verbesserung in Erkennung
des Sprechers. Für die Hörtests ist die Länge weniger wichtig, und
wenn die Silbenzahl drei überschreitet, scheint es im Durchschnitt
keine weitere Verbesserung in Erkennung zu geben.
Die Wörter mit betonten vorderen Vokalen erlauben einem, den
Sprecher viel schneller zu identifizieren, als die Wörter mit betonten
hinteren Vokalen.

Ergebnisse zeigen, dass es große Unterschiede in der Fähigkeit der
visuellen und auditiven Sprecheridentifikation zwischen den
Testpersonen gibt. Außerdem gibt es keine Übereinstimmung in
Ergebnissen für beide Testarten, d.h. die Testperson, die gut in
Hörtests abgeschnitten hat, war nicht notwendigerweise gut in
visuellen Tests.

Die Spannweite der Fehlidentifikation bei den visuellen Tests ist
ziemlich klein (20% bis 30%). Bei den Hörtests ist sie viel größer;
manche Sprecher wurden seltener mit anderen verwechselt, während
andere viel öfter falsch identifiziert wurden. So gibt es schwache
Beweise dafür, dass die Stimme beim Hören markant ist und auch
markante spektrogrsphische Muster aufweist.

Bei jedem Test hatte die Testperson den Zugriff nur auf eine Variante
des Vergleichsmusters. Drei Testpersonen haben eine Reihe der
Vergleichsmuster verwendet, und die anderen drei eine andere Reihe.
Da ein Sprecher eine Äußerung nie auf gleiche Weise zweimal
produziert, kann man erwarten, dass sich diese Vergleichsmuster ein
wenig unterscheiden, und dass sich die Ergebnisse der
Sprecheridentifikation abhängig von unterschiedlichen Mustern
unterscheiden.

Und das ist wirklich der Fall, obwohl der Unterschied für die
meisten Wörter sehr klein war. Bei den Hörtests gab es den
auffälligsten Einfluss bei Vergleichsmustern für Phrasen und
Sätze, z.B. für a baseball glove war die Fehlerquote bei einer
Reihe der Vergleichsmuster 1% und 12% bei der anderen
Reihe.

Bei den Tests stellte sich heraus, dass man sich bei den
Antworten für Hörtests viel sicherer war als bei visuellen
Tests, und das bei jeder einzelnen Testperson.
Ergebnisse der Open Tests



Für open Tests hatten die Testpersonen zweifache Aufgabe: den
Sprecher zu authentifizieren und falls er als bekannt erkannt wird, ihn
zu identifizieren.
Durchschnittszeit für die Hörtests war etwa 30 sec, während sie für
die visuellen Tests etwa 60 sec war (25 sec bzw. 45 sec bei closed
Tests).
Bei den Hörtests war die Authentifikationsquote der bekannten
Sprecher bei etwa 90%, während 6% bis 8% der unbekannten
Sprecher falsch authentifiziert wurden.

Bei den visuellen Tests wurden relativ viele unbekannte Sprecher
falsch authentifiziert. Offensichtlich waren die Unterschiede zwischen
Spektrogrammen verschiedener Sprecher weniger sichtbar als die
gehörten Unterschiede bei den Hörtests.
Vergleich mit anderen Studien
Vergleichbare Studien:


Young und Campbell haben die Aufnahmen der 5 Sprecher verwendet,
und hatten 10 erfahrene Beobachter, um die Sprecher aus den
Spektrogrammen der einzeln ausgesprochenen Wörter you und it zu
identifizieren. Durchschnittliche Fehlerquote bei den Testpersonen
war 22%, was ein bisschen weniger als die Fehlerquote von 23%,
25% und 51% für die einsilbige Wörter der vorliegenden Studie ist.
Die geringere Fehlerquote kann durch die kleinere Sprecherzahl
erklärt werden.
Kersta hat in seinen Experimenten zur Sprecheridentifikation noch
kleinere Fehlerquoten bekommen. Z.B. bei der Sprecherzahl von 9
und verschiedenen einsilbigen Wörter als Sprachmaterial hat er
Fehlerquoten von 0% bis 2% bekommen.


Bricker und Pruzansky haben die Fähigkeit der Hörer untersucht,
Stimmen der ihnen sehr vertrauten Sprecher zu identifizieren
(Samples der unbekannten Stimmen gab es während der Tests nicht).
Für 10 Sprecher, die einsilbige Wörter ausgesprochen haben, haben
sie die Fehlerquote von 19% bekommen, während die Fehlerquote für
solche Äußerungen in der vorliegenden Studie nur 8% bis 17%
beträgt.
Eine mögliche Erklärung für solche Abweichungen ist, dass die
verschiedenen Spektrographmodelle in verschiedenen Studien
verwendet wurden.
Zusammenfassung der Ergebnisse


Auditive Sprecheridentifikation ist viel exakter als die Identifikation
auf Grund Spektrogramme. Die Testpersonen sind viel sicherer bei der
Identifikation für die Hörtests.
Für visuelle Identifikation erhöhen längere Muster die Möglichkeit
korrekter Identifikation.


Es ist einfacher, den Sprecher zu identifizieren, wenn er ein einen
vorderen Vokal enthaltenes Wort äußert, als wenn er ein einen hinteren
Vokal enthaltenes Wort äußert.
Es gibt große Unterschiede in auditiver Abgrenzbarkeit der Stimmen,
sogar wenn die Stimmen einigermaßen homogen zu sein scheinen.

Es gibt große Unterschiede in der Fähigkeit der Testpersonen,
Stimmen auf auditiver oder visueller Ebene zu identifizieren.



Indirekte Beweise zeigen, dass die Sprecheridentifikationsquoten, die
auf den Antworten aller Testpersonen zusammen basieren, viel besser
sind, als die Quoten für jede einzelne Testperson.
Indirekte Beweise zeigen, dass die matching-from-sample Technik,
bei der Vergleichsmuster aus einigen Wiederholungen einer Äußerung
durch jeden Sprecher bestehen, zu einer niedrigeren Fehlerquote führt,
als wenn nur ein Vergleichsmuster von jedem Sprecher verfügbar ist.
Stimmauthentifikation ist auf visueller Ebene schwächer als auf der
auditiven Ebene.
Ergebnisse dieser Studie beweisen, dass die matching-from-sample
Technik bei der Stimmauthentifikation und –identifikation auf
visueller und auditiver Ebene erfolgreich verwendet werden kann.
Beide Methoden haben Besonderheiten, die für die praktische
Nutzung attraktiv sein könnten.
Vielen Dank für eure
Aufmerksamkeit!