Der Cocktail-Party-Effekt

Herausfiltern einer Schallquelle

Der Begriff Cocktail-Party-Effekt beschreibt die Fähigkeit des menschlichen Gehörs, sich auf die Signale einer Schallquelle zu konzentrieren, wenn mehrere Schallquellen gleichzeitig aktiv sind. So ist ein Mensch auf einer Cocktail-Party, wo viele Menschen gleichzeitig reden, in der Lage, sich auf nur einen Sprecher zu konzentrieren und alle anderen nicht wahrzunehmen.

Vergleicht man den persönlichen Höreindruck in "Cocktail-Party-Situationen" mit Mikrofonaufnahmen der gleichen Situation, so erscheinen die Mikrofonaufnahmen viel stärker durch Störquellen (andere Sprecher) gestört als der eigene Höreindruck. Durch den Cocktail-Party-Effekt erzielt das Gehör einen Gewinn an Signal-Störabstand von 9..15 dB. Das heißt, die bevorzugte Schallquelle wird mit Hilfe des Cocktail-Party-Effekts ca. 2- bis 3-mal lauter wahrgenommen.

Reduktion von Echo und Nachhall

Beim Hören in geschlossenen Räumen ist ein Mensch in der Lage, störende Reflexionen und störenden Nachhall in erheblichem Maße abzuschwächen. Vergleicht man den persönlichen Höreindruck in einem Raum mit Mikrofonaufnahmen aus dem gleichen Raum, so wirken die Mikrofonaufnahmen wesentlich stärker verhallt.

Der Schall einer Schallquelle wird in geschlossenen Räumen immer wieder an den Wänden reflektiert. Die Wandreflexionen wirken hierbei genauso, als ob man für jede Wandreflexion jeweils eine "Spiegelschallquelle" hinter der Wand aufstellen würde. Diese Spiegelschallquellen wären dann über alle Richtungen verteilt.
Ein Cocktail-Party-Prozessor, der Schallanteile unterdrücken kann, die nicht aus der Richtung der gewünschten Schallquelle kommen, kann auch dafür eingesetzt werden, den Umfang des Nachhalls zu verringern. Wird durch Cocktail-Party-Prozessor, Schall unterdrückt, die nicht aus der gewünschten Richtung eintrifft, wird diesen Mechanismus die Anzahl der wahrgenommenen Spiegelschallquellen reduziert auf die Spiegelschallquellen, die eine ähnliche Richtung besitzen wie das Nutzsignal. Der Höreindruck wirkt hierdurch weniger verhallt.

Trennen von Schallquellen

Das Gehör hat mehrere Methoden zur Verfügung, um sich auf eine Schallquelle zu konzentrieren.

Trennen von Schallquellen an Hand von Signaleigenschaften.
Sind die Signaleigenschaften der Nutzquelle oder der Störquellen bekannt, kann das Gehör versuchen, diese Signaleigenschaften bei der Wahrnehmung des gewünschten Signals hervorzuheben bzw. zu unterdrücken. (z.B. Frequenzbereiche durchlassen, in denen das Nutzsignal dominiert oder Frequenzbereiche ausblenden, in denen das Störsignal stark ist und das Nutzsignal keine Rolle spielt).
Trennen von Schallquellen an Hand ihrer Einfallsichtungen
Schallquellen einer bestimmten Richtung besitzen charakteristische Laufzeit- und Pegeldifferenzen zwischen beiden Ohren. Ist die Richtung der Nutzquelle bekannt, können Signalanteile, die nicht aus der passenden Richtung kommen, und somit auch nicht die passenden interauralen Laufzeit- und Pegeldifferenzen besitzen, als Störsignale erkannt werden und ignoriert werden.

Typen von Cocktail-Party-Prozessoren

Entsprechend den Möglichkeiten des Gehörs gibt es unterschiedliche Ansätze, die Signale von erwünschten Schallquellen aus einem Gemisch von Schallquellen zu extrahieren. Die hierzu benutzten Cocktail-Party-Prozessoren kann man nach der Anzahl der verwendeter Schallsignale klassifizieren

Monaurale Cocktail-Party-Prozessoren benötigen nur ein Schallsignal. Diese Cocktail-Party-Prozessoren müssen zusätzlich aber die Signaleigenschaften von Nutz- oder Störsignal kennen (Spektrum, Signalstatistik). Je nachdem, wie weit die Eigenschaften des Schallsignals mit den Signaleigenschaften von Nutz- oder Störsignal übereinstimmt, werden die Signalanteile dann durchgelassen oder unterdrückt.
Binaurale Cocktail-Party-Prozessoren benötigen 2 Schallsignale, die räumlich voneinander getrennt aufgenommen werden (analog zu den Schallsignalen an beiden Ohren des Menschen). Diese Cocktail-Party-Prozessoren trennen Nutz- und Störsignal auf Grund der Einfallsrichtung des Schalls. Je nach Schalleinfallsrichtung ergeben sich unterschiedliche Laufzeit- bzw. Pegeldifferenzen zwischen den beiden Schallempfängern. Schallanteile, deren Laufzeit- bzw. Pegeldifferenzen der Einfallsrichtung der Nutzschallquelle entsprechen, werden durchgelassen. Schallanteile, deren Laufzeit- bzw. Pegeldifferenzen zu anderen Einfallsrichtungen gehören, werden unterdrückt.
Cocktail-Party-Prozessoren mit Mikrofonarrays benutzen mehr 2 Schallsignale. Die Schallaufnehmer sind hierbei entweder auf einer Strecke, einer Fläche oder räumlich verteilt. Auch diese Cocktail-Party-Prozessoren trennen Nutz- und Störsignal auf Grund der Einfallsrichtung des Schalls. Die Methode, die hier zur Selektion des Nutzsignals verwendet wird, ist das sogenannte "Beamforming". Hierbei wird durch Einbringen von zusätzlichen Laufzeiten zwischen den einzelnen Signalen eine Richtkeule erzeugt, die in Richtung des Nutzsignals zeigt. Das Nutzsignal wird hierdurch verstärkt, Schallsignale aus anderen Richtungen abgeschwächt.

Eigenschaften von Cocktail-Party-Prozessoren

Die unterschiedlichen Typen von Cocktail-Party-Prozessoren haben unterschiedliche Eigenschaften.

Monaurale Cocktail-Party-Prozessoren sind besonders effektiv, wenn sich die Signaleigenschaften von Nutz- und Störsignal stark unterscheiden (z.B. Sprache und weißes Rauschen). Dann lassen sich auch bei Signalen mit gleicher Einfallsrichtung noch Gewinne im Signal-Störabstand erzielen. Sind die Signaleigenschaften von Nutz- und Störsignal ähnlich, so ist der Effekt dieses Cocktail-Party-Prozessor-Typs eher gering.
Binaurale Cocktail-Party-Prozessoren sind besonders effektiv, wenn der Abstand zwischen den beiden Schallaufnehmern kleiner ist als die Wellenlänge des Schalls, aber so groß, dass sich noch auswertbare Phasendifferenzen ergeben. Dann kann die Einfallsrichtung des Schalls allein an Hand der Phasendifferenz bestimmt werden. Ist die Wellenlänge dagegen kleiner als der Abstand zwischen den Schallaufnehmern, kommt es zu Mehrdeutigkeiten, mehrere Einfallsrichtungen besitzen dann die gleiche Phasendifferenz, so dass dann auch Signalanteile aus falschen Einfallsrichtungen dem Nutzsignal zugerechnet werden.
Bei binauralen Cocktail-Party-Prozessoren, die Pegeldifferenzen auswerten, muss zwischen beiden Schallaufnehmern eine richtungsabhängige Pegeldifferenz vorhanden sein, z.B. in dem man zwischen die Schallaufnehmer einen Körper einbringt (analog zur Abschattung eines Ohrs durch den Kopf bei seitlichem Schalleinfall). Damit sich merkliche richtungsabhängige Pegeldifferenzen ergeben, muss aber die Wellenlänge kleiner sein als der Abstand zwischen den Schallaufnehmern und kleiner sein als die Abmessungen des abschattenden Körpers. Bei größeren Wellenlängen ergeben sich keine auswertbaren Pegeldifferenzen mehr.
Cocktail-Party-Prozessoren mit Mikrofonarrays sind besonders effektiv, wenn die Wellenlänge kleiner ist als der Abstand zwischen den Mikrofonen, so dass sich zwischen den Mikrofonsignalen erhebliche Phasendifferenzen ergeben. Bei großen Wellenlängen ist die Richtungsfilterung eines Mikrofonarrays eher gering.

Kombinieren von Cocktail-Party-Prozessoren

Um für breitbandige Signale gute Ergebnisse zu erzielen, ist es sinnvoll, unterschiedliche Typen von Cocktail-Party-Prozessoren zu kombinieren, z.B.

Mehrere Binaurale Cocktail-Party-Prozessoren mit unterschiedlichen Mikrofonabständen für unterschiedliche Frequenzbereiche.
Binaurale Cocktail-Party-Prozessoren mit Phasen-Auswertung für niedrige Frequenzen und Pegel-Auswertung für hohe Frequenzen.
Binaurale Cocktail-Party-Prozessoren für niedrige Frequenzen und Mikrofonarrays für hohe Frequenzen

Monaurale Cocktail-Party-Prozessoren lassen sich mit binauralen Cocktail-Party-Prozessoren oder Mikrofonarrays kombinieren. So können die Effekte der Richtungsfilterung durch eine Filterung auf Grund von Signaleigenschaften verstärkt werden.

Cocktail-Party-Prozessor-Algorithmen

Je nach Typ des Cocktail-Party-Prozessors werden unterschiedliche Algorithmen angewendet, die Signale der gewünschten Schallquelle zu extrahieren.

Monaurale und binaurale Cocktail-Party-Prozessoren werten die Signaleigenschaften der empfangenen Signale meist in verschiedenen Frequenzbändern zeitabhängig aus. Für jedes Frequenzband und für jedes Zeitintervall wird der Anteil des gewünschten Signals geschätzt und das Signal in diesem Frequenzband und zu diesem Zeitpunkt mit diesem Anteil gewichtet. Hierdurch wird das Spektrum des Nutzsignals und dessen zeitlicher Verlauf nachgebildet.
Bei monauralen Cocktail-Party-Prozessoren werden oft Korrelations-Algorithmen zwischen bekanntem (Nutz- oder Stör-)Signal und dem empfangenen Signalen eingesetzt, um den Anteil der bekannten (Nutz- oder Stör-)Signale am Gesamtsignal zu bestimmen.
Bei binauralen Cocktail-Party-Prozessoren verwendet man oft Kreuzkorrelations-Algorithmen, um die Schalleinfalls-Richtung aus Signalen beider Schallaufnehmer zu bestimmen. Der Grad der Übereinstimmung zwischen so bestimmter Richtung und der gewünschten Richtung wird in vielen Fällen als ein Maß dafür genommen, wie hoch der Anteil der gewünschten Richtung an der Sollrichtung ist.
Mikrofon-Arrays arbeiten meist breitbandig. Hier wird versucht, die aufgenommenen Schallsignale der Einzelmikrofone so zu verzögern und abzuschwächen, dass sich eine optimale Richtcharakteristik ergibt. Der Optimalfall ist dann erreicht, wenn die Signale der gewünschten Richtung durch eine entsprechende Richtkeule möglichst stark hervorgehoben werden und wenn die Signale aus störenden Richtungen möglichst stark unterdrückt werden.

Bei monauralen und binauralen Cocktail-Party-Prozessoren kann man die Auswerte-Algorithmen zusätzlich noch wie folgt klassifizieren:

Cocktail-Party-Prozessor-Algorithmen 1. Ordnung bestimmen jeweils aus der Abweichungen zwischen den gemessenen Signaleigenschaften der empfangenen Signale und den bekannten Signaleigenschaften des Nutzsignals den Anteil, den das Nutzsignal am Gesamtsignal hat.
Diese Algorithmen liefern vor allem dann gute Ergebnisse, wenn das gewünschte Signal zumindest in einigen Zeit- und Frequenzbereichen relativ stark ist und nicht von den Störsignalen dominiert wird. Dominieren in allen Zeit- und Frequenzbereichen die Störsignale, stoßen Algorithmen 1. Ordnung oft an ihre Grenzen.
Cocktail-Party-Prozessor-Algorithmen 2. Ordnung erstellen Statistiken auf den gemessenen Signaleigenschaften der empfangenen Signale. Aus den Ergebnissen der statistischen Analyse werden dann die Anteile geschätzt, die das gewünschten Signal am Gesamtsignal hat.
Diese Algorithmen bieten besonders dann Vorteile, wenn das gewünschte Signal relativ schwach gegenüber den Störsignalen ist. Dann lässt sich z.B. aus der Varianz der gemessenen Schalleinfallsrichtung noch der relativ schwache Anteil eines Nutzsignals in dominierenden Störsignalen bestimmen.