El oído inteligente

Los experimentos de laboratorio que iniciaron el estudio de la percepción sonora emplearon tonos sinusoidales (también llamados tonos puros) y sucesiones de ellos, como fuentes emisoras de sonido con los cuáles experimentar y deducir sus efectos audibles en humanos. La razón por la que los tonos puros fueron elegidos fue el de considerárseles los sonidos más simples y libres de bias con los que trabajar, y que aún así, contienen las variables fundamentales para el estudio de la percepción sonora con enfoque microscópico; éstas son: altura, timbre e intensidad. Asímismo, el teorema de Fourier afirma que cualquier señal audible puede descomponerse en una suma de ondas sinusoidales de diferentes periodos. Desde el siglo XIX en que esto fue demostrado, hubo una euforia académica por estudiar la audición y el cómo son percibidas este tipo de ondas en particular.

Un ejemplo sencillo de un experimento de percepción sonora consiste en decirle a un sujeto que se siente en la silla roja ubicada en el centro de una habitación aislada, para luego emitir ondas sinusoidales desde puntos diferentes en la habitación. Preguntarle de dónde están proviniendo las señales que escucha y si percibe un cambio de frecuencia, timbre o intensidad con respecto a pares de sonidos consecutivos.

Así fue como la rama de la percepción sonora comenzó formalmente. Para estudiar la velocidad con que un objeto cae, hay que crear un mecanismo físico con el que se pueda repetir muchas veces la situación de dejar caer un objeto al suelo, evitando las variables de confusión en el sistema (como lo sería la fricción del aire) y constriñendo el experimento a un único grado de libertad; obteniendo así, siempre resultados similares cuando los parámetros del escenario sean iguales. Conseguir un símil con esto fue la motivación por “aislar lo más que se pueda la información de un evento sonoro, quedándonos con lo esencial” para utilizarlo como fuente emisora en un experimento de percepción. Controlar asímismo el espacio sonoro y los parámetros posibles en una habitación aislada. Luego entonces someter a los individuos al experimento de escuchar y relatar sus experiencias.

Bastó el uso de los tonos puros en estos experimentos, para comprender que el oído hace un mapa muy fidedigno de un espacio sonoro, pudiendo determinar la localización de cada objeto y de discriminarlo de otros sonidos presentes. Y se entendió que cada propiedad física de un sonido se traduce en una propiedad de audición: la percepción de altura proviene de la frecuencia de un sonido; o la noción de timbre proviene de la forma y características físicas del objeto que produce el sonido.

La variable física y la perceptual no son las mismas, pero están íntimamente relacionadas. Se puede decir que en una variable perceptual intervienen otros factores cerebrales, como la memoria y la condición del individuo particular. Más aún, cuando una fuente emisora suena, ésta produce una sensación en la persona que lo oye, de placer, miedo, molestia, etc. De modo que el sonido que es emitido y su traducción hacia el oyente por medio del oído no se debe ver como un proceso de causa consecuencia del tipo: “hay un sonido, llega al oído, lo que provoca una sensación en la persona que escucha;” pues para que se produzca una sensación interviene no sólo la información externa sino otros procesos cerebrales; y son ambos mecanismos (los internos y externos) los que, actuando en conjunto, producen la percepción sonora. Plomp enfatiza por lo tanto, que un estudio por separado de la psicofísica y la cognición no permitirá entender cómo funciona el proceso de percepción en su totalidad, ya que siempre hay una correlación entre los agentes sonoros externos y los internos, al detonarse sensaciones.

La principal ventaja que tiene el estudio de la percepción, a partir de un reduccionismo de la información acústica a los tonos sinusoidales, es la metodología del “divide y vencerás”, la cual es aún aceptada por muchos investigadores como la más apropiada para comprender cómo procesamos la realidad. Sin embargo, este enfoque se volvió ya demasiado dominante en la historia de la investigación auditiva y serviría incorporar más el mundo macroscópico y la perspectiva cognitiva para realmente poder llegar a nuevos entendimientos. Sirva también hacer aquí una analogía con lo que decía el físico alemán Max Planck acerca de la primera y segunda ley de la termodinámica:

“La diferencia fundamental que existe entre la primera ley de la termodinámica y la segunda, es que la primera considera un hipotético observador microscópico y la segunda, uno macroscópico.

Para estudiar la dinámica de las moléculas de gas, el observador microscópico decide aislar cada molécula como un subsistema y seguir sus movimientos. De este modo, es posible descubrir que tales movimientos obedecen la ley de conservación de la energía, y a este hecho se le conoce como Primera Ley de la termodinámica. Por otro lado, el observador macroscópico centra su atención en un ensamble de moléculas que se comportan como una unidad. Este investigador descubre que el ensamble maximiza la entropía (un desorden total), lo que ilustra la Segunda Ley de la termodinámica.”

Planck argumentaba que el observador microscópico nunca descubriría la Segunda Ley de la termodinámica, pues ésta es una ley estadística que se refiere a una amplia muestra, y que no es aplicable a una sola molécula. Más aún, “una dificultad similar suele presentarse en muchos de los problemas de la vida intelectual”.

Aterrizándolo al fenómeno auditivo, encontramos que:

La percepción sonora involucra tanto a la sensación de un estímulo externo, como a su interpretación en el contexto de las vivencias anteriores.

Es decir, el fenómeno de escuchar incluye audición y cognición. Definimos audición como aquéllas actividades que suceden en el órgano auditivo, mientras que la cognición es la interpretación de las señales recibidas. Otra manera de distinguir ambas, es que la primera consiste de un proceso que se lleva a cabo desde “abajo hacia arriba”, aludiendo esto a un estímulo que entra y empieza a ser procesado; mientras que la cognición va desde “arriba hacia abajo,” donde cobra su significado hablar de los conceptos, expectativas y memoria, como el contexto para la percepción del estímulo.

Otra forma de decirlo es, la percepción sonora implica un proceso pasivo de recibir un estímulo, pero también hay otro proceso activo, en el que el cerebro pone de su cosecha al interpretar los datos recibidos.

No muchos estudios de percepción sonora toman en cuenta el indispensable punto de vista macroscópico. En resumen, en la investigación actual del cómo escuchamos predominan: a) La dominancia de los tonos sinusoidales como estímulo. b) La predilección por el enfoque microscópico. c) El énfasis en los aspectos psicofísicos de la audición. d) El enfoque en los estímulos abstraídos de las condiciones ruidosas en los sonidos que escuchamos cotidianamente.

Cabe aquí mi especulación algo desinformada de que ha de ser un tanto complicado, comenzando por poco sistemático, involucrar un enfoque macroscópico a un experimento que partió del ámbito microscópico. El libro señala que existen estudios con un enfoque puramente macroscópico y valga poder encontrar un ejemplo adecuado.

Si las señales acústicas que el investigador decide emplear son más complicadas que ondas sinusoidales, por ejemplo ruido, sonidos ambiente o instrumentos musicales, la experimentación se verá alterada por la gran variedad de respuestas que la población escucha dará: habrá quienes se pongan tranquilos al escuchar las olas del mar. Habrá varios quienes ya estén familiarizados con estos sonidos debido a algunas vacaciones que hicieran previo al experimento; mientras que quienes no las conocieran, posiblemente comentarían algo muy distinto acerca de lo que escucharon. Si el sonido de una cacerola se manifestara, alguien visualizaría una cocina, por lo que la cantidad de información que conllevaría la elección de estos sonidos sería demasiada, donde, más que concentrarse en la señal acústica per se, algunas personas lograrían imaginar subjetivas escenas en un espacio físico, y muy distintas entre sí.

Por esto que años de historia en investigación acústica quisieran trabajar con elementos sonoros básicos, monótonos pero suficientes, y que agregar mucho más a eso desembocara en variables que estorbaban y acomplejaban más de lo debido aquéllo que quería ser estudiado. Luego entonces, no parece fácil determinar por propia ocurrencia y sin previa revisión de la literatura sobre percepción sonora macroscópica, cuáles preguntas de cognición son las más simples y el mejor punto de partida para generar un estudio que conjunte ambas perspectivas: la microscópica y la macroscópica.

Cuando un fenómeno audible comienza siendo del tipo físico y el enfoque que se da a su estudio involucra principalmente el área de la psicofísica, en principio resulta imposible extenderse a la rama de la cognición, para la cual también predomina una necesidad de conocer el funcionamiento del cerebro, con sus fórmulas matemáticas predilectas, así como sus vertientes menos matemáticas. Pareciera entonces que el equipo del laboratorio debiera ser interdisciplinario y participar en él muchas personas, con lo cual realmente se puediera tener un alcance amplio de resultados, aquélla vez que el estudio llevara enfoques microscópicos y macroscópicos, psicofísicos y cognitivos. Puede que el modelo de Potts gustara más a la cognición, siendo este aplicado a tejidos neuronales cercanos al córtex cerebral, lo cual, como objeto primerizo de estudio, parece muy alejado del cómo funcionan las vibraciones en el aire y el cómo son detectadas por el tímpano.

Roederer, en “Física y psicofísica de la música”, menciona que el conocimiento que se tiene en psicofísica se fue desarrollando desde afuera hacia adentro: es decir, desde la fuente sonora, luego su recepción en el oído interno y su posterior afectación en el córtex cerebral por medio de canales nerviosos. Para el humano fue más fácil entender primero su realidad física periférica, que el funcionamiento interno del cerebro (usando el método científico). Por lo que las conexiones entre una emisión sonora externa y el efecto cognitivo que éstas tienen sobre las personas, han también requerido del independiente desarrollo de las neurociencias, y mucho falta por entender del cerebro en la actualidad.

También citando la lectura anterior de Roederer, la propagación sonora consta de tres sistemas: la fuente sonora, el medio de propagación y el sistema receptor. Éste último está conformado por el órgano auditivo (oído externo, medio, e interno) y el cerebro: una vez es detectada una señal acústica por el oído, se transmiten los mensajes auditivos al cerebro, se interpretan los mismos en éste y finalmente, se manifiestan por medio de respuestas físicas en el individuo: pensamientos, gestos, movimientos, palabras, o sensaciones. La fidelidad con que entendamos científicamente este proceso es intrínseco a conocer cómo funciona el sistema receptor del sonido.

Pensemos en una situación ejemplo en que una persona empieza a hablarle a otra en cierto idioma. Bajo este escenario, es intuitivo darse cuenta cómo en la percepción sonora intervienen procesos tanto activos como pasivos, establece Plomp. Pues de si el receptor conoce o no el idioma que le están comunicando, dependerá que esas frases tengan algún significado para ella o no lo tengan. Y podemos pensar en matices: puede la escucha conocer un idioma parecido a aquél en que le están platicando, y que por tanto deduzca algunos de los vocablos o frases sin importar que no sepa hablar ese idioma.

Aquí se aprecia muy claramente la interacción que se da entre el recibir el mensaje en un idioma desconocido a manera de sonidos, con el de interpretar lo que se está escuchando y consiguiendo comprender porciones de ese lenguaje basado en un conocimiento que se tenía de un idioma similar. Un portugués entiende algunas palabras y frases del español y viceversa. El sueco y el islandés tienen una pronunciación de las palabras parecidas, así como también se asemejan en la estructura de las frases, lo que se puede generalizar a varias de las lenguas escandinavas. Y más sutilmente también podemos incluir los distintos acentos del inglés que existen en el mundo (o tan sólo en Gran Bretaña), para compararlos unos con otros. Si bien aquí es muy entendible la dialéctica que hay entre recepción de palabras y su interpretación (para producir una percepción), se vuelve un poco más complicado visualizar qué pasa en el caso de recepción de sonidos únicamente; en especial lo que concierne a interpretación.

El capítulo 6 en “The Intelligent Ear” proporciona más herramientas para entender los sesgos que causó el excesivo enfoque sinusoidal/microscópico/psicofísico en los estudios de percepción sonora, desde el siglo XIX. Concretamente hay más ejemplos acerca de los cuatro bias destacados.

Bias 1: Uso de tonos sinusoidales

El primero ejemplo nos refiere a que, por mucho tiempo se creyó que el armónico fundamental de un sonido determina su altura (pitch). No fue sino hasta mediados del siglo XX que eso se desmintió. Ya que, antes de eso, la creencia era que sólo bastaba la fundamental, ello justificaba que se omitieran los armónicos que le seguían, y como una onda sinusoidal sólo posee el primer armónico, los estudios del pitch se restringieron por mucho tiempo a resultados derivados de usar tonos puros en los experimentos de laboratorio, lo que no proporcionó avances en el entendimiento del pitch. Ahora se sabe que se necesitan varios armónicos y no sólo el primero de ellos, para determinar completamente la altura de un sonido.

Ocurrió algo parecido con el timbre, antes definido como la cualidad audible resultante de separar una señal acústica de su intensidad y su altura. Por lo que restringir los experimentos de laboratorio al uso de tonos puros implicó dejar el estudio del timbre fuera de la ecuación, cuando en realidad es éste una característica muy importante de cada sonido. Es así que apenas recientemente se ha comprobado que el timbre no se puede descomponer en una suma de los timbres de sus componentes sinusoidales.

Bias 2: Predominancia del enfoque microscópico

Mientras que el enfoque microscópico resultó ideal para entender la transmisión mecánica e hidrodinámica en el oído periférico, no fue tan eficaz para estudiar sucesiones de sonidos, y por ello, apenas recientemente se le dio la importancia debida a los efectos de continuidad y de discriminación de información sonora para sucesiones de sonidos, fenómenos que ahora se sabe son cualidades fundamentales en la percepción auditiva.

Otro ejemplo relevante se da en el análisis del habla, donde existe una tendencia por ver la señal hablada a partir de cadenas de caracteres más pequeños llamados fonemas, considerándolos a éstos los elementos característicos del habla. Pero como bien demostrada tiene la efectividad de los actuales sistemas de reconocimiento del habla, en donde se usa más el reconocimiento de patrones para describir las palabras que las cadenas de fonemas, parece ser que este nuevo enfoque (el del reconocimiento de patrones) está mejor ligado al cómo percibimos las palabras, frases, párrafos y diálogos. Plomp apunta que es mejor un enfoque macroscópico para el estudio de textos, pero que hace faltan estudios que combinen tanto microscopía como macroscopía.

Bias 3: Énfasis en los aspectos psicofísicos

Estudios en reconocimiento del lenguaje constatan que cuando se ignora el proceso cognitivo que ocurre al momento de escuchar un pasaje hablado, se pierde información substancial, así como se pierde la capacidad para conceptualizar el significado del fonema. El ya referido reconocimiento de patrones que se emplea para analizar palabras, continúa siendo un recurso psicofísico que consiste en “solamente considerar las características espectrotemporales del objeto hablante” y ello basta para obtener resultados que funcionan, pero que aún dejan mucho que desear.

Bias 4: Aislamiento señales ruidosas y abstracción de sonidos en laboratorios

El uso de tonos puros sin ser tocados en sucesión, impide notar los efectos de enmascaramiento que producen unos con otros. Dos voces que dicen la misma frase al mismo tiempo y en un volumen similar, se “enmascaran” una con otra, de modo que bajo ciertas condiciones, al quitar una, ello parece no afectar la percepción general que se tiene del ensamble en un inicio. Cuando más voces suenan en conjunto como continuo y se van quitando en porciones algunas de las voces para luego volver a ser incorporadas al ensamble, tampoco hay gran diferencia en la percepción del sonido continuo general. Tales descubrimientos se dieron una vez que comenzó a tomarse en cuenta que a veces, extraer toda propiedad sonora con la salvedad de la que posee una ondaa sinusoidal, llega a pasar por alto efectos de percepción esenciales, como lo es el efecto de continuidad, el cual aparece en varios contextos, desde los batimentos y aspereza en de la banda crítica, pasando por los ejemplos corales recién mecionados, al igual que en el análisis y reconocimiento del lenguaje hablado.

Los ejemplos esclarecen mi comprensión de los sesgos referidos, aunque me queda aún la duda del cuál es el estado del arte en investigación auditiva en el año 2021. Actualmente, ¿hacia qué está siendo orientada la investigación de este tipo? Y ¿cuáles serían buenos ejemplos de estudios que han combinado la microscopía y macroscopía?, o ¿cuáles estudios han combinado la psicofísica y la cognición de un modo interesante?. ¿Ya se puede observar en los dispositivos electrónicos que tienen reconocimiento de voz algún uso del fenómeno cognitivo como una mejora en la calidad del reconocimiento del habla?

Yo finalizaría esta reseña por medio de estas preguntas abiertas, y también invitando a leer el libro de Plomp más allá de la introducción. En él se repasan más a fondo los experimentos de laboratorio con ondas sinusoidales (desde su origen en el siglo XIX) y se mencionan investigadores y autores significativos en el rubro de la audición. Se hace un especial énfasis en el análisis del lenguaje, siendo éste un caso ilustrativo de la percepción sonora, cuyos avances seguramente aportarán al entendimiento del rol que tiene la cognición en la percepción sonora en general. Dos capítulos enteros están dedicados al tema del análisis del lenguaje; ello lo hace una buena referencia para el interesado. Sin embargo, lo que sí resulta aún vago de esta lectura es si existe una metodología específica (o una básica que debamos conocer) para la perspectiva macroscópica (además de la que se refiere al efecto de continuidad); más bien se queda en una especie de propuesta para los estudios posteriores a la publicación.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *