banner

Noticias

Jul 13, 2023

El cuadro de búsqueda de Google cambió el significado de la información

Elan Ullendorff

El pasillo está bañado en un blanco intenso, producto de LED. A lo largo de las paredes, las puertas se pierden infinitamente en la distancia. Cada uno hace alarde de una corona de luz azul en su base, excepto las puertas por las que has entrado antes, que en cambio emiten un color púrpura intenso. Pero éstas no son más que motas de arena en el desierto de las puertas.

Estás buscando algo.

Te preparas para un arduo viaje. Antes de la primera puerta se encuentra un pedestal. La caja que reposa sobre el pedestal da aires de dorado a pesar de ser tan sencilla como las paredes que la rodean. No está adornado con un título, pero su nombre resuena en tu mente, de manera intuitiva: el Cuadro de Respuestas. Una placa dice:

He atravesado todas y cada una de las puertas. No sólo las puertas de este pasillo, sino las puertas de todos los pasillos que existen, las puertas dentro de las puertas, así como algunas puertas que no me atrevo a mostrarles, puertas que los harían huir despavoridos. Lo he visto todo. Soy imparcial. Tengo en mente sus mejores intereses. Entiendo qué es lo que quieres saber y es cognoscible. Tengo la respuesta que buscas.

Tu dedo acaricia el pestillo.

La catalogación de la web estuvo condenada al fracaso desde el principio. En el verano de 1993, Matthew Gray creó World Wide Web Wanderer (WWWW), posiblemente el primer robot y rastreador web de Internet. Durante su primer intento oficial de indexar la web, The Wanderer regresó de su expedición con 130 URL. Pero incluso en los primeros años de Internet, esta lista estaba incompleta.

Para comprender cómo funciona un rastreador web simple, imagine hacer un itinerario de viaje que contenga tres ciudades: Nueva York, Tokio y París. Mientras visita cada destino, escuche cualquier mención de otros lugares y agréguelos a su itinerario. Su rastreo mundial estará completo cuando haya visitado todas las ciudades en su lista cada vez mayor. ¿Habrás visto muchos lugares al final de tu viaje? Indudablemente. ¿Pero habrás visto el mundo entero? Es casi seguro que no. Siempre habrá ciudades, o redes enteras de ciudades, que serán efectivamente invisibles para este proceso.

De manera similar, un rastreador web consulta una lista de URL y visita recursivamente cualquier enlace que ve. Pero el índice resultante no debe confundirse con un directorio completo de Internet, que no existe.

Tengo una teoría de la tecnología que sitúa cada producto informativo en un espectro que va desde el médico hasta el bibliotecario:

El objetivo principal del médico es protegerlo del contexto. Para diagnosticarlo o tratarlo, se basan en años de capacitación, investigación y experiencia personal, pero en lugar de presentarle esa información en su forma cruda, la condensan y sintetizan. Esto es por una buena razón: cuando vas al consultorio de un médico, tu objetivo principal no es despertar tu curiosidad ni sumergirte en fuentes primarias; Quiere respuestas, en forma de diagnóstico o tratamiento. El Médico le ahorra tiempo y le protege de información que podría malinterpretarse o provocarle ansiedad innecesaria.

Por el contrario, el objetivo principal del bibliotecario es indicarle el contexto. Para responder a sus preguntas, se basan en años de capacitación, investigación y experiencia personal, y los utilizan para entablar una conversación con un sistema de conocimiento y con los humanos detrás de ese sistema de conocimiento. El bibliotecario puede ahorrarle tiempo a corto plazo al llevarle a su destino más rápidamente. Pero a largo plazo, su esperanza es que el destino se revele como un portal. Encuentran el pensamiento enriquecedor, en lugar de laborioso, y entienden que su experiencia está orientada a encontrar caminos y no a soluciones. A veces le haces una pregunta a un bibliotecario y te indica un libro que es la respuesta a una pregunta que ni siquiera pensaste hacer. A veces caminas hacia las estanterías para recuperar el libro, solo para que te llame la atención un libro diferente. Esto también es un éxito para el Bibliotecario.

Matt Simón

Gregorio Barbero

adrien so

caballero

Hay reseñas de libros que dicen "Leí esto para que tú no tengas que hacerlo" (Médico), y otras que dicen "Leí esto y tú también deberías" (Bibliotecario). Hay aplicaciones que lo ponen en un estado perpetuo de pasión por los viajes latente y no realizada desde la comodidad de su sofá (Médico) y otras que lo inspiran a levantarse e irse (Bibliotecario).

Un motor de búsqueda, en esencia, es un producto que intenta ayudarle a visitar páginas creadas por humanos, esencialmente bibliotecarios. En una entrevista de Playboy en 2004, el cofundador de Google, Larry Page, fue inequívoco en su afirmación de que quería “sacarte de Google y llevarte al lugar correcto lo más rápido posible”. Pero en los últimos 10 años, digamos que Google ha ido a la facultad de medicina. La respuesta es rey; un simple vínculo no es más que un fracaso de la tecnología.

La Búsqueda de Google se lanzó cinco años después del World Wide Web Wanderer, y su principal innovación fue su algoritmo PageRank, que creaba una puntuación de confiabilidad para cada sitio web en función de la frecuencia con la que otros sitios "confiables" enlazaban con él; Esta puntuación se utilizó no sólo para decidir qué sitios indexar y con qué frecuencia, sino también para clasificarlos en los resultados de búsqueda.

Me gustaría subrayar aquí la absoluta audacia de esta empresa. Recuerdo cuando Google anunció por primera vez en 2007 que necesitaría escaneos 3D del mundo para poder impulsar Google Street View. La tarea parecía imposible, absurdamente inmensa. Pero en el transcurso de una década, ya sea por puro poder económico o por el uso creativo (o explotación) de la mano de obra, Google logró hacer justamente eso. O al menos, nos convence de que así es.

Todo proyecto de archivo a gran escala es una tragedia shakesperiana que siempre termina de la misma manera: incompleta. Requiere jugadores con arrogancia que continúen todas las noches, así como una audiencia dispuesta a suspender la incredulidad, a creer en la omnisciencia y omnipresencia de un señor corporativo. Porque hay más calles de las que es realista explorar. E incluso una vez escaneada, una calle continúa evolucionando: los edificios se derriban, los árboles crecen, los imperios caen. El significado se distancia del significante. Por eso es necesario tomar decisiones difíciles. Y escondidas dentro de esas decisiones hay ideologías sobre qué lugares vale la pena salvar.

El número de sitios web supera los kilómetros de carreteras en muchos órdenes de magnitud.

Elaborar un índice, aunque oneroso, es sólo una parte de la batalla. También existe el problema de procesar su consulta de búsqueda en una lista de resultados. Por lo general, esto implica el procesamiento del lenguaje natural (PNL), un conjunto de técnicas que ayudan a las computadoras a interpretar la comunicación humana. Un algoritmo de PNL rudimentario podría dividir la consulta "hornear una hogaza de pan" en tokens individuales (hornear, a, hogaza, de, pan), eliminar cualquier palabra común que no agregue mucho significado obvio a la consulta (hornear, hogaza , pan), reduce las palabras a su forma básica para que coincidan mejor con las variaciones de palabras (hornear, pan, pan) y ampliar la consulta para incluir sinónimos comunes (hornear, cocinar, preparar, hacer, hacer manualidades, pan, pan).

Matt Simón

Gregorio Barbero

adrien so

caballero

Pero las técnicas de PNL más sofisticadas que Google utiliza hoy en día implican utilizar una mezcla de algoritmos de aprendizaje automático interconectados que predicen qué resultados serán más útiles para un buscador. El objetivo subyacente es comprender la "intención" de un usuario utilizando cualquier pista contextual a su disposición: eventos actuales y la ubicación del usuario, historial de búsqueda, idioma y dispositivo. Cuando un usuario busca la palabra "marte", ¿está buscando información sobre el planeta, Dios, el gen, la barra de chocolate, el verbo en tiempo presente o la ciudad de Nebraska?

Por supuesto, el nombre de lenguaje natural es un poco inapropiado. No hay nada "natural" (en el sentido coloquial) en la forma en que hablamos con Google. No nos acercaríamos a un amigo y le ladraríamos "un restaurante italiano cercano" o "qué ver la comedia romántica de Netflix". En palabras del padre John Culkin, estudioso de los medios, "damos forma a nuestras herramientas y, a partir de entonces, nuestras herramientas nos dan forma a nosotros". Dicho de otra manera, evolucionamos para formular nuestras preguntas de maneras que creemos que nuestras máquinas pueden responderlas y, con el tiempo, privilegiamos las preguntas que tienen solución tecnológica. ¿Podrá Google alguna vez entender realmente cuál es nuestra intención?

Un software que interpreta su intención y devuelve una lista de enlaces de un índice grande es un motor de búsqueda perfectamente utilizable. Sin embargo, desde principios de la década de 2010, Google ha adoptado una visión radicalmente diferente de lo que puede ser un motor de búsqueda: uno que pueda responder directamente a las preguntas directamente en la página de resultados. Se ha hecho referencia a esta característica utilizando una serie de nombres confusos y en constante cambio (respuestas enriquecidas, respuestas directas, respuestas instantáneas, respuestas rápidas, fragmentos destacados, panel de conocimiento), pero para nuestros propósitos usaremos la categoría general coloquial: la Cuadro de respuestas.

Knowledge Graph, una red semántica que percibe el mundo en términos de entidades discretas que contienen datos estructurados, desempeña un papel fundamental en la búsqueda de esta visión por parte de Google. En Knowledge Graph, por ejemplo, la banda Boygenius está asociada con géneros, sellos discográficos, una discografía, imágenes, una lista de enlaces y vídeos, y contiene a los miembros Julien Baker, Phoebe Bridgers y Lucy Dacus, cada uno de ellos considerado entidades en el Gráfico con sus propios datos asociados.

Para generar una red un poco más amplia de preguntas con respuesta, Google también utiliza una técnica que llama Passage Ranking, que selecciona extractos específicos de páginas que podrían responder a la pregunta de un usuario, sea o no el foco de la página. Passage Ranking puede decirme, entre otras cosas, cómo se conoció Boygenius ("Julien y Lucy actuaron en el mismo cartel en Washington, DC, seguido de Julien conociendo a Phoebe un mes después"), de dónde vino el nombre de la banda ("a los hombres se les enseña tener derecho al espacio... un 'boygenius' es alguien a quien toda su vida le han dicho que sus ideas son geniales"), y extrae de un perfil de 1400 palabras del New Yorker que Julien Baker mide "cinco pies de altura y ciento cincuenta cinco libras."

La visión del mundo que representan estos ricos resultados es aquella en la que todo lo que vale la pena conocer es inequívoco y perfectamente atomizable; llámelo la tarjeta de béisbol del conocimiento. Para cualquier otra cosa, bueno, para eso tendrás que desplazarte un poco. Una investigación de 2020 realizada por The Markup encontró que casi la mitad de la página de resultados móviles de Google sobre las consultas más populares estaba ocupada por enlaces a las propias propiedades de Google a través de secciones como "panel de conocimiento", "la gente también pregunta" y "fragmentos destacados".

Matt Simón

Gregorio Barbero

adrien so

caballero

Todas estas tecnologías (rastreo web, PageRank, procesamiento del lenguaje natural, Knowledge Graph y Passage Ranking) convergen para convencernos de una secuencia de mentiras: lo he visto todo. Soy imparcial. Tengo en mente sus mejores intereses. Entiendo qué es lo que quieres saber y es cognoscible. Tengo la respuesta que buscas.

La década de gloria del Answer Box, al menos en su forma actual, puede estar llegando a su fin. Google ha anunciado, con mucha fanfarria, que está experimentando inyectando IA generativa en la página de resultados. Esto permitirá a Google presentar respuestas a consultas más indirectas, como "dime qué hace que la música de boygenius sea única o especial" o "escribe un poema usando los títulos de pistas inéditas de boygenius", consultas que ahora podríamos asociar más con ChatGPT.

Haga una pregunta a ChatGPT y recibirá una respuesta convincente, lo que Neil Gaiman llama "oraciones con forma de información". Cuando le pedí que me diera ejemplos de cómo los diferentes contextos culturales e históricos dan forma a la definición de creatividad, rápidamente mencionó diez ejemplos vagos pero coherentes de diferentes expresiones de creatividad a lo largo del tiempo y el espacio. Pero cuando le pedí que me indicara la fuente de su conocimiento sobre la creatividad y las historias indígenas australianas "Dreamtime", solo pudo decir "como modelo de lenguaje de IA, he sido entrenado en un gran conjunto de datos de texto escrito, incluidos libros, artículos y otros documentos de una amplia gama de campos y fuentes... No tengo acceso directo a fuentes específicas en las que he recibido capacitación". Luego comenzó a enumerar algunos libros que podría leer, muchos de los cuales fueron inventados por completo. La IA generativa está lejos de ser el comienzo de la incursión de Google en la búsqueda basada en médicos, pero puede ser la gota que colme el vaso para el bibliotecario.

No hay nada inherentemente malo en un médico. Bucear en madrigueras de conejos lleva mucho tiempo y, a veces, con una fuente confiable, vale la pena descartar el contexto para llegar a la raíz de la comprensión. El problema es cuando ese Médico no es una persona o una población de personas sino un grupo monolítico de algoritmos de aprendizaje automático. Cuando hablamos de IA, la velocidad a la que corremos hacia o alejándonos del contexto se amplifica, y corremos junto a los tres jinetes del texto generativo (desinformación, explotación económica y podredumbre creativa), todos los cuales están animados por el colapso del contexto y Alérgico a la profundidad.

Pero aún más aterrador es el suave apocalipsis de una verdad reducida a trivialidades.

Existe el tipo de verdad médica mercantilizable que obtendrías de una entrada de enciclopedia: visita cinco páginas web diferentes y te dirán el mismo punto de fusión del oro. Pero también hay otros tipos de verdad, los tipos inherentes a la poesía (no poemas, claro está, sino poesía) del contexto cotidiano. Hay verdad en la sensibilidad estética de una página web, en el entorno de un texto y en la voz de un escritor. Es la verdad de los gestos involuntarios de un hablante, el movimiento de un labio. La verdad en la forma en que las palabras se sienten lanzadas en la parte superior de la lengua, en la inclinación de las letras, en los deslices de la pluma, en (el volumen de las palabras entre) paréntesis. Fragmento de frase que interrumpe un ritmo.

Matt Simón

Gregorio Barbero

adrien so

caballero

Un texto cambia con el conocimiento de su procedencia. Un texto cambia con el conocimiento de cuánto trabajo se puso en él. Un lector encuentra significado en la atmósfera y el timbre de la misma manera que un padre sabe si un bebé llora de hambre, miedo o cansancio, o si un corazón se conmueve de manera diferente con la misma canción interpretada en un tono nuevo. Al igual que la profunda comprensión que persiste después de despertar de un sueño que no puedes recordar, la comunión con el contexto desordenado de la creatividad humana produce un espectro que persiste, atormentándote con ambigüedad y profundidad.

El espectro es lo que Tim O'Brien llamó una historia-verdad que es "a veces más cierta que la verdad-acontecimiento"; Audre Lorde llamó a la poesía "la forma en que ayudamos a dar nombre a lo sin nombre para que pueda ser pensado"; y Maggie Nelson (parafraseando a Wittgenstein) llamó a lo inexpresable "contenido —¡ineexpresablemente!— en lo expresado".

Y esta verdad poética e inexpresable trasciende el mero conocimiento. Es la base de la conversación, el intercambio de ideas, el pensamiento crítico, la casualidad y el trabajo debidamente valorado. Estas son las partículas que se fusionan en una comunidad de atención a la que le importan una mierda sus habitantes, en una Internet que no sacrifica la compleja belleza de la comunicación por la fugaz satisfacción de saber.

Hay indicios de que Google puede estar más interesado en proporcionar contexto que ChatGPT. Y la IA ciertamente puede, al menos en un sentido técnico, servir como una fuerza en dirección a la profundidad. Pero los incentivos comerciales y el historial de búsqueda de Google me hacen escéptico. Dividir un mundo analógico en fragmentos de información digitales discretos significa que pasamos más tiempo con los productos de Google. También hace que la información sea fácilmente reciclable para otras plataformas, como los asistentes de voz de Google.

En otro mundo, un rastreador web puede ser una rueda de entrenamiento para nuestro propio rastreo, un algoritmo de procesamiento del lenguaje puede evitar la exigencia a cambio de la rica corriente de conciencia, calidad de, bueno, una conversación "natural", y un motor de búsqueda puede contener la pared de ladrillos. de una solución y en su lugar presentarnos puertas.

Pero en cambio, me preocupa que el cuadro de respuestas sea una premonición de hacia dónde quiere ir Google, un futuro en el que nos apresuramos hacia los destinos, al diablo con el viaje, y los enlaces sólo se incluyen por obligación, en lugar de por invitación. Me preocupa que en lugar de evocar asombro, nuestras herramientas traten nuestro asombro como si fuera una dolencia. Me preocupa que esto signifique no sólo una muerte barthesiana del autor, sino también la muerte de la obra humana en sí misma, el lenguaje humano reemplazado por su simulacro. Me preocupa que estemos precipitándonos hacia la erradicación contextual.

¿Qué futuro tecnológico queremos? ¿Uno que afirme conocer todas las respuestas o uno que nos anime a hacer más preguntas? ¿Uno que priorice el rendimiento o la accesibilidad? ¿Uno que vea a las personas como un conjunto de datos que extraer y una ineficiencia que superar, o uno que los vea como valiosos y dignos de atención?

Al recibir exactamente lo que estamos buscando, ¿nos perderemos a nosotros mismos?

COMPARTIR