Buscadores científicos: por qué diseñarlos requiere arte plus

Científico que usa la computadora en el laboratorio

Written by:

June 28, 2024

Los motores de búsqueda se han convertido en una herramienta estándar para localizar información cuyo nombre es ahora un sustituto del acto mismo de buscar, de ahí "googlear" algo. Sin embargo, la inmensidad de la información disponible a través de los motores de búsqueda puede ser un obstáculo a la hora de consultar datos específicos, como la búsqueda de conceptos científicos e investigaciones. Devolver resultados útiles y relevantes sin que falte información novedosa es un equilibrio difícil, pero las nuevas herramientas y capacidades de diseño están mejorando el proceso.

Los investigadores científicos conocen muy bien este desafío y, sin las herramientas adecuadas, puede ser más difícil encontrar publicaciones y materiales relevantes. Si devuelves resultados demasiado amplios, no podrás encontrar lo que realmente importa. Si devuelves respuestas demasiado limitadas, es posible que te pierdas una nueva idea importante.

Determinar el punto óptimo para la investigación científica puede ser un desafío, pero afortunadamente no está fuera de su alcance.

Recuperación vs. precisión en los motores de búsqueda

Para entender la búsqueda científica, primero es importante entender las formas en que funcionan los motores de búsqueda. Google, por ejemplo, prioriza el retiro. Dicho de otra manera, maximiza el número de respuestas que potencialmente se pueden devolver para una consulta. No hay preocupación de que el usuario tenga que revisar todas las respuestas posibles, y la tecnología intenta clasificar los resultados por relevancia para que la información más valiosa para el usuario esté en la parte superior de la página de resultados.

Por el contrario, otros motores de búsqueda pueden priorizar la precisión, lo que maximiza las respuestas más relevantes para una consulta determinada. Este tipo de búsqueda es similar al uso de la búsqueda en el catálogo de una biblioteca: hay un conjunto establecido de resultados con numerosos campos para la especificación de la búsqueda, como el título, el autor y la fecha. Maximizar la precisión puede aumentar las posibilidades de obtener un conjunto de resultados manejable, pero también aumenta la posibilidad de que se pierda algo que queda justo fuera del ajuste de la búsqueda de precisión.

Exploremos un ejemplo de esta diferencia: si un usuario busca la consulta "Plastificante 40T", un motor de búsqueda típico no reconocerá que toda la consulta representa una sustancia comercial única. Al priorizar la retirada, devolverá resultados genéricos para los plastificantes que no incluyen "40T". El usuario tendrá que realizar una segunda consulta, refinando para incluir "40T" en los resultados.

Una búsqueda más precisa y consciente de la ciencia, por ejemplo, a través de CAS SciFinder^(R), evalúa la consulta con respecto a los datos de ontología seleccionados y los reconoce como una entidad de sustancia nueva. Por lo tanto, devuelve inmediatamente los resultados para la sustancia específica Plasticizer 40T, incluso si se utiliza un nombre diferente para esta sustancia en el texto del artículo (ver Figura 1).

**Figura 1**. Ejemplo de búsqueda de referencia de CAS SciFinder para "plastificante 40T".

‍

El diseño de las capacidades de búsqueda adecuadas es fundamental para lo que hacemos en CAS, por lo que CAS SciFinder puede reconocer fácilmente una sustancia nueva en un término con conexiones de investigación científica. Las herramientas de búsqueda desarrolladas por científicos son inherentemente más sensibles a la terminología utilizada por otros investigadores. Sin embargo, la búsqueda de una sustancia comercial sigue siendo un ejercicio bastante definido. ¿Qué sucede cuando un investigador busca relevancia, pero también amplitud en relación con una enfermedad, un campo de estudio o un concepto?

Cómo encontrar el punto óptimo del motor de búsqueda

Una forma común de equilibrar la amplitud y la profundidad es a través de la búsqueda booleana que utiliza "y", "o" y otras conjunciones para conectar términos. El uso de comillas para bloquear términos de búsqueda también puede ayudar a refinar las consultas para obtener resultados más precisos.

Independientemente de cómo elaboren una determinada consulta, los investigadores aún pueden encontrar el punto óptimo con un motor de búsqueda que utiliza datos estructurados y reconoce cadenas de texto de varios términos. Los datos estructurados tendrán un formato coherente y se organizarán en colecciones de datos en función de sus características. De este modo, el algoritmo de búsqueda puede identificar y evaluar de forma más eficiente los resultados que se van a devolver. El reconocimiento de cadenas de texto únicas de varios términos como entidades únicas y la búsqueda como tales reduce los resultados no relevantes que se generarían al buscar individualmente los fragmentos de términos.

**Figura 2.** Gráfico que representa el desafío inherente de equilibrar la memoria y la precisión en la búsqueda científica.

‍

¿Cómo se desarrolla este tipo de corpus de contenidos? A través de una cuidadosa curación y el uso de ontologías para construir una comprensión refinada de las consultas de los usuarios. CAS Content Collection^TM, por ejemplo, es el mayor repositorio de información científica seleccionado por humanos, y nuestras políticas de curación identifican los términos y sustancias más relevantes para crear entradas indexadas únicas. Debido a la curación, los resultados de la búsqueda no se limitan al contenido de un título o resumen de una publicación determinada.

Nuestra indexación incluye conceptos y terminologías de las secciones experimentales de la literatura científica que son específicos de la novedad de la ciencia en esa publicación. Por ejemplo, una sección introductoria de un artículo de revista puede definir un metacontexto de interés para el autor, como la próxima cura revolucionaria para una determinada enfermedad, pero la novedad real del artículo es un nuevo método analítico para evaluar un proceso químico. Una solución como CAS SciFinder que utiliza datos seleccionados se centrará en el método analítico, no en el metacontexto, para responder mejor a la consulta de un usuario.

Las ontologías conectan las ideas correctas para obtener resultados relevantes

La forma en que construimos estas conexiones es a través de ontologías, que son colecciones seleccionadas de terminología que incluyen la captura de relaciones de sinónimos. Estas relaciones proporcionan una lista refinada pero extensa de términos para aprovechar. Si un usuario busca una sustancia por un nombre comercial, nuestra ontología incluirá variaciones de nombres químicos, otros nombres comerciales e incluso identificadores internos en las solicitudes de patentes. Sin estas conexiones, un motor de búsqueda típico no puede identificar resultados relevantes.

Esta es la razón por la que una herramienta de búsqueda creada por científicos para científicos puede impulsar una innovación más eficiente: puede proporcionar resultados más relevantes más rápido que un motor de búsqueda que prioriza la recuperación, y los datos capturan relaciones jerárquicas entre terminologías clave.

Por ejemplo, la búsqueda del término Sonic Hedgehog en CAS SciFinder frente a un motor de búsqueda común arroja resultados marcadamente diferentes. CAS SciFinder reconoce inmediatamente que se trata de una proteína y devuelve las publicaciones científicas pertinentes (véase la Figura 3). Un motor de búsqueda general, sin embargo, devuelve el conocido personaje del videojuego, no la información sobre proteínas que un científico estaría buscando.

**Figura 3.** Un ejemplo de búsqueda de CAS SciFinder para Sonic Hedgehog, una proteína que regula la morfogénesis embrionaria en todos los animales.

Más allá de las ontologías, la indexación seleccionada por humanos permite descubrir dónde los algoritmos suelen fallar. Un ser humano puede reconocer las conexiones entre un código y una estructura química y construir relaciones que definan una entidad química que los enfoques de indexación seleccionados no humanos podrían pasar por alto. Esto permite la captura de datos en diagramas, como moléculas y compuestos, y conecta esa información con explicaciones que pueden estar en tablas, gráficos o texto en otras partes de la publicación (ver Figura 4).

Sin curación, un motor de búsqueda típico debe confiar en el reconocimiento óptico de caracteres (OCR) para gráficos y diagramas, y algo tan simple como una mala resolución de la imagen podría hacer que se pierda un descubrimiento importante. Las soluciones seleccionadas por humanos, como las de nuestros equipos en CAS, aprovechan lo mejor de la experiencia humana con la velocidad y los avances algorítmicos de la tecnología de vanguardia.

‍

**Figura 4.** Ejemplos de datos no textuales para la curación de información ontológica.

La calidad de los datos es importante para el futuro de la búsqueda

La búsqueda científica no es como buscar una reseña de un restaurante local, y tanto las instituciones académicas como las comerciales se benefician de las soluciones que equilibran la recuperación y la precisión. A medida que el cuerpo de conocimiento crece en cualquier campo científico, las capacidades de búsqueda deben evolucionar. Esto solo se volverá más crítico a medida que las herramientas impulsadas por IA se conviertan en las soluciones de búsqueda estándar. Los modelos de lenguaje grandes (LLM) pueden tener dificultades con la búsqueda científica a menos que estén entrenados con los datos adecuados y tengan capas de redes neuronales para manejar datos que no son de texto.

Con una selección experta, ontologías sólidas y la capacidad de aprovechar los datos no textuales, las soluciones especializadas pueden estar a la altura del desafío de refinar y mejorar continuamente la búsqueda científica y los descubrimientos innovadores.