Hexagon shaped overlay

과학적인 검색 엔진: 왜 그것들을 디자인하는 데 예술과 과학이 필요한가?

Adam Sanford
Hexagon shaped overlay

과학적인 검색 엔진: 왜 그것들을 디자인하는 데 예술과 과학이 필요한가?

검색 엔진은 정보를 찾기 위한 표준 도구가 되었으며, 가장 일반적인 이름의 이름은 이제 검색 행위 자체를 대신하므로 무언가를 "인터넷 검색"합니다. 그러나 검색 엔진을 통해 사용할 수 있는 정보의 방대함은 과학적 개념 및 연구 검색과 같은 특정 정보를 쿼리할 때 방해가 될 수 있습니다. 새로운 정보를 놓치지 않으면서 유용하고 관련성 있는 결과를 반환하는 것은 어려운 일이지만, 새로운 도구와 설계 기능을 통해 프로세스를 개선하고 있습니다.

과학 연구자들은 이 문제를 너무나 잘 알고 있으며, 적절한 도구가 없으면 관련 출판물과 자료를 찾기가 더 어려울 수 있습니다. 결과가 너무 광범위하면 정말 중요한 것을 찾을 수 없습니다. 너무 좁게 초점을 맞춘 답변을 반환하면 중요한 새로운 아이디어를 놓칠 수 있습니다.

과학 연구를 위한 최적의 지점을 결정하는 것은 어려울 수 있지만 다행히도 손이 닿지 않는 곳은 아닙니다.

검색 엔진에서의 재현율 vs. 정밀도

과학적 검색을 이해하려면 먼저 검색 엔진이 작동하는 방식을 이해하는 것이 중요합니다. 예를 들어 Google은 리콜을 우선시합니다. 다른 말로 하면, 쿼리에 대해 반환될 수 있는 답변의 수를 최대화합니다. 사용자가 가능한 모든 답변을 검토해야 할 필요가 없으며, 기술은 사용자에게 가장 중요한 정보가 결과 페이지의 맨 위에 오도록 관련성에 따라 결과의 순위를 매기려고 합니다.

반대로, 다른 검색 엔진은 정밀도를 우선시할 수 있으며, 이는 주어진 쿼리에 대해 가장 관련성이 높은 답변을 최대화합니다. 이러한 유형의 검색은 라이브러리의 카탈로그 검색을 사용하는 것과 유사하며, 제목, 저자 및 날짜와 같은 검색 사양에 대한 수많은 필드가 있는 설정된 결과 집합이 있습니다. 정밀도를 최대화하면 관리 가능한 결과 집합을 얻을 가능성이 높아질 수 있지만 정밀도 검색 조정을 벗어나는 항목이 누락될 가능성도 높아집니다.

사용자가 "Plasticizer 40T"라는 검색어를 검색하면 일반적인 검색 엔진은 전체 검색어가 고유한 상업용 물질을 나타낸다는 것을 인식하지 못합니다. 리콜의 우선 순위를 지정하면 "40T"가 포함되지 않은 가소제에 대한 일반 결과가 반환됩니다. 사용자는 두 번째 쿼리를 수행하여 결과에 "40T"를 포함하도록 구체화해야 합니다.

예를 들어 CAS SciFinder(R)를 통한 보다 정밀하고 과학적인 검색은 선별된 온톨로지 데이터에 대해 쿼리를 평가하고 이를 새로운 물질 개체로 인식합니다. 따라서 논문 텍스트에 이 물질의 다른 이름이 사용되더라도 특정 물질 Plasticizer 40T에 대한 결과를 즉시 반환합니다(그림 1 참조).

__wf_reserved_inherit
그림 1. "plasticizer 40T"에 대한 CAS SciFinder 참조 검색의 예.

올바른 검색 기능을 설계하는 것은 CAS에서 수행하는 업무의 핵심이며, 이것이 바로 CAS SciFinder가 과학적 연구와 관련이 있는 용어에서 새로운 물질을 쉽게 인식할 수 있는 이유입니다. 과학자들이 개발한 검색 도구는 본질적으로 동료 연구자들이 사용하는 용어에 더 민감합니다. 그러나 하나의 상업적 물질을 찾는 것은 여전히 상당히 정의 된 연습입니다. 연구자가 질병, 연구 분야 또는 개념과 관련된 관련성뿐만 아니라 폭을 찾고 있을 때 어떤 일이 발생합니까?

검색 엔진의 스위트 스폿을 찾는 방법

너비와 깊이의 균형을 맞추는 일반적인 방법은 "and", "or" 및 기타 접속사를 사용하여 용어를 연결하는 부울 검색을 사용하는 것입니다. 따옴표를 사용하여 검색어를 함께 잠그면 보다 정확한 결과를 위해 쿼리를 구체화하는 데도 도움이 될 수 있습니다.

특정 검색어를 작성하는 방법에 관계없이 연구원들은 구조화된 데이터를 사용하고 다중 용어 텍스트 문자열을 인식하는 검색 엔진을 통해 여전히 최적의 위치를 찾을 수 있습니다. 구조화된 데이터는 일관된 형식을 가지며 특성에 따라 데이터 모음으로 구성됩니다. 그러면 검색 알고리즘이 반환할 결과를 보다 효율적으로 식별하고 평가할 수 있습니다. 고유한 다중 용어 텍스트 문자열을 단일 엔터티로 인식하고 이와 같이 검색하면 용어 조각을 개별적으로 검색할 때 생성되는 관련 없는 결과를 줄일 수 있습니다.

__wf_reserved_inherit
그림 2. 과학적 검색에서 회상과 정밀도의 균형을 맞추는 데 내재된 문제를 묘사한 그래픽입니다.

이러한 유형의 콘텐츠 코퍼스는 어떻게 개발하나요? 신중한 큐레이션과 온톨로지 를 사용하여 사용자 쿼리에 대한 정교한 이해를 구축합니다. 예를 들어, CAS Content CollectionTM은 사람이 선별한 가장 큰 과학 정보 저장소이며, 당사의 선별 정책은 가장 관련성이 높은 용어와 물질을 식별하여 고유한 색인 항목을 생성합니다. 큐레이션으로 인해 검색 결과는 주어진 출판물의 제목이나 초록의 내용으로 제한되지 않습니다.

당사의 색인 작업에는 과학 문헌의 실험 섹션에서 발췌한 개념과 용어가 포함되며, 이는 해당 출판물에 있는 과학의 참신함과 관련이 있습니다. 예를 들어, 저널 논문의 도입부는 특정 질병에 대한 획기적인 치료법과 같이 저자가 관심을 가질 수 있는 메타 컨텍스트를 정의할 수 있지만, 논문의 실제 참신함은 화학 공정을 평가하는 새로운 분석 방법입니다. 선별된 데이터를 사용하는 CAS SciFinder와 같은 솔루션은 사용자의 쿼리에 더 잘 응답하기 위해 메타 컨텍스트가 아닌 분석 방법에 중점을 둡니다.

온톨로지는 관련 결과를 위해 올바른 아이디어를 연결합니다.

우리가 이러한 연결을 구축하는 방법은 온톨로지를 통해 이루어지며, 온톨로지 이러한 관계는 활용할 수 있는 정교하면서도 여전히 광범위한 용어 목록을 제공합니다. 사용자가 상업적 이름으로 물질을 검색하는 경우, 당사의 온톨로지에는 화학 이름, 기타 상업적 이름 및 특허 출원의 내부 식별자의 변형이 포함됩니다. 이러한 연결이 없으면 일반적인 검색 엔진은 관련 결과를 식별할 수 없습니다.

이것이 바로 과학자들이 과학자를 위해 만든 검색 도구가 보다 효율적인 혁신을 주도할 수 있는 이유이며, 회상을 우선시하는 검색 엔진보다 더 관련성 높은 결과를 더 빠르게 제공할 수 있으며, 데이터는 주요 용어 간의 계층적 관계를 캡처합니다.

예를 들어, CAS SciFinder에서 Sonic Hedgehog라는 용어를 검색하면 일반 검색 엔진과 크게 다른 결과가 나타납니다. CAS SciFinder는 이를 즉시 단백질로 인식하고 관련 과학 출판물을 반환합니다(그림 3 참조). 그러나 일반적인 검색 엔진은 과학자가 찾고 있는 단백질 정보가 아니라 잘 알려진 비디오 게임 캐릭터를 반환합니다.

__wf_reserved_inherit
그림 3. 모든 동물에서 배아 형태 형성을 조절하는 단백질인 소닉 헤지혹(Sonic Hedgehog)에 대한 CAS SciFinder 검색 예제.

온톨로지를 넘어 인간이 큐레이팅한 인덱싱은 알고리즘이 일반적으로 실패하는 부분을 추가로 발견할 수 있도록 합니다. 인간은 코드와 화학 구조 간의 연결을 인식하고 인간이 아닌 선별된 인덱싱 접근 방식으로는 놓칠 수 있는 화학 엔터티를 정의하는 관계를 구축할 수 있습니다. 이를 통해 분자 및 화합물과 같은 다이어그램의 데이터를 캡처할 수 있으며 해당 정보를 출판물의 다른 곳에 있는 표, 그래프 또는 텍스트에 있을 수 있는 설명에 연결할 수 있습니다(그림 4 참조).

큐레이션이 없으면 일반적인 검색 엔진은 그래프와 다이어그램에 대해 광학 문자 인식(OCR)에 의존해야 하며, 이미지 해상도가 낮다는 것과 같은 간단한 문제로 인해 중요한 발견을 놓칠 수 있습니다. CAS 팀과 같이 사람이 선별한 솔루션은 최첨단 기술의 속도 및 알고리즘 발전과 함께 최고의 인간 전문 지식을 활용합니다.


__wf_reserved_inherit
그림 4. 존재론적 정보의 큐레이션을 위한 비텍스트 데이터의 예.

데이터 품질은 검색의 미래에 중요합니다.

과학적인 검색은 지역 음식점의 리뷰를 찾아보는 것과는 다르며, 학술 기관과 상업 기관 모두 회상과 정밀도의 균형을 맞추는 솔루션의 이점을 누릴 수 있습니다. 모든 과학 분야에서 지식의 양이 증가함에 따라 검색 기능도 진화해야 합니다. 이는 AI 기반 도구가 표준 검색 솔루션이 됨에 따라 더욱 중요해질 것입니다. 대규모 언어 모델(LLM)은 적절한 데이터에 대해 훈련되고 텍스트가 아닌 데이터를 처리할 수 있는 신경망 계층이 없으면 과학적 검색에 어려움을 겪 을 수 있습니다.

전문가 큐레이션, 강력한 온톨로지 및 텍스트가 아닌 데이터를 활용할 수 있는 기능을 갖춘 전문 솔루션은 과학적 검색과 혁신적인 발견을 지속적으로 개선하고 개선해야 하는 과제를 해결할 수 있습니다.

Gain new perspectives for faster progress directly to your inbox.