검색 엔진은 어떻게 정보를 찾나요?
인터넷의 급속한 발전과 WEB 정보의 증가로 인해 사용자는 건초더미에서 바늘을 찾는 것처럼 정보의 바다에서 필요한 정보를 찾아야 합니다. 문제(사용자에게 정보 검색 서비스를 제공할 수 있음). 검색 엔진은 검색 서비스를 전문적으로 제공하는 인터넷상의 웹사이트 유형을 의미합니다. 이러한 사이트의 서버는 네트워크 검색 소프트웨어(예: 네트워크 검색 로봇) 또는 네트워크 로그인을 사용하여 인터넷상의 수많은 웹사이트에서 페이지 정보를 수집합니다. 사용자가 제시하는 다양한 검색에 대응하고 사용자가 요구하는 정보나 관련 포인터를 제공하기 위해 정보 데이터베이스 및 색인 데이터베이스를 구축합니다. 사용자의 검색 방법에는 주로 자유 단어 전문 검색, 키워드 검색, 분류 검색 및 기타 특수 정보 검색(예: 회사, 이름, 전화번호부 등)이 포함됩니다. 다음은 검색 엔진 기술을 설명하기 위해 웹 검색 로봇을 예로 사용합니다.
1. 네트워크 로봇 기술
네트워크 로봇(로봇)은 스파이더(Spider), 웜(Worm), 랜덤(Random)이라고도 불린다. 그 핵심 목적은 인터넷에서 정보를 얻는 것이다. 일반적으로 "인터넷에서 파일을 검색하고 파일의 하이퍼텍스트 구조를 자동으로 추적하고 참조된 모든 파일을 반복하는 소프트웨어"로 정의됩니다. 로봇은 홈페이지의 하이퍼텍스트 링크를 사용하여 WWW를 탐색하고 U-toe 참조를 통해 하나의 HT2LIL 문서에서 다른 HTML 문서로 크롤링합니다. 온라인 로봇이 수집한 정보는 색인 생성, HIML 파일의 적법성 확인, URL 링크 지점 확인 및 확인, 업데이트된 정보 모니터링 및 획득, 사이트 미러링 등 다양한 목적으로 사용될 수 있습니다.
로봇이 인터넷을 크롤링하고 있기 때문에 접속 추적을 기록하기 위해서는 URL 목록을 생성해야 합니다. 하이퍼텍스트를 사용합니다. 다른 문서를 가리키는 URL은 문서에 숨겨져 있으며, URL을 분석하고 추출해야 합니다. 일반적으로 로봇은 인덱스 데이터베이스를 생성하는 데 사용됩니다. 모든 WWW 검색 프로그램에는 다음과 같은 작업 단계가 있습니다.
(1) 로봇은 시작 URL 목록에서 URL을 꺼내어 인터넷에서 가리키는 콘텐츠를 읽습니다.
( 2) )각 문서에서 특정 정보(예: 키워드)를 추출하여 색인 데이터베이스에 넣습니다.
(3)문서에서 다른 문서를 가리키는 URL을 추출하여 URL 목록에 추가합니다.
(4) 새 URL이 나타나지 않거나 특정 제한(시간 또는 디스크 공간)이 초과될 때까지 위의 3단계를 반복합니다.
(5) 인덱스 데이터베이스에 추가 검색 인터페이스는 다음과 같습니다. 온라인 사용자에게 게시되거나 사용자가 검색할 수 있도록 제공됩니다.
검색 알고리즘에는 일반적으로 깊이 우선과 너비 우선이라는 두 가지 기본 검색 전략이 있습니다. 로봇은 URL 목록에 액세스하여 너비 우선 검색을 통해 검색 전략을 결정합니다. 시작 목록에 많은 수의 WWW 서버 주소가 포함되어 있으면 너비 우선 검색이 좋은 초기 결과를 생성합니다. 그러나 서버에 깊이 들어가는 것은 어렵습니다. 선입, 최후, 깊이 우선 검색이 형성되어 더 나은 문서 배포를 생성하고 문서의 구조를 더 쉽게 찾을 수 있습니다. 즉, 최대 개수를 찾을 수 있습니다. 상호 참조. 32비트 IP 주소를 직접 변경해 인터넷 전체를 하나씩 검색하는 순회 검색 방식도 사용할 수 있다.
검색 엔진은 고도로 기술적인 네트워크 응용 시스템입니다. 여기에는 네트워크 기술, 데이터베이스 기술, 동적 색인 기술, 검색 기술, 자동 분류 기술, 기계 학습 및 기타 인공 지능 기술이 포함됩니다.
2. 인덱싱 기술
인덱싱 기술은 검색엔진의 핵심 기술 중 하나입니다. 검색 엔진은 수집된 정보를 정리, 분류, 색인화하여 색인 라이브러리를 생성해야 하는데, 중국 검색 엔진의 핵심은 단어 분할 기술입니다. 단어 분할 기술은 특정 규칙과 어휘를 사용하여 문장의 단어를 분할하여 자동 색인 생성을 준비합니다.
현재 대부분의 인덱스는 Non-clustered 방식을 사용합니다. 이 기술은 언어 및 문자에 대한 지식과 관련이 많습니다.
(1) 문법 라이브러리를 저장하고 협력합니다. 문장을 분리하기 위한 어휘 라이브러리;
(2) 사용 빈도와 어휘의 일반적인 배열도 저장해야 하는 어휘 데이터베이스를 저장합니다.
(3) 어휘는 전문적인 문서 처리를 용이하게 하기 위해 다양한 전공 라이브러리로 나눌 수 있습니다.
(4) 단어로 나눌 수 없는 문장의 경우 각 문자는 단어로 처리됩니다.
인덱서는 키워드에서 URL까지 관계 색인 테이블을 생성합니다. 인덱스 테이블은 일반적으로 어떤 형태의 반전 테이블(1nversionUst)을 사용합니다. 즉, 해당 URL은 인덱스 항목에서 찾습니다. 인덱스 테이블에는 검색자가 인덱스 항목 간의 인접 관계 또는 긴밀한 관계를 계산하여 특정 데이터 구조로 하드 디스크에 저장할 수 있도록 문서에서 인덱스 항목이 나타나는 위치도 기록됩니다.
다른 검색 엔진 시스템은 다른 색인 생성 방법을 사용할 수 있습니다. 예를 들어, Webcrawler는 전체 텍스트 검색 기술을 사용하여 웹 페이지의 모든 단어를 색인화합니다. Lycos는 페이지 이름, 제목 및 가장 중요한 100개의 주석 단어와 같은 선택적 단어만 색인화합니다. Infoseek는 개념 검색 및 구문 검색을 제공합니다. or, Near, Not과 같은 부울 연산입니다. 검색 엔진의 색인 방법은 크게 자동 색인, 수동 색인, 사용자 로그인의 세 가지 범주로 나눌 수 있습니다.
3. 검색기 및 결과 처리 기술
검색기의 주요 기능은 사용자가 입력한 키워드를 기준으로 인덱서가 구성한 역목록에서 검색하는 것이며, 동시에 페이지를 완성하고 검색 간의 관련성을 평가하고, 출력할 결과를 정렬하고, 일종의 사용자 관련성 피드백 메커니즘을 구현합니다.
유용한 정보를 얻으려면 검색 엔진을 통해 수백 개의 검색 결과를 얻는 경우가 많습니다. 일반적인 방법은 중요도나 관련성에 따라 웹 페이지의 순위를 매기고 관련성 정렬을 수행하는 것입니다. 여기서 관련성은 문서에 나타나는 검색 키워드의 양을 나타냅니다. 금액이 높을수록 문서의 관련성이 높아집니다. 가시성은 또한 일반적으로 사용되는 측정 중 하나입니다. 웹 페이지의 가시성은 웹 페이지 입구로 연결되는 하이퍼링크 수를 나타냅니다. 가시성 방법은 웹 페이지가 다른 웹 페이지에서 더 많이 참조될수록 웹 페이지의 가치가 더 높아진다는 생각에 기초합니다. 특히, 인용된 웹페이지가 중요할수록 해당 웹페이지의 중요도는 높아집니다. 결과 처리 기술은 다음과 같이 요약할 수 있습니다.
(1) 빈도별 정렬 일반적으로 페이지에 더 많은 키워드가 포함되어 있으면 검색 대상의 관련성이 높아져야 하며 이는 매우 일반적인 방법입니다.
(2) 페이지 방문순 정렬 이 방법을 사용하면 검색 엔진이 검색한 페이지를 얼마나 자주 방문했는지 기록합니다. 사람들이 더 자주 방문하는 페이지에는 더 많은 정보가 포함되어 있거나 다른 매력적인 기능이 있습니다. 이 솔루션은 일반 검색 사용자에게 적합하며, 대부분의 검색 엔진은 전문 사용자가 아니기 때문에 일반 검색 엔진에도 더 적합합니다.
(3) 2차 검색은 결과를 더욱 정제하고(flne에 비해) 특정 조건에 따라 검색 결과를 최적화합니다. 그런 다음 2차 검색에 대한 카테고리 및 관련 단어를 선택할 수 있습니다.
현재 검색 엔진은 아직 지능적이지 않기 때문에 찾고 있는 문서의 제목을 모르면 상위 결과가 반드시 "최상의" 결과가 아닐 수도 있습니다. 따라서 일부 문서는 관련성이 높더라도 반드시 사용자에게 가장 필요한 문서는 아닙니다.
검색 엔진 기술의 산업적 응용:
검색 엔진의 산업적 응용은 일반적으로 KW Communications에서 제공하는 것과 유사한 다양한 검색 엔진 산업 및 제품 응용 모델을 말하며 일반적으로 다음과 같이 나뉩니다. 다음 카테고리: 양식:
1. 정부 기관 및 업계 애플리케이션
n 비즈니스 업무와 관련된 정보 소스를 실시간으로 추적하고 수집합니다.
n인터넷 정보의 글로벌한 관찰을 위한 내부 직원의 요구를 종합적으로 충족합니다.
n공무 외부망, 대정부 인트라넷의 정보원 문제를 적시에 해결하고 역동적인 공개를 실현합니다.
n 정부 주요 홈페이지의 정보획득 요구사항을 지방자치단체 하위 홈페이지에 신속하게 해결합니다.
n 정보를 포괄적으로 통합하여 정부 내 지역 및 부서 전반에 걸쳐 정보 자원을 최대한 공유하고 효과적으로 전달합니다.
n정보 수집에 필요한 인력, 물적 자원, 시간을 절약하고 사무실 효율성을 향상시킵니다.
2. 기업 산업 애플리케이션
n 경쟁사 역학을 실시간으로 정확하게 모니터링하고 추적하는 것은 기업이 경쟁 정보를 얻을 수 있는 강력한 도구입니다.
n동종 산업의 발전과 시장 수요를 연구하기 위해 적시에 경쟁사의 공개 정보를 수집합니다.
n 기업 의사결정 부서 및 경영진을 위한 편리한 다채널 기업 전략 의사결정 도구를 제공합니다.
n기업의 인텔리전스 획득 및 활용 효율성을 대폭 향상하고 인텔리전스 정보 수집, 저장 및 마이닝 관련 비용을 절감하는 것은 기업의 핵심 경쟁력을 향상시키는 열쇠입니다.
n 회사의 전반적인 분석 및 연구 역량과 신속한 시장 대응 능력을 향상시키고, 회사의 핵심 경쟁력을 향상시키는 신경 중추인 지식 관리를 핵심으로 하는 경쟁력 있는 인텔리전스 데이터 웨어하우스를 구축합니다.
3. 뉴스 미디어 산업 애플리케이션
n 수천 개의 온라인 미디어에서 정보를 빠르고 정확하게 자동으로 추적 및 수집하고, 뉴스 단서를 확장하며, 수집 속도를 높입니다.
n매일 수만 개의 뉴스 항목을 효과적으로 크롤링할 수 있도록 지원합니다. 모니터링 범위의 깊이와 폭은 직접 설정할 수 있습니다.
n필요한 콘텐츠의 지능적인 추출 및 검토를 지원합니다.
n 인터넷 정보 콘텐츠 수집, 열람, 편집, 관리, 공개의 통합을 실현합니다.
4. 업계 웹사이트 애플리케이션
n 웹사이트 관련 정보 소스를 실시간으로 추적하고 수집합니다.
n 업계 정보 소스 웹사이트를 적시에 추적하고 웹사이트 정보를 자동으로 신속하게 업데이트합니다. 정보를 동적으로 업데이트합니다.
n 인터넷 정보 콘텐츠 수집, 열람, 편집, 관리, 공개의 통합을 실현합니다.
n업계 웹사이트의 비즈니스 애플리케이션 요구 사항을 크게 향상시키는 비즈니스 웹사이트용 비즈니스 관리 모델을 제안합니다.
n정보 웹사이트 분류 디렉토리 생성을 고려하여 사용자 생성 웹사이트 분류 구조를 제안한다. 그리고 분류 구조를 실시간으로 추가하고 업데이트할 수 있습니다. 레벨에 제한이 없습니다. 이는 업계의 적용 가능성에 큰 도움이 될 것입니다.
n 전문 검색 엔진 SEO 최적화 서비스를 제공하여 업계 웹사이트 홍보를 신속하게 개선합니다.
nCCDC 호출 검색 엔진과 광고 협력을 제공합니다. 업계 웹사이트의 가시성을 높이기 위해 업계 웹사이트 제휴를 구축합니다.
5) 네트워크 정보 감독 및 모니터링
n 네트워크 여론 시스템. "KW커뮤니케이션즈 - 인터넷 여론 레이더 모니터링 시스템"
n "KW커뮤니케이션즈 - 웹사이트 정보 및 콘텐츠 모니터링 시스템(사이트탐정)" 등 웹사이트 정보 및 콘텐츠 모니터링 시스템
인터넷의 급속한 발전과 WEB 정보의 증가로 인해 사용자는 건초더미에서 바늘을 찾듯 정보의 바다에서 정보를 검색해야 합니다.
검색 엔진 기술 방금 이 문제를 해결했습니다(사용자에게 정보 검색 서비스를 제공할 수 있음). 현재
검색엔진 기술은 컴퓨터 업계와 학계의 연구개발 대상이 되고 있다.
검색엔진은 WEB 정보의 급격한 증가와 함께 1995년부터 점진적으로 발전해 온 기술이다
. 1999년 7월 "Science"지에 게재된 "WEB 정보의 접근성"이라는 기사에 따르면, 현재 전 세계적으로 8억 개가 넘는 웹 페이지가 있고, 9테라바이트 이상의 유효한 데이터가 있는 것으로 추정되며, 여전히 4개월마다 액세스되며 성장률이 두 배로 증가합니다. 이렇게 광활한 정보의 바다에서 정보를 찾고자 한다면 결국 '건초더미에서 바늘 찾기'에 이르게 될 수밖에 없다. 검색 엔진은 이러한 "Trek
" 문제를 해결하기 위해 등장한 기술입니다. 검색 엔진은 특정 전략을 사용하여 인터넷에서 정보를 수집 및 발견하고 정보를 이해, 추출, 구성 및 처리하여 사용자에게 검색 서비스를 제공함으로써 정보 탐색의 목적을 달성합니다.
검색 엔진에서 제공하는 탐색 서비스
는 인터넷에서 매우 중요한 네트워크 서비스가 되었으며 검색 엔진 사이트는 "네트워크 포털"이라고도 알려져 있습니다
. 따라서 검색 엔진 기술은 컴퓨터 산업과 학계에서 연구 개발의 대상이 되었습니다. 이 글은 검색 엔진의 핵심 기술을 간략하게 소개하는 것을 출발점으로 삼는 것을 목표로 합니다.
분류
검색엔진 시스템은 다양한 정보 수집 방식과 서비스 제공 방식에 따라 크게 세 가지로 구분됩니다.
1. 디렉토리 검색 엔진: 편집자는 정보를 검토한 후 수동으로 정보 요약을 작성하고 해당 정보를 미리 결정된 분류 체계에 배치합니다. 대부분의 정보는 웹사이트 중심으로 디렉토리 검색 서비스와 직접 검색 서비스를 제공합니다. 이러한 유형의 검색 엔진에는 인간 지능이 통합되어 있기 때문에 정보가 정확하고 탐색 품질이 높습니다.
그러나 수동 개입이 필요하고 유지 관리가 많이 필요하며 양이 적다는 단점이 있습니다. 정보를 적시에 업데이트하지 않습니다. 이러한 유형의 검색 엔진의 대표자는
Yahoo, LookSmart, OpenDirectory, GoGuide 등입니다.
2. 로봇 검색 엔진: 스파이더라는 로봇 프로그램은 특정 전략을 사용하여 인터넷상의 정보를 자동으로 수집하고 검색하며, 검색 엔진은 사용자의 쿼리 입력에 따라 검색 색인 데이터베이스에 들어갑니다.
쿼리 결과를 사용자에게 반환합니다. 서비스 방법은 웹페이지에 대한 전문 검색 서비스입니다. 이러한 유형의 검색 엔진의 장점은 많은 양의 정보, 시기적절한 업데이트, 수동 개입이 필요 없다는 것입니다. 단점은 반환되는 정보가 너무 많고 관련 없는 정보가 많다는 것입니다. 사용자는 결과부터 시작해야 합니다. . 필터링하세요. 이러한 유형의 검색 엔진 대표자는 AltaVista, NorthernLigh
t, Excite, Infoseek, Inktomi, FAST, Lycos, Google입니다. 국내 대표자는 "Tianwang", Youyou, O
펜찾기 등
3. 메타 검색 엔진: 이 유형의 검색 엔진에는 자체 데이터가 없으며 대신 여러 검색 엔진에 동시에 사용자 쿼리 요청을 제출합니다. 반환된 결과를 반복적으로 제외하고 재정렬한 후 자체 결과로 사용자에게 반환됩니다. 피><피>. 서비스 방법은 웹 페이지에 대한 전체 텍스트 검색입니다. 이러한 유형의 검색 엔진의 장점은 결과에 반환되는 정보가 더 크고 더 완전하다는 것입니다. 단점은 사용된 검색 엔진의 기능을 완전히 사용할 수 없으며 사용자가 더 많은 필터링을 수행해야 한다는 것입니다. 이러한 유형의 검색 엔진의 대표자는 WebCrawler, InfoMarket 등입니다.
성능 지표
WEB 정보 검색을 정보 검색 문제, 즉 WEB 웹 페이지로 구성된 문서 라이브러리에서의 검색으로 간주할 수 있습니다.
사용자가 관련 문서를 쿼리합니다. 따라서 전통적인 정보 검색 시스템의 성능 매개변수인 재현율(R
ecall)과 정밀도(Pricision)를 사용하여 검색 엔진의 성능을 측정할 수 있습니다.
재현율은 문서 라이브러리의 전체 관련 문서 수에 대한 검색된 관련 문서 수의 비율로 검색 시스템(검색 엔진)의 회수율을 측정합니다.
정밀도는 검색된 전체 문서 수에 대한 검색된 관련 문서 수의 비율로 검색 시스템(검색 엔진)의 정확성을 측정합니다. 검색 시스템의 경우 재현율과 정밀도를 모두 갖는 것은 불가능합니다.
두 세계의 장점은 재현율이 높으면 정밀도가 낮고, 정밀도가 높으면 재현율이 낮다는 것입니다. 따라서 검색 시스템의 정확도를 측정하기 위해 11개 재현률에서 11개 정밀도의 평균값(즉, 11점 평균 정밀도)이 자주 사용됩니다. 검색 엔진 시스템의 경우 검색 엔진 시스템이 모든 WEB 웹 페이지를 수집할 수 없기 때문에 회상률을 계산하기가 어렵습니다. 현재 검색 엔진 시스템은
정확성에 매우 관심을 갖고 있습니다.
검색 엔진 시스템의 성능에 영향을 미치는 요소는 다양합니다. 가장 중요한 것은 문서 및 쿼리의 표현 방법과 검색어의 매칭을 포함한 정보 검색 모델입니다.
평가 문서 및 사용자 쿼리 관련성 전략, 쿼리 결과 정렬 방법 및 사용자 관련성 피드백 메커니즘.
주요 기술
검색 엔진은 검색기, 인덱서, 검색기, 사용자 인터페이스의 네 부분으로 구성됩니다.
1. 검색자
검색자의 기능은 인터넷을 돌아다니며 정보를 발견하고 수집하는 것입니다. 밤낮으로 끊임없이 실행되는 컴퓨터 프로그램인 경우가 많습니다
. 다양한 유형의 새로운 정보를 가능한 한 빨리 수집해야 합니다. 동시에 인터넷의 정보는 매우 빠르게 업데이트되므로 죽은 연결과 잘못된 연결을 피하기 위해 수집된 오래된 정보를 정기적으로 업데이트해야 합니다. 현재
정보 수집을 위한 두 가지 전략이 있습니다.
● 일련의 시작 URL에서 시작하고 이러한 URL의 하이퍼링크(하이퍼링크)를 따라가며 너비 우선 및 깊이 사용 < / p>
등급 우선 또는 경험적 접근 방식을 사용하여 라운드 로빈 방식으로 인터넷에서 정보를 검색합니다. 이러한 시작 URL은 모든 URL이 될 수 있지만 Yahoo!와 같이 많은 링크가 포함된 매우 인기 있는 사이트인 경우가 많습니다.
●웹 공간을 도메인 이름, IP 주소, 국가 도메인 이름으로 구분하고 각 검색자가 하위 공간에 대한 철저한 검색을 담당합니다
. 검색자가 수집하는 정보 유형은 HTML, XML, 뉴스그룹 기사, FTP 파일,
워드 프로세싱 문서, 멀티미디어 정보 등 다양합니다. 검색기 구현에서는 정보 검색 및 업데이트 속도를 높이기 위해 분산 및 병렬 컴퓨팅 기술을 사용하는 경우가 많습니다. 상업용 검색 엔진을 통한 정보 검색은 하루에 수백만 개의 웹 페이지에 도달할 수 있습니다.
2. 인덱서
인덱서의 기능은 검색자가 검색한 정보를 이해하고 그로부터 인덱스 항목을 추출하여 문서를 표현하고 생성하는 것입니다.
문서 라이브러리의 인덱스 테이블에 추가됩니다.
색인 항목에는 객관적인 색인 항목과 콘텐츠 색인 항목이라는 두 가지 유형이 있습니다. 객관적인 항목은 작성자 이름, URL 등 문서의 의미론적 콘텐츠와 아무 관련이 없습니다.
URL , 업데이트 시간, 인코딩, 길이, 링크 인기도(LinkPopularity) 등 콘텐츠 색인 항목은 키워드 및 해당 가중치, 문구, 단어 등과 같은 문서의 콘텐츠를 반영하는 데 사용됩니다. 콘텐츠 인덱스 항목은 단일 인덱스 항목과
다중 인덱스 항목(또는 구문 인덱스 항목)의 두 가지 유형으로 나눌 수 있습니다. 영어의 경우 단일 색인 항목은 영어 단어이므로 추출이 더 쉽습니다.
중국어와 같이 연속적으로 표기되는 언어의 경우 단어 사이에 자연스러운 구분 기호(공백)가 있으므로 단어를 잘라야 합니다
p>
p>
포인트. 검색 엔진에서는 일반적으로 단일 인덱스 항목에 가중치가 할당되어 해당 인덱스 항목이 문서와 얼마나 구별되는지를 나타내며 쿼리 결과의 관련성을 계산하는 데에도 사용됩니다. 일반적으로 사용되는 방법에는 통계적 방법, 정보 이론 방법 및 확률 방법이 포함됩니다. 짧은
일치어를 추출하는 방법에는 통계적 방법, 확률적 방법, 언어적 방법이 있다.
인덱스 테이블은 일반적으로 어떤 형태의 반전 목록(InversionList)을 사용합니다. 즉, 해당 문서는 인덱스 항목으로 검색됩니다
. 인덱스 테이블은 또한 크롤러가 인덱스 항목 간의 인접 또는
근접 관계(근접성)를 계산할 수 있도록 문서에서 인덱스 항목이 나타나는 위치를 기록할 수 있습니다.
인덱서는 중앙 집중식 색인 알고리즘 또는 분산 색인 알고리즘을 사용할 수 있습니다. 데이터의 양이 많을 경우에는 즉시 인덱싱(Instant Indexing)을 구현해야 하며, 그렇지 않으면 정보량의 급격한 증가를 따라잡을 수 없게 됩니다. 인덱싱 알고리즘은 인덱서의 성능(예: 대규모 피크 쿼리 중 응답 속도)에 큰 영향을 미칩니다. 검색 엔진의 효율성은 주로 색인의 품질에 따라 달라집니다.
3. 검색기 검색기의 기능은 사용자의 쿼리에 따라 인덱스 데이터베이스에 있는 문서를 빠르게 확인하고, 문서와 쿼리의 관련성을 평가하고,
결과를 정렬하고 일종의 사용자 관련성 피드백 메커니즘을 구현합니다.
검색자에게 일반적으로 사용되는 정보 검색 모델에는 집합론 모델, 대수 모델, 확률 모델, 하이브리드 모델의 네 가지가 있습니다.
4. 사용자 인터페이스
사용자 인터페이스의 기능은 사용자 쿼리를 입력하고 쿼리 결과를 표시하며 사용자 관련성 피드백 메커니즘을 제공하는 것입니다. 주요
목적은 사용자가 검색 엔진을 사용하고 효율적이고 다양한 방법으로 검색 엔진에서 효과적이고 시의적절한 정보를 얻을 수 있도록 돕는 것입니다.
사용자 인터페이스의 디자인과 구현은 인간의 사고 습관에 완전히 적응하기 위해 인간-컴퓨터 상호 작용의 이론과 방법을 사용합니다.
사용자 입력 인터페이스는 간단한 인터페이스와 복잡한 인터페이스의 두 가지 유형으로 나눌 수 있습니다.
간단한 인터페이스는 사용자가 쿼리 문자열을 입력할 수 있는 텍스트 상자만 제공합니다. 복잡한 인터페이스를 사용하면 사용자는 논리 연산(AND, OR, NOT; , -), 유사관계(인접, NEAR), 도메인 이름 범위(.edu, .com 등)
, 등장 위치(제목, 내용 등), 정보 시간, 길이 등 일부 회사와 기관은 현재
쿼리 옵션에 대한 표준 개발을 고려하고 있습니다.
미래 동향
검색 엔진은 새로운 연구 개발 분야가 되었습니다. 정보 검색, 인공 지능, 컴퓨터 네트워크, 분산 처리, 데이터베이스, 데이터 마이닝, 디지털 라이브러리, 자연어 처리 등 많은 분야의 이론과 이론의 활용이 필요하기 때문입니다.
기술적이어서 매우 포괄적입니다. 그리고 도전적이다. 그리고 검색 엔진은 사용자 수가 많고 경제적 가치가 높기 때문에 컴퓨터 과학계의 큰 주목을 받고 있으며 현재 전 세계적으로 연구 개발이 매우 활발합니다.
p >
그리고 주목할만한 트렌드가 많이 있었습니다.
1. 사용자는 검색 엔진에서 정보 쿼리를 수행할 때 정보 쿼리 결과의 정확성을 높이고 검색 효율성을 높이는 데 큰 관심을 기울이지 않습니다. 반환된 결과의 수는 결과가 귀하의 요구 사항과 일치하는지 여부에 따라 다릅니다. 쿼리의 경우 기존 검색 엔진은 수십만 또는 수백만 개의 문서를 반환하는 경우가 많으며 사용자는 결과를 살펴봐야 합니다. 쿼리 결과가 너무 많은 문제를 해결하기 위한 방법은 현재 여러 가지가 있습니다. 첫째, 쿼리문에 표현되지 않은 사용자의 실제 목적을
지능형 에이전트가 사용자 검색 동작을 추적하는 등 다양한 방법을 통해 알아냅니다. 사용자 모델을 분석하여 사용자가 검색 엔진에 어떤 문서가 자신의 요구 사항(및 관련성 정도)과 관련이 있고 어떤 문서가 관련이 없는지, 여러 상호 작용을 통해 점차적으로 개선되는지 알 수 있도록 합니다. . 두 번째는 텍스트 분류(TextCategorization) 기술을 사용해 결과를 분류하고
시각화 기술을 사용해 분류 구조를 표시하는 것입니다. 세 번째는 사이트나 콘텐츠를 클러스터링하여 정보의 총량을 줄이는 것입니다.
2. 지능형 에이전트 기반의 정보 필터링 및 개인화 서비스
정보 지능형 에이전트는 인터넷 정보를 활용하는 또 다른 메커니즘입니다. 자동으로 획득된 도메인 모델(예: We
b 지식, 정보 처리, 사용자 관심 사항과 관련된 정보 리소스, 도메인 조직 구조), 사용자 모델(예: 사용자 배경
, 관심, 행동, 스타일) 정보를 수집, 색인, 필터링(관심 필터링, 불량정보 필터링 포함)
하여 사용자에게 흥미롭고 유용한 정보를 자동으로 제출하는 지식입니다. 지능형 에이전트는 정보와 사용자 관심 분야의 역동적인 변화를 지속적으로 학습하고 적응하여 개인화된 서비스를 제공하는 능력을 갖추고 있습니다. 스마트 에이전트는 클라이언트측
또는 서버측에서 실행될 수 있습니다.
3. 분산 아키텍처를 사용하여 시스템 규모 및 성능 향상
검색 엔진 구현에는 중앙 집중식 아키텍처와 분산 아키텍처를 사용할 수 있으며 두 방법 모두 고유한 장점이 있습니다. 하지만
시스템 규모가 특정 수준에 도달하면(예: 웹페이지 수가 수억 개에 도달) 시스템 성능을 향상하기 위해 일종의 분산 방법을 채택해야 합니다.
. 사용자 인터페이스를 제외한 검색 엔진의 모든 구성 요소는 분산될 수 있습니다.
검색자는 여러 컴퓨터에서 서로 협력하고 정보 검색을 위한 작업을 분담하여 정보 검색 및 업데이트 속도를 높일 수 있습니다. 인덱서는
인덱스를 다른 시스템에 배포하여 해당 시스템의 인덱스 요구 사항을 줄일 수 있습니다. 검색기는 다른 시스템에 있을 수 있습니다.