DataBase

[Elastic Search] Analyzer (tokenizer, char_filter, token filter)

HANdeveloper 2024. 1. 10. 11:15

✅ character filter

- 0~n 개로 구성

- 텍스트 분석 중 가장 먼저 처리되는 과정

- 토크나이저에 의해 텀으로 분리되기 전에 적용되는 일종의 전처리 도구

☑️ HTML strip : HTML 태그 제거하여 일반 텍스트로 변경
☑️ mapping : 지정된 단어를 다른 단어로 치환
☑️ pattern replace : 정규식 통해 좀 더 복잡한 패턴들을 치환

 

✅ Tokenizer

- 1개로 구성

- 검색 기능에 가장 큰 영향을 미치는 단계

☑️ standard : 공백기준, 특수문자 제거 (문장 사이 특수문자는 X), 대문자 그대로 출력
☑️ letter : 공백, 기호, 숫자 분리
☑️ lowercase : 소문자 기준으로 분리, 소문자로 출력, 숫자/기호 제거
☑️ whitespace : 공백 기준으로 분리, 특수문자 모두 출력
☑️ uax_url_email : 이메일 주소, 웹 URL 분리 X
☑️ path_hierarchy : 경로 데이터를 계층별로 정리 및 저장

 

✅ filter = token filter

- 0~n 개로 구성

- 분리된 각각의 텀들을 지정한 규칙에 따라 처리를 해주는 과정

☑️ lowercase
☑️ uppercase
☑️ stop
☑️ synonym