DataBase
[Elastic Search] Analyzer (tokenizer, char_filter, token filter)
HANdeveloper
2024. 1. 10. 11:15
✅ character filter
- 0~n 개로 구성
- 텍스트 분석 중 가장 먼저 처리되는 과정
- 토크나이저에 의해 텀으로 분리되기 전에 적용되는 일종의 전처리 도구
☑️ HTML strip : HTML 태그 제거하여 일반 텍스트로 변경
☑️ mapping : 지정된 단어를 다른 단어로 치환
☑️ pattern replace : 정규식 통해 좀 더 복잡한 패턴들을 치환
✅ Tokenizer
- 1개로 구성
- 검색 기능에 가장 큰 영향을 미치는 단계
☑️ standard : 공백기준, 특수문자 제거 (문장 사이 특수문자는 X), 대문자 그대로 출력
☑️ letter : 공백, 기호, 숫자 분리
☑️ lowercase : 소문자 기준으로 분리, 소문자로 출력, 숫자/기호 제거
☑️ whitespace : 공백 기준으로 분리, 특수문자 모두 출력
☑️ uax_url_email : 이메일 주소, 웹 URL 분리 X
☑️ path_hierarchy : 경로 데이터를 계층별로 정리 및 저장
✅ filter = token filter
- 0~n 개로 구성
- 분리된 각각의 텀들을 지정한 규칙에 따라 처리를 해주는 과정
☑️ lowercase
☑️ uppercase
☑️ stop
☑️ synonym