임베딩(Embedding) 모델과 벡터(Vector) DB

요즘 들어 데이터는 단순히 저장되고 끝나는 것이 아니라, 저장된 데이터를 얼마나 빠르고 정확하게 찾아낼 수 있는지가 중요해졌습니다.
그 과정에서 등장한 기술이 바로 임베딩 모델과 Vector DB(벡터 데이터베이스)입니다.
이번 포스팅에서는 이 기술들이 실제로 데이터를 어떻게 처리하고 활용하는지, 그 과정을 상세히 알아보겠습니다.

1. 임베딩 모델과 데이터 흐름

우선, 임베딩 모델이 무엇을 하는지부터 살펴봅시다.

데이터 수집
- 여러 데이터 소스(예: 문서, 이미지, 영상)에서 데이터를 가져옵니다.
  이 단계에서 데이터는 단순한 텍스트, 파일, 또는 숫자 형태로 준비됩니다.
임베딩 데이터 생성
- 데이터를 임베딩 모델에 입력합니다.
  임베딩 모델은 데이터를 벡터(숫자 배열)로 변환합니다.
  이 벡터는 데이터의 특성과 관계를 수치적으로 표현한 것으로, "유사한 데이터는 가까운 위치에, 다른 데이터는 먼 위치에" 있도록 설계됩니다.
- 예를 들어, 두 문장이 의미적으로 비슷하다면 임베딩 모델이 생성한 벡터도 비슷한 값을 가집니다.
  이를 통해 데이터를 사람처럼 "이해"하고 "비교"할 수 있는 상태로 변환합니다.
벡터 DB에 저장
- 이렇게 생성된 벡터는 벡터 데이터베이스(Vector DB)에 저장됩니다.
  벡터 DB는 단순히 데이터를 저장하는 것뿐만 아니라, 사용자가 검색을 요청할 때 벡터 간의 거리를 계산하여 가장 관련성 높은 결과를 반환합니다.
검색 요청 처리
- 사용자가 특정 키워드나 데이터를 입력하면, 그 입력을 다시 벡터로 변환한 후 벡터 DB에서 가장 가까운(유사한) 데이터를 찾아 반환합니다.

2. 벡터 데이터베이스의 역할과 중요성

여기서 중요한 것은 벡터 DB가 일반적인 데이터베이스와 다르게 비정형 데이터(텍스트, 이미지, 영상 등)도 빠르게 검색할 수 있다는 점입니다.
일반 데이터베이스는 키워드나 고정된 형식의 데이터를 찾는 데 초점이 맞춰져 있지만, 벡터 DB는 데이터를 숫자 벡터로 변환해 "의미적으로 유사한 데이터"를 찾을 수 있습니다.

3. Vector DB의 종류와 특징

벡터 DB는 크게 두 가지 유형으로 나뉩니다.

1) 전용 벡터 DB

Milvus, Qdrant, Chroma, Pinecone 등
- 벡터 데이터를 저장하고 검색하는 데 최적화되어 있으며, 분산 환경에서도 안정적으로 동작합니다.
- 예를 들어, Milvus는 대규모 데이터에서도 빠른 검색 속도를 제공합니다.

2) 벡터 검색 기능을 추가로 지원하는 기존 DB

PostgreSQL(PgVector), Elasticsearch, MongoDB Atlas Vector Search 등
- 기존의 관계형 데이터베이스(RDBMS) 위에 벡터 검색 기능을 추가한 형태입니다.
- 특히 PostgreSQL은 PgVector 확장을 통해 기존 데이터와 벡터 데이터를 통합적으로 관리할 수 있어, 기존 시스템과의 연계가 용이합니다.

4. 임베딩 모델과 Vector DB의 실제 활용 과정

1) 데이터 준비

텍스트 데이터를 준비한다고 가정해 보겠습니다. 예를 들어, 뉴스 기사 데이터가 있다고 하면, 각 기사를 "문장 단위"로 나눕니다.

2) 임베딩 모델을 사용한 변환

나눠진 문장을 임베딩 모델(예: BERT, OpenAI의 CLIP 등)에 입력합니다.
모델은 문장의 의미를 수치화해 벡터로 출력합니다.
예시:
- 문장 A: "오늘 날씨는 매우 좋다." → 벡터: [0.12, 0.83, -0.45, ...]
- 문장 B: "날씨가 맑아서 기분이 좋다." → 벡터: [0.11, 0.85, -0.47, ...]
문장 A와 B의 벡터는 유사하기 때문에, 두 문장은 의미적으로 가깝다고 볼 수 있습니다.

3) 벡터 DB에 저장

생성된 벡터를 벡터 DB에 저장합니다.
이때 원본 데이터(문장, 이미지 등)와 벡터를 함께 저장해 나중에 검색 결과와 원본 데이터를 연결할 수 있습니다.

4) 검색

사용자가 "오늘 날씨가 좋아 보인다."라는 문장을 입력하면, 이 문장도 벡터로 변환됩니다.
벡터 DB는 입력된 벡터와 기존 벡터 간의 거리를 계산해 가장 가까운 벡터를 반환합니다.
결과적으로, 사용자에게 가장 관련성이 높은 뉴스 기사 목록을 보여줄 수 있습니다.

5. Vector DB를 선택할 때 고려해야 할 점

데이터 규모와 차원 수
- 벡터 차원이 높아질수록 연산량이 늘어나므로, 적합한 데이터 구조와 하드웨어가 필요합니다.
  예를 들어, 800만 개 이상의 벡터를 처리하려면 분산 처리 환경이 필요할 수 있습니다.
개발 편의성
- 기존 시스템과 통합해야 한다면, PgVector와 같은 확장 가능한 RDBMS 기반 벡터 DB가 적합합니다.
분산 환경 지원 여부
- 대규모 프로젝트에서는 Milvus나 Pinecone과 같이 분산 클러스터링이 가능한 전용 벡터 DB가 필요합니다.

6. Vector DB는 어디에 활용할 수 있을까?

추천 시스템
- 예: 유튜브, 넷플릭스 등에서 비슷한 콘텐츠를 추천할 때.
이미지 검색
- 예: 특정 이미지와 비슷한 이미지를 찾는 기능.
질문-답변 시스템
- 예: 사용자가 입력한 질문과 가장 관련성 높은 답변을 제공.

1. 임베딩 모델과 데이터 흐름

2. 벡터 데이터베이스의 역할과 중요성

3. Vector DB의 종류와 특징

1) 전용 벡터 DB

2) 벡터 검색 기능을 추가로 지원하는 기존 DB

4. 임베딩 모델과 Vector DB의 실제 활용 과정

1) 데이터 준비

2) 임베딩 모델을 사용한 변환

3) 벡터 DB에 저장

4) 검색

5. Vector DB를 선택할 때 고려해야 할 점

6. Vector DB는 어디에 활용할 수 있을까?

티스토리툴바