Live Project

Mine (마인)

K-POP 멀티모달 시맨틱 검색

VLM, LLM, 임베딩, 얼굴인식 모두 로컬 GPU에서 직접 운영. "설윤 주황색 원피스" 같은 자연어로 K-POP 영상 속 장면을 검색합니다. API 비용 0원, 약 20시간 MVP.

100%
로컬 GPU 운영
멀티모달
영상 + 텍스트 + 얼굴
자연어
시맨틱 검색
~20h
풀스택 MVP

3-Tier 분산 아키텍처

Frontend

Next.js 16
  • React 19 + TypeScriptUI
  • HLS.js영상 스트리밍
  • Tailwind + Framer Motion스타일

API Server

Mac M1
  • FastAPIREST API
  • SQLite + SQLAlchemy저장
  • FAISS벡터 검색

GPU Model Server

RTX 4080
  • Qwen3-VL장면 분석
  • EXAONE쿼리 파싱
  • BGE-M3텍스트 임베딩
  • InsightFace얼굴 임베딩

영상 처리 파이프라인

영상 등록YouTube/로컬
프레임 추출1초 간격
얼굴 검출InsightFace
클러스터링DBSCAN
장면 분석VLM
인덱싱FAISS

기술 스택

Backend

  • Python
  • FastAPI
  • SQLAlchemy
  • Pydantic

Frontend

  • Next.js 16
  • React 19
  • TypeScript
  • Tailwind CSS

AI Models

  • Qwen3-VL
  • EXAONE
  • BGE-M3
  • InsightFace

Data

  • SQLite
  • FAISS
  • PyTorch
  • ONNX Runtime