지식 베이스로 문서 가져오기
이 가이드는 기존 자료(논문, 법조항, 연구 노트, 보고서 등)를 Notez Nerd의 로컬 지식 베이스에 가져와서 AI 대화에서 검색, 인용, 확장 및 참조하는 방법을 설명합니다.
1. 지원 파일 형식
| 유형 | 확장자 | 참고 |
|---|---|---|
| 텍스트 | .md / .mdx / .txt | Markdown 권장 (구조가 명확) |
| 오피스 | .docx / .doc | 본문 텍스트만 (복잡한 서식은 단순화) |
| 선택 가능한 텍스트 레이어 추출; 스캔 PDF는 먼저 OCR 필요 | ||
| 구조화 | .csv / .json (계획 중) | 표 형식 / 구조화 데이터용 (곧 지원 예정) |
참고: 암호화된 PDF, 텍스트 레이어가 없는 이미지 스캔, DRM 보호 파일은 인덱싱할 수 없습니다 (먼저 변환 필요).
2. 세 가지 가져오기 방법
2.1 드래그 앤 드롭 (가장 빠름)
- 지식 베이스 모듈을 여세요
- 파일이나 폴더를 창에 드래그하세요
- 작업 큐가 나타남 → 파싱 / 청킹 / 임베딩 진행 상황 표시
적합한 상황: 이미 정리된 데스크탑 폴더의 임시 대량 가져오기.
2.2 버튼 기반 선택
- "파일 업로드" 또는 "폴더 업로드"를 클릭하세요
- 시스템 파일 선택기에서 다중 선택 (Cmd/Shift로 범위 또는 개별 선택)
- 확인하여 파싱 대기열에 추가
적합한 상황: 소수의 파일을 신중하게 선택할 때.
2.3 디렉토리 동기화 (지속적 업데이트)
- "동기화 디렉토리 추가"를 클릭하세요
- 로컬 폴더를 선택하세요
- 활성화 후: 추가 / 수정 / 삭제 이벤트를 감시하고 재인덱싱 (몇 초 지연)
적합한 상황: 장기 프로젝트 저장소 / 연구 문헌 폴더. 팁: 많은 파일을 이동하거나 이름을 변경하면 재구축이 트리거될 수 있습니다; 유휴 시간에 예약하세요.
3. 인덱싱 파이프라인 개요
가져오기 후 각 파일은 다음을 거칩니다:
- 파싱: 텍스트 디코딩, 불필요한 서식 정리
- 구조 추출: 제목, 목록, 섹션 감지 (Markdown/Docx에서 가장 잘 동작)
- 청킹: 의미론적 또는 길이 기반 분할 (과도하게 긴 입력 방지)
- 임베딩: 벡터 표현 생성 (설정된 임베딩 모델 필요)
- 역인덱스 구축 (키워드 인덱스)
- 추가 분석 (선택 사항): 요약 / 주제 태그 (딥 검색 활성화 시)
상태 표시:
- 대기 중 / 파싱 중 / 인덱싱 중 / 완료 / 실패 일반적인 실패 원인: 손상된 파일, 텍스트 레이어 없음, 인코딩 오류.
6. 업데이트 및 삭제 정책
업로드된 후 Notez Nerd는 사용자가 수동 작업을 수행하지 않는 한 아무것도 업데이트하거나 삭제하지 않습니다.
7. 프라이버시 및 로컬성
- 모든 원본 파일, 파싱 캐시, 벡터는 로컬 앱 데이터 디렉토리에 저장됩니다
- 외부 LLM을 호출할 때만 잘린 관련 문맥 청크가 전송됩니다
- 모델이 설정되지 않으면 키워드 인덱스만 구축됩니다 (기능 축소, 완전 오프라인)
8. AI 기능과의 통합
| 기능 | 가져온 데이터 활용 방법 |
|---|---|
| 스마트 이어쓰기 | 유사한 청크를 자동 검색하고 병합 |
| 채팅 Q&A | 벡터 리콜 + 키워드 필터링 |
| 인용 추적 | 청크 + 원본 파일명 + 제목 앵커 반환 |
| 선택 텍스트 강화 | 주변 문맥을 근거 자료로 역검색 |
파일이 인용되지 않는 경우: 임베딩 구축 완료를 확인하세요.
9. FAQ
Q: PDF에 깨진 문자가 표시되나요?
A: 이미지 스캔이거나 사용자 정의 폰트일 가능성이 높습니다. 먼저 OCR을 실행하세요 (예: ocrmypdf).
Q: 새 파일이 매우 늦게 나타나나요? A: 대기열 백로그를 확인하세요; 대용량 파일 / 많은 동시 작업이 대기를 유발합니다. (우선순위 재정렬 계획 중.)
Q: 중복 콘텐츠가 너무 많아 검색에 영향을 주나요? A: 설정에서 "중복 청크 접기"를 활성화하거나 흩어진 노트를 수동으로 통합하세요.
Q: 임베딩 모델 없이 사용할 수 있나요? A: 키워드 검색만 가능; 의미론적 관련성이나 스마트 인용 정렬은 불가능합니다.
Q: 소스 파일을 삭제한 후에도 인용이 남아있나요? A: 이전 인용은 무효로 표시됩니다; 클릭하면 정리가 트리거됩니다.
10. 문제 해결 빠른 참조
| 증상 | 단계 |
|---|---|
| 모든 가져오기 실패 | 디스크 권한 확인 (macOS 시스템 설정 > 개인 정보 보호 및 보안 > 파일 및 폴더) |
| 단일 파일 실패 | 로그 확인; UTF-8로 다시 저장 시도 |
| 임베딩 정지 | 임베딩 모델 URL / 키 / 모델 이름 확인 |
| 채팅이 로컬 데이터 무시 | 청크 수 > 0 확인; "오른쪽 사이드 참조"가 선택되었는지 확인 |
| 속도 느림 | 동시성 줄이기; 대용량 PDF 분할; 불필요한 딥 검색 일시 비활성화 |
11. 모범 사례 체크리스트
- 첫 대량 가져오기 전: 나중에 빈번한 재구축을 피하기 위해 폴더 정리
- Markdown 선호: 가장 강력한 구조 신호 → 더 정확한 모델 인용
- 태그 스타일 통일: 소문자 영어 + 하이픈, 예:
deep-learning,contract-law - 의미론적 충돌을 피하기 위해 오래된 버전을 주기적으로 정리
12. 다음 단계
가져오기 후 다음을 할 수 있습니다:
- 지능형 검색 시도: 자연어 질문을 하고 결과 확인
- 문서 내 이어쓰기 사용 및 인용 정확성 확인
- 여러 모델을 설정하고 응답 품질 비교
— 가져오기 및 인덱싱 가이드 끝