Đặc tả Tính năng: Quản lý Cơ sở Tri thức
1. Tổng quan & Tầm nhìn
Quản lý Cơ sở Tri thức là "Bộ não" của AI Assistant. Nó cho phép quản trị viên tổ chức tuyển chọn và duy trì các nguồn dữ liệu riêng tư cung cấp sức mạnh cho các phản hồi của AI. Bằng cách chuyển đổi tài liệu và liên kết thành một kho lưu trữ vector có thể tìm kiếm, nó đảm bảo rằng trí tuệ của AI luôn dựa trên ngữ cảnh tổ chức mới nhất.
2. Các Vai trò & Bên liên quan
| Vai trò | Mục tiêu |
|---|---|
| Quản trị viên Tri thức | Thêm, xóa và làm mới các nguồn dữ liệu để cập nhật AI. |
| Quản trị viên Tổ chức | Giám sát việc sử dụng bộ nhớ và kiểm toán phạm vi tri thức của tổ chức. |
| Lập trình viên | Tích hợp các bộ kết nối dữ liệu mới (ví dụ: đánh chỉ mục API tùy chỉnh). |
3. Câu chuyện Người dùng (User Stories)
- Với tư cách là quản trị viên, tôi muốn liên kết URL "Sổ tay nhân viên" của chúng tôi để AI có thể trả lời các câu hỏi về chính sách.
- Với tư cách là quản trị viên, tôi muốn xem "Trạng thái đồng bộ" của một thư mục Drive để đảm bảo các tệp mới nhất đã được đánh chỉ mục.
- Với tư cách là quản trị viên, tôi muốn xóa các nguồn dữ liệu lỗi thời để ngăn AI đưa ra thông tin không còn giá trị.
4. Yêu cầu Chức năng (FR)
- REQ-KB-001: Hỗ trợ nhiều loại nguồn: URL Web, Tệp Drive và Trang ứng dụng Document.
- REQ-KB-002: Theo dõi tiến độ đánh chỉ mục theo thời gian thực (Trích xuất, Chia nhỏ, Nhúng).
- REQ-KB-003: Tự động đồng bộ hàng ngày cho các nguồn đang hoạt động.
- REQ-KB-004: Phân tích sử dụng hiển thị tổng số chunk và token đã dùng cho mỗi nguồn.
5. Yêu cầu Phi chức năng (NFR)
- Khả năng mở rộng: Hỗ trợ đánh chỉ mục lên đến 10.000 tài liệu mỗi tổ chức.
- Độ chính xác: Toàn vẹn trích xuất văn bản 100% từ các định dạng được hỗ trợ (PDF, Docx, HTML).
- Bảo mật: Không rò rỉ dữ liệu vector giữa các tổ chức.
6. Logic & Quy tắc Nghiệp vụ
- Đường ống đánh chỉ mục: Trích xuất → Làm sạch → Chia nhỏ (500 token) → Nhúng (1536 chiều) → Lưu trữ.
- Logic cập nhật: Đánh chỉ mục lại một nguồn sẽ thay thế tất cả các vector chunk trước đó liên quan đến ID của nó.
- Fail-safe: Các lỗi đánh chỉ mục được ghi lại và nguồn được đánh dấu trạng thái "Lỗi" để quản trị viên xem xét.
7. Giao diện Người dùng (UI/UX)
- Danh sách nguồn: Chế độ xem bảng với các badge Trạng thái (Đang đánh chỉ mục, Đã đồng bộ, Lỗi, Đã tạm dừng).
- Modal thêm nguồn: Lựa chọn loại nguồn (URL/Drive/Doc) kèm theo xác thực.
- Xem chi tiết: Bảng điều khiển bên hiển thị thống kê chunk và dấu thời gian đồng bộ lần cuối.
8. Kiến trúc Thông tin
- Phần "Cơ sở Tri thức" trong thanh bên của AI Assistant.
- Liên kết đến "Cài đặt KB" cho các quản trị viên tổ chức.
9. Mô hình Dữ liệu & Lưu trữ
- Bảng:
kb_sources(Sổ đăng ký). - Bảng:
kb_chunks(Kho lưu trữ Vector vớipgvector).
10. Lớp API & Dịch vụ
POST /sources(Bắt đầu đánh chỉ mục).GET /sources(Liệt kê sổ đăng ký).POST /sources/:id/sync(Làm mới thủ công).
11. Các Mẫu Tích hợp
- Dịch vụ Scraper: Trình duyệt headless để trích xuất văn bản từ các URL công khai/riêng tư.
- Liên kết Drive: Truy cập theo chương trình vào các đối tượng S3 thông qua dịch vụ nội bộ của module Drive.
12. Bảo mật & Quyền hạn
- RBAC: Yêu cầu quyền
ai_assistant:manageđể thêm hoặc xóa nguồn. - Mã hóa: Thông tin xác thực nguồn (nếu có) được lưu trữ trong Vault của nền tảng.
13. Xử lý Lỗi & Khả năng Phục hồi
- Cơ chế thử lại: Exponential backoff cho các giới hạn tốc độ API embedding.
- Xác thực: Từ chối các loại tệp không được hỗ trợ hoặc các URL không đúng định dạng.
14. Hiệu năng & Khả năng Mở rộng
- Xử lý chunk song song sử dụng hàng đợi worker chạy ngầm (dự kiến).
- Đánh chỉ mục vector hiệu quả sử dụng HNSW cho việc truy xuất dưới 200ms.
15. Toàn cầu hóa & Bản địa hóa
- Hỗ trợ bộ ký tự tiếng Việt và quốc tế trong quá trình trích xuất.
16. Khả năng Tiếp cận (a11y)
- Các bảng dữ liệu có thể tiếp cận với các trạng thái focus cho lọc và sắp xếp.
17. Khả năng Quan sát & Phân tích
- Theo dõi "Các lỗi đánh chỉ mục" theo loại lỗi (Timeout, Auth, Định dạng).
- Phân tích về "Mật độ tri thức" (Chunk trên mỗi nguồn).
18. Kiểm thử & Chất lượng
- Kiểm thử tích hợp cho đường ống trích xuất (từ PDF sang văn bản thuần).
- Kiểm thử áp lực cho việc đánh chỉ mục quy mô lớn (các tệp 100MB+).
19. Các Ràng buộc & Giả định
- Giả định tổ chức có đủ hạn mức token cho việc tạo embedding.
20. Các Cải tiến Tương lai
- Đánh chỉ mục không gian làm việc Slack / Microsoft Teams.
- "Trình chỉnh sửa Chunk" thủ công để tinh chỉnh các phản hồi AI cụ thể.