Anthropic , công ty khởi nghiệp về trí tuệ nhân tạo được thành lập bởi các nhà nghiên cứu trước đây của OpenAI , đã phát hành một bản cập nhật quan trọng cho trợ lý AI đàm thoại hàng đầu của mình, Claude.
Claude 2.1 đi kèm với những cải tiến đáng kể giúp nó trở thành một trong những hệ thống AI tinh vi và phù hợp với đạo đức nhất hiện nay.
Bản nâng cấp được xây dựng dựa trên các khả năng cốt lõi của mẫu Claude 2.0 ban đầu, ra mắt vào năm 2023. Kể từ đó, Claude đã được hàng triệu người sử dụng cho các ứng dụng đa dạng như dịch tài liệu học thuật, soạn thảo kế hoạch kinh doanh và phân tích các hợp đồng pháp lý phức tạp.
Lắng nghe phản hồi của người dùng, Anthropic đã tập trung Claude 2.1 vào việc thúc đẩy các lĩnh vực chính như tính trung thực, hiểu biết và khả năng tương tác. Kết quả là trợ lý AI có thể hiểu nhiều ngữ cảnh hơn, đưa ra đề xuất thông minh hơn và tích hợp an toàn vào quy trình làm việc hiện tại của người dùng.
Cửa sổ ngữ cảnh khổng lồ 200.000 mã thông báo
Một trong những thay đổi đáng chú ý nhất trong Claude 2.1 là cửa sổ ngữ cảnh mở rộng lên tới 200.000 mã thông báo (PDF), cho phép Claude xử lý khoảng 150.000 từ văn bản cùng một lúc. Con số này gấp đôi giới hạn 100.000 token trước đó của Claude 2.0.
Cửa sổ ngữ cảnh lớn hơn đáng kể cho phép người dùng cung cấp cho Claude toàn bộ tài liệu như cơ sở mã dài, báo cáo tài chính, tài liệu nghiên cứu, tiểu thuyết, v.v. Sau đó, Claude có thể nhanh chóng tóm tắt, rút ra những hiểu biết sâu sắc, trả lời các câu hỏi có mục tiêu và tạo ra các kết quả đầu ra cấp cao khác cho nội dung văn bản khổng lồ.
Việc xử lý 200.000 mã thông báo là một thành tựu kỹ thuật chưa từng có và giúp Claude trở thành người dẫn đầu về khả năng xử lý ngôn ngữ tự nhiên. Anthropic cho biết Claude là hệ thống AI đầu tiên đạt được chiều dài bối cảnh dẫn đầu ngành này.
Giảm gấp đôi số phát biểu sai
Ngoài cửa sổ ngữ cảnh mở rộng, Anthropic còn tập trung vào việc cải thiện đáng kể tính trung thực và chính xác của Claude 2.1. Theo thử nghiệm nội bộ, Claude 2.1 đã cho thấy tỷ lệ sai sót giảm gấp 2 lần so với Claude 2.0.
Sự cải thiện đáng kể về độ trung thực trong các chủ đề đa dạng này cho phép doanh nghiệp sử dụng Claude cho các ứng dụng có mức độ đặt cược cao đòi hỏi đầu ra đáng tin cậy. Tính trung thực ngày càng tăng cũng giúp Claude an toàn hơn trong các cuộc trò chuyện trong phạm vi mở.
Là một phần của phương pháp thử nghiệm, Anthropic đã đánh giá Claude 2.1 dựa trên một tập hợp lớn các câu hỏi thực tế phức tạp được thiết kế để thăm dò tính trung thực của các hệ thống AI. Các câu hỏi bao gồm các chủ đề từ địa lý, lịch sử đến văn hóa đại chúng và các sự kiện thời sự.
Bằng cách sử dụng thước đo tính điểm nghiêm ngặt, nhóm Anthropic đã đánh giá xem liệu Claude 2.1 có đưa ra những tuyên bố sai lầm rõ ràng hay thừa nhận sự không chắc chắn một cách thích hợp khi thiếu kiến thức đầy đủ hay không. Nhìn chung, mô hình mới chọn sự khiêm tốn hơn là cung cấp thông tin sai lệch với tỷ lệ cao hơn đáng kể.
Khả năng hiểu và tóm tắt các tài liệu dài, phức tạp cũng đạt được những tiến bộ đáng chú ý, trong đó Claude 2.1 cho thấy số câu trả lời sai đã giảm 30% so với phiên bản tiền nhiệm. Đối với các bản tóm tắt và kết luận được rút ra từ nguồn tài liệu dài, tỷ lệ sai sót trong các tiêu chuẩn nội bộ đã giảm 3-4 lần.