Vào ngày 16 tháng 4 năm 2025, OpenAI đã chính thức giới thiệu hai mô hình suy luận AI tiên tiến là o3 và o4-mini. Sự kiện này đánh dấu một bước tiến đáng kể trong năng lực trí tuệ nhân tạo của công ty, đặc biệt là ở khả năng suy luận hình ảnh đột phá mà chúng mang lại. Đây là điểm nổi bật nhất, hứa hẹn thay đổi cách chúng ta tương tác và khai thác tiềm năng của AI trong nhiều lĩnh vực công nghệ.
Khả năng “tư duy” bằng hình ảnh của các mô hình AI mới
OpenAI cho biết các mô hình mới này có thể diễn giải bất kỳ hình ảnh nào mà người dùng tải lên, từ một bản phác thảo trên bảng trắng, biểu đồ trong sách giáo khoa cho đến một tệp PDF đồ họa phức tạp. Theo thông báo chính thức về việc ra mắt o3 và o4-mini của OpenAI, các mô hình này “không chỉ nhìn thấy hình ảnh—chúng còn tư duy với nó.” Điều này mở ra một kỷ nguyên mới của khả năng giải quyết vấn đề, kết hợp giữa suy luận thị giác và văn bản, được phản ánh qua hiệu suất vượt trội của chúng trên các tiêu chuẩn đa phương thức hàng đầu.
Mô hình ChatGPT O4-mini diễn giải hình ảnh và cung cấp suy luận chi tiết
Khả năng phân tích hình ảnh được tích hợp trực tiếp vào chuỗi suy luận của các mô hình AI. Các mô hình này có thể phóng to, xoay hoặc cắt hình ảnh để cải thiện quá trình xử lý, và chúng vẫn hoạt động hiệu quả ngay cả với những hình ảnh chất lượng thấp. Ví dụ, khi giải quyết một vấn đề khoa học liên quan đến biểu đồ, mô hình có thể phóng to một phần cụ thể của hình ảnh, thực hiện các phép tính bằng Python và sau đó tạo đồ thị để giải thích kết quả.
Tích hợp công cụ động và vai trò của O4-mini-high
Trong quá trình suy luận, o3 và o4-mini có thể sử dụng linh hoạt tất cả các công cụ ChatGPT hiện có, bao gồm duyệt web, thực thi mã Python và tạo hình ảnh. Khả năng “tác tử” (agentic capability) này cho phép chúng tự động lựa chọn công cụ ChatGPT lý tưởng nhất cho một nhiệm vụ cụ thể. Nhờ đó, người dùng và nhà phát triển có thể thực hiện các quy trình làm việc đa bước và giải quyết các tác vụ phức tạp một cách hiệu quả.
O4-mini-high: Chất lượng cao hơn, ứng dụng chuyên sâu
O4-mini-high là một biến thể của o4-mini, được tối ưu để dành nhiều thời gian và công sức tính toán hơn cho mỗi yêu cầu, nhằm mang lại kết quả chất lượng cao hơn. Một số tình huống ứng dụng phổ biến có thể bao gồm:
- Tạo và đánh giá các nghiên cứu trong sinh học, kỹ thuật và các lĩnh vực STEM khác, cung cấp suy luận chi tiết từng bước và giải thích trực quan.
- Tìm kiếm và tổng hợp thông tin từ nhiều nguồn, như cơ sở dữ liệu trực tuyến, báo cáo tài chính, dữ liệu thị trường và biểu đồ, để tạo ra các phân tích chuyên sâu về kinh doanh.
Các mô hình này đã được huấn luyện thông qua học tăng cường (reinforcement learning) – một khái niệm cốt lõi trong AI. Giờ đây, chúng có thể xử lý các vấn đề “mờ” (fuzzier problems) tốt hơn vì chúng có thể suy luận khi nào nên sử dụng một công cụ cụ thể để đạt được kết quả mong muốn.
Các mô hình o3, o4-mini và o4-mini-high hiện đã có sẵn cho tất cả người dùng có tài khoản ChatGPT Plus, Pro và Team. Phiên bản o3-pro dự kiến sẽ ra mắt trong những tuần tới. Bạn có thể tìm thấy chúng trong menu lựa chọn mô hình. Người dùng miễn phí cũng có thể trải nghiệm mô hình o4-mini bằng cách chọn tùy chọn “Think” trong giao diện trước khi gửi yêu cầu.
Vì sao khả năng đa phương thức của ChatGPT lại đột phá?
Bằng cách cho phép AI “tư duy với hình ảnh”, các mô hình mới của OpenAI có thể giải quyết các vấn đề trong thế giới thực đòi hỏi sự diễn giải cả văn bản và hình ảnh. Điều này bao gồm việc gỡ lỗi mã từ ảnh chụp màn hình, đọc chữ viết tay, phân tích biểu đồ khoa học hoặc trích xuất thông tin chi tiết từ các biểu đồ phức tạp. Kết quả là, ChatGPT đã trở nên nhận thức ngữ cảnh tốt hơn đáng kể.
Các mô hình giờ đây tự chủ hơn, có thể tự mình điều chỉnh một mô hình cụ thể cho một nhiệm vụ. Khi các tác tử AI tự động này có thể xử lý các nhiệm vụ phức tạp, nhiều bước, khả năng suy luận và trí thông minh thị giác của chúng trở nên cực kỳ quan trọng đối với các lĩnh vực như nghiên cứu, kinh doanh và công việc sáng tạo.
Sự ra mắt của OpenAI o3 và o4-mini không chỉ là một cột mốc công nghệ mà còn là lời hứa về một tương lai nơi AI có thể tương tác và giải quyết vấn đề với sự thông minh và linh hoạt chưa từng có. Hãy theo dõi nhipcaucongnghe.com để cập nhật những thông tin mới nhất về những bước tiến này của trí tuệ nhân tạo.