😍 AI của Google có thể tạo ra những thế giới game sống động ngay tức thì

Aug 09, 2025

Chào buổi sáng, những người đam mê AI.

Kỷ nguyên của AI hiện thân (embodied AI) xoay quanh việc huấn luyện trong các mô phỏng… Nhưng điều gì sẽ xảy ra khi một số kịch bản quá khó để xây dựng, hoặc thậm chí khó mà tưởng tượng nổi?

Genie 3 mới của Google vừa giải quyết được vấn đề đó, với khả năng tạo ra những môi trường phong phú, có thể chơi được, và phát triển theo thời gian thực khi các tác nhân AI (hoặc người dùng) khám phá chúng mở ra một kỷ nguyên huấn luyện vô hạn hoàn toàn mới.

Trong bản tin AI hôm nay sẽ có:

- Google ra mắt Genie 3 – mô hình thế giới tương tác

- OpenAI chính thức tung ra các mô hình mã nguồn mở

- Biến bất kỳ tài liệu nào thành video thuyết trình phục vụ học tập

- Anthropic phát hành Claude Opus 4.1

- 4 công cụ AI mới và 4 cơ hội việc làm

1. Mô hình thế giới tương tác Genie 3 của Google

Google DeepMind vừa công bố Genie 3, một mô hình thế giới đa năng mới có thể tạo ra các môi trường tương tác trong thời gian thực chỉ từ một câu lệnh văn bản, với bối cảnh và nhân vật được giữ nhất quán.

- Với Genie 3, người dùng có thể tạo ra các môi trường độc đáo độ phân giải 720p, tích hợp vật lý thế giới thực và khám phá chúng theo thời gian thực, với hình ảnh mới xuất hiện ở tốc độ 24 khung hình/giây.

- Mô hình có bộ nhớ hình ảnh lên tới 1 phút, cho phép nó mô phỏng cảnh tiếp theo mà vẫn đảm bảo sự nhất quán với các cảnh trước đó.

- Để đạt mức độ kiểm soát này, Google cho biết Genie tính toán thông tin liên quan từ các quỹ đạo trước đó nhiều lần mỗi giây.

- Người dùng cũng có thể thay đổi thế giới trong quá trình trải nghiệm bằng cách thêm nhân vật mới, vật thể mới, hoặc thay đổi hoàn toàn động lực của môi trường.

Vì sao quan trọng: Các thế giới nhất quán mà Genie 3 tạo ra, từng khung hình một phản hồi theo hành động của người dùng, không chỉ là một bước tiến cho trò chơi và giải trí. Đây còn là nền tảng cho việc huấn luyện AI hiện thân ở quy mô lớn, nơi máy móc có thể xử lý các kịch bản “nếu như” chẳng hạn như một con đường biến mất bằng cách thích ứng theo thời gian thực, giống như con người.

2. Sàn giao dịch mở đầu tiên dành cho các AI agent

Sōkosumi là sàn giao dịch mở đầu tiên dành cho các tác nhân AI tự động, cho phép bạn thuê những “đồng nghiệp” AI chuyên biệt cho các công việc về nội dung, nghiên cứu, thiết kế và xử lý dữ liệu chỉ với một cú nhấp chuột. Nền tảng này được xây dựng cho các chuyên gia và đội ngũ doanh nghiệp cần kết quả chứ không phải gói đăng ký dài hạn.

Nền tảng cung cấp:

- Tác nhân đa mô hình (ChatGPT, DeepSeek, Mistral) hỗ trợ MCP

- Bảo mật cấp doanh nghiệp, tuân thủ GDPR và tích hợp đăng nhập một lần (SSO)

- Thanh toán theo từng nhiệm vụ không gói tháng, không phí ẩn

Hãy xây dựng đội ngũ AI agent của bạn ngay hôm nay nhận 100 USD tín dụng miễn phí với mã RUN100.

3. OpenAI cuối cùng cũng ra mắt các mô hình mã nguồn mở

OpenAI vừa ra mắt gpt-oss-120b và gpt-oss-20b các mô hình LLM lý luận với trọng số mở (open-weight) được mong đợi từ lâu, có hiệu năng ngang hoặc vượt o4-mini và o3-mini, đồng thời có thể triển khai cục bộ theo giấy phép Apache 2.0.

- Được phát hành dưới giấy phép Apache 2.0, gpt-oss là dòng LLM mã nguồn mở đầu tiên của OpenAI kể từ GPT-2 năm 2019, và ngay lập tức đứng #1 trong số 2 triệu mô hình trên Hugging Face.

- Phiên bản 120B đạt hiệu năng tương đương o4-mini trên các bài kiểm tra cốt lõi và vượt trội ở một số lĩnh vực, có thể triển khai trên GPU 80GB.

- Phiên bản 20B nhỏ hơn cạnh tranh với o3-mini, phù hợp để chạy cục bộ trên laptop có 16GB RAM.

- Cả hai mô hình đều hỗ trợ điều chỉnh mức độ lý luận (cao, trung bình, thấp) và có thể xử lý các quy trình tác nhân (agentic workflows) với khả năng gọi hàm, tìm kiếm web và chạy Python.

Vì sao quan trọng: Sau nhiều năm giữ kín các mô hình mạnh nhất, OpenAI cuối cùng cũng đúng như tên gọi, trao quyền cho các nhà phát triển truy cập các mô hình lý luận gần sát trình độ tiên tiến, có thể chạy và tùy chỉnh ngay trong môi trường của mình. Đây là cú hích lớn cho hệ sinh thái mã nguồn mở, vốn đang nhanh chóng thu hẹp khoảng cách với các mô hình đóng.

4. Biến mọi tài liệu thành video thuyết trình phục vụ học tập

Trong hướng dẫn này, bạn sẽ học cách sử dụng tính năng “Video Overview” mới của NotebookLM để biến tài liệu thành video thuyết trình kèm thuyết minh bằng AI và slide trích xuất hình ảnh, sơ đồ, trích dẫn và số liệu trực tiếp từ nội dung.

Các bước thực hiện:

- Truy cập NotebookLM, tạo một notebook mới và tải tài liệu của bạn lên.

- Trong bảng Studio bên phải, nhấp vào “Video Overview”.

- (Tùy chọn) Nhấp vào biểu tượng ba chấm để tùy chỉnh chủ đề trọng tâm, đối tượng mục tiêu hoặc mục tiêu học tập.

- Xem lại video đã tạo và nhấp “Download” để lưu dưới dạng MP4.

💡Mẹo hay: Bạn có thể tạo nhiều Video Overview trong cùng một notebook, làm các phiên bản cho các nhóm đối tượng khác nhau hoặc tập trung vào các chương riêng của tài liệu.

5. Đối tác sáng tạo tiếp theo của bạn có thể sẽ không phải là con người

Lovart đã chính thức rời giai đoạn beta với nền tảng thiết kế AI được xây dựng cho sự cộng tác trực quan. Nổi bật với một “tác nhân lý luận sáng tạo” có thể cùng bạn suy nghĩ, tìm nguồn tham khảo và xây dựng hệ thống thương hiệu chỉ trong vài phút. Các nhà thiết kế cho biết trải nghiệm này giống như làm việc với một đồng đội hơn là sử dụng một công cụ.

Với Lovart, bạn có thể:

- Sử dụng tính năng ChatCanvas mới để cộng tác trực quan với AI agent, lặp ý tưởng và tinh chỉnh theo thời gian thực thông qua ngôn ngữ tự nhiên.

- Biến các câu lệnh đơn giản thành hình ảnh thương hiệu, nội dung mạng xã hội, video, thậm chí cả mô hình 3D.

- Dựa vào AI agent chuyên biệt để duy trì sự nhất quán về phong cách trên mọi tài liệu.

- Làm việc nhanh hơn nhờ bộ nhớ học được cách bạn thiết kế và thích ứng với thói quen của bạn.

Hãy trải nghiệm tác nhân thiết kế đầu tiên trên thế giới và thay đổi quy trình sáng tạo của bạn ngay hôm nay.

6. Anthropic ra mắt Claude Opus 4.1

Anthropic vừa ra mắt Claude Opus 4.1, bản nâng cấp từng bước của Opus 4, cải thiện hiệu suất ở các tác vụ lập trình thực tế, nghiên cứu chuyên sâu và phân tích dữ liệu đặc biệt là những nhiệm vụ đòi hỏi sự chú ý đến chi tiết và khả năng hành động như một tác nhân (agentic actions).

- Opus 4.1 mang đến nâng cấp đáng kể về lập trình so với phiên bản trước, nâng hiệu suất trên SWE-bench Verified từ 72,5% lên 74,5%.

- Hiệu suất cũng được cải thiện ở các bài kiểm tra về toán học, lập trình qua terminal như tác nhân (TerminalBench), lý luận GPQA và lý luận hình ảnh (MMMU).

- Khách hàng cho biết mô hình cho thấy hiệu quả rõ rệt trong thực tế, đặc biệt ở các tác vụ như tái cấu trúc mã nhiều tệp và tìm mối liên hệ trong toàn bộ codebase.

- Anthropic cho biết bản nâng cấp hiện có cho người dùng trả phí và doanh nghiệp đánh dấu sự khởi đầu cho “những cải tiến lớn hơn đáng kể” đang được lên kế hoạch cho các mô hình của hãng.

Vì sao quan trọng: Với Opus 4.1, Anthropic tiếp thêm sức nóng cho một tuần sôi động của giới đam mê AI. Đây là bản nâng cấp đáng hoan nghênh, nhưng với khả năng GPT-5 từ OpenAI có thể ra mắt bất cứ lúc nào, mọi ánh mắt sẽ dõi theo xem các mô hình của Anthropic có giữ được vị thế, đặc biệt trong mảng lập trình nơi hãng vốn nổi bật.

7. Xu hướng công cụ AI

🔄 Depot’s Claude Code Sessions – Phiên lập trình AI Claude liên tục, đồng bộ giữa các nhóm và môi trường để cộng tác liền mạch *

⚙️ Kaggle Game Arena – Bộ đánh giá hiệu năng LLM qua các trò chơi chiến thuật đang phát triển

📽️ ChatGPT – Trợ lý AI của OpenAI, nay có thêm công cụ phát hiện dấu hiệu căng thẳng tinh thần

📝 Gemini Storybooks – AI của Google nay có thể tạo sách truyện kèm giọng đọc thuyết minh

💼 Cơ hội việc làm trong lĩnh vực AI

⚙️ The Rundown – Chiến lược gia Tăng trưởng & Nội dung

📢 Groq – Quản lý Marketing Sản phẩm, Hỗ trợ Bán hàng

🛠️ Figure AI – Kỹ thuật viên Phát triển Nguyên mẫu

🎭 Meta – Giám đốc Sáng tạo

📰 Những tin tức AI khác hôm nay

- ElevenLabs ra mắt Eleven Music, mô hình tạo nhạc đa ngôn ngữ với khả năng kiểm soát thể loại, phong cách, cấu trúc và tùy chọn chỉnh sửa cả âm thanh lẫn lời.

- Google bổ sung tính năng Storybook vào ứng dụng Gemini, cho phép tạo truyện cá nhân hóa về bất cứ chủ đề nào kèm giọng đọc, hoàn toàn miễn phí.

- Perplexity mua lại Invisible, công ty phát triển nền tảng điều phối đa tác nhân, để mở rộng trình duyệt Comet cho cả người dùng cá nhân và doanh nghiệp.

- Elon Musk cho biết công cụ tạo hình ảnh và video Grok’s Imagine đang thu hút sự quan tâm lớn, với 20 triệu hình ảnh được tạo chỉ trong ngày hôm qua.

- Alibaba phát hành dòng Qwen3-Coder và Qwen3-2507 Flash qua API, hỗ trợ ngữ cảnh lên tới 1 triệu token với mức giá thấp.

- Shopify bổ sung các tính năng hướng đến AI agent, bao gồm bộ công cụ thanh toán để nhúng widget thương mại vào tác nhân, tìm kiếm sản phẩm toàn cầu độ trễ thấp và giỏ hàng dùng chung.

Bạn cảm thấy thế nào về email hôm nay?

Phản hồi của bạn giúp chúng tôi cải thiện chất lượng nội dung!

🧠🧠🧠 Rất tuyệt vời

🧠🧠 Cũng ổn

🧠 Tệ lắm

Hẹn gặp mọi người ở email sau với AI Update và AI NTK.

AI Update

Discussion about this post

Ready for more?