CHÀO MỪNG CÁC TÍN ĐỒ AI!
AI lớn cuối cùng vừa chính thức tham gia phong trào giọng nói, với Anthropic cuối cùng đã cung cấp cho trợ lý của mình khả năng nói.
Như thường lệ với Anthropic, thà muộn còn hơn không — và với việc tung ra các mô hình mới sáng bóng và giờ là giọng nói hoàn toàn mới, gã khổng lồ AI đang xuất xưởng một lần nữa.
BẢN TIN HÔM NAY CÓ GÌ?
Chế độ giọng nói mới của Anthropic dành cho Claude
Công ty khởi nghiệp AI thế giới 3D của người đồng sáng lập Synthesia
Tự động hóa tài liệu họp dự án
Nghiên cứu: AI học lý luận thông qua sự tự tin
4 công cụ AI mới và 4 cơ hội việc làm
🗣️ CHẾ ĐỘ GIỌNG NÓI MỚI CỦA ANTHROPIC DÀNH CHO CLAUDE
Nguồn hình ảnh: Anthropic
Anthropic vừa công bố sự ra mắt chế độ giọng nói mới cho ứng dụng di động Claude, trở thành một trong những phòng thí nghiệm AI lớn cuối cùng cho phép người dùng có các cuộc trò chuyện tự nhiên bằng lời nói với trợ lý AI của mình.
Tính năng beta dự kiến sẽ ra mắt cho người dùng nói tiếng Anh trong vài tuần tới và sẽ chạy trên mô hình Sonnet 4 mới nhất của Claude.
Người dùng có thể dễ dàng chuyển đổi giữa nói và gõ, với năm phong cách giọng nói có sẵn kèm theo văn bản chuyển đổi theo thời gian thực trong lúc trò chuyện.
Chế độ giọng nói cũng tích hợp với Google Workspace cho người đăng ký trả phí, cho phép Claude truy cập lịch, tài liệu và Gmail bằng các lệnh giọng nói.
Người dùng miễn phí sẽ nhận được 20-30 tin nhắn giọng nói mỗi tháng, với các tầng trả phí có giới hạn sử dụng “cao hơn rất nhiều”.
Tại sao điều này quan trọng: Với việc tất cả các phòng thí nghiệm lớn hiện nay đều cung cấp chế độ giọng nói, cuộc cạnh tranh chuyển sang chất lượng thực thi — với các khía cạnh như độ trễ, tích hợp, và chất lượng mô hình cơ bản đều đóng vai trò trong trải nghiệm người dùng. Những khả năng này cũng tạo ra sự khác biệt rõ rệt so với các giọng nói thế hệ cũ như Siri, cho thấy nó đã thực sự lạc hậu.
🚀 BỎ QUA THIẾT LẬP, CHUYỂN GIAO ĐẠI LÝ
Agent Generator của Postman cung cấp cơ sở hạ tầng chìa khóa trao tay hoàn chỉnh mà không cần thiết lập máy chủ, cho phép các nhà phát triển xây dựng và triển khai các tác nhân AI ngay lập tức mà không gặp trở ngại.
Với Agent Generator, bạn có thể:
Khởi chạy ngay các quy trình làm việc của tác nhân
Hoạt động với OpenAI, LangChain và nhiều hơn nữa
Kiểm tra, gỡ lỗi và triển khai—tất cả trong Postman
🌐 CÔNG TY KHỞI NGHIỆP AI THẾ GIỚI 3D CỦA NHÀ ĐỒNG SÁNG LẬP SYNTHESIA
Nguồn hình ảnh: SpAItial
Nhà đồng sáng lập Synthesia Matthias Niessner vừa ra mắt SpAItial, một công ty khởi nghiệp mới nhằm mục đích tạo ra các hệ thống AI có khả năng tạo ra môi trường 3D tương tác từ văn bản và hình ảnh.
Chi tiết:
Công ty đang xây dựng các Mô hình nền tảng không gian (SFM) có thể hiểu không gian 3D một cách tự nhiên và có thể nắm bắt hình học, vật lý và các đặc tính vật liệu.
Đội ngũ sáng lập của SpAItial bao gồm các cựu lãnh đạo của Synthesia, Google và Meta, mang đến chuyên môn về AI 3D và công nghệ kết xuất nơ-ron.
Các bản demo ban đầu đã tạo ra các phòng 3D chân thực từ các lời nhắc văn bản đơn giản, với các ứng dụng bao gồm trò chơi, xây dựng, VR và rô-bốt.
Tại sao điều này quan trọng: Mặc dù AI đã thành thạo trong việc tạo ra hình ảnh và video 2D, nhưng việc tạo ra thế giới 3D mạch lạc, có nhận thức về không gian vẫn là một thách thức. Giống mô hình mới này có thể cho phép bất kỳ ai tạo ra các môi trường ảo phức tạp chỉ bằng một vài từ — giải quyết những gì nhiều người coi là ranh giới tiếp theo trong AI.
📊 TỰ ĐỘNG HÓA TÀI LIỆU CUỘC HỌP DỰ ÁN
Trong hướng dẫn này, bạn sẽ học cách tạo ra một hệ thống tự động hóa với Zapier Agents có thể biến các bản ghi âm cuộc họp thành bản dịch, tóm tắt và danh sách nhiệm vụ có thể thực thi trong Google Docs.
Hướng dẫn:
Truy cập Zapier Agents và tạo một "Đại lý Mới".
Cấu hình đại lý của bạn để kích hoạt khi các tập tin âm thanh mới được tải lên một thư mục xác định trong Google Drive.
Thêm ba công cụ cần thiết: ChatGPT để chuyển đổi giọng nói, ChatGPT tiếp để tóm tắt và trích xuất điểm hành động, và Google Docs để biên soạn tất cả vào một tài liệu đơn.
Kiểm tra cài đặt của bạn với một bản ghi mẫu và kích hoạt đại lý của bạn.
Mẹo chuyên nghiệp: Khi bắt đầu mỗi cuộc họp, hãy yêu cầu người tham gia nêu rõ tên trước khi phát biểu và đề cập rõ ràng đến nhiệm vụ được giao để giúp AI phân công nhiệm vụ cho các thành viên trong nhóm chính xác hơn.
📊 MỘT NỀN TẢNG ĐÁP ỨNG MỌI NHU CẦU DỮ LIỆU AI CỦA BẠN
Encord là một nền tảng hợp nhất để quản lý dữ liệu AI đa phương thức, quản lý và chú thích, cho phép các nhóm đẩy nhanh chu kỳ lặp lại mô hình với các tập dữ liệu được gắn nhãn chính xác và cân bằng.
Các nhóm AI hàng đầu sử dụng giao diện đa phương thức có thể tùy chỉnh hoàn toàn của Encord để:
Đánh giá đầu ra GenAI trên video, âm thanh và văn bản trong thời gian kỷ lục
Tạo tập dữ liệu VLA với dữ liệu video, hướng dẫn và quỹ đạo được đồng bộ hóa
Hợp nhất nhãn PDF, hình ảnh, video, âm thanh và DICOM trong một giao diện duy nhất
☺️ NGHIÊN CỨU: AI HỌC LÝ LUẬN THÔNG QUA SỰ TỰ TIN
Nguồn hình ảnh: UC Berkeley và Yale
Các nhà nghiên cứu từ UC Berkeley và Yale đã giới thiệu INTUITOR, một phương pháp đào tạo AI cho phép các mô hình ngôn ngữ cải thiện khả năng lý luận của chúng bằng các tín hiệu tự tin nội tại — loại bỏ nhu cầu về câu trả lời đúng hoặc phản hồi bên ngoài.
INTUITOR đo lường mức độ tự tin của AI về từng từ mà nó tạo ra, sử dụng "cảm giác trực giác" này làm hướng dẫn để học.
Thay vì cần câu trả lời đúng để học (như đào tạo AI truyền thống), hệ thống sẽ thưởng cho AI khi nó đưa ra các phản hồi mà nó cảm thấy tự tin.
Khi được thử nghiệm trên các bài toán, phương pháp này hoạt động tốt như đào tạo thông thường, nhưng cho thấy kết quả thậm chí còn tốt hơn đối với các nhiệm vụ lập trình.
Các AI cũng bắt đầu thể hiện các hành vi lý luận giống con người — phân tích các vấn đề phức tạp, lập kế hoạch và giải thích từng bước suy nghĩ của chúng.
Tại sao điều này quan trọng: Cũng giống như trực giác và sự tự tin đóng vai trò lớn trong quá trình học tập của con người, nghiên cứu này cho thấy AI đang thành công trong cùng một hệ thống. Phương pháp tự định hướng này có thể đặc biệt có giá trị đối với các nhiệm vụ không có "câu trả lời đúng" rõ ràng hoặc chuyên môn của con người bị hạn chế, cho phép AI mạo hiểm vào các lĩnh vực kiến thức chưa được khám phá.
CÔNG CỤ AI MỚI
⚙️ Claude Code - Công cụ mã hóa tác nhân của Anthropic, hiện đã có sẵn rộng rãi
🧠 Nemotron AceReason - Mô hình suy luận toán học và mã của Nvidia
🦙 Llama-Factory - Tinh chỉnh và đào tạo LLM nguồn mở mà không cần mã
▶️ OpusClip Thumbnail - Trình tạo hình thu nhỏ AI chỉ bằng một cú nhấp chuột
TIN TỨC NHANH
Mistral đã ra mắt Agents API cho các ứng dụng doanh nghiệp, giới thiệu các trình kết nối để mã hóa, tìm kiếm trên web và tạo hình ảnh cùng với bộ nhớ và phối hợp nhiều tác nhân.
Meta được cho là đang tái cấu trúc tổ chức AI của mình thành hai nhóm riêng biệt tập trung vào các sản phẩm AI và nền tảng AGI, nhằm mục đích đẩy nhanh quá trình phát triển của công ty.
Mô hình Claude 4 Sonnet của Anthropic đã đạt được SOTA mới trên chuẩn mực ARC-AGI-2, vượt qua o3 để giành vị trí hàng đầu trên bảng xếp hạng.
Google DeepMind đã giới thiệu SignGemma, một mô hình sắp ra mắt có khả năng dịch ngôn ngữ ký hiệu thành văn bản.
Salesforce đã mua lại công ty quản lý dữ liệu đám mây Informatica với giá 8 tỷ đô la, củng cố cơ sở hạ tầng cung cấp năng lượng cho các sản phẩm và nền tảng dựa trên tác nhân của mình.
The Browser Company tiết lộ rằng họ sẽ không còn làm việc trên trình duyệt Arc nữa, thay vào đó sẽ chuyển hoàn toàn sang phát triển trình duyệt Dia ưu tiên AI của mình thành một sản phẩm riêng biệt.
KẾT LUẬN
Hãy tiếp tục theo dõi để không bỏ lỡ những cập nhật mới nhất về công nghệ AI, những đột phá và xu hướng đang thay đổi ngành công nghiệp.
Đừng quên để lại bình luận và chia sẻ suy nghĩ của bạn – mỗi ý kiến từ bạn chính là nguồn cảm hứng để chúng tôi mang đến những giá trị thực tế, hữu ích, và tiên tiến nhất, giúp bạn ứng dụng AI hiệu quả hơn trong công việc và cuộc sống. vào công việc và cuộc sống.