Manus cuộc hội thoại mới nhất: Thử nghiệm thanh toán Agent, công ty RRR gần 1 triệu đô la Mỹ

Tác giả|Li Yuan

Biên tập| Tĩnh Vũ

Manus chuyển đến Singapore không ngừng suy nghĩ về Agent AI tổng quát.

Tại Stripe Tour diễn ra hôm nay ở Singapore, đồng sáng lập và giám đốc khoa học của Manus, Peak (季逸超), đã có cuộc trò chuyện với Paul Harapin, giám đốc doanh thu khu vực châu Á-Thái Bình Dương và Nhật Bản của Stripe.

Trong buổi tiệc, Manus AI đã công bố dữ liệu kinh doanh gần đây, tỷ lệ doanh thu hoạt động (RRR, Revenue Run Rate) của Manus AI đã đạt 90 triệu đô la, sắp tới sẽ vượt qua một tỷ.

Giám đốc của Manus AI, Tiêu Hồng, đã đặc biệt nhấn mạnh trên Jike rằng Revenue Run Rate có nghĩa là doanh thu của tháng đó *12, và không bằng với thu nhập tiền mặt. Nhiều sản phẩm AI sẽ có tùy chọn thanh toán hàng năm, phần này chỉ có thể được coi là tiền gửi trước, chứ không thể ghi nhận là doanh thu. "Nếu chúng ta công bố theo cách [sai lầm] này, chúng ta có thể tính được một con số lớn hơn 120 triệu đô la Mỹ." Tiêu Hồng cho biết.

Ngoài dữ liệu kinh doanh,季逸超 còn chia sẻ cách mà đội ngũ Manus suy nghĩ về bước tiếp theo của Agent tổng quát, cũng như sự khác biệt giữa AI Agent và AGI trong tương lai.

"Bây giờ mọi người gần như gọi mọi thứ là Agent. Ví dụ, một cái micro, có người sẽ gọi nó là 'Agent thu âm có cảm nhận môi trường.' Kỳ Nghĩa Siêu đã nói đùa như vậy."

Ông cũng đã đưa ra hai hướng chính cho bước tiếp theo trong việc mở rộng khả năng của Agent tổng quát: Thứ nhất, hợp tác giữa nhiều Agent để mở rộng quy mô thực hiện (chẳng hạn như trong một cuộc khảo sát quy mô lớn, phát sinh ra hàng trăm Agent con hoạt động song song); Thứ hai, mở rộng "khả năng công cụ" cho Agent, không giới hạn khả năng vào một số API được cài sẵn, mà giống như lập trình viên, gọi hệ sinh thái mã nguồn mở, cài đặt thư viện, thậm chí sau khi trực quan hóa xem hình ảnh tự kiểm tra và điều chỉnh lại.

Mùa Y Chao còn đề cập rằng, thế giới số ngày nay vẫn được xây dựng theo mô hình "dành cho con người sử dụng" - các trang web không được API hóa, CAPTCHA, và quy trình "game hóa" mang lại nhiều ma sát, nút thắt dường như là do các ràng buộc sinh thái và thể chế, chứ không phải do trí thông minh mô hình.

Đây cũng là một trong những lý do mà Manus tham gia vào hoạt động của Stripe: cả hai bên đang thúc đẩy việc hoàn thành thanh toán trong Agent, kết nối "nghiên cứu - quyết định - đặt hàng/ thanh toán" thành một vòng khép kín, sử dụng hợp tác hạ tầng để giải quyết sự ma sát của thế giới.

Dưới đây là tinh hoa của cuộc hội thoại, được chỉnh sửa và biên tập bởi Geek Park:

Hỏi: Hãy giới thiệu một cách đơn giản về bản thân bạn với khán giả. Gần đây, blog của bạn về "Kỹ thuật ngữ cảnh" rất truyền cảm hứng, tôi nghĩ đây là điều cần đọc cho bất kỳ ai đang phát triển AI Agent. Mỗi khi tôi đi ăn trưa với các kỹ sư, họ luôn nói về điều này, vì vậy bây giờ tôi chỉ có thể ngồi ở nơi khác (cười). Nhưng đối với những người có thể không quen thuộc với Manus, bạn có thể chia sẻ về kinh nghiệm và tầm nhìn của mình không?

Đáp: Cảm ơn Paul. Rất vui được đến đây. Manus đang xây dựng một Đại lý AI tổng quát.

Nhiều viện nghiên cứu và công ty đang cố gắng xây dựng một bộ não - xây dựng một mô hình ngôn ngữ lớn. Nhưng chúng tôi cho rằng, từ góc độ của người tiêu dùng, điều này thực sự không tốt. AI nên có khả năng hành động thực sự, hoàn thành công việc, vì vậy chúng tôi đã xây dựng Manus.

Cách của chúng tôi là cho AI có thể sử dụng một trong những phát minh vĩ đại nhất trong lịch sử nhân loại - máy tính chung. Khi được trang bị máy tính, AI có thể làm tất cả những gì con người có thể làm. Manus thực sự có thể hoàn thành nhiệm vụ. Ví dụ, nó có thể giúp bạn làm bài thuyết trình, giúp bạn lên kế hoạch cho một chuyến đi, thậm chí có thể giúp bạn điều hành mạng xã hội - mặc dù tôi không thực sự khuyên bạn nên làm như vậy.

Người dùng của chúng tôi thực sự rất thích Manus. Chúng tôi đã phát hành Manus vào tháng Ba, và hiện tại đã đạt được khoảng 90 triệu doanh thu hàng năm (RRR, Revenue Run Rate), sắp tới sẽ vượt qua 100 triệu.

Tôi nghĩ điều này là rất lớn đối với một công ty khởi nghiệp nhỏ như chúng tôi. Nhưng điều quan trọng hơn là điều này cho thấy AI Agent không còn chỉ là một từ buzz trong lĩnh vực nghiên cứu, mà thực sự đang được áp dụng và phát triển.

Tôi có thể chia sẻ với mọi người một câu chuyện nhỏ trong quá trình chúng tôi xây dựng Manus.

Chúng tôi thực sự đã nhận được nhiều cảm hứng từ ứng dụng của Agent coding. Ví dụ như sản phẩm lập trình AI như Cursor, trước đó đã thu hút được nhiều sự chú ý.

Là kỹ sư, chúng tôi tự nhiên sẽ sử dụng Cursor. Nhưng thật bất ngờ, nhiều đồng nghiệp không phải kỹ sư trong công ty cũng đang sử dụng Cursor. Tất nhiên, họ không phải đang viết phần mềm, mà sử dụng nó để làm trực quan hóa dữ liệu, thậm chí viết một số bài viết. Họ sẽ bỏ qua phần mã bên trái, chỉ đơn giản là trò chuyện với AI để hoàn thành công việc.

Điều này khiến chúng ta nhận ra: Chúng ta nên tổng quát hóa cách này, trao quyền cho những người không phải lập trình viên. Đây là một trường hợp sử dụng của AI.

Hỏi: Chúng ta ngày càng thường nghe mọi người nói về AI Agent và AGI. Bạn có thể giúp chúng tôi phân biệt rõ hơn hai khái niệm này không? AI Agent và AGI có ý nghĩa gì đối với bạn và Manus?

Đáp: Chúng tôi cho rằng đây là một câu hỏi rất hay.

Bây giờ mọi người gần như gọi mọi thứ là "Agent". Chẳng hạn, một cái micrô, có người sẽ nói nó là "Agent thu âm có khả năng cảm nhận môi trường".

Nhưng ít nhất chúng tôi khẳng định rằng, Agent nên là một phân nhóm của AI ứng dụng. Chúng ta có thể lùi lại một bước và xem xét các loại ứng dụng AI phổ biến.

Hầu hết mọi người đã quen thuộc với hai loại: một loại là chatbot, chẳng hạn như ChatGPT; loại còn lại là công cụ sinh, chẳng hạn như MidJourney hoặc Sora. Trong những hệ thống này, thường chỉ có hai vai trò: người dùng và mô hình. Bạn tương tác với mô hình để nhận được đầu ra. Sự khác biệt của Agent là nó không chỉ có người dùng và mô hình, mà còn giới thiệu một yếu tố quan trọng thứ ba - môi trường.

Khái niệm "môi trường" này sẽ thay đổi tùy theo loại tác nhân, chẳng hạn như trong tác nhân thiết kế, môi trường có thể là một bức tranh hoặc một đoạn mã; trong Manus, mục tiêu của chúng tôi là để tác nhân xuất hiện trong máy ảo hoặc thậm chí toàn bộ internet. Bằng cách này, tác nhân có thể quan sát môi trường, quyết định bước tiếp theo nên làm gì và thay đổi môi trường thông qua hành động. Điều này làm cho nó trở nên rất mạnh mẽ.

Ví dụ trong Manus, bạn có thể bày tỏ nhu cầu, nó sẽ mở trình duyệt, phát hành trang web, giúp bạn đặt một vé máy bay. Tôi rất thích ví dụ này, vì mặc dù việc đặt vé máy bay nghe có vẻ đơn giản, nhưng thực sự đây là AI đang thay đổi trực tiếp thế giới thực - kết quả không phải là đầu ra của mô hình, mà là vé máy bay trong tay bạn. AI thực sự can thiệp vào thế giới của bạn. Đây là điều chúng ta gọi là Agent.

Nói một cách đơn giản, Agent là hệ thống AI có thể đại diện cho người dùng tương tác với môi trường.

Về AGI, từ này cũng thường được nhắc đến, nhiều người đồng nhất nó với trí thông minh siêu việt. Chúng tôi cho rằng, AGI là một hệ thống có khả năng tổng quát để sử dụng các mô hình AI, thực hiện nhiều nhiệm vụ mà không cần thiết kế đặc biệt.

Chúng tôi cho rằng "Agent coding" thực sự là một con đường dẫn tới AGI. Nó không phải là một khả năng trong một lĩnh vực cụ thể, mà nếu bạn trao nó cho máy tính, nó gần như có thể làm bất cứ điều gì trên máy tính. Vì vậy, đối với chúng tôi, điều kiện để đạt được AGI là phải xây dựng một môi trường đủ hoàn thiện để khả năng này có thể phát huy.

Hỏi: AI hôm nay thực sự đã phát huy tác dụng trong những bối cảnh nào? Trong tương lai sẽ phát huy tác dụng ở đâu? Khi nào sẽ xuất hiện khoảnh khắc iPhone?

Trả lời: Về Agent, nếu chỉ nhìn vào khả năng của mô hình thì các mô hình flagship hiện tại đã rất ấn tượng, gần như ở cấp độ "siêu nhân". Chúng có thể vượt qua hầu hết chúng ta trong các cuộc thi toán học hoặc suy luận logic.

Nhưng tôi nghĩ rằng, mô hình vẫn giống như "bộ não trong chai", nếu muốn phát huy sức mạnh thực sự, thì phải để chúng tương tác với thế giới thực, tiếp cận thực tại. Nhưng không may, đây chính là nơi vấn đề bắt đầu.

Ví dụ, nếu bạn để một AI thực hiện một số nhiệm vụ hành chính, nó thực sự rất giỏi trong các nhiệm vụ lặp đi lặp lại. Chẳng hạn như sản phẩm như Deep Research, nó chỉ tổng hợp thông tin và sau đó đưa ra một kết quả, đầu ra của nó chỉ đơn giản là xuất hiện ở đó.

Lấy một ví dụ, hiện nay hầu như mọi thứ đều được thiết kế cho con người, không chỉ thế giới vật lý mà ngay cả thế giới kỹ thuật số cũng vậy. Chẳng hạn như các công cụ trên web, chúng giống như các trò chơi nhỏ, không cung cấp API hoặc giao diện tiêu chuẩn. Mã xác nhận CAPTCHA có mặt khắp nơi, luôn chặn Agent.

Vì vậy, tôi nghĩ rằng AI hoạt động rất tốt trong các nhiệm vụ tự chứa kín, nhưng một khi liên quan đến thế giới thực, nó sẽ gặp phải những trở ngại.

Khi nào thì có thể xuất hiện khoảnh khắc iPhone trong tương lai? Tôi nghĩ đây không phải là vấn đề kỹ thuật, mà giống như một sự hạn chế mang tính制度. Đây không phải là điều mà một công ty khởi nghiệp như chúng tôi có thể tự giải quyết.

Tôi nghĩ rằng điều này cần một sự chuyển biến dần dần, yêu cầu toàn bộ hệ sinh thái cùng tiến hóa. Điều này cũng cần những công ty như Stripe tập trung vào cơ sở hạ tầng. Ví dụ, chúng tôi đang tích hợp API thanh toán Agentic mới của Stripe. Mọi người cùng nhau cố gắng.

Hỏi: Vậy chúng ta có thể nói cụ thể về một số tình huống điển hình mà người dùng sử dụng Manus không? Họ sử dụng như thế nào? Điều này thể hiện sức mạnh gì?

Câu trả lời: Vâng, mặc dù chúng tôi đến từ thế hệ Agent hiện tại, nhưng chúng tôi đã thấy nhiều trường hợp sử dụng tuyệt vời.

Chẳng hạn, chúng tôi vừa chuyển đến Singapore, cần thuê một đại lý bất động sản để giúp chúng tôi tìm nơi ở. Là một Agent thật (cười).

Và bây giờ, những trung gian này đã bắt đầu sử dụng Manus: họ sẽ phân tích vị trí công ty, khu vực mà nhân viên muốn sống dựa trên nhu cầu của khách hàng và tạo ra các đề xuất tương ứng.

Tôi thấy điều này rất thú vị, vì nó thuộc về một "nhu cầu đuôi dài". Nói chung, không có sản phẩm AI nào được thiết kế đặc biệt cho những tình huống cụ thể như vậy, nhưng vì Manus là một Agent đa năng, nó có thể đáp ứng những nhu cầu này. Chúng tôi tin rằng nhu cầu đuôi dài rất đáng được chú ý.

Từ góc độ vĩ mô, nó có thể là đuôi dài, nhưng đối với người dùng cụ thể, đây chính là công việc hàng ngày của họ. Cảnh này đặc biệt có giá trị.

Điều này giống như bối cảnh của các công cụ tìm kiếm ngày nay. Nếu bạn chỉ tìm kiếm một số nội dung phổ biến, bất kể là sử dụng Google hay Bing, chất lượng kết quả gần như tương đương. Vậy tại sao mọi người lại chọn một trong hai? Có thể vì một công cụ tìm kiếm nào đó đã cung cấp cho họ kết quả phù hợp hơn vào một thời điểm nhất định. Và nếu bạn tìm kiếm nội dung rất cá nhân hóa hoặc chuyên sâu, sự khác biệt sẽ càng rõ ràng hơn. Vì vậy, chúng tôi cho rằng lợi thế của một Agent tổng quát nằm ở đây.

Vậy làm thế nào để nó tốt hơn? Chúng tôi đã suy nghĩ rất lâu, vì chúng tôi nghĩ rằng mọi thứ đều liên quan đến lập trình. Nếu bạn giao máy tính cho AI, thì cách nó tương tác với môi trường thực chất là thông qua lập trình.

Chúng tôi cho rằng có thể cải thiện từ hai khía cạnh. Thứ nhất là quy mô hóa. Nhưng nếu bạn có thể mở rộng khả năng của Agent lên gấp một trăm lần thì sao?

Gần đây, Manus vừa mới phát hành một tính năng mới, được gọi là Wide Research. Ý tưởng cơ bản của nó là cho phép một Agent có thể sinh ra hàng trăm Agent để cùng thực hiện nhiệm vụ. Bạn biết đấy, nếu chỉ để AI giúp bạn làm một số việc nhỏ, nhiều khi bạn cũng có thể tự hoàn thành. Nhưng nếu nhiệm vụ rất lớn, một mình bạn hoàn toàn không thể hoàn thành, chẳng hạn như cần thực hiện một nghiên cứu quy mô lớn, lúc này việc để hàng trăm Agent làm việc song song sẽ trở nên rất mạnh mẽ.

Thứ hai, chúng ta cũng cần làm cho Agent linh hoạt hơn trong việc sử dụng máy tính. Ví dụ, nếu bạn chỉ thiết lập các công cụ dự kiến cho một AI Agent, thì không gian hành động của nó sẽ bị giới hạn trong những công cụ đó. Nhưng hãy tưởng tượng rằng nếu bạn là một lập trình viên, bạn có toàn bộ tài nguyên của cộng đồng mã nguồn mở để gọi.

Ví dụ, khi bạn in 3D, việc chỉnh sửa tham số của mô hình rất khó khăn, nhưng nếu bạn có thể tìm thấy thư viện phù hợp trên GitHub, việc cài đặt trực tiếp sẽ giải quyết vấn đề của bạn. Tại Manus, chúng tôi đang tối ưu hóa tính đa dụng và đưa ra một khái niệm gọi là "hiệu ứng mạng lưới của công cụ".

Có một ví dụ rất thú vị: Nhiều người dùng đang sử dụng Manus để trực quan hóa dữ liệu. Các bạn biết đấy, ở châu Á đôi khi sẽ gặp vấn đề, chẳng hạn như khi hiển thị tiếng Trung trong biểu đồ có thể xảy ra lỗi phông chữ. Có thể một số người dùng chuyên nghiệp sẽ viết một số quy tắc mã hóa cứng, chẳng hạn như khi xuất tiếng Hàn nên sử dụng phông chữ nào. Nhưng cách làm này sẽ khiến hệ thống ngày càng cứng nhắc.

Cách mà chúng tôi áp dụng là bổ sung cho hệ thống một khả năng rất đơn giản: xem hình ảnh. Kết quả thật bất ngờ - vì các mô hình ngày nay đã rất thông minh, chúng sẽ tự kiểm tra sau khi tạo ra hình ảnh trực quan và nhận ra sai sót, sau đó tự động sửa chữa. Chúng tôi nhận thấy rằng việc tăng cường tính linh hoạt của công cụ có thể giải quyết nhiều vấn đề hơn so với việc mã hóa cứng các quy tắc.

Hỏi: Đây là một thời kỳ thú vị. Tôi thực sự rất phấn khích, chỉ mong mình có thể trẻ lại đến ba mươi tuổi (cười). Khi nói đến nghiên cứu y tế, tôi biết Manus cũng rất mạnh trong lĩnh vực này. Các bạn có nhận thấy một số người dùng đang sử dụng Manus để nghiên cứu y tế không?

Trả lời: Rất nhiều người đã sử dụng Manus để nghiên cứu, không chỉ giới hạn trong nghiên cứu y tế. Chúng tôi thấy điều này rất thú vị, bởi vì hiện nay thực sự có rất nhiều sản phẩm "nghiên cứu sâu" như vậy, chúng sẽ giúp bạn thu thập một lượng lớn thông tin và thực hiện một số phân tích, nhưng cuối cùng chỉ cung cấp cho bạn một tệp markdown hoặc tài liệu. Điều này là không đủ.

Nhiều lúc, những gì các nhà nghiên cứu thực sự cần là kết quả có thể trực tiếp giao cho sếp hoặc đội ngũ của họ. Vì vậy, chúng tôi đã cải thiện khả năng xuất kết quả nghiên cứu trên Manus. Chẳng hạn trong nghiên cứu y học, nhiều khi cần phải tạo ra các báo cáo chính thức, như các báo cáo trình chiếu. Do đó, chúng tôi phải tối ưu hóa khả năng xuất của AI để đáp ứng nhu cầu của các nhà nghiên cứu. Đây là một trải nghiệm "công cụ hóa".

Chẳng hạn, hiện nay nhiều người dùng sẽ sử dụng Manus để nghiên cứu trước, sau đó tạo ra một trang web ngay lập tức. Bạn sẽ thấy điều này hoàn toàn khác biệt so với cách xây dựng trang web truyền thống.

Cần biết rằng, việc xây dựng một trang web thực sự không khó, điều khó là làm thế nào để đảm bảo tính đáng tin cậy và độ chính xác của dữ liệu. Vì vậy, chúng tôi cho rằng, tốt nhất là có thể hoàn thành toàn bộ quy trình trong một cuộc hội thoại, một bối cảnh chia sẻ. Như vậy, nghiên cứu của bạn, những hiểu biết của bạn có thể được chuyển đổi liền mạch thành kết quả cuối cùng. Đó là những gì chúng tôi đang làm trong Manus.

Hỏi: Nhiều quốc gia đang thảo luận về một chủ đề: Trong thời đại AI, tương lai của nhân loại và ảnh hưởng kinh tế. Bạn nghĩ gì về việc việc làm bị thay thế? Liệu sẽ xuất hiện những cơ hội việc làm mới nào?

Đáp: Bạn bè và nhà đầu tư của chúng tôi cũng thường hỏi chúng tôi câu hỏi này. Khi chúng tôi ra mắt Manus, ban đầu nghĩ rằng nếu có thể xây dựng một Agent như vậy, nó sẽ giúp mọi người tiết kiệm rất nhiều thời gian, để mọi người dễ dàng kiếm tiền.

Nhưng thực tế, chúng tôi nhận thấy rằng tầm nhìn này chưa hoàn toàn được thực hiện. Thông qua việc nghiên cứu người dùng một cách sâu rộng, chúng tôi phát hiện ra rằng sau khi sử dụng, người dùng lại làm việc nhiều hơn. Bởi vì họ trở nên hiệu quả hơn, họ thực sự có thể làm nhiều điều mà họ vốn đã rất giỏi. Đây là điểm đầu tiên.

Thứ hai, chúng tôi cho rằng Manus đã mở ra một không gian hoàn toàn mới. Chúng tôi luôn thảo luận về máy ảo và điện toán đám mây. Chúng tôi cảm thấy Manus đang đóng vai trò như một "nền tảng điện toán đám mây cá nhân". Ví dụ, điện toán đám mây đã tồn tại hàng chục năm, nhưng nó chủ yếu là đặc quyền của kỹ sư, chỉ có chúng tôi mới có thể gọi sức mạnh của đám mây thông qua lập trình. Những người lao động tri thức bình thường không thể sử dụng.

Nhưng giờ đây, với những AI Agent như Manus, con người có thể ra lệnh bằng ngôn ngữ tự nhiên, cho phép AI thực hiện. Điều này tương đương với việc mở khóa một loại năng suất hoàn toàn mới. Đây chính là điều chúng tôi mang đến.

Cuối cùng, về "thay thế", tôi nghĩ thực sự rất khó. Ví dụ như các đại lý bất động sản, họ hàng ngày đều sử dụng Manus để hoàn thành công việc hàng ngày. Nhưng bạn biết đấy, AI sẽ không bao giờ có thể thay thế cách giao tiếp mà các đại lý có với khách hàng. Chúng tôi là một công ty AI, thậm chí video phát hành Manus cũng được viết kịch bản bởi Manus, nhưng người xuất hiện trong video vẫn là tôi, vì đây là vấn đề về niềm tin. Và niềm tin, không thể hoàn toàn giao phó cho AI.

AGENT-0.98%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)