Manus, que se mudó a Singapur, no ha dejado de reflexionar sobre el Agente de IA General.
Hoy, en el Stripe Tour que se celebra en Singapur, el cofundador y científico jefe de Manus, Ji Yichao (Peak), tuvo una conversación con Paul Harapin, director de ingresos de Stripe para la región de Asia-Pacífico y Japón.
Durante la reunión, Manus AI reveló datos operativos recientes, la tasa de ingresos de Manus AI (RRR, Revenue Run Rate) ha alcanzado los 90 millones de dólares y pronto superará los 100 millones.
El fundador de Manus AI, Xiao Hong, también destacó en un comentario reciente que la Tasa de Ingresos Anualizada se refiere a los ingresos del mes *12, y no equivale a los Ingresos en Efectivo. Muchos productos de IA tienen opciones de pago anual, y esta parte solo puede considerarse como un depósito anticipado y no se puede contabilizar como ingresos. "Si divulgamos de esta manera [incorrecta], podríamos calcular un número que es aún mayor que 120 millones de dólares", dijo Xiao Hong.
Además de los datos operativos, Ji Yichao también compartió cómo el equipo de Manus está pensando en los próximos pasos para el Agente Universal, así como cuáles son las diferencias entre el Agente de IA y la AGI en el futuro.
"Ahora casi todos llaman a todo Agent. Por ejemplo, un micrófono, alguien podría llamarlo 'Agent de grabación con percepción ambiental.' Ji Yichao bromeó al respecto."
También presentó dos líneas principales para la próxima etapa de expansión de las capacidades del Agente General: primero, ampliar la escala de ejecución mediante la colaboración de múltiples Agentes (como generar cientos de subagentes paralelos en una investigación a gran escala); segundo, abrir un "ámbito de herramientas" más amplio para los Agentes, no limitando sus capacidades a unas pocas API preestablecidas, sino permitiendo que llamen a ecosistemas de código abierto, instalen bibliotecas, e incluso se autocomprueben y modifiquen visualmente.
Ji Yichao también mencionó que el mundo digital de hoy todavía se construye bajo el paradigma de "ser utilizado por personas" — páginas web no API, CAPTCHA, y la "gamificación" de los procesos generan una gran cantidad de fricción, siendo los cuellos de botella más bien restricciones ecológicas e institucionales, en lugar de la inteligencia del modelo.
Esta también es una de las razones por las que Manus participa en las actividades de Stripe: ambas partes están avanzando en completar los pagos dentro de Agent, uniendo "investigación - decisión - pedido/ajuste" en un ciclo cerrado, utilizando la colaboración en infraestructuras para eliminar la fricción en el mundo.
A continuación se presentan los puntos destacados de la conversación, editados y organizados por Geek Park:
Pregunta: ¿Puedes presentarte brevemente al público? Tu blog reciente sobre "ingeniería de contexto" es muy inspirador, creo que es de lectura obligada para cualquiera que esté desarrollando un Agente de IA aquí presente. Cada vez que voy a almorzar con los ingenieros, siempre están hablando de esto, así que ahora solo puedo sentarme en otro lugar (risas). Pero para aquellos que quizás no están tan familiarizados con Manus, ¿puedes compartir tu experiencia y visión?
Respuesta: Gracias Paul. Me alegra estar aquí. Manus está construyendo un Agente de IA general.
Muchas instituciones de investigación y empresas están intentando crear un cerebro: construir un gran modelo de lenguaje. Pero creemos que, desde la perspectiva del consumidor, esto en realidad no es bueno. La IA debería poder tomar acciones reales y completar tareas, por lo que hemos construido Manus.
Nuestra forma es permitir que la IA utilice uno de los mayores inventos de la historia de la humanidad: la computadora universal. Al darle a la IA una computadora, puede hacer todo lo que los humanos pueden hacer. Manus puede realmente completar tareas. Por ejemplo, puede ayudarte a hacer una presentación, planificar un viaje, e incluso puede ayudarte a gestionar redes sociales, aunque no te recomiendo que realmente hagas eso.
A nuestros usuarios realmente les gusta Manus. Lanzamos Manus en marzo y ahora hemos alcanzado una tasa de ingresos anualizada (RRR, Revenue Run Rate) de aproximadamente 90 millones, pronto superaremos los 100 millones.
Creo que esto es muy grande para una pequeña empresa emergente como la nuestra. Pero lo más importante es que esto indica que el Agente de IA ya no es solo una palabra de moda en el ámbito de la investigación, sino que realmente se está aplicando y echando raíces.
Puedo compartir con todos una pequeña historia sobre el proceso de construcción de Manus.
En realidad, hemos obtenido mucha inspiración de la aplicación de la codificación de agentes. Por ejemplo, productos de programación de IA como Cursor ya han atraído mucha atención anteriormente.
Como ingenieros, naturalmente usamos Cursor. Pero nos sorprende que muchos colegas no ingenieros en la empresa también estén usando Cursor. Por supuesto, no están escribiendo software, sino que lo utilizan para hacer visualizaciones de datos e incluso para escribir algunos artículos. Ignoran la parte del código a la izquierda y simplemente conversan con la IA para completar su trabajo.
Esto nos hace darnos cuenta de que deberíamos generalizar este enfoque y empoderar a los no programadores. Este es un caso de uso de la IA.
Pregunta: Cada vez escuchamos más a la gente hablar sobre AI Agent y AGI. ¿Puedes ayudarnos a distinguir más claramente estos dos conceptos? ¿Qué significan AI Agent y AGI para ti y Manus?
Respuesta: Creemos que esta es una muy buena pregunta.
Ahora casi todo el mundo lo llama "Agent". Por ejemplo, un micrófono, algunas personas dirán que es un "Agent de grabación con percepción ambiental".
Pero al menos sostenemos que el Agente debería ser un subconjunto de la IA aplicada. Demos un paso atrás y veamos las categorías comunes de aplicaciones de IA.
La mayoría de las personas ya están familiarizadas con dos tipos: uno son los chatbots, como ChatGPT; el otro son las herramientas generativas, como MidJourney o Sora. En estos sistemas, generalmente solo hay dos roles: el usuario y el modelo. Tú interactúas con el modelo y obtienes una salida. La diferencia del Agente es que, además del usuario y del modelo, introduce un tercer elemento clave: el entorno.
El concepto de "entorno" variará según el tipo de agente, por ejemplo, en un agente de diseño, el entorno puede ser un lienzo o un fragmento de código; mientras que aquí en Manus, nuestro objetivo es hacer que el agente aparezca en una máquina virtual o incluso en toda la internet. De esta manera, el agente puede observar el entorno, decidir qué hacer a continuación y cambiar el entorno a través de sus acciones. Esto lo hace muy poderoso.
Por ejemplo, en Manus, puedes expresar una necesidad, abrirá el navegador, publicará una página web y te ayudará a reservar un billete de avión. Me gusta mucho este ejemplo, porque aunque reservar un billete de avión suena sencillo, en realidad es la IA que está cambiando directamente el mundo real: el resultado no es la salida del modelo, sino el billete de avión en tu mano. La IA realmente ha intervenido en tu mundo. Esto es lo que llamamos Agente.
En pocas palabras, un Agente es un sistema de IA que puede representar al usuario e interactuar con el entorno.
En cuanto a AGI, esta palabra también se menciona a menudo, y muchas personas la equiparan con la superinteligencia. Creemos que AGI es un sistema capaz de utilizar la capacidad general de los modelos de IA para completar muchas tareas sin un diseño específico.
Creemos que "Agent coding" es en realidad un camino hacia la AGI. No es una habilidad de un campo vertical, sino que si se la das a una computadora, puede hacer prácticamente cualquier cosa en ella. Así que para nosotros, la condición para la AGI es construir un entorno lo suficientemente completo que permita que esta habilidad se manifieste.
Pregunta: ¿En qué escenarios ha tenido un verdadero impacto la IA hoy? ¿En qué lugares tendrá impacto en el futuro? ¿Cuándo aparecerá el momento del iPhone?
Respuesta: En cuanto a los agentes, si solo observamos la capacidad del modelo, los modelos insignia actuales son realmente impresionantes, casi a un nivel "superhéroe". Pueden superar a la mayoría de nosotros en competiciones matemáticas o razonamiento lógico.
Pero creo que los modelos siguen siendo como "un cerebro en una botella"; si realmente quieren ejercer su poder, deben interactuar con el mundo real y llegar a la realidad. Pero, desafortunadamente, este es precisamente el lugar donde comienzan los problemas.
Por ejemplo, si le pides a una IA que realice algunas tareas administrativas, realmente es muy buena en tareas repetitivas. Productos como Deep Research simplemente agregan información y luego proporcionan un resultado; su salida aparece de manera sencilla.
Por ejemplo, casi todo está diseñado para los humanos, no solo el mundo físico, sino también el mundo digital. Por ejemplo, las herramientas de la web son como pequeños juegos, no ofrecen API ni interfaces estándar. Los CAPTCHA están en todas partes, interceptando a los agentes en todas partes.
Por lo tanto, creo que la IA se desempeña bien en tareas cerradas y auto contenidas, pero una vez que se involucra el mundo real, se encuentra con obstáculos.
¿Cuándo aparecerá el momento del iPhone en el futuro? Creo que no es un problema técnico, sino más bien una limitación institucional. No es algo que podamos resolver individualmente como una startup de agentes como nosotros.
Creo que esto requiere una transición gradual, exigiendo que todo el ecosistema evolucione conjuntamente. También necesita que empresas como Stripe se esfuercen en el nivel de infraestructura. Por ejemplo, estamos integrando la nueva API de pagos Agentic de Stripe. Todos trabajando juntos.
Pregunta: ¿Podemos hablar específicamente sobre algunos escenarios típicos de cómo los usuarios utilizan Manus? ¿Cómo lo utilizan? ¿Qué tipo de poder se refleja en esto?
Respuesta: Sí, aunque venimos de esta generación actual de Agentes, ya hemos visto muchos casos de uso excelentes.
Por ejemplo, acabamos de mudarnos a Singapur y necesitamos contratar a un agente inmobiliario para que nos ayude a encontrar alojamiento. Es un agente de verdad (risas).
Y ahora estos intermediarios ya están utilizando Manus: analizarán la ubicación de la empresa y las áreas donde los empleados quieren vivir según las necesidades del cliente, y generarán las recomendaciones correspondientes.
Creo que esto es muy interesante porque pertenece a una "demanda de cola larga". En general, no hay productos de IA específicos diseñados para este tipo de escenario, pero dado que Manus es un agente de propósito general, puede satisfacer estas necesidades. Creemos que la demanda de cola larga merece mucha atención.
Desde una perspectiva macro, puede ser una larga cola, pero para un usuario específico, es precisamente su trabajo diario. Este tipo de escenario es especialmente valioso.
Esto es similar al panorama de los motores de búsqueda de hoy en día. Si solo buscas contenido común, ya sea en Google o Bing, la calidad de los resultados es casi la misma. Entonces, ¿por qué la gente elegiría uno sobre el otro? Puede ser porque un motor de búsqueda les proporcionó resultados más adecuados en un momento determinado. Y si buscas contenido muy personalizado o especializado, la diferencia se hace aún más evidente. Por eso creemos que la ventaja de un Agente genérico radica aquí.
¿Y cómo podemos mejorarlo? Hemos pensado en ello durante mucho tiempo, porque creemos que todo gira en torno a la programación. Si le das la computadora a la IA, la forma en que interactúa con el entorno es a través de la programación.
Creemos que se puede mejorar desde dos aspectos. El primero es la escalabilidad. Pero, ¿qué pasaría si pudieras multiplicar por cien las capacidades del Agente?
Recientemente, Manus lanzó una nueva función llamada Wide Research. La idea básica es permitir que un Agente derive cientos de Agentes para completar tareas juntos. Sabes, si solo dejas que la IA te ayude con algunas cosas pequeñas, muchas veces tú mismo también puedes hacerlo. Pero si la tarea es muy grande, es imposible que lo hagas solo, como cuando necesitas hacer una investigación a gran escala; en ese momento, hacer que cientos de Agentes trabajen en paralelo se vuelve muy poderoso.
En segundo lugar, también necesitamos permitir que el Agente utilice la computadora de manera más flexible. Por ejemplo, si solo le das a un Agente de IA herramientas predefinidas, su espacio de acción se limita a esas herramientas. Pero imagina que eres un programador y tienes a tu disposición los recursos de toda la comunidad de código abierto.
Por ejemplo, cuando estás imprimiendo en 3D, es muy difícil modificar directamente los parámetros del modelo, pero si puedes encontrar la biblioteca adecuada en GitHub, instalarla directamente resolverá tu problema. En Manus, estamos optimizando la versatilidad y proponemos un concepto llamado "efecto de red de herramientas".
Hay un ejemplo muy interesante: muchos usuarios utilizan Manus para la visualización de datos. Ustedes saben que en Asia a veces se presentan problemas, como errores de fuente al mostrar chino en los gráficos. Tal vez algunos usuarios profesionales escriban algunas reglas de codificación rígidas, como qué fuente se debe usar al mostrar coreano. Pero este enfoque hará que el sistema se vuelva cada vez más rígido.
La solución que adoptamos fue añadir una capacidad muy simple al sistema: ver imágenes. El resultado fue sorprendente, ya que los modelos de hoy en día son muy inteligentes; después de generar imágenes visuales, se revisan a sí mismos, se dan cuenta de los errores y luego se corrigen automáticamente. Descubrimos que aumentar la flexibilidad de las herramientas puede resolver más problemas que codificar reglas de manera rígida.
Pregunta: Este es un momento emocionante. Estoy realmente emocionado, solo desearía ser joven otra vez, a los treinta años (risas). Hablando de investigación médica, sé que Manus también es muy fuerte en este aspecto. ¿Han observado que algunos usuarios utilizan Manus para investigar la medicina?
Respuesta: Muchas personas ya están utilizando Manus para investigaciones, no solo en el ámbito médico. Nos parece muy interesante, porque actualmente hay muchos productos denominados "investigación profunda" que te ayudan a recopilar una gran cantidad de información y a realizar algunos análisis, pero al final solo te proporcionan un archivo markdown o un documento. Esto es insuficiente.
A menudo, lo que realmente necesitan los investigadores es un resultado que pueda entregarse directamente a su jefe o equipo. Por eso hemos mejorado la presentación de los resultados de investigación en Manus. Por ejemplo, en la investigación médica, a menudo se necesitan generar informes formales, como presentaciones en diapositivas. Por lo tanto, debemos optimizar la capacidad de salida de la IA para satisfacer las necesidades de los investigadores. Esta es una experiencia de "herramienta".
Por ejemplo, ahora muchos usuarios primero utilizan Manus para investigar y luego generan directamente un sitio web. Te parecerá que esto es completamente diferente a la forma tradicional de construir sitios web.
Debes saber que construir un sitio web en sí no es difícil, lo complicado es asegurar la fiabilidad y precisión de los datos. Por eso creemos que lo mejor es poder completar todo el proceso en una sola conversación, en un contexto compartido. De esta manera, tu investigación y tus ideas se pueden transformar sin problemas en el resultado final. Esto es lo que hacemos en Manus.
Pregunta: Muchos países están discutiendo un tema: en la era de la IA, el futuro de la humanidad y el impacto económico. ¿Qué opinas sobre la sustitución de empleos? ¿Qué nuevas oportunidades laborales surgirán?
Respuesta: Nuestros amigos e inversores también nos hacen a menudo esta pregunta. Cuando lanzamos Manus, inicialmente pensamos que si podíamos construir un Agent, podría ayudar a las personas a ahorrar mucho tiempo y hacer que todos ganaran dinero fácilmente.
Pero en realidad, descubrimos que esta visión no se ha realizado completamente. A través de una gran cantidad de investigaciones con usuarios, encontramos que después de usarlo, en realidad trabajan más. Porque se vuelven más eficientes, en realidad pueden hacer más de las cosas en las que ya son muy buenos. Este es el primer punto.
En segundo lugar, creemos que Manus ha abierto un espacio completamente nuevo. Hemos estado hablando de máquinas virtuales y computación en la nube. Creemos que Manus está desempeñando un papel de "plataforma de computación en la nube personal". Por ejemplo, la computación en la nube ha existido durante décadas, pero ha sido más un privilegio de los ingenieros, solo nosotros podemos invocar el poder de la nube a través de la programación. Los trabajadores del conocimiento comunes no pueden utilizarla.
Pero ahora, con agentes de IA como Manus, las personas pueden dar instrucciones en lenguaje natural y hacer que la IA las ejecute. Esto equivale a desbloquear una nueva forma de productividad. Esto es lo que traemos.
Y al final, sobre "sustitución", creo que en realidad es muy difícil. Por ejemplo, los agentes inmobiliarios, que utilizan Manus todos los días para completar su trabajo diario. Pero sabes, la IA nunca podrá reemplazar la forma de comunicación que los agentes tienen cara a cara con los clientes. Somos una empresa de IA, incluso el video de lanzamiento de Manus fue escrito por un guion de Manus, pero en el video aparezco yo, porque se trata de confianza. Y la confianza no se puede dejar completamente en manos de la IA.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Texto completo de la última conversación de Manus: intentar el pago a través de Agent, la empresa RRR cerca de 100 millones de dólares.
Autor | Li Yuan
Editor| Jingyu
Manus, que se mudó a Singapur, no ha dejado de reflexionar sobre el Agente de IA General.
Hoy, en el Stripe Tour que se celebra en Singapur, el cofundador y científico jefe de Manus, Ji Yichao (Peak), tuvo una conversación con Paul Harapin, director de ingresos de Stripe para la región de Asia-Pacífico y Japón.
Durante la reunión, Manus AI reveló datos operativos recientes, la tasa de ingresos de Manus AI (RRR, Revenue Run Rate) ha alcanzado los 90 millones de dólares y pronto superará los 100 millones.
El fundador de Manus AI, Xiao Hong, también destacó en un comentario reciente que la Tasa de Ingresos Anualizada se refiere a los ingresos del mes *12, y no equivale a los Ingresos en Efectivo. Muchos productos de IA tienen opciones de pago anual, y esta parte solo puede considerarse como un depósito anticipado y no se puede contabilizar como ingresos. "Si divulgamos de esta manera [incorrecta], podríamos calcular un número que es aún mayor que 120 millones de dólares", dijo Xiao Hong.
Además de los datos operativos, Ji Yichao también compartió cómo el equipo de Manus está pensando en los próximos pasos para el Agente Universal, así como cuáles son las diferencias entre el Agente de IA y la AGI en el futuro.
"Ahora casi todos llaman a todo Agent. Por ejemplo, un micrófono, alguien podría llamarlo 'Agent de grabación con percepción ambiental.' Ji Yichao bromeó al respecto."
También presentó dos líneas principales para la próxima etapa de expansión de las capacidades del Agente General: primero, ampliar la escala de ejecución mediante la colaboración de múltiples Agentes (como generar cientos de subagentes paralelos en una investigación a gran escala); segundo, abrir un "ámbito de herramientas" más amplio para los Agentes, no limitando sus capacidades a unas pocas API preestablecidas, sino permitiendo que llamen a ecosistemas de código abierto, instalen bibliotecas, e incluso se autocomprueben y modifiquen visualmente.
Ji Yichao también mencionó que el mundo digital de hoy todavía se construye bajo el paradigma de "ser utilizado por personas" — páginas web no API, CAPTCHA, y la "gamificación" de los procesos generan una gran cantidad de fricción, siendo los cuellos de botella más bien restricciones ecológicas e institucionales, en lugar de la inteligencia del modelo.
Esta también es una de las razones por las que Manus participa en las actividades de Stripe: ambas partes están avanzando en completar los pagos dentro de Agent, uniendo "investigación - decisión - pedido/ajuste" en un ciclo cerrado, utilizando la colaboración en infraestructuras para eliminar la fricción en el mundo.
A continuación se presentan los puntos destacados de la conversación, editados y organizados por Geek Park:
Pregunta: ¿Puedes presentarte brevemente al público? Tu blog reciente sobre "ingeniería de contexto" es muy inspirador, creo que es de lectura obligada para cualquiera que esté desarrollando un Agente de IA aquí presente. Cada vez que voy a almorzar con los ingenieros, siempre están hablando de esto, así que ahora solo puedo sentarme en otro lugar (risas). Pero para aquellos que quizás no están tan familiarizados con Manus, ¿puedes compartir tu experiencia y visión?
Respuesta: Gracias Paul. Me alegra estar aquí. Manus está construyendo un Agente de IA general.
Muchas instituciones de investigación y empresas están intentando crear un cerebro: construir un gran modelo de lenguaje. Pero creemos que, desde la perspectiva del consumidor, esto en realidad no es bueno. La IA debería poder tomar acciones reales y completar tareas, por lo que hemos construido Manus.
Nuestra forma es permitir que la IA utilice uno de los mayores inventos de la historia de la humanidad: la computadora universal. Al darle a la IA una computadora, puede hacer todo lo que los humanos pueden hacer. Manus puede realmente completar tareas. Por ejemplo, puede ayudarte a hacer una presentación, planificar un viaje, e incluso puede ayudarte a gestionar redes sociales, aunque no te recomiendo que realmente hagas eso.
A nuestros usuarios realmente les gusta Manus. Lanzamos Manus en marzo y ahora hemos alcanzado una tasa de ingresos anualizada (RRR, Revenue Run Rate) de aproximadamente 90 millones, pronto superaremos los 100 millones.
Creo que esto es muy grande para una pequeña empresa emergente como la nuestra. Pero lo más importante es que esto indica que el Agente de IA ya no es solo una palabra de moda en el ámbito de la investigación, sino que realmente se está aplicando y echando raíces.
Puedo compartir con todos una pequeña historia sobre el proceso de construcción de Manus.
En realidad, hemos obtenido mucha inspiración de la aplicación de la codificación de agentes. Por ejemplo, productos de programación de IA como Cursor ya han atraído mucha atención anteriormente.
Como ingenieros, naturalmente usamos Cursor. Pero nos sorprende que muchos colegas no ingenieros en la empresa también estén usando Cursor. Por supuesto, no están escribiendo software, sino que lo utilizan para hacer visualizaciones de datos e incluso para escribir algunos artículos. Ignoran la parte del código a la izquierda y simplemente conversan con la IA para completar su trabajo.
Esto nos hace darnos cuenta de que deberíamos generalizar este enfoque y empoderar a los no programadores. Este es un caso de uso de la IA.
Pregunta: Cada vez escuchamos más a la gente hablar sobre AI Agent y AGI. ¿Puedes ayudarnos a distinguir más claramente estos dos conceptos? ¿Qué significan AI Agent y AGI para ti y Manus?
Respuesta: Creemos que esta es una muy buena pregunta.
Ahora casi todo el mundo lo llama "Agent". Por ejemplo, un micrófono, algunas personas dirán que es un "Agent de grabación con percepción ambiental".
Pero al menos sostenemos que el Agente debería ser un subconjunto de la IA aplicada. Demos un paso atrás y veamos las categorías comunes de aplicaciones de IA.
La mayoría de las personas ya están familiarizadas con dos tipos: uno son los chatbots, como ChatGPT; el otro son las herramientas generativas, como MidJourney o Sora. En estos sistemas, generalmente solo hay dos roles: el usuario y el modelo. Tú interactúas con el modelo y obtienes una salida. La diferencia del Agente es que, además del usuario y del modelo, introduce un tercer elemento clave: el entorno.
El concepto de "entorno" variará según el tipo de agente, por ejemplo, en un agente de diseño, el entorno puede ser un lienzo o un fragmento de código; mientras que aquí en Manus, nuestro objetivo es hacer que el agente aparezca en una máquina virtual o incluso en toda la internet. De esta manera, el agente puede observar el entorno, decidir qué hacer a continuación y cambiar el entorno a través de sus acciones. Esto lo hace muy poderoso.
Por ejemplo, en Manus, puedes expresar una necesidad, abrirá el navegador, publicará una página web y te ayudará a reservar un billete de avión. Me gusta mucho este ejemplo, porque aunque reservar un billete de avión suena sencillo, en realidad es la IA que está cambiando directamente el mundo real: el resultado no es la salida del modelo, sino el billete de avión en tu mano. La IA realmente ha intervenido en tu mundo. Esto es lo que llamamos Agente.
En pocas palabras, un Agente es un sistema de IA que puede representar al usuario e interactuar con el entorno.
En cuanto a AGI, esta palabra también se menciona a menudo, y muchas personas la equiparan con la superinteligencia. Creemos que AGI es un sistema capaz de utilizar la capacidad general de los modelos de IA para completar muchas tareas sin un diseño específico.
Creemos que "Agent coding" es en realidad un camino hacia la AGI. No es una habilidad de un campo vertical, sino que si se la das a una computadora, puede hacer prácticamente cualquier cosa en ella. Así que para nosotros, la condición para la AGI es construir un entorno lo suficientemente completo que permita que esta habilidad se manifieste.
Pregunta: ¿En qué escenarios ha tenido un verdadero impacto la IA hoy? ¿En qué lugares tendrá impacto en el futuro? ¿Cuándo aparecerá el momento del iPhone?
Respuesta: En cuanto a los agentes, si solo observamos la capacidad del modelo, los modelos insignia actuales son realmente impresionantes, casi a un nivel "superhéroe". Pueden superar a la mayoría de nosotros en competiciones matemáticas o razonamiento lógico.
Pero creo que los modelos siguen siendo como "un cerebro en una botella"; si realmente quieren ejercer su poder, deben interactuar con el mundo real y llegar a la realidad. Pero, desafortunadamente, este es precisamente el lugar donde comienzan los problemas.
Por ejemplo, si le pides a una IA que realice algunas tareas administrativas, realmente es muy buena en tareas repetitivas. Productos como Deep Research simplemente agregan información y luego proporcionan un resultado; su salida aparece de manera sencilla.
Por ejemplo, casi todo está diseñado para los humanos, no solo el mundo físico, sino también el mundo digital. Por ejemplo, las herramientas de la web son como pequeños juegos, no ofrecen API ni interfaces estándar. Los CAPTCHA están en todas partes, interceptando a los agentes en todas partes.
Por lo tanto, creo que la IA se desempeña bien en tareas cerradas y auto contenidas, pero una vez que se involucra el mundo real, se encuentra con obstáculos.
¿Cuándo aparecerá el momento del iPhone en el futuro? Creo que no es un problema técnico, sino más bien una limitación institucional. No es algo que podamos resolver individualmente como una startup de agentes como nosotros.
Creo que esto requiere una transición gradual, exigiendo que todo el ecosistema evolucione conjuntamente. También necesita que empresas como Stripe se esfuercen en el nivel de infraestructura. Por ejemplo, estamos integrando la nueva API de pagos Agentic de Stripe. Todos trabajando juntos.
Pregunta: ¿Podemos hablar específicamente sobre algunos escenarios típicos de cómo los usuarios utilizan Manus? ¿Cómo lo utilizan? ¿Qué tipo de poder se refleja en esto?
Respuesta: Sí, aunque venimos de esta generación actual de Agentes, ya hemos visto muchos casos de uso excelentes.
Por ejemplo, acabamos de mudarnos a Singapur y necesitamos contratar a un agente inmobiliario para que nos ayude a encontrar alojamiento. Es un agente de verdad (risas).
Y ahora estos intermediarios ya están utilizando Manus: analizarán la ubicación de la empresa y las áreas donde los empleados quieren vivir según las necesidades del cliente, y generarán las recomendaciones correspondientes.
Creo que esto es muy interesante porque pertenece a una "demanda de cola larga". En general, no hay productos de IA específicos diseñados para este tipo de escenario, pero dado que Manus es un agente de propósito general, puede satisfacer estas necesidades. Creemos que la demanda de cola larga merece mucha atención.
Desde una perspectiva macro, puede ser una larga cola, pero para un usuario específico, es precisamente su trabajo diario. Este tipo de escenario es especialmente valioso.
Esto es similar al panorama de los motores de búsqueda de hoy en día. Si solo buscas contenido común, ya sea en Google o Bing, la calidad de los resultados es casi la misma. Entonces, ¿por qué la gente elegiría uno sobre el otro? Puede ser porque un motor de búsqueda les proporcionó resultados más adecuados en un momento determinado. Y si buscas contenido muy personalizado o especializado, la diferencia se hace aún más evidente. Por eso creemos que la ventaja de un Agente genérico radica aquí.
¿Y cómo podemos mejorarlo? Hemos pensado en ello durante mucho tiempo, porque creemos que todo gira en torno a la programación. Si le das la computadora a la IA, la forma en que interactúa con el entorno es a través de la programación.
Creemos que se puede mejorar desde dos aspectos. El primero es la escalabilidad. Pero, ¿qué pasaría si pudieras multiplicar por cien las capacidades del Agente?
Recientemente, Manus lanzó una nueva función llamada Wide Research. La idea básica es permitir que un Agente derive cientos de Agentes para completar tareas juntos. Sabes, si solo dejas que la IA te ayude con algunas cosas pequeñas, muchas veces tú mismo también puedes hacerlo. Pero si la tarea es muy grande, es imposible que lo hagas solo, como cuando necesitas hacer una investigación a gran escala; en ese momento, hacer que cientos de Agentes trabajen en paralelo se vuelve muy poderoso.
En segundo lugar, también necesitamos permitir que el Agente utilice la computadora de manera más flexible. Por ejemplo, si solo le das a un Agente de IA herramientas predefinidas, su espacio de acción se limita a esas herramientas. Pero imagina que eres un programador y tienes a tu disposición los recursos de toda la comunidad de código abierto.
Por ejemplo, cuando estás imprimiendo en 3D, es muy difícil modificar directamente los parámetros del modelo, pero si puedes encontrar la biblioteca adecuada en GitHub, instalarla directamente resolverá tu problema. En Manus, estamos optimizando la versatilidad y proponemos un concepto llamado "efecto de red de herramientas".
Hay un ejemplo muy interesante: muchos usuarios utilizan Manus para la visualización de datos. Ustedes saben que en Asia a veces se presentan problemas, como errores de fuente al mostrar chino en los gráficos. Tal vez algunos usuarios profesionales escriban algunas reglas de codificación rígidas, como qué fuente se debe usar al mostrar coreano. Pero este enfoque hará que el sistema se vuelva cada vez más rígido.
La solución que adoptamos fue añadir una capacidad muy simple al sistema: ver imágenes. El resultado fue sorprendente, ya que los modelos de hoy en día son muy inteligentes; después de generar imágenes visuales, se revisan a sí mismos, se dan cuenta de los errores y luego se corrigen automáticamente. Descubrimos que aumentar la flexibilidad de las herramientas puede resolver más problemas que codificar reglas de manera rígida.
Pregunta: Este es un momento emocionante. Estoy realmente emocionado, solo desearía ser joven otra vez, a los treinta años (risas). Hablando de investigación médica, sé que Manus también es muy fuerte en este aspecto. ¿Han observado que algunos usuarios utilizan Manus para investigar la medicina?
Respuesta: Muchas personas ya están utilizando Manus para investigaciones, no solo en el ámbito médico. Nos parece muy interesante, porque actualmente hay muchos productos denominados "investigación profunda" que te ayudan a recopilar una gran cantidad de información y a realizar algunos análisis, pero al final solo te proporcionan un archivo markdown o un documento. Esto es insuficiente.
A menudo, lo que realmente necesitan los investigadores es un resultado que pueda entregarse directamente a su jefe o equipo. Por eso hemos mejorado la presentación de los resultados de investigación en Manus. Por ejemplo, en la investigación médica, a menudo se necesitan generar informes formales, como presentaciones en diapositivas. Por lo tanto, debemos optimizar la capacidad de salida de la IA para satisfacer las necesidades de los investigadores. Esta es una experiencia de "herramienta".
Por ejemplo, ahora muchos usuarios primero utilizan Manus para investigar y luego generan directamente un sitio web. Te parecerá que esto es completamente diferente a la forma tradicional de construir sitios web.
Debes saber que construir un sitio web en sí no es difícil, lo complicado es asegurar la fiabilidad y precisión de los datos. Por eso creemos que lo mejor es poder completar todo el proceso en una sola conversación, en un contexto compartido. De esta manera, tu investigación y tus ideas se pueden transformar sin problemas en el resultado final. Esto es lo que hacemos en Manus.
Pregunta: Muchos países están discutiendo un tema: en la era de la IA, el futuro de la humanidad y el impacto económico. ¿Qué opinas sobre la sustitución de empleos? ¿Qué nuevas oportunidades laborales surgirán?
Respuesta: Nuestros amigos e inversores también nos hacen a menudo esta pregunta. Cuando lanzamos Manus, inicialmente pensamos que si podíamos construir un Agent, podría ayudar a las personas a ahorrar mucho tiempo y hacer que todos ganaran dinero fácilmente.
Pero en realidad, descubrimos que esta visión no se ha realizado completamente. A través de una gran cantidad de investigaciones con usuarios, encontramos que después de usarlo, en realidad trabajan más. Porque se vuelven más eficientes, en realidad pueden hacer más de las cosas en las que ya son muy buenos. Este es el primer punto.
En segundo lugar, creemos que Manus ha abierto un espacio completamente nuevo. Hemos estado hablando de máquinas virtuales y computación en la nube. Creemos que Manus está desempeñando un papel de "plataforma de computación en la nube personal". Por ejemplo, la computación en la nube ha existido durante décadas, pero ha sido más un privilegio de los ingenieros, solo nosotros podemos invocar el poder de la nube a través de la programación. Los trabajadores del conocimiento comunes no pueden utilizarla.
Pero ahora, con agentes de IA como Manus, las personas pueden dar instrucciones en lenguaje natural y hacer que la IA las ejecute. Esto equivale a desbloquear una nueva forma de productividad. Esto es lo que traemos.
Y al final, sobre "sustitución", creo que en realidad es muy difícil. Por ejemplo, los agentes inmobiliarios, que utilizan Manus todos los días para completar su trabajo diario. Pero sabes, la IA nunca podrá reemplazar la forma de comunicación que los agentes tienen cara a cara con los clientes. Somos una empresa de IA, incluso el video de lanzamiento de Manus fue escrito por un guion de Manus, pero en el video aparezco yo, porque se trata de confianza. Y la confianza no se puede dejar completamente en manos de la IA.