(CLO) Meta, la empresa matriz de Facebook, anunció el viernes que está lanzando una serie de nuevos modelos de IA, incluido un "Evaluador de autoaprendizaje" que puede reducir la intervención humana en el proceso de desarrollo de IA.
El anuncio se produce después de que Meta presentara la herramienta en un artículo de investigación en agosto, describiendo cómo utiliza una técnica de “cadena de pensamiento” similar a los nuevos modelos de OpenAI para emitir juicios precisos sobre las respuestas del modelo de IA. Esta técnica descompone problemas complejos en pasos lógicos más simples, lo que ayuda a mejorar la precisión en campos como la ciencia, la programación y las matemáticas.
Icono de Meta AI. Foto: Reuters
Los investigadores de Meta utilizaron datos generados íntegramente por IA para entrenar este modelo de calificación, eliminando por completo la intervención humana en esa etapa.
La capacidad de utilizar IA para evaluar la IA misma muestra el potencial para desarrollar agentes de IA autónomos que puedan aprender de sus propios errores, según dos investigadores de Meta.
Muchos expertos en el campo de la IA visualizan a estos agentes digitales inteligentes como asistentes digitales capaces de realizar una variedad de tareas sin intervención humana.
Los modelos capaces de automejorarse podrían eliminar la necesidad del proceso de “aprendizaje de refuerzo a partir de la retroalimentación humana”, que requiere expertos altamente capacitados para etiquetar los datos y verificar la precisión de respuestas matemáticas y escritas complejas. Este proceso actualmente es muy costoso e ineficiente.
“Esperamos que, a medida que la IA se vuelva cada vez más superior a los humanos, pueda verificar mejor su propio trabajo, superando incluso la competencia humana”, dijo Jason Weston, uno de los investigadores del proyecto.
“La capacidad de aprender y autoevaluarse es clave para desarrollar la IA a niveles sobrehumanos”, añadió.
Además de Meta, otras empresas como Google y Anthropic también han publicado investigaciones sobre el concepto de RLAIF, o “Aprendizaje de refuerzo a partir de la retroalimentación en IA”. Sin embargo, a diferencia de Meta, estas empresas rara vez lanzan sus modelos para uso público.
Cao Phong (según Reuters)
Fuente: https://www.congluan.vn/meta-phat-hanh-mo-hinh-ai-co-the-tu-hoc-va-tu-phat-trien-post317675.html
Kommentar (0)