Apple está desarrollando un modelo de inteligencia artificial multimedia. Descubre más al respecto


Escrito por Muhammad Ayman

Martes 19 de marzo de 2024 a las 05:00

Los investigadores de Apple comparten su trabajo para desarrollar un modelo de lenguaje a gran escala para inteligencia artificial (IA) multimodal, que ilustra cómo se pueden lograr capacidades avanzadas para comprender el lenguaje y analizar imágenes en sistemas industriales.

Nuevos desarrollos vendrán Inteligencia artificial Según Gadgets360, Apple Inc se hizo eco de los comentarios del director ejecutivo Tim Cook durante las llamadas sobre resultados de la compañía de que las funciones de inteligencia artificial podrían llegar a finales de este año. sigue.

Según los investigadores, funcionan. MM1Una familia de modelos multimodelo con hasta 30 mil millones de parámetros, y los autores del artículo la llamaron «Multimodel LLM (MLLM)». Los autores del artículo destacaron codificadores de imágenes, un enlazador de lenguaje visual y otros elementos y datos arquitectónicos. Esto se hizo para crear un modelo de IA capaz de comprender entradas basadas en texto e imágenes donde pueden existir opciones.

Por ejemplo, el artículo decía: “Para el preentrenamiento multimodal a gran escala, hemos demostrado que el uso de una combinación cuidadosa de títulos de imágenes, texto de imágenes y datos de solo texto es fundamental para lograr lo último en tecnología (SOTA). ) resultados». En comparación con otras puntuaciones previas al entrenamiento publicadas, la puntuación es baja en varios criterios. «

Para ser claros, el modelo de IA se encuentra actualmente en una etapa de preentrenamiento, lo que significa que no ha sido entrenado lo suficiente para producir el resultado deseado. Es la etapa donde se utilizan el algoritmo y la arquitectura de IA para diseñar el modelo. flujo de trabajo y cómo finalmente procesará los datos. Los investigadores de Apple agregaron visión por computadora al modelo usando codificadores de imágenes y un conector de lenguaje visual, y luego, al realizar pruebas usando imágenes, imágenes, texto y conjuntos de datos de solo texto, el equipo encontró los resultados. competitivos en comparación con los modelos en la misma etapa.

READ  No hubo ninguna propuesta real de Hamás.

Si bien este logro es significativo, este artículo no es suficiente para confirmar si se incluirá un chatbot de IA multimodal en el sistema operativo de Apple. En este punto, es difícil incluso detectar si el modelo de IA es multimodelo al recibir o dar información. El resultado (si puede generar imágenes de IA o no), pero si los resultados son consistentes después de la revisión por pares, la compañía de tecnología puede afirmar que ha dado otro gran paso en la creación de un modelo base de IA original.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *