Noticias de IA: Explorando el progreso de OpenAI hacia la AGI y los últimos desarrollos

Explore el mapa de ruta de OpenAI para el desarrollo de AGI, desde chatbots hasta organizaciones de IA. Aprende sobre su nueva tecnología de razonamiento Strawberry y las últimas noticias y controversias en torno a OpenAI. Descubre cómo la IA está transformando la educación, la creación de videos y más. Manténgase actualizado sobre el mundo en rápida evolución de las noticias y desarrollos de la IA.

13 de enero de 2025

Descubre los últimos avances en inteligencia artificial, desde el progreso de OpenAI hacia la AGI hasta el lanzamiento de nuevos modelos y herramientas de IA que pueden revolucionar tu trabajo. Esta entrada de blog ofrece una descripción general completa de las noticias y desarrollos de IA más importantes que debes conocer.

Los Cinco Niveles de Open AI hacia la AGI
Strawberry: La Nueva Tecnología de Razonamiento de Open AI
Preocupaciones sobre las Prácticas de Open AI
Posibles Actualizaciones al Modelo de Imagen Dolly
Nuevas Demostraciones de Sora
Recursos de HubSpot para Usar ChatGPT en el Trabajo
La Nueva Empresa Educativa de Andre Karpathy: Eureka Labs
Anthropic Lanza CLA en Android
Nuevas Características de IA de Google: Respuestas Gemini, Google Vids y Sound Search de YouTube Music
Controversia sobre los Datos de Entrenamiento de IA y los Videos de YouTube Robados
Integración de Microsoft Designer en Aplicaciones
Mistol Lanza el Modelo de Lenguaje Cod Stroll Mamba
Amazon Lanza el Asistente de Compras de IA Rufus
Meta Limita los Modelos Multimodales en la UE
Controlando Stable Diffusion con un Dispositivo MIDI
Una Aplicación de IA Convierte Selfies en Personajes Imprimibles en 3D
La IA Determina con Precisión el Sexo a Partir de Radiografías Dentales
Open AI Lanza GPT-4 Mini
Nvidia y Mistol Colaboran en el Modelo Mistol Nemo
La IA de Google Destacada en los Juegos Olímpicos de 2024

Los Cinco Niveles de Open AI hacia la AGI

Open AI ha delineado cinco niveles de progreso hacia la Inteligencia General Artificial (AGI):

Chatbots y IA con Lenguaje Conversacional: Este nivel representa el estado actual de los chatbots y los modelos de lenguaje como ChatGPT, Claude y LLaMA.
Razonadores que pueden resolver problemas a nivel humano: Open AI afirma que están muy cerca de lograr este nivel, que implica sistemas que pueden razonar y resolver problemas a nivel humano.
Agentes o Sistemas que pueden Actuar en Nuestro Nombre: Este nivel incluye agentes de IA que pueden realizar tareas como reservar vuelos, responder a correos electrónicos y otras acciones en nuestro nombre.
IA Innovadora que puede Ayudar en la Invención: Los sistemas de IA de este nivel pueden crear ideas novedosas y ayudar en el proceso de invención.
Organizaciones e IA que pueden Hacer el Trabajo de una Organización: El nivel final implica sistemas de IA que pueden realizar el trabajo de una organización completa.

Strawberry: La Nueva Tecnología de Razonamiento de Open AI

Open AI ha estado trabajando en una nueva tecnología de razonamiento con el código clave "Strawberry". Según un documento interno filtrado, los equipos dentro de Open AI están desarrollando este proyecto con el objetivo de crear un modelo que no solo pueda generar respuestas a consultas, sino también planificar y navegar por Internet de forma autónoma para realizar "investigación profunda".

Las principales capacidades que Open AI está apuntando con Strawberry incluyen:

Realizar tareas a largo plazo y problemas complejos que requieren planificación y una serie de acciones durante un período prolongado de tiempo.
Utilizar estas capacidades para realizar investigaciones navegando por la web de forma autónoma, con la asistencia de un agente informático que pueda tomar acciones en función de sus hallazgos.

Preocupaciones sobre las Prácticas de Open AI

Open AI se ha enfrentado a escrutinio sobre sus prácticas comerciales, con denunciantes que afirman que la empresa mantiene ilegalmente a los empleados sin poder hablar con los reguladores gubernamentales sobre los problemas en el trabajo y les quita sus derechos a recompensas por denunciar.

Una carta enviada al presidente de la SEC alega que Open AI tiene una política que prohíbe a los empleados hacer revelaciones protegidas. Esta no es la primera vez que las políticas y contratos de Open AI han sido objeto de escrutinio, ya que anteriormente se descubrió que la empresa obligaba a las personas a firmar acuerdos de no divulgación que podrían dar lugar a la pérdida de acciones devengadas si hablaban mal de la empresa.

Mientras Open AI refuta estas afirmaciones, afirmando que tienen una política que protege los derechos de los empleados denunciantes, los informes sugieren que la empresa puede estar revisando sus contratos debido al mayor escrutinio público a medida que ha crecido en tamaño y prominencia. Estas acusaciones plantean preocupaciones sobre el trato de Open AI a sus empleados y la transparencia en torno a posibles problemas dentro de la organización.

Posibles Actualizaciones al Modelo de Imagen Dolly

Hay especulaciones de que el modelo de imagen Dolly de OpenAI puede haber recibido recientemente una actualización. Esto se basa en observaciones de que la capacidad del modelo para generar texto en imágenes ha mejorado, con el texto que aparece más legible que antes.

Específicamente, una publicación del usuario "angry penguin" en X (anteriormente Twitter) muestra una imagen creada por Dolly que muestra claramente el texto "evolve" - una mejora significativa en comparación con los anteriores problemas del modelo para generar texto legible.

Además, se observa que si se solicita a Dolly que cree una imagen de un "robot que sostiene un cartel que dice Suscríbete", la imagen resultante ahora tiene el texto que aparece mucho más claramente que antes.

Estas observaciones sugieren que OpenAI puede haber realizado actualizaciones en el modelo Dolly, mejorando sus capacidades de generación de texto. Sin embargo, el alcance y los detalles de cualquier actualización potencial no están confirmados oficialmente por la empresa.

Nuevas Demostraciones de Sora

Estamos recibiendo más videos de demostración de Sora, lo que solo está haciendo que la gente esté más ansiosa por tener realmente sus manos sobre él. Sin embargo, tenemos algunas herramientas como Runway Gen 3 y Luma's Dream Machine que pueden crear videos generados por IA bastante buenos, lo que ha amortiguado un poco la emoción por Sora.

A pesar de esto, el hecho de que Sora pueda crear videos mucho más largos y que Open AI tiende a establecer el estándar para casi todo lo que saca, todavía estoy emocionado por ello. Los nuevos videos de demostración compartidos en la cuenta de X de Matthew Berman se ven bastante impresionantes, mostrando escenas en blanco y negro y de olas del océano. Si bien podemos tener algunas herramientas para rascar esa comezón por ahora, el potencial de las capacidades de Sora sigue siendo muy anticipado.

Recursos de HubSpot para Usar ChatGPT en el Trabajo

Si eres alguien que usa IA en el trabajo o estás pensando en usar IA en el trabajo, debes echar un vistazo al paquete totalmente gratuito de HubSpot llamado "Cinco recursos esenciales para usar ChatGPT en el trabajo".

Este recurso incluye:

Interesantes diagramas de flujo sobre cuándo debes o no debes usar ChatGPT
Una plantilla para asegurarse de que el contenido generado por ChatGPT siga la voz de tu marca
Una lista de verificación para refinar el contenido generado por IA
Una lista de verificación integral para adoptar la IA en el lugar de trabajo
Una guía sobre cómo potenciar tu día con ChatGPT, incluyendo 100 formas de probarlo hoy

La Nueva Empresa Educativa de Andre Karpathy: Eureka Labs

Andre Karpathy, quien anteriormente trabajó en OpenAI y luego se alejó recientemente, acaba de anunciar un nuevo emprendimiento en el que está trabajando. Dijo que está "emocionado de compartir que estoy comenzando una compañía de IA más educación llamada Eureka Labs".

En Eureka Labs, están construyendo un nuevo tipo de escuela que es "nativa de IA". Dicen que los expertos en la materia que son profundamente apasionados, excelentes maestros, infinitamente pacientes y fluidos en todos los idiomas del mundo también son muy escasos y no pueden dar clases particulares a los 8 mil millones de nosotros a pedido.

El anuncio sugiere que Eureka Labs está creando una plataforma de educación en línea donde el maestro aún diseña los materiales del curso, pero son respaldados, aprovechados y escalados con un asistente de enseñanza. Este asistente de IA está optimizado para ayudar a guiar a los estudiantes a través del contenido del curso.

Anthropic Lanza CLA en Android

Si eres fan de CLA de Anthropic y no tienes un iPhone, buenas noticias - acaban de lanzarlo en Android. Ha estado disponible en iOS durante un par de meses y ahora han lanzado la versión para Android.

Personalmente, todavía soy un poco más fan de la aplicación ChatGPT, principalmente porque la parte de voz conversacional de la aplicación ChatGPT es realmente impresionante. Cuando estoy en mi computadora, generalmente uso CLA o Perplexity. Pero cuando estoy en mi teléfono, todavía tiendo a ir con la aplicación ChatGPT.

Dicho esto, entiendo que la mayoría de la gente probablemente no quiera pagar por suscripciones de chat por separado. Así que si realmente te gusta la capacidad de tener una conversación de voz con una IA, la aplicación ChatGPT sigue siendo la mejor opción. Pero si no te importa eso y solo quieres el mejor modelo en tu mano, CLA probablemente sea la mejor opción. Y ahora tienen una aplicación para Android también.

Nuevas Características de IA de Google: Respuestas Gemini, Google Vids y Sound Search de YouTube Music

Gemini, el asistente de IA de Google, ahora responde preguntas generales cuando tu teléfono Android está bloqueado. Esta función te permite obtener información rápidamente sin tener que desbloquear tu dispositivo.

Google también ha anunciado Google Vids, una aplicación de creación de videos impulsada por IA diseñada para el trabajo y profundamente integrada con la suite Google Workspace. Google Vids te permite crear videos con estilo de diapositivas proporcionando un mensaje, seleccionando un estilo y agregando una voz en off y metraje de archivo.

Además, YouTube está lanzando una nueva función llamada YouTube Music Sound Search. Esta función te permite tararear o cantar una canción, y YouTube identificará la pista. Funciona de manera similar a Shazam, pero está integrada directamente en la plataforma de YouTube.

Controversia sobre los Datos de Entrenamiento de IA y los Videos de YouTube Robados

Ha habido cierta controversia esta semana sobre la fuente de los datos de entrenamiento para varios modelos de IA. Un artículo en Proof News afirma que Apple, Nvidia y Anthropic han utilizado miles de videos de YouTube robados para entrenar sus modelos de IA.

El problema se origina en una empresa llamada Uther AI, que es un proyecto de código abierto que recopila un gran conjunto de datos llamado "the Pile" a partir de datos públicamente disponibles. Resulta que una parte significativa de estos datos eran transcripciones copiadas directamente de videos de YouTube.

Muchos YouTubers, incluidos creadores populares como MKBHD, Mr. Beast y PewDiePie, han notado que su contenido se está utilizando en este conjunto de datos. Proof News incluso creó un motor de búsqueda para permitir que las personas verifiquen si sus videos fueron incluidos.

Después de que la controversia saliera a la luz, Apple reconoció el uso de "the Pile" para algunos fines de investigación, pero afirmó que el modelo utilizado en Apple Intelligence no se entrenó con estos datos. La plataforma Microsoft Designer, que usa IA para crear imágenes, también se ha visto implicada en el uso de contenido robado de YouTube.

Integración de Microsoft Designer en Aplicaciones

Microsoft ha lanzado su plataforma llamada Designer, que es muy similar a Canva. Es una plataforma para crear diversos contenidos como miniaturas de YouTube, anuncios de banner, imágenes de Instagram y más. Esta plataforma Designer ahora se está integrando en una amplia gama de aplicaciones de Microsoft.

Las principales características de esta integración incluyen:

Barra lateral de Co-Pilot: los usuarios pueden acceder a la barra lateral de Co-Pilot dentro de las aplicaciones de Microsoft para crear imágenes específicas en un estilo deseado.
Generación de imágenes: la plataforma Designer puede generar imágenes basadas en mensajes de los usuarios, que luego se pueden incorporar directamente al documento, PowerPoint u otra herramienta de Microsoft del usuario.
Aplicación móvil: Microsoft también ha lanzado aplicaciones móviles gratuitas de Designer tanto para iOS como para Android, lo que permite a los usuarios crear y editar imágenes fácilmente en movimiento.

Mistol Lanza el Modelo de Lenguaje Cod Stroll Mamba

Mistol, la empresa de IA francesa que desarrolla modelos de lenguaje a gran escala, ha lanzado un nuevo modelo llamado Cod Stroll Mamba. Este modelo está diseñado específicamente para la generación de código y es de código abierto.

Las principales características de Cod Stroll Mamba incluyen:

Modelo de 7 mil millones de parámetros
Maneja entradas de hasta 256,000 tokens (aproximadamente 192,000 palabras)
Ofrece tiempos de respuesta rápidos incluso con texto de entrada más largo
De código abierto y disponible para que los desarrolladores lo utilicen

Amazon Lanza el Asistente de Compras de IA Rufus

Amazon ha lanzado un nuevo asistente de compras impulsado por IA llamado Rufus. Rufus es un chatbot integrado directamente en la aplicación de Amazon que puede responder preguntas sobre compras e incluso sobre política.

Rufus está capacitado en los datos de Amazon, lo que le permite proporcionar recomendaciones e información sobre los productos disponibles en la plataforma. Los usuarios pueden hacer preguntas a Rufus como "¿Cuáles son los mejores juegos de jardín para una fiesta de cumpleaños de niños?" y él sugerirá productos relevantes y dónde encontrarlos en Amazon.

El asistente también puede responder preguntas sobre temas más allá de las compras, como información sobre candidatos políticos para las elecciones de 2024. Esto demuestra las capacidades más amplias de Rufus como un chatbot de propósito general, similar a ChatGPT.

Meta Limita los Modelos Multimodales en la UE

Parece que Meta no va a ofrecer sus modelos multimodales en la Unión Europea. Lanzarán un modelo multimodal llama en los próximos meses, pero no estará disponible para los usuarios de la UE.

La razón principal citada es la "naturaleza impredecible del entorno regulatorio europeo". Específicamente, el problema de Meta no es con la Ley de IA aún sin finalizar, sino más bien con cómo pueden entrenar modelos utilizando datos de clientes europeos mientras cumplen con el RGPD, la ley de protección de datos existente de la UE.

En contraste, el Reino Unido tiene leyes casi idénticas al RGPD, pero Meta dice que no están viendo el mismo nivel de incertidumbre regulatoria y planean lanzar el nuevo modelo para los usuarios del Reino Unido.

Controlando Stable Diffusion con un Dispositivo MIDI

1#
2
3Esta sección analiza un interesante proyecto compartido en X por el usuario johanis_stelzer, donde han conectado un dispositivo MIDI a su computadora para controlar varios aspectos de Stable Diffusion.
4
5El usuario ha conectado un dispositivo MIDI a su computadora y está usando las perillas del dispositivo para cambiar diferentes parámetros dentro de Stable Diffusion. Esto les permite ajustar dinámicamente los elementos de las imágenes generadas en tiempo real, proporcionando una forma única e interactiva de explorar las capacidades del modelo de texto a imagen.
6
7El usuario también ha compartido el código de este proyecto en GitHub, permitiendo que otros repliquen la configuración y experimenten con el control de Stable Diffusion a través de una interfaz MIDI. Esta integración de hardware físico con la generación de imágenes impulsada por IA abre nuevas posibilidades para que artistas y creadores exploren el potencial creativo de estas tecnologías.
8
9En general, este proyecto muestra la ingenuidad y la experimentación que está sucediendo en la comunidad de IA, a medida que los desarrolladores y entusiastas continúan empujando los límites de lo que es posible con estas poderosas herramientas.

Una Aplicación de IA Convierte Selfies en Personajes Imprimibles en 3D

Según el artículo, una nueva aplicación impulsada por IA de 10 Cents permite a los usuarios convertir sus selfies en personajes imprimibles en 3D. La aplicación puede generar un modelo 3D basado en un solo selfie que es lo suficientemente detallado como para ser impreso en 3D.

El artículo afirma que esta es una aplicación fascinante de la tecnología de IA, ya que permite la creación de personajes 3D personalizados a partir de un simple selfie. Si bien los detalles sobre la aplicación son limitados, la capacidad de transformar una imagen 2D en un modelo

Preguntas más frecuentes

¿Cuáles son los cinco niveles de progreso hacia la AGI según OpenAI?

¿Qué es la nueva tecnología de razonamiento con el código 'Strawberry' en la que está trabajando OpenAI?

¿Cuáles son las preocupaciones planteadas sobre las políticas y contratos de OpenAI con los empleados?

¿Qué es la nueva función 'YouTube Music Sound Search'?

¿Cuál es la controversia en torno a los datos de entrenamiento utilizados por algunos modelos de IA?