Notizie sull'IA: Esplorando i progressi di OpenAI verso l'AGI e gli ultimi sviluppi

Esplora la roadmap di OpenAI per lo sviluppo di AGI, dai chatbot alle organizzazioni AI. Scopri la loro nuova tecnologia di ragionamento Strawberry e le ultime notizie e controversie su OpenAI. Scopri come l'AI sta trasformando l'istruzione, la creazione di video e molto altro. Rimani aggiornato sul mondo in rapida evoluzione delle notizie e degli sviluppi dell'AI.

13 gennaio 2025

Scopri gli ultimi progressi nell'intelligenza artificiale, dai progressi di OpenAI verso l'AGI al rilascio di nuovi modelli e strumenti di IA in grado di rivoluzionare il tuo lavoro. Questo post di blog offre una panoramica completa delle notizie e degli sviluppi di IA più significativi di cui hai bisogno di sapere.

I cinque livelli di Open AI verso l'AGI
Strawberry: la nuova tecnologia di ragionamento di Open AI
Preoccupazioni sulle pratiche di Open AI
Potenziali aggiornamenti al modello di immagine Dolly
Nuove demo da Sora
Le risorse di HubSpot per l'utilizzo di ChatGPT sul lavoro
La nuova società di istruzione di Andre Karpathy, Eureka Labs
Anthropic rilascia CLA su Android
Le nuove funzionalità di intelligenza artificiale di Google: Gemini Answers, Google Vids e YouTube Music Sound Search
Controversia sui dati di addestramento dell'IA e sui video di YouTube rubati
Integrazione di Microsoft Designer nelle app
Mistol rilascia il modello di linguaggio Cod Stroll Mamba
Amazon lancia l'assistente virtuale per lo shopping Rufus
Meta limita i modelli multimodali nell'UE
Controllo di Stable Diffusion con un dispositivo MIDI
Un'app di IA trasforma i selfie in personaggi 3D stampabili
L'IA determina accuratamente il sesso dalle radiografie dentali
Open AI rilascia GPT-4 Mini
Nvidia e Mistol collaborano sul modello Mistol Nemo
L'IA di Google protagonista delle Olimpiadi 2024

I cinque livelli di Open AI verso l'AGI

Open AI ha delineato cinque livelli di progresso verso l'Intelligenza Artificiale Generale (AGI):

Chatbot e AI con linguaggio conversazionale: Questo livello rappresenta lo stato attuale dei chatbot e dei modelli linguistici come ChatGPT, Claude e LLaMA.
Ragionatori in grado di risolvere problemi a livello umano: Open AI afferma di essere molto vicina a raggiungere questo livello, che prevede sistemi in grado di ragionare e risolvere problemi a livello umano.
Agenti o sistemi in grado di agire per nostro conto: Questo livello include agenti AI in grado di svolgere attività come prenotare voli, rispondere a e-mail e altre azioni per nostro conto.
AI innovatrici in grado di aiutare nell'invenzione: I sistemi AI a questo livello possono creare idee innovative e assistere nel processo di invenzione.
Organizzazioni e AI in grado di svolgere il lavoro di un'organizzazione: Il livello finale prevede sistemi AI in grado di svolgere il lavoro di un'intera organizzazione.

Open AI ritiene di trovarsi attualmente sul precipizio del secondo livello e si aspetta di progredire attraverso questi livelli sulla strada verso la vera AGI.

Strawberry: la nuova tecnologia di ragionamento di Open AI

Open AI sta lavorando a una nuova tecnologia di ragionamento soprannominata "Strawberry". Secondo un documento interno trapelato, i team di Open AI stanno sviluppando questo progetto con l'obiettivo di creare un modello in grado non solo di generare risposte a query, ma anche di pianificare in anticipo e navigare autonomamente su Internet per eseguire "ricerche approfondite".

Le principali capacità che Open AI sta mirando con Strawberry includono:

Eseguire attività a lungo termine e problemi complessi che richiedono pianificazione e una serie di azioni prolungate nel tempo.
Utilizzare queste capacità per condurre ricerche navigando autonomamente sul web, con l'assistenza di un agente informatico in grado di intraprendere azioni in base ai suoi risultati.

Sebbene i dettagli sullo stato preciso di Strawberry siano limitati, sembra essere un passo significativo verso l'obiettivo di Open AI di progredire attraverso i cinque livelli di capacità AI delineati, avvicinandosi alla vera Intelligenza Artificiale Generale (AGI). Il progetto era precedentemente noto come "QAR", anche se ciò non è stato ufficialmente confermato.

Open AI è stata caratteristicamente riservata sui suoi prossimi modelli, quindi maggiori informazioni su Strawberry saranno probabilmente disponibili solo più vicino alla sua pubblicazione.

Preoccupazioni sulle pratiche di Open AI

Open AI è stata oggetto di critiche sulle sue pratiche aziendali, con whistleblower che affermano che l'azienda impedisce illegalmente ai dipendenti di parlare con i regolatori governativi dei problemi sul lavoro e rimuove i loro diritti di ricompensa per aver denunciato.

Una lettera inviata al presidente della SEC afferma che Open AI ha una politica che vieta ai dipendenti di effettuare segnalazioni protette. Questo non è il primo caso in cui le politiche e i contratti di Open AI sono finiti sotto i riflettori, poiché in precedenza l'azienda era stata trovata a costringere le persone a firmare accordi di non disparagement che potrebbero comportare la perdita di azioni maturate se parlavano male dell'azienda.

Sebbene Open AI respinga queste affermazioni, affermando di avere una politica che protegge i diritti dei dipendenti che denunciano, i rapporti suggeriscono che l'azienda potrebbe aver rivisto i suoi contratti a causa dell'aumentata attenzione pubblica mentre è cresciuta di dimensioni e importanza. Queste accuse sollevano preoccupazioni sul trattamento dei dipendenti da parte di Open AI e sulla trasparenza riguardo a potenziali problemi all'interno dell'organizzazione.

Potenziali aggiornamenti al modello di immagine Dolly

C'è speculazione sul fatto che il modello di immagine Dolly di OpenAI possa aver recentemente ricevuto un aggiornamento. Ciò si basa su osservazioni che la capacità del modello di generare testo nelle immagini è migliorata, con il testo che appare più leggibile rispetto al passato.

In particolare, un post dell'utente "angry penguin" su X (ex Twitter) mostra un'immagine creata da Dolly che visualizza chiaramente il testo "evolve" - un miglioramento significativo rispetto alle precedenti difficoltà del modello nel generare testo leggibile.

Inoltre, si nota che se si chiede a Dolly di creare un'immagine di un "robot che tiene un cartello che dice Iscriviti", il testo risultante appare ora molto più chiaro rispetto al passato.

Queste osservazioni suggeriscono che OpenAI potrebbe aver apportato aggiornamenti al modello Dolly, migliorandone le capacità di generazione del testo. Tuttavia, l'entità e i dettagli di eventuali aggiornamenti non sono ufficialmente confermati dall'azienda.

Vale anche la pena menzionare che se non si ha accesso a un account ChatGPT Plus, è possibile utilizzare il modello Dolly 3 gratuitamente sul sito Web Bing Image Creator. Questa potrebbe essere un'opzione conveniente per coloro che desiderano sperimentare il modello Dolly senza un abbonamento a pagamento.

Nuove demo da Sora

Stiamo ricevendo più video dimostrativi di Sora, il che sta solo rendendo le persone più ansiose di poterlo effettivamente utilizzare. Tuttavia, abbiamo alcuni strumenti come Runway Gen 3 e Luma's Dream Machine che possono creare video generati dall'AI abbastanza buoni, il che ha attenuato un po' l'entusiasmo per Sora.

Nonostante ciò, il fatto che Sora possa creare video molto più lunghi e che Open AI tenda a fissare l'asticella per quasi tutto ciò che produce, sono ancora entusiasta al riguardo. I nuovi video dimostrativi condivisi sull'account X di Matthew Berman sembrano piuttosto impressionanti, mostrando clip in bianco e nero e scene di onde che si infrangono. Anche se per ora abbiamo alcuni strumenti per soddisfare questa esigenza, il potenziale delle capacità di Sora è ancora molto atteso.

Le risorse di HubSpot per l'utilizzo di ChatGPT sul lavoro

Se sei qualcuno che utilizza l'AI sul lavoro o stai pensando di utilizzarla, devi dare un'occhiata al bundle completamente gratuito di HubSpot chiamato "Cinque risorse essenziali per l'utilizzo di ChatGPT sul lavoro".

Questa risorsa include:

Interessanti diagrammi di flusso su quando dovresti o non dovresti utilizzare ChatGPT
Un modello per garantire che il contenuto generato da ChatGPT segua la voce del tuo marchio
Una lista di controllo per il perfezionamento dei contenuti generati dall'AI
Una lista di controllo completa per l'adozione dell'AI sul posto di lavoro
Una guida su come potenziare la tua giornata con ChatGPT, inclusi 100 modi per provarlo oggi

Il link a questa risorsa completamente gratuita di HubSpot è nella descrizione qui sotto. Se non hai ancora abbracciato l'AI, ricorda cosa ha detto il CEO di Nvidia, Jensen Huang - l'AI sarà la tecnologia più trasformativa del XXI secolo e influenzerà ogni settore e aspetto della nostra vita. Quindi, se non stai utilizzando l'AI per accelerare e migliorare la qualità del tuo lavoro, i tuoi concorrenti probabilmente lo stanno facendo.

La nuova società di istruzione di Andre Karpathy, Eureka Labs

Andre Karpathy, che in precedenza ha lavorato presso OpenAI e recentemente si è allontanato, ha appena annunciato una nuova iniziativa su cui sta lavorando. Ha detto di essere "entusiasta di condividere che sto avviando una società di AI e istruzione chiamata Eureka Labs".

Presso Eureka Labs, stanno costruendo un nuovo tipo di scuola "nativa dell'AI". Affermano che gli esperti di materie che sono profondamente appassionati, bravi nell'insegnamento, infinitamente pazienti e fluenti in tutte le lingue del mondo sono anche molto rari e non possono personalmente tutorare tutti gli 8 miliardi di noi su richiesta.

L'annuncio suggerisce che Eureka Labs sta creando una piattaforma di istruzione online in cui l'insegnante progetta ancora i materiali del corso, ma viene supportato, sfruttato e scalato con un assistente didattico AI. Questo assistente AI è ottimizzato per aiutare a guidare gli studenti attraverso i contenuti del corso.

Sebbene i dettagli siano limitati, il concetto sembra essere che l'esperienza e i materiali didattici dell'insegnante vengano addestrati nel modello AI, consentendo all'AI di fornire un tutoraggio e un supporto personalizzati agli studenti su larga scala, in qualsiasi lingua. Ciò potrebbe espandere enormemente la portata e l'impatto di singoli esperti di materie.

Anthropic rilascia CLA su Android

Se sei un fan della CLA di Anthropic e non hai un iPhone, beh, buone notizie - l'hanno appena rilasciata anche su Android. È stata disponibile su iOS da un paio di mesi e ora hanno appena lanciato la versione Android.

Personalmente, sono ancora un po' più fan dell'app ChatGPT, principalmente perché la parte della voce conversazionale dell'app ChatGPT è davvero impressionante. Quando sono al computer, di solito uso sia la CLA che Perplexity. Ma quando sono sul mio telefono, tendo ancora ad andare con l'app ChatGPT.

Detto questo, capisco che la maggior parte delle persone probabilmente non voglia pagare per abbonamenti separati alla chat. Quindi, se ti piace davvero la possibilità di avere una conversazione vocale con un'AI, l'app ChatGPT è ancora la strada da seguire. Ma se non ti interessa e vuoi semplicemente il miglior modello nelle tue mani, la CLA è probabilmente l'opzione migliore. E ora hanno anche un'app Android.

Le nuove funzionalità di intelligenza artificiale di Google: Gemini Answers, Google Vids e YouTube Music Sound Search

Gemini, l'assistente AI di Google, ora risponde a domande generali quando il tuo telefono Android è bloccato. Questa funzione ti consente di ottenere rapidamente informazioni senza dover sbloccare il dispositivo.

Google ha inoltre annunciato Google Vids, un'app per la creazione di video alimentata dall'AI progettata per il lavoro e profondamente integrata con la suite Google Workspace. Google Vids ti consente di creare video di tipo presentazione fornendo un prompt, selezionando uno stile e aggiungendo una voce fuori campo e filmati di repertorio.

Inoltre, YouTube sta lanciando una nuova funzione chiamata YouTube Music Sound Search. Questa funzione ti consente di canticchiare o cantare una canzone e YouTube identificherà il brano. Funziona in modo simile a Shazam, ma è integrata direttamente nella piattaforma YouTube.

Queste nuove funzionalità alimentate dall'AI di Google mirano a migliorare la produttività, la creatività e l'esperienza dell'utente attraverso vari servizi e piattaforme Google.

Controversia sui dati di addestramento dell'IA e sui video di YouTube rubati

C'è stata una certa controversia questa settimana sulla fonte dei dati di addestramento per vari modelli AI. Un articolo su Proof News afferma che Apple, Nvidia e Anthropic hanno utilizzato migliaia di video di YouTube rubati per addestrare i loro modelli AI.

Il problema nasce da una società chiamata Uther AI, che è un progetto open source che raccoglie un ampio dataset chiamato "the Pile" da dati pubblicamente disponibili. Si è scoperto che una parte significativa di questi dati erano trascrizioni copiate direttamente da video di YouTube.

Molti YouTuber, inclusi creatori popolari come MKBHD, Mr. Beast e PewDiePie, hanno notato che i loro contenuti sono stati inclusi in questo dataset. Proof News ha persino creato un motore di ricerca che consente alle persone di verificare se i loro video sono stati inclusi.

Dopo che la controversia è venuta alla luce, Apple ha riconosciuto di aver utilizzato "the Pile" per alcuni scopi di ricerca, ma ha affermato che il modello utilizzato in Apple Intelligence non è stato addestrato su questi dati. Anche la piattaforma Microsoft Designer, che utilizza l'AI per creare immagini, è stata implicata nell'uso di contenuti di YouTube rubati.

L'utilizzo di materiale protetto da copyright senza autorizzazione per l'addestramento di modelli AI ha sollevato preoccupazioni sulle implicazioni etiche e legali di queste pratiche. Man mano che la tecnologia AI continuerà a progredire, la questione della provenienza dei dati e dei diritti dei creatori di contenuti probabilmente rimarrà una sfida costante per l'industria.

Integrazione di Microsoft Designer nelle app

Microsoft ha lanciato la sua piattaforma chiamata Designer, molto simile a Canva. È una piattaforma per la creazione di vari contenuti come miniature di YouTube, banner pubblicitari, immagini per Instagram e altro ancora. Questa piattaforma Designer è ora integrata in una vasta gamma di app Microsoft.

Le principali funzionalità di questa integrazione includono:

Barra laterale Co-Pilot: gli utenti possono accedere alla barra laterale Co-Pilot all'interno delle app Microsoft per creare immagini specifiche in uno stile desiderato.
Generazione di immagini: la piattaforma Designer può generare immagini in base ai prompt degli utenti, che possono quindi essere direttamente incorporate nel documento, PowerPoint o in altro strumento Microsoft dell'utente.
App mobile: Microsoft ha inoltre rilasciato app mobili gratuite Designer sia per iOS che per Android, consentendo agli utenti di creare e modificare facilmente immagini in mobilità.

Altre funzionalità degne di nota della piattaforma Designer includono:

Funzione Restyle: gli utenti possono caricare un'immagine e la piattaforma la riformatterà in uno stile diverso.
Capacità espanse: la piattaforma Designer ha acquisito una serie di nuove funzionalità e capacità per migliorare l'esperienza di creazione e modifica delle immagini.

Complessivamente, l'integrazione di Microsoft Designer in varie app Microsoft fornisce agli utenti uno strumento potente alimentato dall'AI per generare e manipolare immagini direttamente all'interno delle app che utilizzano quotidianamente.

Mistol rilascia il modello di linguaggio Cod Stroll Mamba

Mistol, la società di AI francese che sviluppa modelli linguistici su larga scala, ha rilasciato un nuovo modello chiamato Cod Stroll Mamba. Questo modello è progettato specificamente per la generazione di codice ed è open source.

Le principali caratteristiche di Cod Stroll Mamba includono:

Modello da 7 miliardi di parametri
Gestisce input fino a 256.000 token

FAQ

Quali sono i cinque livelli di progresso verso l'AGI secondo OpenAI?

Qual è la nuova tecnologia di ragionamento con il nome in codice 'Strawberry' su cui sta lavorando OpenAI?

Quali sono le preoccupazioni sollevate sulle politiche e sui contratti di OpenAI con i dipendenti?

Cos'è la nuova funzionalità 'YouTube Music Sound Search'?

Qual è la controversia intorno ai dati di addestramento utilizzati da alcuni modelli di IA?