Новости ИИ: исследование прогресса OpenAI в направлении ОИИ и последние разработки

Изучите дорожную карту OpenAI для разработки AGI, от чат-ботов до организаций искусственного интеллекта. Узнайте о их новой технологии рассуждений Strawberry и последних новостях и противоречиях вокруг OpenAI. Узнайте, как искусственный интеллект трансформирует образование, создание видео и многое другое. Будьте в курсе быстро развивающегося мира новостей и разработок в области искусственного интеллекта.

13 января 2025 г.

Откройте для себя последние достижения в области искусственного интеллекта, от прогресса OpenAI в направлении ИИ общего назначения до выпуска новых моделей и инструментов ИИ, которые могут революционизировать вашу работу. Этот блог-пост предоставляет всеобъемлющий обзор самых значительных новостей и разработок в области ИИ, о которых вам нужно знать.

Пять уровней Open AI на пути к ИИ общего назначения
Клубника: новая технология рассуждений Open AI
Опасения по поводу практик Open AI
Потенциальные обновления модели изображений Dolly
Новые демонстрации от Sora
Ресурсы HubSpot для использования ChatGPT на работе
Новая образовательная компания Андре Карпати Eureka Labs
Anthropic выпускает CLA для Android
Новые функции ИИ Google: Gemini Answers, Google Vids и Sound Search для YouTube Music
Споры вокруг тренировочных данных ИИ и украденных видео YouTube
Интеграция Microsoft Designer в приложения
Mistol выпускает языковую модель Cod Stroll Mamba
Amazon запускает помощника по покупкам Rufus AI
Meta ограничивает мультимодальные модели в ЕС
Управление Stable Diffusion с помощью MIDI-устройства
Приложение ИИ превращает селфи в 3D-печатные персонажи
ИИ точно определяет пол по рентгеновским снимкам зубов
Open AI выпускает GPT-4 Mini
Nvidia и Mistol сотрудничают над моделью Mistol Nemo
Google AI представлен на Олимпийских играх 2024 года

Пять уровней Open AI на пути к ИИ общего назначения

Open AI обозначил пять уровней прогресса в достижении Искусственного Общего Интеллекта (AGI):

Чат-боты и ИИ с разговорным языком: Этот уровень представляет собой текущее состояние чат-ботов и языковых моделей, таких как ChatGPT, Claude и LLaMA.
Рассуждающие системы, способные решать задачи на уровне человека: Open AI утверждает, что они очень близки к достижению этого уровня, который включает в себя системы, способные рассуждать и решать проблемы на уровне человека.
Агенты или системы, способные действовать от нашего имени: Этот уровень включает в себя ИИ-агентов, которые могут выполнять задачи, такие как бронирование авиабилетов, ответы на электронные письма и другие действия от нашего имени.
Инновационный ИИ, способный помочь в изобретении: ИИ-системы на этом уровне могут создавать новые идеи и помогать в процессе изобретения.
Организации и ИИ, способные выполнять работу организации: Заключительный уровень включает в себя ИИ-системы, способные выполнять работу целой организации.

Клубника: новая технология рассуждений Open AI

Open AI работает над новой технологией рассуждений под кодовым названием "Strawberry". Согласно просочившемуся внутреннему документу, команды внутри Open AI разрабатывают этот проект с целью создания модели, которая может не только генерировать ответы на запросы, но и планировать действия и автономно исследовать Интернет для проведения "глубоких исследований".

Основные возможности, на которые нацелен Open AI со Strawberry, включают:

Выполнение задач с длительным горизонтом и сложных проблем, требующих планирования и серии действий в течение длительного периода времени.
Использование этих возможностей для проведения исследований путем автономного просмотра веб-страниц с помощью компьютерного агента, который может предпринимать действия на основе своих выводов.

Хотя подробности о точном состоянии Strawberry ограничены, похоже, что это значительный шаг к цели Open AI по продвижению через пять уровней возможностей ИИ, приближаясь к настоящему Искусственному Общему Интеллекту (AGI). Ранее этот проект был известен как "QAR", хотя это официально не подтверждено.

Опасения по поводу практик Open AI

Open AI подвергся критике в связи со своими деловыми практиками, при этом осведомители утверждают, что компания незаконно не позволяет сотрудникам общаться с государственными регуляторами о проблемах на работе и лишает их прав на вознаграждение за разоблачение.

В письме, направленном председателю SEC, утверждается, что у Open AI есть политика, запрещающая сотрудникам делать защищенные раскрытия. Это не первый раз, когда политика и контракты Open AI подвергаются scrutiny, так как ранее было установлено, что компания заставляет людей подписывать соглашения о неразглашении, которые могут привести к потере накопленной доли, если они будут плохо отзываться о компании.

Хотя Open AI опровергает эти утверждения, заявляя, что у них есть политика, защищающая права сотрудников-осведомителей, сообщения свидетельствуют о том, что компания, возможно, пересматривает свои контракты из-за усиления общественного внимания по мере ее роста и известности. Эти обвинения вызывают озабоченность по поводу отношения Open AI к своим сотрудникам и прозрачности в отношении потенциальных проблем внутри организации.

Потенциальные обновления модели изображений Dolly

Существует предположение, что модель генерации изображений Dolly от OpenAI недавно могла получить обновление. Это основано на наблюдениях, что способность модели генерировать текст в изображениях улучшилась, при этом текст стал более читаемым, чем раньше.

В частности, пост пользователя "angry penguin" на X (ранее Twitter) показывает изображение, созданное Dolly, на котором четко отображается текст "evolve" - значительное улучшение по сравнению с предыдущими трудностями модели в генерации читаемого текста.

Кроме того, отмечается, что если попросить Dolly создать изображение "робота, держащего табличку с надписью Подпишитесь", результирующее изображение теперь имеет текст, который выглядит гораздо более четким, чем раньше.

Эти наблюдения свидетельствуют о том, что OpenAI, возможно, внесла обновления в модель Dolly, улучшив ее возможности по генерации текста. Однако подробности и детали любых потенциальных обновлений официально не подтверждены компанией.

Новые демонстрации от Sora

Мы получаем все больше демонстрационных видео от Sora, что только усиливает тревогу людей, желающих получить к ней доступ. Тем не менее, у нас есть такие инструменты, как Runway Gen 3 и Luma's Dream Machine, которые могут создавать довольно хорошие видео, сгенерированные с помощью ИИ, что немного снизило возбуждение вокруг Sora.

Несмотря на это, тот факт, что Sora может создавать гораздо более длинные видео, и то, что Open AI, как правило, задает планку для почти всего, что они выпускают, я все еще взволнован этим. Новые демо-видео, опубликованные на аккаунте X Мэтью Бермана, выглядят довольно впечатляюще, демонстрируя черно-белые клипы и сцены с разбивающимися волнами. Хотя у нас есть некоторые инструменты, чтобы удовлетворить это желание на данный момент, потенциал возможностей Sora по-прежнему вызывает большие ожидания.

Ресурсы HubSpot для использования ChatGPT на работе

Если вы используете ИИ на работе или думаете об использовании ИИ на работе, вам нужно проверить совершенно бесплатный набор от HubSpot под названием "Пять важнейших ресурсов для использования ChatGPT на работе".

Этот ресурс включает в себя:

Интересные блок-схемы о том, когда следует или не следует использовать ChatGPT
Шаблон для обеспечения соответствия контента, созданного с помощью ChatGPT, голосу вашего бренда
Контрольный список для доработки контента, созданного с помощью ИИ
Всеобъемлющий контрольный список для внедрения ИИ на рабочем месте
Руководство о том, как ускорить свой день с помощью ChatGPT, включая 100 способов попробовать его сегодня

Новая образовательная компания Андре Карпати Eureka Labs

Андре Карпати, который ранее работал в OpenAI, а затем недавно ушел, только что объявил о новом предприятии, над которым он работает. Он сказал, что "рад сообщить, что я начинаю компанию по ИИ и образованию под названием Eureka Labs".

В Eureka Labs они строят новый тип школы, которая "родилась с ИИ". Они утверждают, что эксперты в предметной области, которые глубоко увлечены, отлично преподают, бесконечно терпеливы и свободно владеют всеми языками мира, также очень редки и не могут лично обучать всех 8 миллиардов из нас по запросу.

В объявлении предполагается, что Eureka Labs создает онлайн-образовательную платформу, где преподаватель по-прежнему разрабатывает учебные материалы, но они поддерживаются, используются и масштабируются с помощью ИИ-ассистента. Этот ИИ-ассистент оптимизирован для того, чтобы помогать студентам в изучении учебного материала.

Anthropic выпускает CLA для Android

Если вы являетесь поклонником CLA от Anthropic и у вас нет iPhone, то у меня для вас хорошие новости - они только что выпустили ее на Android. Она была доступна на iOS в течение нескольких месяцев, и теперь они выпустили версию для Android.

Лично я все еще немного больше фанат приложения ChatGPT, в основном потому, что голосовая часть приложения ChatGPT действительно впечатляет. Когда я на компьютере, я обычно использую либо CLA, либо Perplexity. Но когда я на телефоне, я все равно склоняюсь к приложению ChatGPT.

С другой стороны, я понимаю, что большинство людей, вероятно, не хотят платить за отдельные чат-подписки. Поэтому если вам действительно нравится возможность голосового общения с ИИ, приложение ChatGPT по-прежнему является лучшим вариантом. Но если вас это не волнует, и вы просто хотите иметь лучшую модель под рукой, CLA, вероятно, будет лучшим вариантом. И теперь у них есть приложение для Android.

Новые функции ИИ Google: Gemini Answers, Google Vids и Sound Search для YouTube Music

Gemini, помощник ИИ от Google, теперь отвечает на общие вопросы, когда ваш Android-телефон заблокирован. Эта функция позволяет быстро получать информацию, не разблокируя устройство.

Google также объявил о Google Vids, приложении для создания видео на основе ИИ, предназначенном для работы и глубоко интегрированном с пакетом Google Workspace. Google Vids позволяет создавать видео в стиле слайдов, предоставляя подсказку, выбирая стиль и добавляя голосовое сопровождение и стоковые кадры.

Кроме того, YouTube внедряет новую функцию под названием YouTube Music Sound Search. Эта функция позволяет напевать или петь песню, и YouTube определит трек. Она работает аналогично Shazam, но интегрирована непосредственно в платформу YouTube.

Споры вокруг тренировочных данных ИИ и украденных видео YouTube

На этой неделе возникла некоторая полемика вокруг источника данных для обучения различных моделей ИИ. Статья на Proof News утверждает, что Apple, Nvidia и Anthropic использовали тысячи украденных видео с YouTube для обучения своих моделей ИИ.

Проблема возникла из-за компании под названием Uther AI, которая является открытым проектом, собирающим большой набор данных под названием "the Pile" из общедоступных источников. Оказалось, что значительная часть этих данных - это расшифровки, скопированные напрямую с YouTube-видео.

Многие ютуберы, включая популярных создателей контента, таких как MKBHD, Mr. Beast и PewDiePie, заметили, что их контент используется в этом наборе данных. Proof News даже создал поисковую систему, позволяющую людям проверить, были ли их видео включены.

После того, как эта проблема стала достоянием общественности, Apple признала использование "the Pile" для некоторых исследовательских целей, но заявила, что модель, используемая в Apple Intelligence, не обучалась на этих данных. Платформа Microsoft Designer, использующая ИИ для создания изображений, также была замешана в использовании украденного YouTube-контента.

Интеграция Microsoft Designer в приложения

Microsoft выпустила свою платформу под названием Designer, которая очень похожа на Canva. Это платформа для создания различного контента, такого как миниатюры YouTube, баннерная реклама, изображения для Instagram и многое другое. Эта платформа Designer теперь интегрируется в широкий спектр приложений Microsoft.

Основные функции этой интеграции включают:

Боковая панель Co-Pilot: пользователи могут получить доступ к боковой панели Co-Pilot в приложениях Microsoft для создания конкретных изображений в желаемом стиле.
Генерация изображений: платформа Designer может генерировать изображения на основе подсказок пользователя, которые затем можно напрямую вставить в документ, PowerPoint или другой инструмент Microsoft.
Мобильное приложение: Microsoft также выпустила бесплатные мобильные приложения Designer для iOS и Android, позволяющие пользователям легко создавать и редактировать изображения на ходу.

Mistol выпускает языковую модель Cod Stroll Mamba

Французская компания ИИ Mistol, разрабатывающая крупные языковые модели, выпустила новую модель под названием Cod Stroll Mamba. Эта модель специально предназначена для генерации кода и является открытой.

Основные характеристики Cod Stroll Mamba:

Модель с 7 миллиардами параметров
Обрабатывает ввод до 256 000 токенов (примерно 192 000 слов)
Обеспечивает быстрое время отклика да

Часто задаваемые вопросы

Какие пять уровней прогресса в направлении ИИ общего назначения (AGI) выделяет OpenAI?

Над какой новой технологией рассуждений под кодовым названием 'Strawberry' работает OpenAI?

Какие опасения высказываются в отношении политики OpenAI и контрактов с сотрудниками?

Что представляет собой новая функция 'YouTube Music Sound Search'?

Какая существует контроверсия вокруг данных, используемых для обучения некоторых моделей ИИ?