人工智能新闻:探索OpenAI在通用人工智能方向的进展和最新发展

探索OpenAI在从聊天机器人到AI组织的AGI开发路线图。了解他们的新型Strawberry推理技术,以及围绕OpenAI的最新新闻和争议。发现AI如何改变教育、视频创作等领域。了解AI新闻和发展的最新动态。

2025年1月13日

探索人工智能的最新进展,从OpenAI向通用人工智能(AGI)的进展,到新的AI模型和工具的发布,这些可以彻底改变您的工作。这篇博客文章提供了您需要了解的最重要的AI新闻和发展的全面概述。

Open AI的五个层次走向AGI

开放人工智能已经概述了实现人工通用智能(AGI)的五个进度水平:

聊天机器人和具有对话语言能力的人工智能: 这一水平代表了当前聊天机器人和语言模型(如ChatGPT、Claude和LLaMA)的状态。
能够进行人类水平问题解决的推理系统: 开放人工智能声称他们已经非常接近实现这一水平,这涉及到能够以人类水平进行推理和解决问题的系统。
能够代表我们采取行动的代理人或系统: 这一水平包括能够执行诸如预订航班、回复电子邮件等任务的人工智能代理。
有助于发明的创新型人工智能: 这一水平的人工智能系统能够创造新的想法,并协助发明过程。
能够完成整个组织工作的组织和人工智能: 最终水平涉及到能够执行整个组织工作的人工智能系统。

开放人工智能认为他们目前处于第二个水平的边缘,并且预计将通过这些水平逐步实现真正的人工通用智能。

草莓:Open AI的新型推理技术

开放人工智能一直在研究一种名为"草莓"的新型推理技术。根据一份内部泄露的文件,开放人工智能内部的团队正在开发这个项目,目的是创造一个不仅能够生成查询答案,而且能够提前计划并自主浏览互联网进行"深度研究"的模型。

开放人工智能正在针对"草莓"项目的关键能力包括:

执行需要规划和一系列长期行动的长期任务和复杂问题。
利用这些能力自主浏览网络,在计算代理的协助下进行研究。

虽然关于"草莓"的具体进展信息有限,但它似乎是开放人工智能实现其概述的五个人工智能能力水平,向真正的人工通用智能(AGI)迈进的重要一步。这个项目此前被称为"QAR

关于Open AI做法的担忧

尽管这一点没有得到官方确认。\n\n开放人工智能一直对即将推出的模型保持谨慎

Dolly图像模型的潜在更新

所以关于

Sora的新演示

草莓

HubSpot为在工作中使用ChatGPT提供的资源

的更多信息可能要等到它公开发布时才会浮出水面。

Andre Karpathy的新教育公司Eureka Labs

开放人工智能的商业行为受到了质疑,有举报人声称该公司非法阻止员工与政府监管机构就工作中的问题进行沟通,并剥夺了他们举报的权利。

一封发送给SEC主席的信件指控,开放人工智能有一项政策禁止员工进行受保护的披露。这并非开放人工智能的政策和合同首次受到审查,该公司此前曾被发现强迫人们签署可能导致已获得的股权被剥夺的不诽谤协议。

尽管开放人工智能否认了这些指控,声称他们有保护员工举报权的政策,但这些报告表明,随着该公司规模和知名度的增长,它可能正在重组其合同,以应对日益增加的公众审视。这些指控引发了人们对开放人工智能对待员工以及组织内部潜在问题透明度的担忧。

Anthropic发布了Android版的CLA

有猜测称,OpenAI的Dolly图像模型最近可能已经得到更新。这是基于观察到该模型生成图像中的文本能力有所改善,文本现在比以前更加清晰可读。

具体来说,用户"angry penguin"在X(原Twitter)上发布的一张图像清楚地显示了"evolve"这个词,这与该模型之前在生成可读文本方面的困难形成了鲜明对比。

此外,如果提示Dolly生成一张"机器人手持标牌上写着'请订阅'"的图像,结果图像中的文字现在比之前更加清晰。

这些观察结果表明,OpenAI可能已经对Dolly模型进行了更新,提升了其文本生成能力。但是,任何潜在更新的具体范围和细节都未得到该公司的官方确认。

值得一提的是,如果您没有ChatGPT Plus账户,您可以在Bing图像创建器网站上免费使用Dolly 3模型。这可能是一个方便的选择,让您在不需要付费订阅的情况下也能尝试Dolly模型。

谷歌的新AI功能:Gemini Answers、Google Vids和YouTube Music Sound Search

我们收到了更多来自Sora的演示视频,这只是让人们更加渴望能真正使用它。然而,我们确实有一些像Runway Gen 3和Luma's Dream Machine这样的工具,可以创造出相当不错的AI生成视频,这稍微降低了人们对Sora的兴奋度。

尽管如此,Sora能够创造出更长的视频,而且OpenAI在他们推出的几乎所有东西上都能树立标杆,我仍然对它感到兴奋。Matthew Berman在X上分享的新演示视频看起来相当出色,展示了黑白镜头和海浪冲击的场景。虽然我们现在有一些工具可以暂时满足这种需求,但Sora的潜在能力仍然备受期待。

关于AI训练数据和被盗YouTube视频的争议

如果您在工作中使用人工智能,或者正在考虑在工作中使用人工智能,您需要查看HubSpot提供的一个完全免费的捆绑包,名为"在工作中使用ChatGPT的五个必备资源"。

这个资源包括:

关于何时应该或不应该使用ChatGPT的有趣流程图
一个模板,确保ChatGPT生成的内容遵循您品牌的语音风格
一份AI生成内容优化检查表
一份全面的在工作场所采用人工智能的清单
一份如何利用ChatGPT提升工作效率的指南,包括100种尝试方法

这个来自HubSpot的完全免费资源的链接在下面的描述中。如果您还没有采用人工智能,请记住英伟达CEO Jensen Huang的话 - 人工智能将是21世纪最具变革性的技术,并将影响每个行业和我们生活的各个方面。所以如果您还没有使用人工智能来加快和提高工作质量,您的竞争对手可能已经在这样做了。

Microsoft Designer在应用程序中的集成

Andre Karpathy,之前在OpenAI工作,最近离开后,刚刚宣布了他正在从事的一个新的创业项目。他说他"很兴奋地分享,我正在创办一家名为Eureka Labs的人工智能加教育公司"。

在Eureka Labs,他们正在建立一种全新的"人工智能原生"学校。他们表示,对于那些深度热爱所教授的学科、擅长教学、无限耐心,并精通世界所有语言的专家来说,个人辅导全球80亿人是非常稀缺和不可能的。

这一宣布表明,Eureka Labs正在创建一个在线教育平台,教师仍然负责设计课程材料,但他们将得到一个经过优化的人工智能教学助手的支持、利用和扩展。这个人工智能助手旨在帮助引导学生完成课程内容。

虽然细节有限,但这个概念似乎是将教师的专业知识和教学材料训练到人工智能模型中,使人工智能能够为学生提供个性化的辅导和支持,并以任何语言进行扩展。这可能会大大扩展个别学科专家的影响力和覆盖范围。

Mistol发布了Cod Stroll Mamba语言模型

如果您是Anthropic的CLA的粉丝,而且您没有iPhone,那么好消息是 - 他们刚刚在Android上发布了它。它在iOS上已经推出了几个月,现在他们也推出了Android版本。

就个人而言,我仍然更喜欢ChatGPT应用程序,主要是因为ChatGPT应用程序的对话语音功能非常出色。当我在电脑上时,我通常会使用CLA或Perplexity。但当我在手机上时,我仍然倾向于使用ChatGPT应用程序。

不过,我知道大多数人可能不想为单独的聊天订阅付费。所以如果您真的喜欢与人工智能进行语音对话的功能,ChatGPT应用程序仍然是最好的选择。但如果您不在乎这一点,只想要最好的模型在手,CLA可能是更好的选择。现在他们也有了Android应用程序。

亚马逊推出Rufus AI购物助手

根据报道,谷歌的人工智能助手Gemini现在可以在Android手机锁屏时回答一般问题。这个功能允许您快速获取信息,而无需解锁设备。

谷歌还宣布了Google Vids,这是一款面向工作的AI驱动视频创作应用程序,与谷歌工作套件深度集成。Google Vids允许您通过提供提示、选择样式以及添加语音和库存视频素材来创建幻灯片式视频。

此外,YouTube正在推出一项名为YouTube Music Sound Search的新功能。这个功能允许您哼唱或唱一首歌曲,YouTube就会识别出这首歌。它的工作原理类似于Shazam,但直接集成到YouTube平台中。

这些来自谷歌的新AI驱动功能旨在提高生产力、创造力和跨各种谷歌服务和平台的用户体验。

Meta在欧盟限制多模态模型

本周有一些关于各种AI模型训练数据来源的争议。Proof News的一篇文章声称,苹果、英伟达和Anthropic使用了数千个被盗的YouTube视频来训练他们的AI模型。

这个问题源于一家名为Uther AI的公司,它是一个开源项目,收集了一个名为"the Pile"的大型数据集,来自公开可用的数据。事实证明,这个数据集的很大一部分是直接从YouTube视频中抄录的文字稿。

包括MKBHD、Mr. Beast和PewDiePie等多位知名YouTube创作者都注意到他们的内容被包括在这个数据集中。Proof News甚至创建了一个搜索引擎,让人们可以检查他们的视频是否被包括在内。

在这一争议浮出水面后,苹果承认使用了"the Pile"进行一些研究目的,但表示用于苹果智能的模型并未使用这些数据进行训练。微软的Designer平台(使用AI创建图像)也被指使用了被盗的YouTube内容。

未经许可使用版权材料来训练AI模型引发了人们对这种做法的伦理和法律影响的担忧。随着AI技术的不断进步,内容创作者权利和数据来源问题将很可能成为该行业持续面临的挑战。

使用MIDI设备控制Stable Diffusion

微软推出了一个名为Designer的平台,非常类似于Canva。这是一个用于创建各种内容的平台,如YouTube缩略图、横幅广告、Instagram图像等。这个Designer平台现在正被集成到微软的各种应用程序中。

这种集成的主要功能包括:

Co-Pilot侧边栏:用户可以在微软应用程序中访问Co-Pilot侧边栏,以创建特定风格的图像。
图像生成:Designer平台可以根据用户的提示生成图像,然后直接插入到用户的文档、PowerPoint或其他微软工具中。
移动应用程序:微软还发布了iOS和Android的免费Designer移动应用程序,让用户能够在移动设备上轻松创建和编辑图像。

Designer平台更新的其他值得注意的功能包括:

重塑功能:用户可以上传一张图像,平台会将其重塑为不同的风格。
扩展功能:Designer平台获得了许多新的功能和能力,以增强图像创作和编辑体验。

总的来说,将Microsoft Designer集成到各种微软应用程序中,为用户提供了一个强大的AI驱动工具,可以直接在他们日常使用的应用程序中生成和操作图像。

AI应用程序将自拍转换为3D可打印角色

法国AI公司Mistol发布了一个名为Cod Stroll Mamba的新模型。这个模型专门设计用于代码生成,并且是开源的。

Cod Stroll Mamba的主要特点包括:

70亿参数模型
可处理长达256,000个标记(约192,000个单词)的输入
即使对于较长的输入文本也能提供快速响应时间

常问问题

根据OpenAI,实现AGI的五个进度水平是什么?

OpenAI正在开发的代号为'Strawberry'的新推理技术是什么?

有哪些关于OpenAI的政策和员工合同的担忧?

什么是新的'YouTube Music Sound Search'功能?

一些AI模型使用的训练数据存在什么争议?