真人是以我开首加入了机器东谈主团队-九游娱乐(中国)官方网站-登录入口

新闻资讯

真人是以我开首加入了机器东谈主团队-九游娱乐(中国)官方网站-登录入口

发布日期：2024-10-05 05:56 点击次数：179

　　转自：有新Newin

　　红运的是，作为 OpenAI o1 模子筹商团队三位中枢本领东谈主员 Noam Brown（OpenAI 筹商科学家，专注于 AI 推理和强化学习）、Hunter Lightman（OpenAI 高档工程师，主要筹商 AI 在复杂问题上的推明智力）以及 Ilge Akkaya（OpenAI 筹商员，特地缓和 AI 在数学和逻辑推理方面的应用）也在近日与红杉好意思国合资东谈主 Sonya Huang 以及 Pat Grady 伸开了一场对谈。

　　Noam Brown 强调，o1 模子的一个中枢冲突在于延长推理时刻带来的智力晋升。通过增加推理时刻，模子在料理复杂问题时弘扬出了自愿的回溯和自我修正智力，这使得它在像数独和复杂逻辑等问题上弘扬尤为出色。通过这种“延时推理”，o1 能更灵验地应答高难度任务。

　　Hunter Lightman 认为，o1 模子不仅通过推理时刻扩张了 AI 的智力，还为翌日AI的发伸开辟了新的地方。与之前依赖数据和计较智力扩张的AI模子比较，o1 的推理时刻扩张代表了一种全新的维度。这种方式有望在翌日的模子版块（如 o2 和 o3 ）中进一步扩张 AI 智力。

　　Noam Brown 和 Hunter Lightman 承认，尽管 o1 在推理任务中弘扬出色，但它并非在总共任务上都优于其他 AI 模子。尤其在非 STEM 领域，模子的弘扬还有很大的转变空间。

　　以下为此次对话的主要内容，enjoy~

　　Sonya Huang：

　　o1 是 OpenAI 初度在推理时刻计较上的紧要尝试。咱们很期待和团队运筹帷幄推理、想维链、推理时刻缩放定律等话题。

　　Ilge、Hunter、 Noam ，感谢你们的到来，并道贺你们将 o1 推向公众。我想先问一下，你们从一启动就确信这个面孔会告捷吗？

　　Noam Brown：

　　我认为咱们从一启动就信托这一地方有后劲，但试验走到今天的旅途并不澄莹。你望望 o1 ，这并不是通宵之间的斥逐。试验上，这背后有多年筹商，而其中许多筹商并莫得取得成效。

　　我认为 OpenAI 的辅导层一直折服这一地方必须有斥逐，并得意在早期碰到蜿蜒的情况下连续投资，这最终得到了答复。

　　Hunter Lightman：

　　我一启动莫得像 Noam 那样有激烈的信心。我还是花了很万古刻筹商谈话模子，试图让它们学会作念数学和其他推理任务。筹商的过程老是有起有落，有时灵验果，有时莫得。

　　但当咱们发现这一地方启动收效时，我资格了一个“啊哈”的时刻，那时我读了一些模子生成的输出，它们以不同的方式处理问题料理。这就是我信心设立的时刻。

　　我认为 OpenAI 举座上遴荐了一种相配实证、数据驱动的方式，当数据启动向你展示趋势况兼变得挑升旨时，咱们就会伴随这些踪迹。而这亦然我信心设立的时刻。

　　Sonya Huang：

　　Ilge，你还是在 OpenAI 使命了很万古刻，五年半了。你若何看？你从一启动就信托这个步调会告捷吗？

　　Ilge Akkaya：

　　不，我加入后曾几次判断作假。我一启动以为机器东谈主本领是通向 AGI 的谈路，是以我开首加入了机器东谈主团队，认为 AGI 会出面前具身智能中。关联词，事情并莫得按预期发展。

　　在我使命的这段时刻， Chat GPT 的出现无疑是个范式转换。咱们能够向全全国展示一个通用接口，我很欢快咱们面前有了一条可能的新的前进旅途来推动这一推理范式。但对我来说，万古刻里，这条旅途并不光显。

　　Pat Grady：

　　我知谈你们出于很好的情理，弗成公开过多的细节，但你们能否大致先容一下它的使命道理？

　　Ilge Akkaya：

　　o1 模子系列使用了强化学习，能够进行推理，或者你也可以称之为“想考”。它与咱们往常使用的大型谈话模子有骨子上的不同。

　　咱们还是看到它在许多不同的推理领域中都弘扬出邃密的泛化智力，咱们也在最近展示了这小数。是以咱们对这个新模子眷属带来的范式转换感到相配欣喜。

　　Pat Grady：

　　对于那些不太熟悉现时谈话模子本领的东谈主来说，什么是推理？你能否简要界说一下推理，并解释为什么它很伏击？

　　Noam Brown：

　　一个轻便的剖析是，推理是针对那些想考更万古刻有光显克己的问题的智力。你知谈，东谈主类有经典的系统 1 和系统 2想维。

　　系统 1 是自动化的、直观式的反映，系统 2 则是较慢的、更有经过驱动的反映。对于某些任务，延长想考时刻并不会带来更多克己。

　　比如，要是我问你“不丹的都门是那处？”，你可以花两年的时刻想考，但这不会提高你的正确率。趁便说一句，不丹的都门是什么？其实我也不知谈。不外，确乎有一些问题，通过延长想考时刻可以带来更高的准确性。

　　一个经典的例子是数独，你可以表面上尝试各式解法，况兼正确解法相配容易识别。因此，惟有有实足的时刻，你最终会找到正确谜底。

　　许多 AI 领域的筹商者对推理有不同的界说，我不方针这是唯独的界说。每个东谈主都有我方的主意，但我认为推理是那些通过琢磨更多选项和想考更万古刻可以获益的问题。

　　你可以把它剖析为一个生成-考证的差距问题：生成一个正确的解法很难，但识别正确解法却相对轻便。

　　我认为总共问题都在这个光谱上，比如数独这种考证比生成容易的问题，以及考证和生成不异难题的问题，比如不丹的都门叫什么。

　　Sonya Huang：

　　我想问一下对于 AlphaGo 和 Noam 的配景，你以前在扑克和其他游戏方面的筹商有多猛进程与 o1 的使命联系？它们之间有哪些相似和不同之处？

　　Noam Brown：

　　我认为 o1 的一大亮点是它确乎在想考时刻增加的情况下弘扬更好。要是总结往常的许多 AI 冲突， AlphaGo 是一个经典的例子。

　　它的一个权贵特色是会花很万古刻在每步活动前想考，可能需要 30 秒来决定下一步。要是让它一刹作念出决策，它其实比不上顶级的东谈主类选手。因此，它的弘扬很猛进程上依赖于这些额外的想考时刻。

　　问题在于，这种额外的想考时刻是依靠蒙特卡洛树搜索（MCTS）进行的，这是一种特定的推理步调，适用于围棋，但在我早期筹商的扑克游戏中却行欠亨。因此，尽管神经相聚部分（系统 1 的部分）是通用的，但其时存在的推理步调仍然是特定领域的。

　　o1 的另一大亮点是它的推理方式相配通用，适用于许多不同的领域。咱们还是看到了用户使用它的各式方式，也考证了这小数。

　　Hunter Lightman：

　　谈话模子一直勾引我的地方是，它们的接口相配通用，可以适合各式问题。此次咱们感到欣喜的是，咱们认为咱们有一种步调，可以在这种通用接口上作念强化学习，并期待看到翌日的可能性。

　　Pat Grady：

　　你提到生成和考证之间的差距，这在不同问题上有所不同。那么在推理过程中，这种差距的处理步调是否是一致的，或者在不同的情况下有不同的步调？

　　Hunter Lightman：

　　此次发布让我欣喜的地方之一是， o1 能够交到那么多东谈主手里，咱们可以看到它在哪些问题上弘扬好，哪些问题上弘扬差。这是 OpenAI 的核神思策之一，咱们通过迭代式的本领部署，不雅察全国如何与它互动，并摆布转变咱们的筹商。

　　Pat Grady：

　　在推特上，有什么用户使用 o1 的方式让你感到有时吗？

　　Ilge Akkaya：

　　让我相配欣喜的一件事是，我看到许多大夫和筹商东谈主员把这个模子动作头脑风暴的合作伙伴。他们在癌症筹商领域使命多年，正在与模子运筹帷幄一些对于基因发现和基因疗法的想法。

　　诚然模子无法自行进行筹商，但它可以成为东谈主类的邃密合作伙伴，匡助推动科学筹商的跨越。

　　Sonya Huang：

　　Noam ，我铭刻你曾发推说，深度强化学习（Deep RL）还是走出了“落空低谷”。你能详备解释一下你的酷好吗？

　　Noam Brown：

　　我认为这一切可以纪念到 Atari 游戏，DeepMind 在 Atari 上的深度强化学习（ DRL ）斥逐也曾相配热点。我其时正在攻读博士学位，约莫在2015到2019年之间， DRL 无疑是最热点的筹商领域。

　　在某些方面，确乎取得了多数筹商斥逐，但也忽略了一些问题。其中一个被冷落的方面就是应用海量数据（维权）进行熟悉的力量，比如 GPT 的熟悉方式。在某种进程上，这相配令东谈主骇怪。

　　望望 AlphaGo ，它无疑是深度强化学习领域的紧要确立之一。尽管其中有RL（强化学习）格式，但更伏击的是， AlphaGo 在这之前还进行了基于东谈主类数据的学习，这才是让 AlphaGo 信得过升空的原因。

　　然后，筹商界缓缓出现了一种不雅点，认为不依赖东谈主类数据、从零启动学习才是“灵活”的地方。

　　这也导致了 AlphaZero 的出现，尽管它的弘扬比 AlphaGo 更好，但这个过程的转换冷落了像 GPT 这样的大规模数据熟悉的后劲，除了 OpenAI 除外，很少有东谈主缓和这个地方。

　　OpenAI 在初期看到了这个地方的一些初步斥逐，并有决心加倍参加。是以， DRL 确乎资格了一段岑岭期，随后跟着 GPT-3 等大模子的告捷， DRL 的热度有所下落，许多东谈主对它失去了信心。不外，跟着 o1 的出现，咱们看到了 DRL 在与其他元素结合时仍然具有强劲的后劲。

　　Sonya Huang：

　　我认为许多 DRL 的斥逐是在相对明确的设定下产生的。游戏中的 o1 是初度在更庸碌的、无界环境中使用 DRL 的案例之一吗？这样剖析对吗？

　　Noam Brown：

　　是的，我认为这是一个很好的不雅点。许多 DRL 的亮点斥逐确乎相配酷，但它们的适用范围也相配褊狭。诚然咱们确乎看到了一些格外有用且通用的 DRL 斥逐，但莫得什么可以与 GPT-4 的影响力比较。因此，我认为在新的范式下， DRL 翌日将达到雷同的影响力水平。

　　Sonya Huang：

　　我还铭刻 AlphaGo 的比赛斥逐，尤其是在一些锦标赛中的第 37 手，阿谁动作顾忌了总共东谈主。

　　你在 o1 的筹商中是否见到过雷同的时刻，模子给出了一个让总共东谈主有时的谜底，但试验上是对的，致使比东谈主类的想法更好？你们是否有过那样的时刻，如故认为可能要比及 o2 或 o3 ？

　　Hunter Lightman：

　　我想起了一个例子，咱们在为IOI（海外信息学奥林匹克竞赛）作念准备时，把模子参加到料理问题的过程中。有一个问题， o1 持意要用一种奇怪的步调去料理，具体细节我不太了了，我的共事们，他们更擅长竞赛编程，试图弄了了为什么模子会这样作念。

　　我认为这并不是“天才之作”的那种时刻，而是模子不知谈正确的料理步调，于是反复尝试，直到找到另一个料理决议。它确乎料理了问题，只是用了一个看起来很奇怪的步调。我铭刻这是一个道理的例子，在编程竞赛的斥逐中，模子确乎以一种不同于东谈主类的方式想考问题。

　　Ilge Akkaya：

　　我看到模子料理了一些几何问题，它的想考方式让我感到很骇怪。比如，你让模子计较一个球体上的点，然后接头某个事件发生的概率，模子会说：“让咱们先来想象这个场景，甩掉这些点，然后从这个角度想考。”

　　这种用谈话进行可视化的方式真的让我吃惊，就像我作为东谈主类会作念的那样，而看到 o1 也能作念到这小数，真的让我感到有时。

　　Sonya Huang：

　　相配道理。这不仅是东谈主类可以剖析的，还能扩张咱们对问题的想考方式，而不单是是某种难以剖析的机器谈话。这真的相配勾引东谈主。

　　Hunter Lightman：

　　是的，我确乎认为 o1 的斥逐中最酷的小数是，它的想维链是可以被东谈主类解释的，这使咱们能够剖析模子的想维过程。

　　Pat Grady：

　　在筹商过程中有莫得出现那种“啊哈”的时刻？Hunter，你提到一启动你并不确信这个地方会告捷，有莫得某个时刻让你蓦地意志到：“天啊，这个地方真的灵验！”

　　Hunter Lightman：

　　我在 OpenAI 还是使命了约莫两年半的时刻，大部分时刻都在尽力让模子更好地料理数学问题。咱们为此作念了许多使命，构建了各式定制系统。

　　在 o1 的筹商过程中，有一次咱们熟悉了一个新模子，应用了一些建筑和修改，斥逐它在数学评估中的得分比咱们之前总共的尝试都高，致使高出了咱们瞎想的定制系统。

　　咱们检察了想维链的变化，发现它们弘扬出了不同的特征。特地是当模子犯错时，它会说：“等等，这阔别，我需要退一步，再行找出正确的地方。”咱们称这种活动为“回退”（backtracking）。

　　我还是恭候很万古刻想看到模子能够回退的例子，当我看到这个得分和想维链时，我意志到这真的有后劲，我需要更新我的主意。这就是我信心设立的时刻。

　　Noam Brown：

　　我认为对我来说亦然雷同的故事。或者是在归并时刻，我加入时的想法是，像Chat GPT这样的模子并莫得信得过“想考”才作出复兴，它的反映相配快速。

　　而在 AI 领域的游戏中，能够花更多时刻想考可以取得更好的斥逐。是以我一直在想考，如何将这小数引入到谈话模子中。

　　这听起来轻便，但试验上如何达成是个挑战。咱们运筹帷幄了许多如何让模子领有反想智力，如安在犯错时回退或尝试不同的步调。

　　最终，咱们决定尝试一个基本的决议，就是让 AI 想考更万古刻。斥逐咱们发现，一朝 AI 能有更多的想考时刻，它险些是自愿地发展出这些智力，包括回退和自我修正。

　　这些都是咱们想让模子达成的，而面前通过这样一个轻便且可扩张的方式就达成了。

　　Noam Brown：

　　这对我来说是一个错误时刻，那时我意志到咱们可以进一步推动这个地方，而且地方相配明确。

　　Hunter Lightman：

　　我一直在剖析 Noam 对“推理计较”（conviction compute）的信心有多强劲。我铭刻他刚加入时，咱们的许多一双一双话都围绕着测试时计较的力量伸开。

　　在面孔进行的多个阶段， Noam 都会说：“为什么不让模子想考更万古刻？”然后咱们就这样作念了，斥逐模子弘扬得更好。他看着咱们时的情态有点可笑，仿佛在说：“为什么咱们之前没这样作念？”

　　Sonya Huang：

　　咱们在你们的邮件中凝视到， o1 在 STEM 领域弘扬得相配好，光显优于你们之前的模子。对此有莫得一个大致的解释？为什么会这样？

　　Noam Brown：

　　我之前提到过，有些任务，比如推理任务，考证一个谜底比生成一个谜底要容易。STEM领域的问题往往属于难以推理的问题类型。是以这就是咱们看到 o1 在STEM学科弘扬更好的一个伏击原因。

　　Sonya Huang：

　　明白。我想补充一个问题，咱们在你们发布的筹商论文中看到， o1 通过了你们的筹商工程师口试，而且通过率格外高。对此你若何看？这是否意味着翌日 OpenAI 会雇佣 o1 来代替东谈主类工程师？

　　Hunter Lightman：

　　我认为咱们还莫得达到阿谁水平。我认为还有更多使命要作念。

　　Sonya Huang：

　　不外要达到 100% 如故很难的，对吧？

　　Hunter Lightman：

　　也许咱们需要更好的口试步调。但至少在我看来， o1 还是比之前的模子更像一个编程伙伴。我认为它还是在咱们的代码库中提交了几次代码变更。

　　从某种意旨上讲，它确乎像一个软件工程师，因为软件工程亦然一个受益于万古刻推理的STEM领域。

　　我认为现时模子在进行推理时只想考了几分钟，但要是咱们连续扩张这个趋势，让 o1 想考更万古刻，它可能会完成更多雷同的任务。

　　Noam Brown：

　　你可以知谈咱们达成了 AGI 的那一天就是当咱们下架总共招聘信息，而公司情状要么相配好，要么相配差的时候。

　　Sonya Huang：

　　你认为要让 o1 在东谈主文体科上弘扬出色需要作念些什么？你认为推理、逻辑和STEM领域的上风会跟着推理时刻的扩张天然延迟到东谈主文体科吗？如故说会有其他身分？

　　Noam Brown：

　　如你所说，咱们发布了模子，也很好奇它擅长什么、不擅长什么，用户会用它来作念什么。我认为模子的原始智能和它在试验任务中的有用性之间仍然存在差距。

　　在某些方面它相配有用，但在更多方面它可以更有用。我认为咱们还有许多迭代的空间，来解锁这种更庸碌的通用性。

　　Pat Grady：

　　那么我很好奇， OpenAI 里面有没相对于模子智力与试验应用需求之间差距的玄学？你们是否有一个明确的想考过程来决定哪些使命应该由模子完成，哪些使命应留给围绕API的生态系统来料理？

　　Noam Brown：

　　在我加入之前，我就外传 OpenAI 相配专注于 AGI ，而我其时对这小数还有些怀疑。基本上，我刚启动使命的第一天，公司召开了一次全员会议，Sam站在巨匠面前，明确暗意 AGI 是咱们的首要缱绻。

　　因此，最明确的谜底就是 AGI 是咱们的终极缱绻，莫得某个单一的应用是咱们的优先事项，除了是否能够使用 AGI 。

　　Pat Grady：

　　你们对 AGI 有明确的界说吗？

　　Noam Brown：

　　每个东谈主都有我方的界说，对吧？这亦然为什么这个问题很道理。

　　Hunter Lightman：

　　我不知谈我是否有一个明确的界说。我只是认为这可能与 AI 系统能够完成的经济上有价值的使命比例联系。

　　我认为在翌日几年内，这个比例会赶紧飞腾。我不细则具体会如何发展，但这可能是那种“当你感受到时你就知谈”的情况。

　　咱们可能会摆布调整圭臬，直到有一天咱们与这些 AI 共事一皆使命，而它们完成了咱们面前作念的许多使命，而咱们则在作念不同的使命。通盘使命生态系统都会发生变化。

　　Pat Grady：

　　你的一位共事曾很好地抒发了推理在通往 AGI 的过程中伏击性。他的草率是：任何使命都可能碰到壅塞，而匡助你克服这些壅塞的恰是你的推明智力。

　　我认为这是一个可以的相接，说明了推理为何伏击以及与 AGI 缱绻的关系。你们认为这是剖析推理为何伏击的最好方式吗？如故有其他的框架可以匡助咱们剖析推理？

　　Hunter Lightman：

　　我认为这是一个有待阐述的问题。因为在斥地这些 AI 系统和模子的过程中，咱们看到了它们的各式弘扬和不及。

　　咱们在斥地、评估这些系统时学到了许多新东西，并试图了解它们的智力。举例，一些猜度的事情是计策筹备、头脑风暴等。

　　Pat Grady：

　　要是要让 AI 像优秀的居品司理一样好，它需要多数的创意和对用户需求的知悉。这算是推理吗？如故说这是一种与推理不同的创造力，需要以不同的方式处理？

　　当你启动将这些研究转移为活动时，你还需要进行计策筹备，琢磨如何推动组织达成缱绻，这算是推理吗？

　　Hunter Lightman：

　　也许部分是推理，但也许部分是其他东西。最终，咱们可能会认为这些都是推理，或者咱们会发明一个新词，刻画需要遴荐的新格式。

　　Ilge Akkaya：

　　我不细则咱们能将这个推理问题股东到什么进程。每当我想考这个庸碌的推理问题时，数学领域的例子老是很有匡助。

　　咱们花了许多时刻阅读模子在解数学问题时的想维过程。你能看到，当它碰到壅塞时，它会退且归，尝试另一个步调。

　　这种想维过程让我认为，也许它能践诺到数学除外的领域，这给了我一些但愿。诚然我不知谈最终谜底是什么，但但愿如斯吧。

　　Hunter Lightman：

　　让我感到困惑的是， o1 还是在数学上比我更蛮横了，但它在软件工程上却不如我。是以这里存在某种不匹配。

　　Pat Grady：

　　看来还有许多使命要作念。

　　Hunter Lightman：

　　是的，还有一些事情要作念。要是我的通盘使命只是解Amy问题和参加高中数学竞赛，我可能早就休闲了。但面前我仍然有使命可作念。

　　Pat Grady：

　　既然你提到了“想维链”，即不雅察背后的推理过程。我有个问题，也许你们无法回答，但就当是道理的运筹帷幄吧。

　　在你们发布 o1 的博客中，你们解释了为什么要掩饰“想维链”，并说部分原因是出于竞争琢磨。我好奇，这是否是一个有争议的决定？因为我可以想象，这种决定很有逻辑，但也可以想象你们可能弃取公开它。能否谈谈这是一个有争议的决定吗？

　　Noam Brown：

　　我不认为这是有争议的。与不共享前沿模子的权重出于雷同的原因，共享模子的想维过程也存在许多风险。我认为这是一个雷同的决策。

　　Sonya Huang：

　　能弗成给新手解释一下，什么是“想维链”？可以举个例子吗？

　　Ilge Akkaya：

　　举例，要是有东谈主问你料理一个积分问题，大多数东谈主会需要一张纸和一支笔，然后一步步推导出从复杂方程到最终谜底的过程。

　　这个过程可能会得到一个谜底，比如1，但如何得出这个谜底？这就是数学领域中的“想维链”。

　　Sonya Huang：

　　让咱们谈谈翌日的旅途，推理时刻的扩张定律。在你们发布的筹商中，这是我认为最伏击的图表。这似乎是一个具有潜入意旨的斥逐，雷同于预熟悉中的扩张定律。你快乐这种主意吗？这对领域的影响会是什么？

　　Noam Brown：

　　我认为它确乎具有潜入意旨。在咱们准备发布 o1 时，我一直在想东谈主们是否会结实到它的伏击性。诚然咱们提到了这小数，但这是个比较神秘的点。

　　我真的很骇怪和谢意，看到这样多东谈主持解了这小数的意旨。一直以来，东谈主们对 AI 可能碰到瓶颈或停滞的担忧许多，尤其是预熟悉变得越来越腾贵，还相对于是否有实够数据的问题。

　　o1 ，特地是 o1 Preview，传达的主要信息并不是它今天的智力，而是它对翌日的意旨。咱们能够在扩张中发现一个迄今未被充分斥地的维度，我认为这是一个紧要冲突，这意味着天花板比许多东谈主想象的要高得多。

　　Sonya Huang：

　　要是让模子想考数小时、数月致使数年，会发生什么？

　　Hunter Lightman：

　　咱们还莫得让 o1 运行那么久，是以还不知谈。

　　Pat Grady：

　　面前有个后台任务在运行吗？可能正在想考如何料理全国和平问题。

　　Hunter Lightman：

　　有一个雷同的故事叫《终末的问题》，讲的是一个巨大的计较机 AI 被问到如何逆转熵，它回答：“我需要更长的时刻想考。”

　　故事接着证明了，10年后，它还在想考，100 年后，1000 年后，致使一万年后，它还在想考。

　　Ilge Akkaya：

　　“面前还莫得实足的信息来提供挑升旨的谜底。”雷同于这样。

　　Sonya Huang：

　　你对翌日有计算吗？你觉恰当模子的推理时刻越来越长，它的智商极限会达到什么进程？面前我看到的呈文是，它的智商约莫是 120，那它会无尽提高吗？

　　Hunter Lightman：

　　一个伏击的点是，120智商只是某个测试中的分数，并不虞味着它在总共领域都有120的推明智力。

　　试验上，咱们也谈到，它在某些方面的弘扬不如 40 分，比如在创造性写稿等方面。是以，推测这个模子的智力是很复杂的。

　　Noam Brown：

　　这是一个伏击的点。咱们驳倒这些基准测试时，强调了GPQA，这是一个博士生会碰到的问题聚合，常常由博士生来解答，但 AI 面前在这个基准测试中高出了许多博士生。

　　这并不虞味着它在总共方面都比博士生贤人。博士生和东谈主类能够作念许多 AI 无法作念到的事情。是以咱们在看这些测试斥逐时，应该剖析它只是测量了某些特定的智力，常常是东谈主类智商的代理，但对 AI 来说，意旨有所不同。

　　Hunter Lightman：

　　也许可以这样说，我但愿看到的是，当咱们让模子在它还是擅长的领域想考更万古刻时，它会变得更好。

　　我的一个“推特时刻”是看到我以前的数学陶冶发推，他对 o1 印象深刻，因为他给了它一个之前从未被 AI 解过的讲明，而它居然完成了。

　　这让我嗅觉咱们正处于某个道理的转机点，模子有望成为一个有用的数学筹商器用。要是它能够匡助完成一些小的引理和讲明，那将是一个信得过的冲突。我但愿通过让它想考更万古刻，咱们能够在这方面取得更大的进展。

　　要瞻望它在现时不擅长的领域会如何弘扬，这对我来说很难。咱们如何让它在这些方面变得更好？翌日会如何发展？

　　然而咱们可以以它面前擅长的领域为基础，假定要是咱们让它在这些领域想考更久，它将成为数学筹商的好助手、软件工程的好襄理。这样咱们就可以启动瞻望翌日的发展地方。

　　Pat Grady：

　　对于扩张的瓶颈问题。对于预熟悉来说，很光显你需要多数的计较智力、多数的数据，这些都需要多数的资金。是以很容易剖析预熟悉在扩张方面的瓶颈。那么，推理时刻的扩张会有什么适度呢？

　　Noam Brown：

　　当 GPT-2和 GPT-3 发布时，很光显惟有参加更多的数据和GPU，它们的性能就会权贵晋升。

　　但即便如斯，从 GPT-2到 GPT-3 再到 GPT-4 之间如故花了好几年的时刻。这不单是是一个轻便的想法，还有许多使命要作念，才能把它扩张到一个相配大的规模。

　　我认为这里也面对雷同的挑战，诚然这个想法很轻便，但要信得过扩张它，需要参增多数的使命。是以我认为这是挑战所在。

　　Hunter Lightman：

　　是的，我认为对于那些学术配景较强的筹商东谈主员来说，加入 OpenAI 后可能会发现令东谈主骇怪的事情之一是，许多问题最终并不是筹商问题，而是工程问题。

　　构建大规模系统、熟悉大规模系统，以及运行那些早已发明的算法，或者前所未有的系统，都口舌常难题的。这需要多数渊博的工程使命，才能让这些东西扩张起来。

　　Ilge Akkaya：

　　此外，咱们还需要知谈该在什么圭臬上测试模子。咱们确乎有圭臬的评估基准，但可能还有一些咱们尚未测试到的领域。是以咱们也在寻找这些领域，在这些地方咱们可以参加更多的计较资源，取得更好的测试斥逐。

　　Sonya Huang：

　　我一直很难剖析的是，当你给模子提供接近无尽的计较资源时，会发生什么。作为一个东谈主类，即等于 Terrence Tao 这样的大脑天才，也会受到生理适度。

　　而你可以无尽增加推理时刻的计较资源。这是否意味着，总共的数学定理最终都可以通过这种步调养出来？或者你认为会有某种极限？

　　Hunter Lightman：

　　无尽计较资源是很大的计较智力。

　　Sonya Huang：

　　接近无尽。

　　Hunter Lightman：

　　这让我想起了Asimov的故事，要是你让它想考一万年，也许能料理某些问题。但说真话，咱们还不知谈这种扩张对于料理信得过难的数学定理意味着什么。可能真的需要让它想考一千年，才能料理一些未解的中枢数学问题。

　　Noam Brown：

　　是的，我的酷好是，要是你让它想考实足长的时刻，表面上你可以把一切形状化，像Lean那样，把总共可能的讲明都遍历一遍，最终你会发现定理。

　　Hunter Lightman：

　　咱们还是有算法可以料理任何数学问题，也许这就是你要说的。

　　Noam Brown：

　　是的，惟有有无尽的时刻，你可以作念许多事情。天然，跟着时刻的延长，答复会缓缓递减，但果真可以取得一些进展。

　　Sonya Huang：

　　相配公谈。你认为对于 o1 最大的诬陷是什么？

　　Noam Brown：

　　我认为一个大诬陷是，当面孔称呼“草莓”（strawberry）知道时，东谈主们以为这是因为相聚直爽传的一个问题：“草莓有若干小时？”其实并不是这样。

　　当咱们看到这个问题时，咱们还很挂牵是不是有里面信息知道。但据咱们所知，这只是个巧合，咱们的面孔名字巧合叫“草莓”，而阿谁问题也恰好流行起来了。

　　Hunter Lightman：

　　据我所知，之是以叫“草莓”，只是因为其时有东谈主需要想个代号，而屋里有个东谈主正好在吃一盒草莓，事情就这样定了。

　　Pat Grady：

　　比较之下，这个名字比“休斯顿”要更容易让东谈主逸想。

　　Noam Brown：

　　我认为我对它被剖析得这样好感到印象深刻。咱们在发布时确乎不细则巨匠会若何收受。里面有过很大的争论：东谈主们会不会失望，因为它并弗成在总共方面都更好？如故他们会对它惊东谈主的数学弘扬感到印象深刻？

　　咱们信得过想传达的并不是这个模子面前的智力，而是它翌日的发展地方。我不细则巨匠是否能剖析这小数，但似乎许多东谈主确乎意会了，是以我对此相配荒疏。

　　Sonya Huang：

　　对于 o1 ，你认为有莫得什么月旦是合理的？

　　Hunter Lightman：

　　毫无疑问，它并弗成在总共方面弘扬得更好。它是一个有点乖癖的模子，许多东谈主在互联网上发现了不同的领导方式来更好地使用它。

　　仍然有许多潦草的边际案例，我很期待看到生态系统如何基于咱们的平台斥地出更智能的居品和应用。

　　Hunter Lightman：

　　我认为咱们还处于相配早期的阶段。有点像一年前东谈主们启动信得过搞了了如何使用 GPT-4 偏激谈话模子法式，进而使得软件工程器用变得更智能。我但愿咱们会看到雷同的进展，东谈主们会基于 o1 进行立异。

　　Pat Grady：

　　说到这小数，有一件咱们还没运筹帷幄的事情，就是 o1 Mini。我听到许多东谈主对 o1 Mini相配欣喜，因为巨匠广博对小模子感意思。

　　要是你能够保留推明智力并索求部分全国常识，那么这是一件相配可以的事情。我很好奇，你们对 o1 Mini和它代表的地方有多欣喜？

　　Ilge Akkaya：

　　这个模子相配令东谈主欣喜。对咱们筹商东谈主员来说，要是模子运行得快，它的用途就更庸碌。是以咱们也很可爱它。它们有不同的用途。

　　咱们很欢快有一个更低廉、更快的版块，还有一个更重、更慢的版块。它们在不同的场景中都相配有用。是以，咱们对取得的这种均衡感到相配欣喜。

　　Hunter Lightman：

　　我可爱这种表述，这强调了进展的伏击性。o1 Mini让咱们能够更快地迭代，但愿对宽敞的用户生态系统来说，它也能让他们更快地迭代。是以它至少在这小数上口舌常有用且令东谈主欣喜的产物。

　　Sonya Huang：

　　对于那些在 AI 领域创业的独创东谈主们来说，他们应该如何琢磨何时使用 GPT-4 ，何时使用 o1 ？是否需要他们从事 STEM、编程、数学联系的使命才能使用 o1 ？他们应该若何想考这个问题？

　　Hunter Lightman：

　　我但愿他们能帮咱们找到谜底。

　　Noam Brown：

　　咱们发布 o1 Preview的动机之一是想望望东谈主们最终会用它作念什么，若何使用它。事实上，咱们还运筹帷幄过是否值得发布 o1 Preview。

　　但最终发布的原因之一就是为了让巨匠尽早搏斗到它，望望它在什么场景下最有用，在哪些场景下不太恰当，以及如何转变它以得意用户的需求。

　　Sonya Huang：

　　你认为东谈主们面前最容易低估 o1 的是什么？

　　Hunter Lightman：

　　我认为这讲明了咱们给模子定名的智力有所晋升，至少咱们没叫它“ GPT-4 ．5 想维模式”。

　　Sonya Huang：

　　不外，我认为“草莓”这个名字挺可儿的。

　　Pat Grady：

　　我认为“想维模式”也挺挑升想。你们对 o2 或 o3 最欣喜的是什么？

　　Ilge Akkaya：

　　咱们还莫得达到没想法的地步，是以我很期待接下来的进展。咱们会连续筹商，最期待的是取得反馈。作为筹商东谈主员，咱们浮现在我方擅长的领域有一定的偏见，但通过居品的使用，咱们将收到来自各个不同领域的反馈。也许咱们会发现一些超出咱们想象的领域值得深入股东。

海量资讯、精确解读，尽在新浪财经APP

包袱剪辑：刘亮堂真人

下一篇：真人尽在新浪财经APP 包袱裁剪：卢昱君 -九游娱乐(中国)官方网站-登录入口

上一篇：真人巨匠2Q24智高手机出货量2.85亿台-九游娱乐(中国)官方网站-登录入口