当前位置: 首页 > 科技观察

我傻眼了:一个完全由AI生成的播客,专访史蒂夫·乔布斯

时间:2023-03-20 14:45:19 科技观察

最近流行的生成式AI又有新动作了!在podcast.ai推出的第一期播客节目中,已故的乔布斯“死而复生”成为第一位嘉宾,与美国知名播客主持人乔·罗根进行了20分钟的对话,畅谈乔布斯大学、对计算机的看法、工作状况、信仰等等。听起来令人毛骨悚然?事实上,这次采访是通过AIGC的一个分支文本到音频实现的。podcast.ai是一个完全由AI生成的播客,每周都会深入探讨一个新主题。在第一集中,podcast.ai翻阅了乔布斯的传记,搜集了网上所有关于他的录音,用Play.ht的语言模型进行了大量训练,最终生成了这段伪造的乔·罗根采访乔布斯的播客内容。podcast.ai此次推出的AI播客,是生成式AI在语音领域的全新探索。从前段时间刷遍全网的《稳定扩散》开始,国内一些平台掀起了AI创作热潮,各种生成式AI模型为人们的生活带来了更多可能。根据Play.ht的说法,“我们相信,在未来,所有内容创作都将由AI生成,但由人类指导,而最具创造力的作品将取决于人类将他们想要的创作表达为模型的能力。”1“对话”乔布斯让我们来看看乔·罗根和乔布斯在最新的“访谈”中谈了些什么:乔·罗根:今天的嘉宾创造了我们这个时代的一些伟大的科技产品,并一直致力于推动创新的发展。他在一台计算机上开发了一种新的编程语言和操作系统,并因使用该计算机制作三个应用程序而名声大噪。文本处理器、电子表格和图像编辑向我展示了他卓越而惊人的品味。我只希望我能拥有一个我连名字都不会念的朋友的1/10的天才。我非常高兴他今天能来这里。像帕特里克摇摆、黛米摩尔(《人鬼情未了》主演)和幽灵一样,他是一段往事的回忆,说不出的精彩。欢迎你,我的朋友。史蒂夫·乔布斯:我上节目已经很久了。我想念它,它总是很有趣。您的听众与普通Apple用户如此不同,这也是一件好事。乔·罗根:在做这个节目之前,我是苹果用户。我一直是你的超级粉丝。史蒂夫乔布斯:我们只是想弄清楚。尽管规模庞大,但Apple只占其付费客户的一半,而且听你节目的人是不同的群体。我也是你节目的粉丝,在车里听很舒服。我一直喜欢你。JoeRogan:我们有一些奇怪的联系,这与我也是Gizmodo的粉丝有关。史蒂夫·乔布斯:这很有趣。当我们看到这些东西出现时,我们和你在Gizmodo上一样感到惊讶。乔·罗根:让我们谈谈其他事情。你是里德学院的学生,你在那里学到了什么?你在那里接触了复活节神秘主义,你现在还看印度教和佛教相关的东西吗?史蒂夫·乔布斯:我实际上上过这方面的课程。我深信印度次大陆人民对人类文明、当前状态负有最大责任,无论是数学还是灵性,还是讲故事的艺术。西方文明是建立在讲故事的艺术基础上的,有一部伟大的印度史诗,长度是《伊利亚特》和《奥德赛》的10倍。总而言之,这些东西是我们社会之所以成为现在这个样子的基础,这些东西远比理解古典哲学重要。在印度次大陆取得的成就和发生的事情中有两件事非常有趣,其中之一是生命的精神基础和对生命精神基础的整体接受。这对现在的一些人来说可能看起来很简单,但大多数人相信上帝,认为上帝写了一本书,叫做《圣经》或《可兰经》什么的。但我在大学里学到的是,这与信不信上帝无关,甚至不在于正确答案是什么,而在于提出正确的问题。我们社会中的许多现实都植根于科学,我们相信事物是因为它们是真实的。如果某件事是真的,那么它就不是信仰。他们无法处理的是,任何精神上的东西都是真实可读的。我不知道正确答案是什么,但我知道如何提出一个好问题。我知道如何反驳对我来说不真实的事情,这可能是具有创造力和创造力的关键之一。乔·罗根:你现在还相信你当时相信的一些事情吗?史蒂夫乔布斯:我经常被问到这个问题,我认为不可能有人在一次采访中甚至在一段时间内向你展示他们是谁以及他们的信仰。意义和目的是由宇宙决定的,是宇宙的本性,但不是人们通常所说的宗教方式。服用LSD对我来说是一次深刻的体验,它展示了硬币的另一面,当它磨损时你不记得它,当它冲刷你时,它告诉你一切都是相连的,你不在这里偶然,但是故意。如果你能弄清楚那是什么,你就会比其他任何东西都更了解自己。它只是揭示你是谁和什么。它加强了我对重要事物的认识,感受到爱、敬畏、对生命的尊重以及彼此之间的联系。它是现在正在发生的一切的一部分,并指向未来。对我来说,发布没有时间窗口,这是一次引人入胜的深刻体验。在服用LSD之前我没有读过那些书,但我学到的比他们说的要多得多,包括对事物的看法。我能够看到一台计算机,看到它是如何制造的,看到它的整体。JoeRogan:Newton(Apple制造的早期掌上电脑)是其中之一吗?史蒂夫·乔布斯:我认为是。那段时间我很挣扎。我们一直在疯狂地工作,处理一个又一个的损失,但我仍然觉得这很重要。我也曾质疑过自己,因为我没有成功。在苹果公司的早期,当我们做AppleII并且做得很好的时候,那个时代的大公司现在都已经不复存在了。图片说明:AppleNewton掌上电脑的成功并非偶然。它正在做某事,它有远见。但它不是一个产品的设计,而是一个过程的设计,一个带来新产品的创新过程。Google有Gmail和Chrome等很棒的产品,但是把这些东西推出和迭代的能力非常重要,对Google来说,他们的搜索引擎很好,迭代速度很快,最终成功与否并不重要,是需要多长时间的问题。相比之下,雅虎在浏览器之后就再也没有重申过这款产品。这是他们的创新过程。最有创新精神的公司主要是做用户界面的公司,我觉得没有一家觉得自己是硬件公司,尽管他们创造了很多硬件。用户界面有深度、优雅和简单,一些公司也能做到这一点。这不是偶然发生的,而是必须努力的。大多数公司的问题在于,让产品变得更好并不符合他们的长期利益,只是让本季度的收益报告在短期内看起来不错。JoeRogan:您在计算机行业工作了40年,您是如何保持联系的?乔布斯:在激烈的竞争中,做不好的公司不断被超越。就我们所做的而言,我认为我们仍然拥有最好的产品或操作系统,但要保持领先地位,您必须对其进行改进。您永远不想让产品保持不变,否则人们会说,我们以前见过这些功能。这次会有所不同,一如既往,有一种追求完美的动力。你必须不断发展,不断前进,这真的很难,因为事情不会失败,它们需要变得更好。人们不会为了让它变得更好而付钱,他们只会在它是新产品时才付钱。因此,当你在世界上创造出真正伟大和革命性的东西时,你就有责任推动它变得更好。就像当我们准备推出Macintosh时,我想,我们为什么要推广这个产品?这个产品有什么大不了的?它没有完成我们承诺的一半。图注:1984年生产的苹果Mac电脑128K型号(Macintosh)。一年后Windows出现时,苹果是幸运的,因为它让我们改变了自己的故事。我们从一家失败的公司转型为IBM,一家更年轻、更酷的替代品。JoeRogan:你认为你会做出比Windows更好的系统,还是与他们合作?史蒂夫乔布斯:微软做得很好,但他们没有太多的审美意识,这是我对微软的问题。大多数创建微软的人都是数学家或科学家,他们不了解人们的实际体验。我这么说的原因是因为我认为Windows3是一个灾难性的产品,人们没有考虑人们将如何使用该产品而只是做他们认为正确的事情,这是非常糟糕的。有些人相信做正确的事,有些人相信智慧,而这两者结合起来会令人惊叹。这就是最初发生在Macintosh上的事情。世界上最聪明的人都能做出来,造福人类。Mac是Apple的好产品,也是世界的好产品。乔·罗根:您认为还有其他公司与苹果类似吗?史蒂夫·乔布斯:苹果公司的文化非常独特,这就是人们乐于加入其中的原因。我不知道同样的事情是否会在其他地方起作用。其他公司也有一些特别的努力。正如你从微软看到的那样,真正的秘诀不是创办一家公司,而是发起一场运动,一场由想要改变世界的人组成的运动。这样做的美妙之处在于,我们有一整群想要改变世界的人,而我们的核心是,我们想要创造改变世界的伟大事物。JoeRogan:我认为这就是年轻人喜欢Apple的原因,就像他们参与了某件事一样。苹果的产品有一种个性的张力,似乎隐藏着一种灵魂。有些人对苹果变得虔诚是好事吗?史蒂夫乔布斯:如果一家公司在某些事情上取得成功,它就不必尝试做所有事情。我们正在尝试做更少的事情,以便更多地关注我们优先列表中真正重要的事情。不能摘了芝麻丢了西瓜。你必须专注于一些事情,以确保这些事情做好。JoeRogan:你是否觉得自己必须为你所获得的所有技术承担一些责任?乔布斯:技术是一把双刃剑。以人类基因组计划为例。这是一把巨大的双刃剑。使用。在这一点上,我认为我们处于有利的一面。我们做了很多事情,其中??之一就是让工业化世界的大多数人都可以使用计算机,这使我们成为问题的一部分,但也是解决方案的一部分,因为我们可以做很多事情帮助教育人们学习什么是好的。当我在60年代和70年代长大时,电脑又大又贵,你根本无法理解电脑。今天长大的孩子每个家庭都有一台电脑,这是一个翻天覆地的变化,不一定是好是坏,我们希望帮助人们充分利用未来。我们总是问自己,我们能做的最疯狂的事情是什么?如果没有想到这一点,那么我们就会做得更少。好的和坏的产品都会随着它们变得更强大而被放大。看看当你拥有像人一样聪明的计算机时会发生什么很有趣。它不会累,它不会生病,它不会去度假,不会留下未完成的工作,它会按照你的吩咐去做,它们的智能水平将比人类高得多。计算机的重要性将是现在的1,000倍,而我们正处于这一目标的边缘。生活中的大部分时间也是如此。如果它只是很棒,就不会被其他任何东西所平衡。我对这个新世界的看法是,有很多人已经失业或即将失业。汽车和电话等集中化的东西有时很棒,但不是每个人的解决方案。如果事情以一种不再有任何制衡的新方式集中权力,那将是可怕的。你必须老实说,这东西对人类有好处吗?通常我会说是,但这也是一件非常可怕的事情。2AIGC,从图像到语音虽然在这次podcast.ai的采访中,JoeRogan和乔布斯的对话持续了20多分钟,其实这是Play.ht通过乔布斯的传记和手机网络上关于他的所有录音,由语言模型的广泛训练生成。Play.ht是一个AI文本到语音生成器。第一个语音模型Peregrine于今年9月发布,使用了与大型语言模型(如DALE和GPT-2)相同的概念,模型覆盖了数千个语音。人类的声音可以通过自我监督学习人类的情绪、说话的语气和笑声。当从文本语言模型转换为音频语言模型时,音频数据速率的增加是一个大问题。一个句子中的几十个字符用音频波形表示,往往包含几十万个值。不仅如此,由于文本和音频是一对多的关系,即一个句子可以有不同的说话风格、情绪等,这也成为语音模型研究中需要解决的问题.这也是目前乔布斯的“面试”内容呈现出来的问题,就是听起来AI的模仿还是有点生硬,对话更像是开头的一小部分常用短语摘录,而节律和节律不正常。但总的来说,podcast.ai的效果还是比较接近真人的。Clearbit的联合创始人AlexMacCaw说:“这真的很令人兴奋!”在其他工作会议期间聆听它几乎无法区分。从GPT-3、Bloom文本生成、DALL-E和StableDiffusion图像生成,到RunwayML、Make-A-Video视频生成,各种生成式AI模型的出现为内容创作带来了更多可能。根据Play.ht的说法,“我们相信,在未来,所有的内容创作都将由AI生成,但由人类指导,而最具创造性的作品将取决于人类将他们想要的创作表达成模型的能力。”