一眼得结论:
(激光鼠标)
这都 2024 年年底了,随着各路介绍(推销?) AI 的人,说 AGI 就快接近了: 10 年以内、 5 年以内、 3 年以内……乃至明年……
于是我倒要看看, 2024 年年底这个时间点 ,ChatGPT 能不能画出靠谱的设备原理图。想必,这些很标准的设备,在互联网上肯定有大量现成的、准确且标准的素材可以被用于学习。
最近看到一条新闻,是 Linus Torvalds 接受媒体 TFIR 采访,提到他认为现在科技市场上有关 AI 的内容, 10% 是真的,而剩下 9 成是炒作。不过在视频中,在说出这个 1 比 9 的话题之前他也提到:他相信 AI 真的很有趣,也相信 AI 确实会改变世界。但同时他也讨厌科技界市场的炒作周期(比如以前是比特币……等等)。而在此后,他也提到了另一个数字:他认为在 5 之内,情况会发生变化,到时候人就就会知道,到底哪些 AI 能进入人们的日常生活中,而哪些则只是例如现在 ChatGPT 又推出了某某功能那样的炒作。
哦,有趣。那么,针对他提到的这个 10% 是真正有价值的东西(其他都是炒作),那么我来问问 AI ,看看 AI 对于这 10% 的内容给出则样的理解和回答。
我的提问是:
1、你如何理解和评价 Linus Torvalds 的这番话?
2、你认为 Linus Torvalds 所说的 10% 真的、有价值的部分,可能是指哪些应用、功能?
3、你认为整个 Linux 生态和开源生态在从今往后的 AI 特别是生成式 AI 发展过程中能起到哪些作用?
前几个月, ChatGPT 增加了记忆功能,在对话中,能明确看到它自动记下了与我有关的信息(比如我的兴趣爱好、我最近买了什么、我最近遇到了什么事)。我自己也会有意识地去检查并适当删除记忆内容。其操作方法是:网页版【设置】——【个性化】——【记忆】下的【管理】按钮。此外,之后的对话中,我有时也会提示 ChatGPT 不要对我提到的某个内容进行记忆。
当然渐渐地, ChatGPT 对我的记忆就增多了,也就是说,它逐渐开始了解我这个人了。刚好前几天在 Reddit 的 r/ChatGPT 板块看到一个帖子,是发帖者提议用户们让自己的 ChatGPT 为用户自己画一幅肖像图的。于是我也试了一下,便生成了这张图:
据说 AGI (通用人工智能)是一个会像一个普通人一样自我学习、自我解决问题的程序。而孙正义预言 2 、 3 年内 AGI 就会出现(虽然看起来夸张成分比较大)但我想了想,其实我感觉现在的问题还是在于「落地」的接口问题。
我想象了一下,比如届时等到 AGI 出现时,我可以和现在包月 ChatGPT Plus 会员一样的价格得到一个 AGI 助手。那么拿我最近在考虑的事举例吧——我最近又有点动心思,在考虑买迷你电脑。好,即便 AGI 可以帮我浏览网页比较电脑配置信息,但是,电脑买回来之后还有一部比较耗费时间的操作——安装操作系统——我也想交给 AI 来操作。于是就来了:谁找出我的 U 盘、插入电脑并按下 F2 或者别的键选择启动界面?谁刻录光盘?谁按下光驱上的那个弹出按钮?感觉这些事情都还是要我来做。即便在这个事例中,或许 AGI 可以用远程的方式来进行对于磁盘分区指令的操作。
再有一个网上购物,即便 AGI 可以帮我注册、下单,但是最终付钱——比如在日本,有一些场景我不想填写支付信息,我就会选择去便利店支付——还是要我这个人去操作。我得穿衣、拿出现金、下楼,走向便利店、向店员出示付款项目,然后再逆操作一遍。
由此想来,只要系统之间的「 API 」,或是数字世界和物理世界之间的那个「接口」还没有搭建起来,那么即便是 AGI 被开发出来后,在很大程度上, AI 能帮助人类做的还是那些数字世界做的事,或者说在单个程序内可以完结的事——就像目前 ChatGPT Plus 会员的功能仅在一个网页界面内完结。而剩余的那些身体劳动、作用于物理世界的大部分操作,还是要由人类来执行。换句话说, AI 画画作曲填词,人类刷碗拖地,这一情景将会延续到各种应用场景。
那么,具身智能快来吧!
去年上半年 AI 作画(主要是 Stable Diffusion Webui )刚刚走入大众视野,同时也是刚引发我的兴趣时,我独自发起过一个《百度贴吧NovelAI吧txt2img七题挑战赛》但基本上没有收到什么回答。
于是,现在我就来自问自答一下,看看现在用 ChatGPT 能做到什么程度,以及需要反复试几才能出现一张比较像样的作品。
这次自问自答的是:第二题 用用看旧设备
一共试了 2 张。打字机这张可谓马马虎虎。虽说仔细看的话,打字机的那个金属字母的部分(就是实际敲打在纸上的那一个个小金属片)有点凌乱,看上去不像有完整字母的样子。
另一张……铅笔绕磁带,嗯,看来这一题对于现在的 AI 来说,还有点太早,难度太高……我试了大概 7 、 8 张,没有成功表现笔杆穿过磁带孔洞的。
以前有个耳熟能详的故事:《达芬奇画蛋》。说是大画家达芬奇在童年时刚开始学习绘画时,老师让他什么都不要问,先画一万个鸡蛋。他画啊画地,就这样水平见长,成为了了一代绘画大师。
我不确定达芬奇画蛋的故事是不是真有其事,但现在仔细想起来这种学习指导思想可谓相当原始。如果当真「读书千遍其义自现」的话,那是不是一切的教育理论、教育家和教育实践都白搭了?更何况,这种「先画一万个鸡蛋」的学习方法,其有一个前提条件,这个前提条件如果未被确实证明,那么这个学习方法也就是无稽之谈。这个前提条件就是:人脑确实适合于在这样在反复练习中,进行观测,从中增长经验,并反馈、体现在下一次练习中。可是,有谁证实了人脑是具有这样观察-反馈的机制吗?如果被证实的话,有没有定量的分析呢?
诸如此类种种悬而未决的事项,在我看来,人脑未必就是适合这样反复练习并能从中有效提高技能的。
然而,峰回路转,现在来到了机器学习的时代。人脑不行,但机器或许行啊,因为机器可以被设计成这样,而机器学习大概就是被这么设计的。
这几天看到一条有关 Softbank (软银)的孙正义在一场演讲上预测了未来 AI 的发展的报道,他提到:2 ~3 年内 AGI (通用人工智能)就会出现,而 10 年内 ASI (超级人工智能,孙正义定义为 相当于 AGI 1万倍智能的人工智能)将会出现。
关于孙正义,我只知道他的一些有关马云还有雅虎,以及近几年收购 ARM 的佳话,却不清楚他这个人说话倾向,到底是习惯于站在扎实的数据基础上来预判呢,还是倾向于相当前瞻式的宣传鼓吹。特别是考虑到最近看到新闻说 Softbank 准备投资 OpenAI ,那么他的话里存在较大宣传成分的可能性就更大了一些。
我不清楚,但我可以问问 AI 呀!于是我问了问 ChatGPT 有关过去孙正义演讲的倾向以及后来是否被证实或落空。当然需要注意的是,目前的 ChatGPT 依然是基于大语言模型的,说到底是概率算法,而非验证事实。不过还是姑且做一个参考吧,总比我自己去调查和核实孙正义在过去几十年里做过的预言要省时省力。
我先问了有关 AGI 和 ASI ,在 IT 业界是否有什么普遍共识性的预测或者数据支持。 ChatGPT 回答说:
前几天的 ChatGPT 的 2024 年开发者大会上,宣布了一项面向开发者的图像识别微调功能。在其中举出的例子中,有一项是一家名为 Grab 的拼车公司使用该方法,改进了对于道路标志和车道分割线的识别能力。
看到这里,我想到了一个旁门左道:是不是可以经过图像识别微调,做一个能够看人的面相以及手相的算命 AI 呢?
其实在这个使用场景中,完全不必在乎目前生成式 AI 的一个明显缺点:幻觉。反倒是在算命领域,不仅不排斥幻觉,而且幻觉(说胡话的能力?)还是必须的。但是,在算命的第一步,必须要与用户建立起信任关系,也就是最初对于面相和手相的识别要准确——如果对于同样一张脸的照片,第一次回答是瓜子脸,第二次回答是鹅蛋脸;或者对于同样一张手相(手掌)的照片,第一次回答事业线长,第二次回答变成了生命线长,那就显得不可靠了。
而如果只要在物理外表上能够准确识别面相、手相的特征,那么之后的下一步——面相与手相所反应的命运,则可以通过读取一些固定的算命资料,加上被算命者的生辰八字啦等等,再加上 AI 特有的幻觉——你看,幻觉在这里成了一种积极因素了!对!此乃「人工智能天命」!——之后就能给出像模像样的算命结果了吧。所以,如果这次 OpenAI 所改善并提供的图像微调如果真能让 AI 能准确且稳定地识别脸型、手掌纹理的话,那或许就能真的做成一个算命 AI 。
听起来这有点不务正业,是不是?但……可以引导用户步入正业啊!可以在后台对接一些靠谱的服务提供者,比如正规的心理咨询啦,理财咨询啦,婚恋介绍啦,教育培训啦……等等等等!把用户对未来或对自身的不确定的担忧,用算命的方式作为能够轻松入门的一个通道,去将用户介绍给正规的、专业的咨询服务业者,这岂不是一件很光明正大且很有趣的事吗?
据说 OpenAI 在刚过去的 10 月 2 日开了场开发者大会,宣布了开放几个 API 。因为会议内容是真的面向开发者的,所以与我这样的普通用户似乎关系不大。不过呢,在会议结束后,有用户注意到即便是之前的 4o 模型,在回答之前也会有一个「正在分析」的过程提示(也有可能之前就有?),展开后是一系列 python 代码。甚至在我今天的使用例中,因为处理过程太长,它还连续进行了 2 次「正在分析」。
今天我看到 Reddit 上有个帖子,说 ChatGPT 可以生成各种各样的文件然后提供下载。我记得这个功能原本就有,而今天我尝试了 PDF 、 Markdown 格式的纯文本都说可以的。之后我又顺便问了句:还支持生成什么格式的文件?得到的回答是:
我可以输出多种文件格式,以下是一些常见的格式:
- 文本文件(.txt):简单的纯文本格式。
- PDF文件(.pdf):适用于排版精美的文档。
- CSV文件(.csv):用于表格数据的导出,常用于处理数据集或表单信息。
- JSON文件(.json):常用于存储和传输结构化数据,尤其在编程和API调用中。
- Markdown文件(.md):用于编写带格式的文本,常用于文档和博客平台。
- Excel文件(.xlsx):适用于复杂表格数据的存储和管理。
- HTML文件(.html):用于网页内容的创建和编辑。
你想要生成哪种格式的文件?
我看有 Excel ,于是我就要求它制作了一个有些复杂的,类似行程表、时间表的 Excel 。
但是,做现代人的行程表似乎有些无趣,于是就来让他模拟做了一张奇幻故事中一个牧师兼白魔法师的时间表。
接着我还别出心裁,心想:如果这时一个 NPC ,是不是还会有一些随机的、闲聊式的台词呢?于是我就追加一项要求:按照每个时间段的活动安排,为该牧师写一些台词。
在此之后,我又告诉它:假设有6种不同的表情:{A_faceimage_ं喜.png}{A_faceimage_怒.png}{A_faceimage_哀.png}{A_faceimage_乐.png}{A_faceimage_平常.png}{A_faceimage_困倦.png},请在对话开始的第一句之前选择并添加合适的1种表情。
于是就生成了下面的表格。看起来还挺有 RPG 里那种站在固定区域内徘徊的NPC的说话风格的?
虽然这目前还不是连接到 API 进行实时生成,但只要生成的数据量够大,应该就不会出现很多台词重复。此外,如果在指定条件时,不仅仅给出「一位奇幻世界的牧师兼白魔法师」这样简单的条件,而是将人物身世、性格特征等,以及其周边的人物关系,近期大事件等做成一套(大约几千字?)的设定交给 ChatGPT 的话,或许它还能想出更加符合故事背景的闲聊台词吧。
下面就是今天得到的效果:
继续尝试用 AI 延展创作蝌蚪往人所开 TRPG 团「太阳门」。这次选中了 【MURD小词典】《约勒拉的一天》词条。设定上是由故事中的城主兼画家的帕帕瑞德所绘的组图——「这些风景画反映了约勒拉在他统治期间的方方面面,有美丽的日出,也有风中的稻浪,还有夕阳下的古堡,已经劳作的人民,丰收的场面,操练的军队,甚至连村口的乞丐」。
我忘了在当年的跑团过程中,我的角色 Wildgun 到底有没有和这位画家城主见过了。好像见过,谈过话,又也许只是我在跑团结束后的想象。
很遗憾,我根本就不是一个擅长画画的人,更何况蝌蚪往人给出的设定里是「蛋彩绘画」更是让我摸不着头脑了。不过,好在,现在是一个有 AI 的时代。以下是通过使用 ChatGPT 给予指示而作出的图像。
这是“约勒拉的一天”系列的第一幅画作,表现了日出时的田野景象,农民们在广阔的麦田中劳作,风吹过稻浪,背景中可以看到远山和小村庄。这幅画使用柔和的质感,仿佛是蛋彩画法在羊皮纸上完成的,展现了一个中世纪剑与魔法的奇幻世界。