AI

All posts tagged AI

一眼得结论:

(激光鼠标)

这都 2024 年年底了,随着各路介绍(推销?) AI 的人,说 AGI 就快接近了: 10 年以内、 5 年以内、 3 年以内……乃至明年……

于是我倒要看看, 2024 年年底这个时间点 ,ChatGPT 能不能画出靠谱的设备原理图。想必,这些很标准的设备,在互联网上肯定有大量现成的、准确且标准的素材可以被用于学习。

继续阅读

常言道:「寒来暑往,秋收冬藏。」(《千字文》)。这不,京都天气再次转凉,从秋天直入冬季。最近正好看到 Reddit 上有人吐槽说:日本的有四季,其中 2 个季节只有短短 2 周时间……(大意)。

看了这句话,我忽然意识到,或许我以前生活在的上海,和现在生活在的京都,以及在汉字文化圈内能读到的各种汉语和日语作品里,是有四季这个概念的,但或许……其实并非一个通用概念?

我记得以前佛经里提到,净饭王(释加牟尼他爸)为了避免算命的预言应验,为防止儿子出家,他就建造了能够对应 3 个季节的宫殿。刚才查了一下经文,是叫「三时殿」比如说:「王深知其能相。爲起宮室。作三時殿。各自異處。雨時居秋殿。暑時居涼殿。寒雪時居温殿。」(《佛説太子瑞應本起經卷上》)。

为了确认这件事,我就问了一下 ChatGPT ,对于全世界来说,四季是一个通用的概念吗?

得到的回答是:

继续阅读

最近看到一条新闻,是 Linus Torvalds 接受媒体 TFIR 采访,提到他认为现在科技市场上有关 AI 的内容, 10% 是真的,而剩下 9 成是炒作。不过在视频中,在说出这个 1 比 9 的话题之前他也提到:他相信 AI 真的很有趣,也相信 AI 确实会改变世界。但同时他也讨厌科技界市场的炒作周期(比如以前是比特币……等等)。而在此后,他也提到了另一个数字:他认为在 5 之内,情况会发生变化,到时候人就就会知道,到底哪些 AI 能进入人们的日常生活中,而哪些则只是例如现在 ChatGPT 又推出了某某功能那样的炒作。

哦,有趣。那么,针对他提到的这个 10% 是真正有价值的东西(其他都是炒作),那么我来问问 AI ,看看 AI 对于这 10% 的内容给出则样的理解和回答。

我的提问是:

1、你如何理解和评价 Linus Torvalds 的这番话?
2、你认为 Linus Torvalds 所说的 10% 真的、有价值的部分,可能是指哪些应用、功能?
3、你认为整个 Linux 生态和开源生态在从今往后的 AI 特别是生成式 AI 发展过程中能起到哪些作用?

继续阅读

去年上半年 AI 作画(主要是 Stable Diffusion Webui )刚刚走入大众视野,同时也是刚引发我的兴趣时,我独自发起过一个《百度贴吧NovelAI吧txt2img七题挑战赛》但基本上没有收到什么回答。

于是,现在我就来自问自答一下,看看现在用 ChatGPT 能做到什么程度,以及需要反复试几才能出现一张比较像样的作品。

这次自问自答的是:第三题:哎呀,扣子扣错了。

太难了!试了 10 张以上,都没能成功画出扣错扣子没对齐的样子!即便是让 Claude 生成英文的提示词,还是很难达到我想要的效果。

看来对于并非常态的图片数据训练还远远不足啊……

上一次用 ChatGPT 创造自画像类似,这几天看到 reddit 上一个帖子启发,说以类似的方式,让 ChatGPT 参考对我保存的记忆(即用户数据),而画一张我宿敌的肖像。

它给我画出的是:

并附说明:「Here is the image of your arch nemesis, embodying intellect and mystery, with an aura of knowledge and time manipulation. 」

翻译过来就是:「这是你的死敌的形象,体现了智慧和神秘,拥有知识和操纵时间的光环。」

呃……不太可爱。好吧,有点凶。

于是我又指示画了一张女性版本的我的宿敌:

继续阅读

前一阵子 OpenAI 更新了适合推理的 o1 模型(虽然还是preview版)。而就在最近几天, Claude 也更新了 3.5 Sonnet 模型。

于是我就试了一下用两者来编写 Windows 98 版本的扫雷游戏。我的指示如下:

第一个指示:「你是否知道Windows98上的扫雷游戏?如果知道的话,请全面完整叙述其功能。在下一条指示中,我会请你把它做成静态网页,用Javascript实现,所以请不要遗漏或错误写出功能。请你先用适合给AI编程用的方式,叙述其功能。」

第二个指示:「好,输出用HTML、JS等代码实现整个游戏吧。」

因为代码太长了,我就不发出来了。直接各自截个图吧。

这是用 Claude 3.5 Sonnet 模型制作的:


继续阅读

之前试过 Google 的 NotebookLM AI 笔记本(能这么叫吗?)能从上传的 PDF 文档中整理出内容、生成提问,甚至于生成谈话播客内容的音频。可惜,我之前的尝试的时候,只能生成英语对话。于是我就想到,能不能用 ChatGPT 来试试看生成播客的文字稿呢?而内容,我则选择了 Wikipdia 上的条目。

我先尝试了日本 Falcom 这个条目。当然,在此之前,我告诉 ChatGPT 的指示是:



我看到别的AI能帮助用户生成播客。不过目前你不具备同时模仿2人对话配音的功能。所以我想让你尝试帮我写播客文字稿,模仿一期播客节目中的2位或多位主持人在对谈。我想以Wikipedia的页面的一个个词条作为每一期博客的谈话内容、题材,以轻松的方式向播客收听者介绍该词条的所涉及的知识。当然,如果你觉得需要多个Wikipedia页面的话,也可以。不过,我想先知道,如果你要访问Wikipedia的话,我贴给你URL就好,还是要贴给你页面内的文字内容?


此外,我也询问了 ChatGPT ,这样使用并衍生出新的别的形式的作品,是否符合 Wikipedia 的规范。得到 ChatGPT 的回答是:

继续阅读

前几个月, ChatGPT 增加了记忆功能,在对话中,能明确看到它自动记下了与我有关的信息(比如我的兴趣爱好、我最近买了什么、我最近遇到了什么事)。我自己也会有意识地去检查并适当删除记忆内容。其操作方法是:网页版【设置】——【个性化】——【记忆】下的【管理】按钮。此外,之后的对话中,我有时也会提示 ChatGPT 不要对我提到的某个内容进行记忆。

当然渐渐地, ChatGPT 对我的记忆就增多了,也就是说,它逐渐开始了解我这个人了。刚好前几天在 Reddit 的 r/ChatGPT 板块看到一个帖子,是发帖者提议用户们让自己的 ChatGPT 为用户自己画一幅肖像图的。于是我也试了一下,便生成了这张图:

继续阅读

据说 AGI (通用人工智能)是一个会像一个普通人一样自我学习、自我解决问题的程序。而孙正义预言 2 、 3 年内 AGI 就会出现(虽然看起来夸张成分比较大)但我想了想,其实我感觉现在的问题还是在于「落地」的接口问题。

我想象了一下,比如届时等到 AGI 出现时,我可以和现在包月 ChatGPT Plus 会员一样的价格得到一个 AGI 助手。那么拿我最近在考虑的事举例吧——我最近又有点动心思,在考虑买迷你电脑。好,即便 AGI 可以帮我浏览网页比较电脑配置信息,但是,电脑买回来之后还有一部比较耗费时间的操作——安装操作系统——我也想交给 AI 来操作。于是就来了:谁找出我的 U 盘、插入电脑并按下 F2 或者别的键选择启动界面?谁刻录光盘?谁按下光驱上的那个弹出按钮?感觉这些事情都还是要我来做。即便在这个事例中,或许 AGI 可以用远程的方式来进行对于磁盘分区指令的操作。

再有一个网上购物,即便 AGI 可以帮我注册、下单,但是最终付钱——比如在日本,有一些场景我不想填写支付信息,我就会选择去便利店支付——还是要我这个人去操作。我得穿衣、拿出现金、下楼,走向便利店、向店员出示付款项目,然后再逆操作一遍。

由此想来,只要系统之间的「 API 」,或是数字世界和物理世界之间的那个「接口」还没有搭建起来,那么即便是 AGI 被开发出来后,在很大程度上, AI 能帮助人类做的还是那些数字世界做的事,或者说在单个程序内可以完结的事——就像目前 ChatGPT Plus 会员的功能仅在一个网页界面内完结。而剩余的那些身体劳动、作用于物理世界的大部分操作,还是要由人类来执行。换句话说, AI 画画作曲填词,人类刷碗拖地,这一情景将会延续到各种应用场景。

那么,具身智能快来吧!

去年上半年 AI 作画(主要是 Stable Diffusion Webui )刚刚走入大众视野,同时也是刚引发我的兴趣时,我独自发起过一个《百度贴吧NovelAI吧txt2img七题挑战赛》但基本上没有收到什么回答。

于是,现在我就来自问自答一下,看看现在用 ChatGPT 能做到什么程度,以及需要反复试几才能出现一张比较像样的作品。

这次自问自答的是:第二题 用用看旧设备

一共试了 2 张。打字机这张可谓马马虎虎。虽说仔细看的话,打字机的那个金属字母的部分(就是实际敲打在纸上的那一个个小金属片)有点凌乱,看上去不像有完整字母的样子。

另一张……铅笔绕磁带,嗯,看来这一题对于现在的 AI 来说,还有点太早,难度太高……我试了大概 7 、 8 张,没有成功表现笔杆穿过磁带孔洞的。