生成式AI

All posts tagged 生成式AI

去年上半年 AI 作画(主要是 Stable Diffusion Webui )刚刚走入大众视野,同时也是刚引发我的兴趣时,我独自发起过一个《百度贴吧NovelAI吧txt2img七题挑战赛》但基本上没有收到什么回答。

于是,现在我就来自问自答一下,看看现在用 ChatGPT 能做到什么程度,以及需要反复试几才能出现一张比较像样的作品。

这次自问自答的是:第三题:哎呀,扣子扣错了。

太难了!试了 10 张以上,都没能成功画出扣错扣子没对齐的样子!即便是让 Claude 生成英文的提示词,还是很难达到我想要的效果。

看来对于并非常态的图片数据训练还远远不足啊……

上一次用 ChatGPT 创造自画像类似,这几天看到 reddit 上一个帖子启发,说以类似的方式,让 ChatGPT 参考对我保存的记忆(即用户数据),而画一张我宿敌的肖像。

它给我画出的是:

并附说明:「Here is the image of your arch nemesis, embodying intellect and mystery, with an aura of knowledge and time manipulation. 」

翻译过来就是:「这是你的死敌的形象,体现了智慧和神秘,拥有知识和操纵时间的光环。」

呃……不太可爱。好吧,有点凶。

于是我又指示画了一张女性版本的我的宿敌:

继续阅读

前一阵子 OpenAI 更新了适合推理的 o1 模型(虽然还是preview版)。而就在最近几天, Claude 也更新了 3.5 Sonnet 模型。

于是我就试了一下用两者来编写 Windows 98 版本的扫雷游戏。我的指示如下:

第一个指示:「你是否知道Windows98上的扫雷游戏?如果知道的话,请全面完整叙述其功能。在下一条指示中,我会请你把它做成静态网页,用Javascript实现,所以请不要遗漏或错误写出功能。请你先用适合给AI编程用的方式,叙述其功能。」

第二个指示:「好,输出用HTML、JS等代码实现整个游戏吧。」

因为代码太长了,我就不发出来了。直接各自截个图吧。

这是用 Claude 3.5 Sonnet 模型制作的:


继续阅读

之前试过 Google 的 NotebookLM AI 笔记本(能这么叫吗?)能从上传的 PDF 文档中整理出内容、生成提问,甚至于生成谈话播客内容的音频。可惜,我之前的尝试的时候,只能生成英语对话。于是我就想到,能不能用 ChatGPT 来试试看生成播客的文字稿呢?而内容,我则选择了 Wikipdia 上的条目。

我先尝试了日本 Falcom 这个条目。当然,在此之前,我告诉 ChatGPT 的指示是:



我看到别的AI能帮助用户生成播客。不过目前你不具备同时模仿2人对话配音的功能。所以我想让你尝试帮我写播客文字稿,模仿一期播客节目中的2位或多位主持人在对谈。我想以Wikipedia的页面的一个个词条作为每一期博客的谈话内容、题材,以轻松的方式向播客收听者介绍该词条的所涉及的知识。当然,如果你觉得需要多个Wikipedia页面的话,也可以。不过,我想先知道,如果你要访问Wikipedia的话,我贴给你URL就好,还是要贴给你页面内的文字内容?


此外,我也询问了 ChatGPT ,这样使用并衍生出新的别的形式的作品,是否符合 Wikipedia 的规范。得到 ChatGPT 的回答是:

继续阅读

前几个月, ChatGPT 增加了记忆功能,在对话中,能明确看到它自动记下了与我有关的信息(比如我的兴趣爱好、我最近买了什么、我最近遇到了什么事)。我自己也会有意识地去检查并适当删除记忆内容。其操作方法是:网页版【设置】——【个性化】——【记忆】下的【管理】按钮。此外,之后的对话中,我有时也会提示 ChatGPT 不要对我提到的某个内容进行记忆。

当然渐渐地, ChatGPT 对我的记忆就增多了,也就是说,它逐渐开始了解我这个人了。刚好前几天在 Reddit 的 r/ChatGPT 板块看到一个帖子,是发帖者提议用户们让自己的 ChatGPT 为用户自己画一幅肖像图的。于是我也试了一下,便生成了这张图:

继续阅读

前几天的 ChatGPT 的 2024 年开发者大会上,宣布了一项面向开发者的图像识别微调功能。在其中举出的例子中,有一项是一家名为 Grab 的拼车公司使用该方法,改进了对于道路标志和车道分割线的识别能力。

看到这里,我想到了一个旁门左道:是不是可以经过图像识别微调,做一个能够看人的面相以及手相的算命 AI 呢?

其实在这个使用场景中,完全不必在乎目前生成式 AI 的一个明显缺点:幻觉。反倒是在算命领域,不仅不排斥幻觉,而且幻觉(说胡话的能力?)还是必须的。但是,在算命的第一步,必须要与用户建立起信任关系,也就是最初对于面相和手相的识别要准确——如果对于同样一张脸的照片,第一次回答是瓜子脸,第二次回答是鹅蛋脸;或者对于同样一张手相(手掌)的照片,第一次回答事业线长,第二次回答变成了生命线长,那就显得不可靠了。

而如果只要在物理外表上能够准确识别面相、手相的特征,那么之后的下一步——面相与手相所反应的命运,则可以通过读取一些固定的算命资料,加上被算命者的生辰八字啦等等,再加上 AI 特有的幻觉——你看,幻觉在这里成了一种积极因素了!对!此乃「人工智能天命」!——之后就能给出像模像样的算命结果了吧。所以,如果这次 OpenAI 所改善并提供的图像微调如果真能让 AI 能准确且稳定地识别脸型、手掌纹理的话,那或许就能真的做成一个算命 AI 。

听起来这有点不务正业,是不是?但……可以引导用户步入正业啊!可以在后台对接一些靠谱的服务提供者,比如正规的心理咨询啦,理财咨询啦,婚恋介绍啦,教育培训啦……等等等等!把用户对未来或对自身的不确定的担忧,用算命的方式作为能够轻松入门的一个通道,去将用户介绍给正规的、专业的咨询服务业者,这岂不是一件很光明正大且很有趣的事吗?

继续阅读

继续尝试用 AI 延展创作蝌蚪往人所开 TRPG 团「太阳门」。这次选中了 【MURD小词典】《约勒拉的一天》词条。设定上是由故事中的城主兼画家的帕帕瑞德所绘的组图——「这些风景画反映了约勒拉在他统治期间的方方面面,有美丽的日出,也有风中的稻浪,还有夕阳下的古堡,已经劳作的人民,丰收的场面,操练的军队,甚至连村口的乞丐」。

我忘了在当年的跑团过程中,我的角色 Wildgun 到底有没有和这位画家城主见过了。好像见过,谈过话,又也许只是我在跑团结束后的想象。

很遗憾,我根本就不是一个擅长画画的人,更何况蝌蚪往人给出的设定里是「蛋彩绘画」更是让我摸不着头脑了。不过,好在,现在是一个有 AI 的时代。以下是通过使用 ChatGPT 给予指示而作出的图像。

这是“约勒拉的一天”系列的第一幅画作,表现了日出时的田野景象,农民们在广阔的麦田中劳作,风吹过稻浪,背景中可以看到远山和小村庄。这幅画使用柔和的质感,仿佛是蛋彩画法在羊皮纸上完成的,展现了一个中世纪剑与魔法的奇幻世界。

继续阅读

贫富差距如何基因编辑技术能否暗物质在影响社会和谐彻底消除遗传疾病宇宙演化中扮演什么角色?

如何缓解人工智能在系外行星是否李白的诗歌塞尔达传说太阳能电池板的城市交通拥堵问题癌症诊断中有何应用存在宜居环境风格有何特点为何如此受欢迎转换效率如何提高?

——你能看懂我在问什么吗?其实以上两句话是我前几天对生成式人工智能做的小实验。

我指示 Claude 为我生成问题:

「请你从社会、医学、天文学3个层面,提3个问题(中文)。然后把这3句句子的词汇打乱,再随机组合到一起,成为一句(但不要改变原本每一句句子中的前后顺序,以及不要把名词拆散)。」

Claude 回答:

好的,我会按照您的要求来完成这个任务。首先,让我提出三个问题:

  1. 社会层面: 贫富差距如何影响社会和谐?
  2. 医学层面: 基因编辑技术能否彻底消除遗传疾病?
  3. 天文学层面: 暗物质在宇宙演化中扮演什么角色?

现在,我会把这三个句子的词汇打乱,并随机组合成一个新句子,同时保持原句中词语的顺序不变:

贫富差距如何基因编辑技术能否暗物质在影响社会和谐彻底消除遗传疾病宇宙演化中扮演什么角色?

这个新组合的句子包含了原来三个问题的所有词语,保持了每个问题内部词语的顺序,并且没有拆散名词。虽然这个句子在语法和语义上并不通顺,但它确实满足了您的要求。

然后我增加了难度:
继续阅读

正如各位所知, ChatGPT 新推出了一个擅长于推理思考的新模型 o1 。它确实会在回复之前思考若干秒,然后再给出答案。不过,对于一般的对话、提问回答,它通常思考数秒或十几秒,我怀疑它是不是在忽悠我——只是为了好玩而显示出思考链条。

于是我想了个办法,让另一款 AI —— Claude 帮我生成一个字母代替加密方案,然后尝试让 ChatGPT o1 解密。这下可真不错, Claude 连续思考了超过 100 秒。至于结果嘛……还是先来看我下面复现测试过程吧。

我指示 Claude :

你帮我出一道题,我想考一考别的AI,就用随机代替密码吧。请你吧26个英文字母(明文),随机映射给另一个字母(密文),不要重复。

Claude 回答:

好的,我来为您创建一个简单的替换密码表,将26个英文字母随机映射到另一组字母上。这样的密码可以用来测试其他AI的解密能力。

继续阅读

太阳门,一个略显久远而鲜为人知的名字。其实是很早之前与蝌蚪往人( DM ,即带团人)以及第四使徒(雷)等人一起进行的基于《龙与地下城》规则(其实简化了好多!)的 TRPG 游戏团。在与大多数团一样渐渐中断后, DM 蝌蚪往人也写过十篇左右的同名奇幻小说片段《太阳门》。然后,果然也坑了,于是太阳门就像是一座被记忆的沙尘逐渐掩埋而淡忘的古代建筑。

而最近我想起了它。这就像是在挖坟,或者说发掘古代城池遗迹一般,找到了几篇蝌蚪往人曾经发布在网上的内容。例如:《太阳门〇·日光镇六-3》,这一篇是故事开头处的一篇,也应该是人类吟游诗人 Wildgun 最初登场的情节,形成了与半精灵(?)游荡者雷的鲜明对比。当然,小说《太阳门》的大部分内容应该只是蝌蚪往人的创作,实际跑团中应该没有发生过如此生动和连贯的扮演。

而现在,到了生成式 AI 的时代。我便以此文试了试,让 AI 试着将此篇片段改写为以 Wildgun 为第一人称视角的写作。我尝试了 ChatGPT ( 4o 模型) 自以及 Claude 这两个 AI 。在网上用户通常的讨论认识里,似乎是 Claude 的故事生成能力更胜一筹。

对于这两个 AI ,我都逐渐下了两个指示。第一个指示如下:

你是一位写作水平很高的奇幻小说畅销书作者。请你根据下文,从Wildgun这个角色的第一人称视角,将故事改写一遍,同样要保持DND(龙与地下城)奇幻小说风格。保持故事内容不变,但你可以适当增加补充和想象。

(后正文内容略)

不过,这两个 AI 第一次改写后的段落都太短,于是我又给出了下面的提示词:

太短了,更长一些,并且增加描述。你可以补充自己的适当细节动作和神态的描述。

这下效果看起来不错了。下面贴出经过 ChatGPT 和 Claude 转述改写的内容。
图片都由 ChatGPT 生成。

ChatGPT 的改写:

第一人称视角:Wildgun

夜色如墨,星空如斗,寂静笼罩着日光镇的边缘。我独自坐在树干上,背靠着粗糙的树皮,双手紧紧抱着我的琴,就像抱着某个珍贵的秘密。夜风轻轻拂过,我的长发随风飘动,仿佛在与这夜晚的静谧交谈。这片森林在月光的照耀下显得格外神秘,仿佛隐藏着无数未曾被人发现的故事。

此刻,我感受到一种熟悉的气息,那个在黑暗中捕猎的感觉再次浮现在我的脑海中。这感觉并不陌生,我曾在破败的小巷里感受到它,也曾在驿路旁的村居窗后,密林中的粗糙树干之后,甚至在茫茫草原那高高的野草之下,捕捉到这种气息。这是一种潜伏的威胁,一种打量猎物的视线。而我知道,雷就是这种气息的制造者。他是个天生的猎手,而现在,他似乎感受到了什么不对劲的地方。
继续阅读