生成式AI

All posts tagged 生成式AI

暮光森林的低语——试用Gemini2制作奇幻世界的图文烹饪手册

Posted by wildgun on 2025年3月16日

Posted in: AI绘图. Tagged: AI, Gemini, Google, 人工智能, 生成式AI, 谷歌. Leave a Comment

这几天好像是 Google 发布了新的 AI 工具—— Gemini 2.0 Flash 。我不是 Google AI 的经常使用者，所以我就不清楚它到底哪个模型有什么特征，或是过去的两年里是怎么迭代至今的。不过今天看了几个网上的帖子和视频，似乎用过的人都对其能力表示惊讶。特别是我看介绍说它在生成图片方面有比较好的整合能力，以及可以通过用户所输入的文本提示，针对图片进行局部进行修改。

在一个网络视频中我看到了介绍者用 Gemini 2.0 Flash 做了一个菜谱，那么我就来仿造一下——生成一个图文并茂的奇幻世界的烹饪手册。

下面展示的就是实际生成的图片。需要说明的是，图片不是一次性生成的，我的生成步骤是：先要求 AI 用文字的方式输出菜单，然后再通过多次对话指示，为每个步骤生成一个配套的图片。

好的，这是一个分为六个步骤的奇幻世界幻想菜谱：

菜名：暮光森林的低语

食材基调：夜光蘑菇、星尘香草、龙鳞坚果、月光泉水、影豹里脊肉（少量，可选）、梦 Wind 酿制的晨露蜂蜜。

第一步：收集与净化

食材：新鲜的夜光蘑菇（3个，需带有微弱的蓝色光芒）、月光泉水（1小杯）。

烹饪手法：将夜光蘑菇小心翼翼地用柔软的苔藓擦拭干净，去除表面的泥土和杂质。然后，将它们浸泡在月光泉水中，让其吸收月光的能量，并去除可能存在的微小毒素（奇幻世界的蘑菇特性）。浸泡时间约为一刻钟（奇幻世界的时间单位，约等于现代的十五分钟）。

第二步：唤醒香气

继续阅读

这就是OpenAI的碰壁吗？AI传言的半年后回顾

Posted by wildgun on 2025年3月10日

Posted in: 闲聊. Tagged: AI, Apple, ChatGPT, OpenAI, Siri, 生成式AI, 生成式人工智能. Leave a Comment

记得去年秋冬， OpenAI 的 Sama 发了一句「there is no wall」，似乎是在回应互联网上人们对他们所训练大模型是否「撞墙」即遇到发展瓶颈的质疑。当时我的一篇博客也提到了这一点。

而如今已是 2025 年的 3 月份，随着 ChatGPT 4.5 的发布，以及似乎被人们认为它并没有体现出多大的进化，我想到了半年前他的那句话。或许，目前 4.5 不温不火，不符合人们期待的情况，就是当时他想要驳斥的状况？

这又让我想到了，在大约 2023 年中的某一天。 ChatGPT 3.5 发布大约半年，而 4 还没发布时，我记得听了一档播客，其中一位嘉宾就提到他去看了 OpenAI 的内部演示，表示 4 将会是一个很明显进步的模型。

从这两起从传言到验证的时间跨度上来看，似乎都是半年左右时间。不知道是否可以据此推测，生成式 AI 界的谣言也要以前后半年这个尺度来进行回顾和验证呢？

继续阅读

AI的五感之旅：视觉、听觉已成，味觉、嗅觉还远吗？

Posted by wildgun on 2025年3月3日

Posted in: 闲聊. Tagged: AI, 人工智能, 味觉, 嗅觉, 感觉系统, 生成式AI, 生物. Leave a Comment

人类 wildgun 写的前言：

今天在别人的一篇博客文章《如何用 AI 全方面辅助博客创作 – 从博文之内到博文之外》上留言，回顾了我去年提出的通过与 AI 聊天，共同推进一个想法，然后让 AI 整理并按照我的风格写作的 AI 博客创作实践。我发现自己好像也很久没用这个方法了，于是今天再来试试看。我的这篇文章是讨论生成式 AI 为何尚不能生成出一些嗅觉和味觉的内容。这可以说是我 2008 年写的一篇博客《越原始则越不容易被记录？》在这个 AI 时代的延续思考。下面就是本次经过与 AI 的讨论后，由 AI 为我归纳生成的博客文。

AI 的五感之旅：视觉、听觉已成，味觉、嗅觉还远吗？

人工智能已经能画画、写诗、演奏音乐，甚至能用合成语音和人类对话。视觉和听觉方面的突破，让 AI 在许多领域里游刃有余，然而，味觉和嗅觉似乎仍是 AI 难以涉足的领域。那么，为什么 AI 的进步在五感的不同维度上如此不均衡？味觉和嗅觉的 AI 化，究竟是技术难题，还是人类的需求本就不强烈？

视觉和听觉的「数字化」优势

视觉和听觉的「AI 化」之所以能迅速发展，一个关键原因在于它们都能用数字信号来表达。图像是像素矩阵，声音是波形或者频谱，而计算机天生擅长处理这些数据。深度学习算法可以分析大量的图片和音频，并进行模式识别，从而让 AI 具备了看和听的能力。

更重要的是，人类世界的数字化进程也主要围绕视觉和听觉展开。照片、视频、音频这些内容在互联网上无处不在，成为 AI 训练的理想数据来源。相比之下，味觉和嗅觉的「数据」要如何存储、传播、计算？这似乎仍是一个悬而未决的问题。

嗅觉和味觉的复杂性：物理 vs 化学

继续阅读

Claude3.7的SVG代码图像生成能力真的挺不错

Posted by wildgun on 2025年3月2日

Posted in: AI绘图. Tagged: Claude, SVG, 生成式AI, 生成式人工智能. Leave a Comment

在 Reddit 上看到有人提到 Claude 3.7 在生成 SVG 代码图像方面很出色，我便试了试。

第一是要求画它自己的自画像，得到如下代码：

继续阅读

写在大概是GPT4.5发布之前

Posted by wildgun on 2025年2月28日

Posted in: 闲聊. Tagged: AI, ChatGPT, OpenAI, 人工智能, 生成式AI. Leave a Comment

OpenAI 在社交媒体上宣布，将在 4.5 个小时内进行直播（ Livestream in 4.5 hours. ）。从这个奇怪的预告来看，应该就是 ChatGPT 4.5 吧。

尽管我不会等着看直播，但我也来突发地随便写一下我期待的东西吧。

因为根据之前的介绍， 4.5 不是一个推理模型，而是 OpenAI 的最后一个非推理模型（纯粹对话模型）。所以我觉得不太能期待它在语言方面还能有多大提高空间——我觉得就汉语会话方面来说， 4o 已经足够好了。其实我更加期待的是：在美国新总统上任、马斯克推出了容易被突破审查的 AI Grok3 之后， OpenAI 是否也会相应调整其内容审查策略，增加可以进行讨论话题的自由度呢。

此外，如果说大语种如汉语或英语已经足够好了的话，那么不知道 AI 的小语种乃至古代语言方面理解能力是否能在 4.5 上得到实力加强呢？（我觉得难，毕竟互联网上公开数据中这类小语种数据量并没有猛增。）不过，我还是抱着一点点期待，它能在古代语言、方言的使用上获得一些进步。比如……讲一讲上海闲话？

再有就是我始终无法理解，即便是到了 03 的推理模型，依然无法很好地处理 ASCII 字符画。我觉得这次 GPT 4.5 应该也不太可能有明显改善的……吧？

试用ChatGPT新开DeepResearch功能感想小记

Posted by wildgun on 2025年2月27日

Posted in: IT数码信息科技. Tagged: AI, 历史, 生成式AI, 生成式人工智能. Leave a Comment

昨天试用了 Claude 3.7 ，我自己的使用场景下，感觉一般般。而在今天， OpenAI 对 Plus 用户新开放了 DeepResearch 功能（上个月才对 Pro 用户开放的吧？）我试了一下。今天，我的感觉是：哇！

简单记录一下吧。我第一个，是用中文提问了我自己最近在调查的那位好像非常喜欢上海的那个日本人——大谷光瑞，询问他在上海的活动，以及在上海的建筑等等。

在大约等候了 5 分钟，看到了 ChatGPT DeepResearch 向我回复的报告后，我已经有一些感到意外了。我感觉它生成的报告有广度，却没有深度。比如他提及了大谷光瑞在上海的无忧园，以及西本愿寺上海别院，也提及了他在上海和孙中山以及王一亭等人的交往。关于他在上海的交往往事，是我还没开始调查的，所以对于他能查到大谷光瑞的上海活动时的交往情况，我感觉挺惊讶。但话又说回来了， ChatGPT DeepResearch 在对无忧园的说明中，既没有提到其实存在着两座无忧园（详见我的博客考察：《不仅無憂園有两座，上海別院也有两座，其中一座还有两栋建筑……》）；而虽然生成的报告中也提到了池子的名字——沧浪池，却并没有像我一样指出这座池子与大谷光瑞所在宗派在京都总本山——西本愿寺内的池子同名（详见我的博客考察：《考察滄浪池及濯足堂名字由来》）。

而从这份 ChatGPT DeepResearch 给出的有关大谷光瑞上海活动报告最后，我看到了它一共使用了 5 个引用源，而且基本上都是网页，却没有 pdf 。看了这份报告，我判断 ChatGPT DeepResearch 目前还无法阅读 PDF 文件（然而在看了下述第二份报告后我发现这个判断错了）。

继续阅读

用Claude3.7编写网页小游戏即试后感

Posted by wildgun on 2025年2月26日

Posted in: IT数码信息科技. Tagged: AI, Claude, 人工智能, 生成式AI, 程序设计. Leave a Comment

这是一篇简短的试用记录——因为根本不成功。

这几天我看到 Claude 3.7 发布的消息，并且似乎网上不少消息和 Reddit 上不少帖子都称赞其编写代码的能力极佳。

然而，就我自己的试用体验来说——我尝试了与上次试用 ChatGPT o3-mini 试用网页代码模拟《超级玛丽》关卡帖子一样的提示词，来让 Claude 3.7 也来实现它。

我想你应该知道FC游戏《超级玛丽》，请你用html语言写一个文件，来模拟演示FC平台上该游戏的1-1关卡（不需要人工操作，自动演示）。为避免著作权问题，你可以用简单的线条、简单的SVG图像代替画面元素。但是关卡和画面通关方式要看起来像是超级玛丽的1-1关卡。

结果……第一次生成的代码结果，网页上超级玛丽动是动起来了，但是经过绿色的方块（代表管道）时却直接叠加并穿过了管道，也就是说，在物体碰撞的规则方面， Claude 3.7 并没有把管道设计成是一种障碍物体。而至于我指示该错误并且要求修改后——第二低生成的代码中超级玛丽干脆就动都不能动了，我按方向键也无用，变成了一个《超级玛丽》的开场静止等候画面。

这两次都不怎么成功（与之前 o3-mini 生成的效果相比）。不知道是不是因为我仅是 Claude 免费用户这个原因。（ ChatGPT 我付费订阅了。）是为记。

即便是o3-mini推理模型，现在还是难以胜任OCR

Posted by wildgun on 2025年2月16日

Posted in: 闲聊. Tagged: AI, ChatGPT, OCR, 人工智能, 文字识别, 生成式AI. Leave a Comment

最近几天，一个关于 ChatGPT 的不大不小的更新是： o3-mini 模型和它的 high 版本支持上传图片等文件了。那么，在推理功能的辅助下，或者说引导、修正下，它的 OCR 是否能更加准确了一些了呢？

我选用了昨天博客里下面这段文字的截图来做试验，截图后上传至 ChatGPT o3-mini ，并要求它 OCR 识别。之所以选择这一段，是因为其中既有汉字也有英文还有日文，而且互相之间也有逻辑关联。

在这三种语言里，都有一个同源的词汇称呼，汉语里叫它功能机，英语里说 Feature phone ，日语里则是把该英语转换为了片假名：フィーチャーフォン。我觉得这种手机虽然有些言不达意（功能，什么功能？）但从「手机就完成蜂窝网络的通话功能就可以了」这一点上来看，倒是蛮符合我的心意的。

结果我得到的识别结果是：

继续阅读

从提问《鼠净土》而来的一忧一喜

Posted by wildgun on 2025年2月13日

Posted in: 闲聊. Tagged: AI, ChatGPT, 生成式AI, 生成式人工智能. Leave a Comment

前几天偶而在书店里翻到一本搜集罗列了日本「昔話」（童话故事）的故事，翻着翻着看到了「鼠净土」这一项。

这个童话说小众其实也不算小众，至少在日本是如此。记得我刚开始学日语的头几年，买过一本日本小学生的课本（一年级？）里面就有一个老爷爷遗落了一个饭团，饭团滚进老鼠洞的故事（好像是这么一回事）。后来，在《 Fate / Ground Order 》里实装了从者「大黑天」，其宝具就是「鼠浄土」。

可见，无论是在日本的课本中，或是流行文化中，这则「鼠浄土」童话应该都应该不算是太过冷门的。

然而，我拿它问了一下 ChatGPT ，并且是用汉语和日文都问了：

日本的童话《鼠净土》是一个怎样的故事？

继续阅读

试用o3-mini做网页版超级玛丽

Posted by wildgun on 2025年2月8日

Posted in: 闲聊. Tagged: AI, ChatGPT, o3, o3-mini, 大语言模型, 生成式AI, 超级玛丽. Leave a Comment

ChatGPT 的 o3-mini 刚推出的第一天，就有用户展示了其对物理运动理解（小球滚动、弹跳等）相当出色，并且反映在其做出的程序中。

于是我试了试，让它用静态的 HTML （也就是不用到服务器）来模拟《超级玛丽》的 1-1 关卡。

效果如下：

嗯，动是动起来了，弹跳以及踩到怪物的「触感」也有那么一些像。不过就是关卡的构造（砖头、水管位置等）不太对。

这么说起来，为什么一个大语言模型会知道《超级玛丽》游戏关卡画面的内容啊？

下面是代码：

继续阅读

？？？

wildgun的个人站点。御宅族，圣地巡礼爱好者，持续自我量化中。

生成式AI

All posts tagged 生成式AI

暮光森林的低语——试用Gemini2制作奇幻世界的图文烹饪手册

这就是OpenAI的碰壁吗？AI传言的半年后回顾

AI的五感之旅：视觉、听觉已成，味觉、嗅觉还远吗？

AI 的五感之旅：视觉、听觉已成，味觉、嗅觉还远吗？

视觉和听觉的「数字化」优势

嗅觉和味觉的复杂性：物理 vs 化学

Claude3.7的SVG代码图像生成能力真的挺不错

写在大概是GPT4.5发布之前

试用ChatGPT新开DeepResearch功能感想小记

用Claude3.7编写网页小游戏即试后感

即便是o3-mini推理模型，现在还是难以胜任OCR

从提问《鼠净土》而来的一忧一喜

试用o3-mini做网页版超级玛丽

近期文章

分类

友情链接

来自地球上的各位…

归档