AI

All posts tagged AI

AI的五感之旅：视觉、听觉已成，味觉、嗅觉还远吗？

Posted by wildgun on 2025年3月3日

Posted in: 闲聊. Tagged: AI, 人工智能, 味觉, 嗅觉, 感觉系统, 生成式AI, 生物. Leave a Comment

人类 wildgun 写的前言：

今天在别人的一篇博客文章《如何用 AI 全方面辅助博客创作 – 从博文之内到博文之外》上留言，回顾了我去年提出的通过与 AI 聊天，共同推进一个想法，然后让 AI 整理并按照我的风格写作的 AI 博客创作实践。我发现自己好像也很久没用这个方法了，于是今天再来试试看。我的这篇文章是讨论生成式 AI 为何尚不能生成出一些嗅觉和味觉的内容。这可以说是我 2008 年写的一篇博客《越原始则越不容易被记录？》在这个 AI 时代的延续思考。下面就是本次经过与 AI 的讨论后，由 AI 为我归纳生成的博客文。

AI 的五感之旅：视觉、听觉已成，味觉、嗅觉还远吗？

人工智能已经能画画、写诗、演奏音乐，甚至能用合成语音和人类对话。视觉和听觉方面的突破，让 AI 在许多领域里游刃有余，然而，味觉和嗅觉似乎仍是 AI 难以涉足的领域。那么，为什么 AI 的进步在五感的不同维度上如此不均衡？味觉和嗅觉的 AI 化，究竟是技术难题，还是人类的需求本就不强烈？

视觉和听觉的「数字化」优势

视觉和听觉的「AI 化」之所以能迅速发展，一个关键原因在于它们都能用数字信号来表达。图像是像素矩阵，声音是波形或者频谱，而计算机天生擅长处理这些数据。深度学习算法可以分析大量的图片和音频，并进行模式识别，从而让 AI 具备了看和听的能力。

更重要的是，人类世界的数字化进程也主要围绕视觉和听觉展开。照片、视频、音频这些内容在互联网上无处不在，成为 AI 训练的理想数据来源。相比之下，味觉和嗅觉的「数据」要如何存储、传播、计算？这似乎仍是一个悬而未决的问题。

嗅觉和味觉的复杂性：物理 vs 化学

继续阅读

写在大概是GPT4.5发布之前

Posted by wildgun on 2025年2月28日

Posted in: 闲聊. Tagged: AI, ChatGPT, OpenAI, 人工智能, 生成式AI. Leave a Comment

OpenAI 在社交媒体上宣布，将在 4.5 个小时内进行直播（ Livestream in 4.5 hours. ）。从这个奇怪的预告来看，应该就是 ChatGPT 4.5 吧。

尽管我不会等着看直播，但我也来突发地随便写一下我期待的东西吧。

因为根据之前的介绍， 4.5 不是一个推理模型，而是 OpenAI 的最后一个非推理模型（纯粹对话模型）。所以我觉得不太能期待它在语言方面还能有多大提高空间——我觉得就汉语会话方面来说， 4o 已经足够好了。其实我更加期待的是：在美国新总统上任、马斯克推出了容易被突破审查的 AI Grok3 之后， OpenAI 是否也会相应调整其内容审查策略，增加可以进行讨论话题的自由度呢。

此外，如果说大语种如汉语或英语已经足够好了的话，那么不知道 AI 的小语种乃至古代语言方面理解能力是否能在 4.5 上得到实力加强呢？（我觉得难，毕竟互联网上公开数据中这类小语种数据量并没有猛增。）不过，我还是抱着一点点期待，它能在古代语言、方言的使用上获得一些进步。比如……讲一讲上海闲话？

再有就是我始终无法理解，即便是到了 03 的推理模型，依然无法很好地处理 ASCII 字符画。我觉得这次 GPT 4.5 应该也不太可能有明显改善的……吧？

试用ChatGPT新开DeepResearch功能感想小记

Posted by wildgun on 2025年2月27日

Posted in: IT数码信息科技. Tagged: AI, 历史, 生成式AI, 生成式人工智能. Leave a Comment

昨天试用了 Claude 3.7 ，我自己的使用场景下，感觉一般般。而在今天， OpenAI 对 Plus 用户新开放了 DeepResearch 功能（上个月才对 Pro 用户开放的吧？）我试了一下。今天，我的感觉是：哇！

简单记录一下吧。我第一个，是用中文提问了我自己最近在调查的那位好像非常喜欢上海的那个日本人——大谷光瑞，询问他在上海的活动，以及在上海的建筑等等。

在大约等候了 5 分钟，看到了 ChatGPT DeepResearch 向我回复的报告后，我已经有一些感到意外了。我感觉它生成的报告有广度，却没有深度。比如他提及了大谷光瑞在上海的无忧园，以及西本愿寺上海别院，也提及了他在上海和孙中山以及王一亭等人的交往。关于他在上海的交往往事，是我还没开始调查的，所以对于他能查到大谷光瑞的上海活动时的交往情况，我感觉挺惊讶。但话又说回来了， ChatGPT DeepResearch 在对无忧园的说明中，既没有提到其实存在着两座无忧园（详见我的博客考察：《不仅無憂園有两座，上海別院也有两座，其中一座还有两栋建筑……》）；而虽然生成的报告中也提到了池子的名字——沧浪池，却并没有像我一样指出这座池子与大谷光瑞所在宗派在京都总本山——西本愿寺内的池子同名（详见我的博客考察：《考察滄浪池及濯足堂名字由来》）。

而从这份 ChatGPT DeepResearch 给出的有关大谷光瑞上海活动报告最后，我看到了它一共使用了 5 个引用源，而且基本上都是网页，却没有 pdf 。看了这份报告，我判断 ChatGPT DeepResearch 目前还无法阅读 PDF 文件（然而在看了下述第二份报告后我发现这个判断错了）。

继续阅读

用Claude3.7编写网页小游戏即试后感

Posted by wildgun on 2025年2月26日

Posted in: IT数码信息科技. Tagged: AI, Claude, 人工智能, 生成式AI, 程序设计. Leave a Comment

这是一篇简短的试用记录——因为根本不成功。

这几天我看到 Claude 3.7 发布的消息，并且似乎网上不少消息和 Reddit 上不少帖子都称赞其编写代码的能力极佳。

然而，就我自己的试用体验来说——我尝试了与上次试用 ChatGPT o3-mini 试用网页代码模拟《超级玛丽》关卡帖子一样的提示词，来让 Claude 3.7 也来实现它。

我想你应该知道FC游戏《超级玛丽》，请你用html语言写一个文件，来模拟演示FC平台上该游戏的1-1关卡（不需要人工操作，自动演示）。为避免著作权问题，你可以用简单的线条、简单的SVG图像代替画面元素。但是关卡和画面通关方式要看起来像是超级玛丽的1-1关卡。

结果……第一次生成的代码结果，网页上超级玛丽动是动起来了，但是经过绿色的方块（代表管道）时却直接叠加并穿过了管道，也就是说，在物体碰撞的规则方面， Claude 3.7 并没有把管道设计成是一种障碍物体。而至于我指示该错误并且要求修改后——第二低生成的代码中超级玛丽干脆就动都不能动了，我按方向键也无用，变成了一个《超级玛丽》的开场静止等候画面。

这两次都不怎么成功（与之前 o3-mini 生成的效果相比）。不知道是不是因为我仅是 Claude 免费用户这个原因。（ ChatGPT 我付费订阅了。）是为记。

即便是o3-mini推理模型，现在还是难以胜任OCR

Posted by wildgun on 2025年2月16日

Posted in: 闲聊. Tagged: AI, ChatGPT, OCR, 人工智能, 文字识别, 生成式AI. Leave a Comment

最近几天，一个关于 ChatGPT 的不大不小的更新是： o3-mini 模型和它的 high 版本支持上传图片等文件了。那么，在推理功能的辅助下，或者说引导、修正下，它的 OCR 是否能更加准确了一些了呢？

我选用了昨天博客里下面这段文字的截图来做试验，截图后上传至 ChatGPT o3-mini ，并要求它 OCR 识别。之所以选择这一段，是因为其中既有汉字也有英文还有日文，而且互相之间也有逻辑关联。

在这三种语言里，都有一个同源的词汇称呼，汉语里叫它功能机，英语里说 Feature phone ，日语里则是把该英语转换为了片假名：フィーチャーフォン。我觉得这种手机虽然有些言不达意（功能，什么功能？）但从「手机就完成蜂窝网络的通话功能就可以了」这一点上来看，倒是蛮符合我的心意的。

结果我得到的识别结果是：

继续阅读

从提问《鼠净土》而来的一忧一喜

Posted by wildgun on 2025年2月13日

Posted in: 闲聊. Tagged: AI, ChatGPT, 生成式AI, 生成式人工智能. Leave a Comment

前几天偶而在书店里翻到一本搜集罗列了日本「昔話」（童话故事）的故事，翻着翻着看到了「鼠净土」这一项。

这个童话说小众其实也不算小众，至少在日本是如此。记得我刚开始学日语的头几年，买过一本日本小学生的课本（一年级？）里面就有一个老爷爷遗落了一个饭团，饭团滚进老鼠洞的故事（好像是这么一回事）。后来，在《 Fate / Ground Order 》里实装了从者「大黑天」，其宝具就是「鼠浄土」。

可见，无论是在日本的课本中，或是流行文化中，这则「鼠浄土」童话应该都应该不算是太过冷门的。

然而，我拿它问了一下 ChatGPT ，并且是用汉语和日文都问了：

日本的童话《鼠净土》是一个怎样的故事？

继续阅读

试用o3-mini做网页版超级玛丽

Posted by wildgun on 2025年2月8日

Posted in: 闲聊. Tagged: AI, ChatGPT, o3, o3-mini, 大语言模型, 生成式AI, 超级玛丽. Leave a Comment

ChatGPT 的 o3-mini 刚推出的第一天，就有用户展示了其对物理运动理解（小球滚动、弹跳等）相当出色，并且反映在其做出的程序中。

于是我试了试，让它用静态的 HTML （也就是不用到服务器）来模拟《超级玛丽》的 1-1 关卡。

效果如下：

嗯，动是动起来了，弹跳以及踩到怪物的「触感」也有那么一些像。不过就是关卡的构造（砖头、水管位置等）不太对。

这么说起来，为什么一个大语言模型会知道《超级玛丽》游戏关卡画面的内容啊？

下面是代码：

继续阅读

o3-mini-high经过1分12秒的推理后画出的五角星

Posted by wildgun on 2025年2月6日

Posted in: 闲聊. Tagged: AI, ASCII, ASCIIart, 人工智能, 字符画. Leave a Comment

说来话不算长，情况是这样的：

听说你是超强的AI，请你试试看画一个五角星形状的ASCII字符画。

思考五角星

我在想着如何画一个ASCII字符的五角星形状。五角星是一个有五个角的星形图案。这让我想到了各种五角星的设计。

玩味五角星

我在尝试通过字符画的方式制作五角星。虽然某些图形像菱形，但我还在思考如何更好地表现五角星。

构思五角星

我正在尝试通过ASCII字符画展示五角星的形状。现在我在描绘一种像钻石的图案，看看这种形式是否更接近五角星。

试图构建

尝试用ASCII字符画画五角星，涉及交点，连续线条。這让我想到這樣的方法：

描绘星形

我正在尝试用字符画描绘一个五角星，追求整洁对称的效果。通过点和线的精确安排，形成一个具有五个顶点的图案。

构建字母图形

通过点和连线组成五角星，传达出非相邻顶点的连接，从而形成相应的字母形状。

绘制五角星

我正在试图通过字符画来制作五角星。通过连接非相邻顶点，形成一个更加精准的图像。

寻找和绘制

我在探索五角星的ASCII艺术，尝试连接非相邻顶点。不同方式可能产生相似的图形效果。

构建五角星

我正在创造一个多行ASCII画五角星，确保顶点对齐。这里只有五个顶点和相应的线条。

转向五角星

我在寻找五角星的ASCII图像，想到一种广泛的五角星形状。它的形状和五角星的顶点堆叠方式有所不同。

制作五角星

我正在尝试制作一个可以识别的五角星。它包括顶部、底左、底右和左右其他几个顶点。这个过程充满挑战。

构建五角星连接

我正在将顶点依序连接，形成五角星，但顺序并非连续。这让我考虑一个常见的ASCII表示。

选择最适合的图案

考虑了多个ASCII图案，最终选择了一个简单而醒目的五角星表示，确保其对各个顶点的清晰展示。

选择风格

我在挑选代表五角星的简化风格，挺喜欢星形和五角星这两种风格，其中五角星的ASCII艺术更吸引我。

制作五角星

我正在努力制作五角星的ASCII艺术，通过字符构建顶点，使其更容易识别。

绘制五角星

我正在连接五角形的顶点，确保每个顶点都准确相连，达到五角星的标准形状。这样做图形更具清晰度。

布置顶点

我正在规划五角形的顶点位置，确保星线连接每个点，形成一个五角星。这样设计可以直观地显示每个顶点的关联。

制作五角星的步骤

我在ASCII艺术中逐步绘制五角星。从顶点、连接线到形成五角星的结构，一步一步实现。

重新诠释五角星

我正在研究五角星的ASCII艺术，注意到其中心的五个顶点和放射状的线条。一次次试图找出最合适的方式。

绘制五角星

我正在描绘五角星的结构，有一个顶点，左右各两个顶点，还有放射状的线条。逐步完善细节，确保图形清晰。

画五角星外形

我正在描绘五角星的外形，包括顶点、左边和右边的边线，这样表现出典型的五角星形状。

探索五角星创意

我在尝试一个更简单的ASCII艺术，显然是五角星的星形。这有助于让我更清楚地理解顶点的布局。

重温ASCII艺术

我正在查看五角星的ASCII艺术，注意到其独特的中心交叉结构。这让我对五角星的绘制有了更深入的理解。

深入研究五角星

我发现了一种经典的五角星ASCII艺术，中心交叉结构非常明显。这个发现让我重新思考了五角星的复杂性和美感。

辨识五角星结构

我正在研究一个五角星的ASCII艺术，注意到它有一个顶点，左右各两个，以及一道放射线。我正逐步揭示其复杂的结构。

调整五角星结构

我正在细致地调整五角星的布局，尤其在第二行和第三行加入一个斜杠，确保顶点和内部交点更均匀、明显。

改善五角星布局

我正在调整五角星的美学，确保第二行和第三行的斜杠位置更为精准，使整体结构更为均衡。

优化五角星形状

我正在调整五角星的ASCII艺术，确保各行的间距和符号一致，使整体布局更为精确和协调。

调整布局

我正在调整五角星ASCII艺术的布局，确保每行的间距和符号一致。发现其形状更像一个加上额外特征的修饰砂漏。

重塑经典

正在尝试最常见的ASCII五角星图案，确保对齐每行的间距和符号，探索其代表五角星的寓意。

探析五角星

正在追踪五角星的顶点和连线，分析第1行的顶端星、第3行的左右星和第5行的三个星，刻画五角星的精确形状。

创作ASCII五角星

我试图重新设计ASCII五角星，探索更自由手绘的样式。顶点和交点的布局将帮助确认形状的五角星特征。

分析顶点布局

我正在分析五角星的顶点，可能包括顶部、底部、左右两端以及第5行中的两个点。框架星形可能会更容易。

制作五角星

我正在制作品这个9行ASCII五角星，逐行绘制符号，以逐渐形成五角星的形状。

沿线指引

我在五角星的每行周围画圈，看看图案如何成形。觉得这个过程挺有趣的，既像解谜，又兼具创造的乐趣。

探寻五角星

在九行ASCII图案中追踪线条，逐步发现五角星的形状。顶部是第一行，左侧是第五行的第一个星。

观察图案布局

我注意到这个9行结构有点像两个重叠的三角形，通常能形成一个六芒星。不过，这里生成的形状更像一个钻石。

重新审视设计

特别注意，不要误将五角星误解为六角星，避免使用两个重叠的三角形。设计应为一条连续交叉的线条。

布局点位直线

我正在设置一个坐标网格，精确确定每个点的坐标，最终连接这些点形成一个五角星的ASCII线条图案。

标定五个点

我正在查看五角星的五个顶点角度，确保每个角度相差144°，形成均匀分布的点位。这样就可以准确地连接它们了。

标定顶点位置

我正在计算五角星的顶点角度，确保每两个顶点之间相隔144°，并把这些顶点放置在一个网格上。这样，五角星的形状就渐渐显现了出来。

计算和定位

我正在计算五角星的顶点角度，并将这些点放置在一个13×13的网格中，用中心坐标(6,6)和半径约为5的圆来逼近。这样，五角星的形状就显现出来了。

计算和定位

我正在计算五角星顶点的坐标。这个过程中，不禁想到使用极坐标法来确定其中一个顶点的坐标，确保其在网格中正确位置。

定义坐标轴

我正在设定坐标系，确保角度方向对齐并且五角星的顶点精准放置在网格上。稳定的坐标系统是关键。

绘制星形

我正在画一个五角星的简易ASCII图像，确保各个点位按样式准确分布，这样连接外星星时，形状可能会体现成一个五角星形。

确定连接点

我正在验证五角星的连接点，确保连接外部星星而形成五点正星形状，同时考虑内心经点以确保合并完美无误。

调整方向

我意识到五角星的中国式描绘是一个向上的点，其余点向下和侧面。我要绘制一个简单的ASCII艺术作品，确保其具有五个明显的点。

实验连接方式

我在尝试用斜杠和短划线连接每一行，形成类似星形的图案。这种方法值得探讨，可能会出现比较独特的效果。

绘制五角星

我正在尝试用字符勾勒出五角星的形状，虽然更像是一个填满的星形而非一个轮廓。ASCII艺术制作五角星的确颇具挑战性。

修整间距

我正在调整字符来描绘五角星，改进间距效果。这让我想到，为确保五角星的形状和字符的安排准确无误，必须细致调整每一行的间距。

调整间距

我正在使用等宽字体在代码块中调整字符间距，以形成立体五角星的最终效果。每行间距的微调，确保五角星的形状和字符的安排准确无误。

重新对准

我在调整第四行的字符间距，确保五角星的中心位置。经过分析，最宽的第四行字符数为16，我正在重新映射字符以使五角星更居中。

标准化宽度

我正在尝试通过设计一个固定宽度的17列来标准化五角星的位置，将顶部星形居中于第9列。这样可以帮助所有星形在布局上更加协调。

优化布局

为了使第五行字符宽度恰好为17列，我正在尝试调整两个5字符星形的距离，确保布局均衡。

调整布局

为了确保宽度为17列，我正在重新计算第五行字符的分布，调整星形字符和空格的距离，确保布局均衡。

简化五角形星形

我正在制作一个更简单的ASCII五角星，这个五角星被许多人所熟知。请注意，它看起来像一个钻石形状，实际上是一个八角星。

探索简化五角星

我在考虑一个更简单的ASCII五角星，该五角星被许多人熟知，形状像钻石，实际上是一个八角星。

探索五角星图形

我正在搜寻合适的ASCII五角星图形，注意到传统的五角星形状复杂，使用ASCII字符表示有一定难度，但可以通过调整字符和空格来实现。

尝试图形调整

我正在创建一个五角星的ASCII字符图，确保显示形式准确对齐每一行字符和空格。我挨个检查每行的整体排列，从第1行起。

平衡结构

我正在确保五角星的ASCII图形对称。顶部和底部点分别位于第1和第11行，整体结构看起来相当平衡。

（上面思考过程持续了 1 分 12 秒……下面是最接近 AGI 的输出！）
继续阅读

试让新模型o3-mini说字形

Posted by wildgun on 2025年2月2日

Posted in: IT数码信息科技. Tagged: AI, ChatGPT, o3-mini, OpenAI, 书写, 大语言模型, 字形, 生成式AI. Leave a Comment

OpenAI 推出了新模型—— o3-mini ，据说其在编程和推理方面的能力挺出色。我在互联网上也看到了不少用户发现的惊喜实例。

不过我反其道而行，想试试看再叙述字符的字形这个大语言模型长期以来不擅长的领域，这次新的 o3-mini 模型是否有所改善。

下面就是记录啦。各位自己看了之后，并且看到最后，请结合自身情况回答一下最后一个问题吧。

我想测试一下你是否了解字符的形态，比如，字母G是怎么书写的？

继续阅读

从学以致用，到学用

Posted by wildgun on 2025年1月24日

Posted in: 闲聊. Tagged: AI, 人工智能, 工具书, 生成式AI, 生成式人工智能, 读书. Leave a Comment

有个成语叫学以致用，意思是：知识不仅要学习，还要能使其派上用场。

我现在也遇到了这个问题。

怎么说呢？这不是最近一阵子一直在考虑分离智能手机的功能嘛，最近关心起来二手的电子词典。价格便宜，有些还成色很新。

我发现电子词典里有的一些词典内容，我已经买了实体书了。再想一想，发现我的日语、日本历史、日本文学等的各类「工具书」而且是具有一定水准的工具书也应该超过 10 本了吧。

然而我始终没有用上。

我一直想写小说，轻小说，或许以日本某个时代——或是现代，或是交融，或是模糊不定——为背景的小说。这个念头常常以微弱的声音在身体里出没和窃窃私语。之所以微弱，因为它太花时间了，所以我不可能真的着手去写。而且，我依然不知道要怎么把工具书、参考书，用在写小说上。

这就像我虽然以前买过一套三本《龙与地下城》 3.5 版的规则书（哦，好像也买过 4 版？），但是依然想不出自己的 DND 故事。正如我在 2009 年就写过博客《我是个没有故事的人？》一样。

这也就好像我之前在《对于OpenAI的o3模型，我的点滴想法》一文里提到的：当我得知 o3 模型后，它好像是能话费 3000 美元进行一次高强度计算，可以得到与人类博士相当的解题水平——然后呢？如果我请来了一位 AI 博士或一位人类博士，我能用来做什么呢？

在以上三个事例中，我都有一大堆东西—— 日本相关的工具书、 DND 规则书、或是最先进的生成式人工智能。但是，我依然困惑于怎么把它们用起来。

继续阅读

？？？

wildgun的个人站点。御宅族，圣地巡礼爱好者，持续自我量化中。

AI

All posts tagged AI

AI的五感之旅：视觉、听觉已成，味觉、嗅觉还远吗？

AI 的五感之旅：视觉、听觉已成，味觉、嗅觉还远吗？

视觉和听觉的「数字化」优势

嗅觉和味觉的复杂性：物理 vs 化学

写在大概是GPT4.5发布之前

试用ChatGPT新开DeepResearch功能感想小记

用Claude3.7编写网页小游戏即试后感

即便是o3-mini推理模型，现在还是难以胜任OCR

从提问《鼠净土》而来的一忧一喜

试用o3-mini做网页版超级玛丽

o3-mini-high经过1分12秒的推理后画出的五角星

试让新模型o3-mini说字形

从学以致用，到学用

近期文章

分类

友情链接

来自地球上的各位…

归档