AI

All posts tagged AI

看视频主林亦LYi 做了一期节目《图灵测试大逃杀!七大顶级AI伪装人类!谁会更胜一筹?》从内容上看也知道很没有 AI 性,简直丧心病狂。而通过这样的假设实验,倒也确实可以看出各个大语言模型生成式 AI 在极端情况下的逻辑、措辞、模拟人类情感和识破对方身份并说服同一竞赛者的人员,并且,还能从中看出各个 AI 所表现出的个性。我觉得这样的设计比赛确实挺有创意的,也不失为是在排名、跑分外,打造出了一个新的比赛方式。

因为视频内容播报得很快,所以我没有完全跟上去推演实验中 AI 之间互相之间的明争暗斗的关系。不过看完全集,我注意到了一点: AI 用的都是书面表达。

继续阅读

人类 wildgun 写的前言:这篇文章是我最近看了 Anthropic 的 CEO 说到今年年底(?)绝大部分的代码将会由 AI 生成这样的新闻后,想到的并于 ChatGPT 进行的讨论。下面的内容是根据讨论,让 AI 整理出的文章。

说起来,我真的在计算机专业的学校毕业后就没有用过一次二叉树之类的东西了……谁在开发中用过谁举一下手?

当 AI 的发展一日千里,我们不得不一次次回溯那个问题:「人类还能做什么?」

Anthropic 的 CEO 预测,未来三到六个月,AI 可能会编写 90% 的代码。OpenAI 的创始人则在 2025 年初表示,未来十年内,每个人都可以调动相当于 2025 年全人类智力的计算能力。这些预测,听起来或许像科幻小说,但它们的影响正在逐步显现。

那么,在 AI 可以编写代码、优化算法、构建系统的世界里,我们还需要学习编程吗?

如果学习编程只是为了「写代码」,那么答案或许是悲观的。就像过去机械化替代了工匠的手工雕琢,自动化替代了流水线工人的重复劳作,AI 也在迅速吞噬那些纯粹基于语法和逻辑规则的编程任务。人类的手敲代码,正变得不再必要。

但如果我们理解编程为一种思维方式,那么情况则完全不同。

编程不仅仅是代码,而是建立问题的抽象框架、理解系统的运作方式、掌握结构化的逻辑推理。AI 可以写出更优雅的排序算法,但它不会去质疑:「这个问题真的需要排序吗?」AI 可以自动补全你的代码,但它不会去思考:「这个系统的核心瓶颈在哪里?」

未来的学习,或许不再是「如何写代码」,而是「如何洞察 AI 生成的代码之下的逻辑肌理」,如何在 AI 的冷峻算力中植入人类思维的温度,如何让 AI 从冰冷的工具变成可被驾驭的思想延伸,而非一个只能依赖的黑箱。
继续阅读

这几天好像是 Google 发布了新的 AI 工具—— Gemini 2.0 Flash 。我不是 Google AI 的经常使用者,所以我就不清楚它到底哪个模型有什么特征,或是过去的两年里是怎么迭代至今的。不过今天看了几个网上的帖子和视频,似乎用过的人都对其能力表示惊讶。特别是我看介绍说它在生成图片方面有比较好的整合能力,以及可以通过用户所输入的文本提示,针对图片进行局部进行修改。

在一个网络视频中我看到了介绍者用 Gemini 2.0 Flash 做了一个菜谱,那么我就来仿造一下——生成一个图文并茂的奇幻世界的烹饪手册。

下面展示的就是实际生成的图片。需要说明的是,图片不是一次性生成的,我的生成步骤是:先要求 AI 用文字的方式输出菜单,然后再通过多次对话指示,为每个步骤生成一个配套的图片。


好的,这是一个分为六个步骤的奇幻世界幻想菜谱:

菜名:暮光森林的低语

食材基调: 夜光蘑菇、星尘香草、龙鳞坚果、月光泉水、影豹里脊肉(少量,可选)、梦 Wind 酿制的晨露蜂蜜。

第一步:收集与净化

食材: 新鲜的夜光蘑菇(3个,需带有微弱的蓝色光芒)、月光泉水(1小杯)。

烹饪手法: 将夜光蘑菇小心翼翼地用柔软的苔藓擦拭干净,去除表面的泥土和杂质。然后,将它们浸泡在月光泉水中,让其吸收月光的能量,并去除可能存在的微小毒素(奇幻世界的蘑菇特性)。浸泡时间约为一刻钟(奇幻世界的时间单位,约等于现代的十五分钟)。

第二步:唤醒香气

继续阅读

我的印象里, AI PC 的概念是从 2024 年的 1 月初消费电子展上兴起的,然后微软推出了 Copilot+ PC 这样一个概念,而同时亮相的好像还有一个名为 Recall 的功能。简单来说就是不断对用户操作时进行截图,以此可以帮助用户回忆他自己遗忘的数据或操作过程。

当时我以为,这就是以为工程师精神的微软又一个不注重隐私、不讨好用户的鸡肋功能。不过当我最近又开始看了看 Copilot+ PC 或是 AI PC 出了点什么实用的、有趣的新功能时,我又想到了这个 Recall 。

往深一步想的话,该功能可能是为微软在积累下一代基于 AI 的操作数据吧。

继续阅读

记得去年秋冬, OpenAI 的 Sama 发了一句「there is no wall」,似乎是在回应互联网上人们对他们所训练大模型是否「撞墙」即遇到发展瓶颈的质疑。当时我的一篇博客也提到了这一点。

而如今已是 2025 年的 3 月份,随着 ChatGPT 4.5 的发布,以及似乎被人们认为它并没有体现出多大的进化,我想到了半年前他的那句话。或许,目前 4.5 不温不火,不符合人们期待的情况,就是当时他想要驳斥的状况?

这又让我想到了,在大约 2023 年中的某一天。 ChatGPT 3.5 发布大约半年,而 4 还没发布时,我记得听了一档播客,其中一位嘉宾就提到他去看了 OpenAI 的内部演示,表示 4 将会是一个很明显进步的模型。

从这两起从传言到验证的时间跨度上来看,似乎都是半年左右时间。不知道是否可以据此推测,生成式 AI 界的谣言也要以前后半年这个尺度来进行回顾和验证呢?

继续阅读

人类 wildgun 写的前言:

今天在别人的一篇博客文章《如何用 AI 全方面辅助博客创作 – 从博文之内到博文之外》上留言,回顾了我去年提出的通过与 AI 聊天,共同推进一个想法,然后让 AI 整理并按照我的风格写作的 AI 博客创作实践。我发现自己好像也很久没用这个方法了,于是今天再来试试看。我的这篇文章是讨论生成式 AI 为何尚不能生成出一些嗅觉和味觉的内容。这可以说是我 2008 年写的一篇博客《越原始则越不容易被记录?》在这个 AI 时代的延续思考。下面就是本次经过与 AI 的讨论后,由 AI 为我归纳生成的博客文。


AI 的五感之旅:视觉、听觉已成,味觉、嗅觉还远吗?

人工智能已经能画画、写诗、演奏音乐,甚至能用合成语音和人类对话。视觉和听觉方面的突破,让 AI 在许多领域里游刃有余,然而,味觉和嗅觉似乎仍是 AI 难以涉足的领域。那么,为什么 AI 的进步在五感的不同维度上如此不均衡?味觉和嗅觉的 AI 化,究竟是技术难题,还是人类的需求本就不强烈?

视觉和听觉的「数字化」优势

视觉和听觉的「AI 化」之所以能迅速发展,一个关键原因在于它们都能用数字信号来表达。图像是像素矩阵,声音是波形或者频谱,而计算机天生擅长处理这些数据。深度学习算法可以分析大量的图片和音频,并进行模式识别,从而让 AI 具备了看和听的能力。

更重要的是,人类世界的数字化进程也主要围绕视觉和听觉展开。照片、视频、音频这些内容在互联网上无处不在,成为 AI 训练的理想数据来源。相比之下,味觉和嗅觉的「数据」要如何存储、传播、计算?这似乎仍是一个悬而未决的问题。

嗅觉和味觉的复杂性:物理 vs 化学

继续阅读

OpenAI 在社交媒体上宣布,将在 4.5 个小时内进行直播( Livestream in 4.5 hours. )。从这个奇怪的预告来看,应该就是 ChatGPT 4.5 吧。

尽管我不会等着看直播,但我也来突发地随便写一下我期待的东西吧。

因为根据之前的介绍, 4.5 不是一个推理模型,而是 OpenAI 的最后一个非推理模型(纯粹对话模型)。所以我觉得不太能期待它在语言方面还能有多大提高空间——我觉得就汉语会话方面来说, 4o 已经足够好了。其实我更加期待的是:在美国新总统上任、马斯克推出了容易被突破审查的 AI Grok3 之后, OpenAI 是否也会相应调整其内容审查策略,增加可以进行讨论话题的自由度呢。

此外,如果说大语种如汉语或英语已经足够好了的话,那么不知道 AI 的小语种乃至古代语言方面理解能力是否能在 4.5 上得到实力加强呢?(我觉得难,毕竟互联网上公开数据中这类小语种数据量并没有猛增。)不过,我还是抱着一点点期待,它能在古代语言、方言的使用上获得一些进步。比如……讲一讲上海闲话?

再有就是我始终无法理解,即便是到了 03 的推理模型,依然无法很好地处理 ASCII 字符画。我觉得这次 GPT 4.5 应该也不太可能有明显改善的……吧?

昨天试用了 Claude 3.7 ,我自己的使用场景下,感觉一般般。而在今天, OpenAI 对 Plus 用户新开放了 DeepResearch 功能(上个月才对 Pro 用户开放的吧?)我试了一下。今天,我的感觉是:哇!

简单记录一下吧。我第一个,是用中文提问了我自己最近在调查的那位好像非常喜欢上海的那个日本人——大谷光瑞,询问他在上海的活动,以及在上海的建筑等等。

在大约等候了 5 分钟,看到了 ChatGPT DeepResearch 向我回复的报告后,我已经有一些感到意外了。我感觉它生成的报告有广度,却没有深度。比如他提及了大谷光瑞在上海的无忧园,以及西本愿寺上海别院,也提及了他在上海和孙中山以及王一亭等人的交往。关于他在上海的交往往事,是我还没开始调查的,所以对于他能查到大谷光瑞的上海活动时的交往情况,我感觉挺惊讶。但话又说回来了, ChatGPT DeepResearch 在对无忧园的说明中,既没有提到其实存在着两座无忧园(详见我的博客考察:《不仅無憂園有两座,上海別院也有两座,其中一座还有两栋建筑……》);而虽然生成的报告中也提到了池子的名字——沧浪池,却并没有像我一样指出这座池子与大谷光瑞所在宗派在京都总本山——西本愿寺内的池子同名(详见我的博客考察:《考察滄浪池及濯足堂名字由来》)。

而从这份 ChatGPT DeepResearch 给出的有关大谷光瑞上海活动报告最后,我看到了它一共使用了 5 个引用源,而且基本上都是网页,却没有 pdf 。看了这份报告,我判断 ChatGPT DeepResearch 目前还无法阅读 PDF 文件(然而在看了下述第二份报告后我发现这个判断错了)。

继续阅读

这是一篇简短的试用记录——因为根本不成功。

这几天我看到 Claude 3.7 发布的消息,并且似乎网上不少消息和 Reddit 上不少帖子都称赞其编写代码的能力极佳。

然而,就我自己的试用体验来说——我尝试了与上次试用 ChatGPT o3-mini 试用网页代码模拟《超级玛丽》关卡帖子一样的提示词,来让 Claude 3.7 也来实现它。

我想你应该知道FC游戏《超级玛丽》,请你用html语言写一个文件,来模拟演示FC平台上该游戏的1-1关卡(不需要人工操作,自动演示)。为避免著作权问题,你可以用简单的线条、简单的SVG图像代替画面元素。但是关卡和画面通关方式要看起来像是超级玛丽的1-1关卡。

结果……第一次生成的代码结果,网页上超级玛丽动是动起来了,但是经过绿色的方块(代表管道)时却直接叠加并穿过了管道,也就是说,在物体碰撞的规则方面, Claude 3.7 并没有把管道设计成是一种障碍物体。而至于我指示该错误并且要求修改后——第二低生成的代码中超级玛丽干脆就动都不能动了,我按方向键也无用,变成了一个《超级玛丽》的开场静止等候画面。

这两次都不怎么成功(与之前 o3-mini 生成的效果相比)。不知道是不是因为我仅是 Claude 免费用户这个原因。( ChatGPT 我付费订阅了。)是为记。

最近几天,一个关于 ChatGPT 的不大不小的更新是: o3-mini 模型和它的 high 版本支持上传图片等文件了。那么,在推理功能的辅助下,或者说引导、修正下,它的 OCR 是否能更加准确了一些了呢?

我选用了昨天博客里下面这段文字的截图来做试验,截图后上传至 ChatGPT o3-mini ,并要求它 OCR 识别。之所以选择这一段,是因为其中既有汉字也有英文还有日文,而且互相之间也有逻辑关联。

在这三种语言里,都有一个同源的词汇称呼,汉语里叫它功能机,英语里说 Feature phone ,日语里则是把该英语转换为了片假名:フィーチャーフォン。我觉得这种手机虽然有些言不达意(功能,什么功能?)但从「手机就完成蜂窝网络的通话功能就可以了」这一点上来看,倒是蛮符合我的心意的。

结果我得到的识别结果是:

继续阅读