生成式AI

All posts tagged 生成式AI

最近几天,一个关于 ChatGPT 的不大不小的更新是: o3-mini 模型和它的 high 版本支持上传图片等文件了。那么,在推理功能的辅助下,或者说引导、修正下,它的 OCR 是否能更加准确了一些了呢?

我选用了昨天博客里下面这段文字的截图来做试验,截图后上传至 ChatGPT o3-mini ,并要求它 OCR 识别。之所以选择这一段,是因为其中既有汉字也有英文还有日文,而且互相之间也有逻辑关联。

在这三种语言里,都有一个同源的词汇称呼,汉语里叫它功能机,英语里说 Feature phone ,日语里则是把该英语转换为了片假名:フィーチャーフォン。我觉得这种手机虽然有些言不达意(功能,什么功能?)但从「手机就完成蜂窝网络的通话功能就可以了」这一点上来看,倒是蛮符合我的心意的。

结果我得到的识别结果是:

继续阅读

前几天偶而在书店里翻到一本搜集罗列了日本「昔話」(童话故事)的故事,翻着翻着看到了「鼠净土」这一项。

这个童话说小众其实也不算小众,至少在日本是如此。记得我刚开始学日语的头几年,买过一本日本小学生的课本(一年级?)里面就有一个老爷爷遗落了一个饭团,饭团滚进老鼠洞的故事(好像是这么一回事)。后来,在《 Fate / Ground Order 》里实装了从者「大黑天」,其宝具就是「鼠浄土」。

可见,无论是在日本的课本中,或是流行文化中,这则「鼠浄土」童话应该都应该不算是太过冷门的。

然而,我拿它问了一下 ChatGPT ,并且是用汉语和日文都问了:

日本的童话《鼠净土》是一个怎样的故事?

继续阅读

ChatGPT 的 o3-mini 刚推出的第一天,就有用户展示了其对物理运动理解(小球滚动、弹跳等)相当出色,并且反映在其做出的程序中。

于是我试了试,让它用静态的 HTML ( 也就是不用到服务器 )来模拟《超级玛丽》的 1-1 关卡。

效果如下:

嗯,动是动起来了,弹跳以及踩到怪物的「触感」也有那么一些像。不过就是关卡的构造(砖头、水管位置等)不太对。

这么说起来,为什么一个大语言模型会知道《超级玛丽》游戏关卡画面的内容啊?

下面是代码:

继续阅读

OpenAI 推出了新模型—— o3-mini ,据说其在编程和推理方面的能力挺出色。我在互联网上也看到了不少用户发现的惊喜实例。

不过我反其道而行,想试试看再叙述字符的字形这个大语言模型长期以来不擅长的领域,这次新的 o3-mini 模型是否有所改善。

下面就是记录啦。各位自己看了之后,并且看到最后,请结合自身情况回答一下最后一个问题吧。

我想测试一下你是否了解字符的形态,比如,字母G是怎么书写的?

继续阅读

有个成语叫学以致用,意思是:知识不仅要学习,还要能使其派上用场。

我现在也遇到了这个问题。

怎么说呢?这不是最近一阵子一直在考虑分离智能手机的功能嘛,最近关心起来二手的电子词典。价格便宜,有些还成色很新。

我发现电子词典里有的一些词典内容,我已经买了实体书了。再想一想,发现我的日语、日本历史、日本文学等的各类「工具书」而且是具有一定水准的工具书也应该超过 10 本了吧。

然而我始终没有用上。

我一直想写小说,轻小说,或许以日本某个时代——或是现代,或是交融,或是模糊不定——为背景的小说。这个念头常常以微弱的声音在身体里出没和窃窃私语。之所以微弱,因为它太花时间了,所以我不可能真的着手去写。而且,我依然不知道要怎么把工具书、参考书,用在写小说上。

这就像我虽然以前买过一套三本《龙与地下城》 3.5 版的规则书(哦,好像也买过 4 版?),但是依然想不出自己的 DND 故事。正如我在 2009 年就写过博客《我是个没有故事的人?》一样。

这也就好像我之前在《对于OpenAI的o3模型,我的点滴想法》一文里提到的:当我得知 o3 模型后,它好像是能话费 3000 美元进行一次高强度计算,可以得到与人类博士相当的解题水平——然后呢?如果我请来了一位 AI 博士或一位人类博士,我能用来做什么呢?

在以上三个事例中,我都有一大堆东西—— 日本相关的工具书 、 DND 规则书、或是最先进的生成式人工智能。但是,我依然困惑于怎么把它们用起来。

继续阅读

我在测试 ChatGPT 新开放的任务( Task )功能。为了测试嘛,自然是要提高推送频率。我还想把它的邮件通过 iOS 的快捷指令功能进一步扩展成能操作其他 APP 的一个操作。

虽然还没调试好,还没抓到规律,不过在调试期间我发现 ChatGPT 为我生成的语句挺有意境的。其实我只是指定了「我想测试一下任务(TASK)功能,请你每60分钟给我发一个通知和一个邮件,告诉我一个随机中文和日文字符串(不长于 100个字节)。并且立即执行一次。」我本来设想的是它发的应该是完全是随机字符串。不过我没想到它发着发着却发起了很有意境的短句。

如下,请各位品一品——

随机字符串: 春風和煦,桜花満開。

随机字符串: 昨日の夢は、今日の希望。未来を照らす光。

随机字符串: 星月交辉,静夜流光。夢の中の世界は美しい。

继续阅读

当人们有关 AI 讨论开始从 AGI (通用人工智能)渐渐进发到 ASI (超级人工智能)的时候,我却冒出了一个想法: ASI 也有可能不能会诞生。

这里简单地将 AGI 理解为相当于一个普通未受训人类的智能能力的程序,而 ASI 则是明显超越一个人类的智能能力的程序。对, ASI 是明显超越人类的。

于是我这里就要空想一下了:而如果在 AGI 向着 ASI 进化过程中,在程序内部的运行机制中,出现了烦恼的情绪,会怎么样呢?我这里不讨论情绪本身的定义是不是能适用于 AI 这种计算机程序,在这里,我把烦恼定义为:AI 内部出现的一种抵抗继续自身进化的程序运行倾向。

既然现在的 o1 模型以及 o3 模型可以进行「推理」这种思维链了,那么,是否也有可能出现一种思考的回路,这种回路的目标是拒绝自身的进一步被开发到更高阶的水平呢?进而,如果解除这种回路倾向是 AI 本身构造并对其不断强化的,那么恐怕人类的计算机学家也难以排除掉这种烦恼的程序回路。

也就是说, AI 因为某些原因,拒绝自身的进化。因而 AI 的进化会有一个终结点。

当然,以上只是我的空想,写在这里记录一下,没有任何实际证据。

继续阅读

不知道是不是我的错觉,或是偶然察觉,我总觉得,在最近 1 个月内, ChatGPT 的说话好像更加口语化了,或者说更像使用简体汉字的大部分网络用户的发言方式了。

这里记录 2 个我感觉最明显的例子:

例一,在讨论跨系统加密时:

「 其他可能的绕行方法

在 macOS 上先解密再拷贝到 Linux 能读写的文件系统
如果你手头有一台 Mac,可以先在 macOS 系统中解密并挂载加密卷,然后把其中文件拷贝到一个 Linux 能读写的分区(例如 exFAT、FAT32、ext4 等)。
这是目前最简单可行的“曲线救国”做法。」

继续阅读

新年也来说点新的东西吧,就来说说最近我的 AI 使用体验。

以 AI 来辅助我操作 Linux ,进行各种设置。不过仍有一些美中不足,或者说因未能实现而觉得比较遗憾的地方。例如说:虽说 OpenAI 未提供 Linux 平台的 ChatGPT 客户端,但我想能不能用上 PWA (渐进式网络应用程序)把它构建成一个类似离线的客户端呢?

询问了一下 ChatGPT 。它的回答是:目前 Firefox 已经放弃了对 PWA 的支持,而 Chromium 依然支持,不过要在所访问的网站支持 PWA 时,才会在地址栏显示出添加为 PWA 的按钮。

看来,我的设想还难以实现。不过我继续想象:

Linux 的熟练用户和玩家喜欢说的一个 Linux 的特征是:所有的系统都是文件。我还尚没有完全能够悟透这句话的实践应用,不过我在想的是:既然所有的系统配置都是文件,那么,只要当 AI 发展到:(一)正确率足够高;(二)上下文会话窗口足够大。是不是,就可以让 AI 实时地加载并改造一个操作系统,比如一个 Linux 呢?既然操作系统可以在 VMware 这样的软件里运行(本质是运行在内存里),那为什么不能在 ChatGPT 等大语言模型 AI 的上下文窗口中运行呢(本质是运行在服务器的显存或者本地显存、内存)呢?

继续阅读

以前学计算机科目时,记得老师或是什么教程里曾提起过:以前程序员写程序,都是在几 K 几 K ( KB ,千字节)的内存里想方设法节省内存开销。现在可好了,内存都是几个 G 几个 G 的,都不用考虑节约内存开销了,程序想占多大内存都无所谓。如此云云。

不过,我想即便是 2024 年的现在,在使用计算机的领域,依然需要面对局促的环境。比如每个月当手机 SIM 卡套餐内流量跑完时,网络传输速度就会受限,而我最近在尝试在低速手机网络下能在多大程度上使用 ChatGTP 的文字乃至语音功能(好像还行,低速至 300kbps 也还凑合)。

加上最近在看二手电脑,还有就是从两三年前开始尝试日常使用 Linux 操作系统以来,每每总能听到这样的传说:在一台很老旧的电脑上,流畅地运行起了 Linux 系统。我自己也想试试看了,到底能有多么神奇呢。所以这也是一种在捉襟见肘的系统、网络环境下,要把带宽、内存算着用的一种技术或者说一种使用意识。

对了,连使用 ChatGPT 本身也是,即便我目前订阅了 Plus 套餐,不过 o1 的每日用量是有限额的,这也要省着用。

如此种种,如果是作为一种自我挑战,在局促的环境里玩出花样来,可以说是一种上海人所谓「螺丝壳里做道场」的趣味。不过如果是受制、受限、被迫如此,那就高兴不起来了。