最近几天,一个关于 ChatGPT 的不大不小的更新是: o3-mini 模型和它的 high 版本支持上传图片等文件了。那么,在推理功能的辅助下,或者说引导、修正下,它的 OCR 是否能更加准确了一些了呢?
我选用了昨天博客里下面这段文字的截图来做试验,截图后上传至 ChatGPT o3-mini ,并要求它 OCR 识别。之所以选择这一段,是因为其中既有汉字也有英文还有日文,而且互相之间也有逻辑关联。
在这三种语言里,都有一个同源的词汇称呼,汉语里叫它功能机,英语里说 Feature phone ,日语里则是把该英语转换为了片假名:フィーチャーフォン。我觉得这种手机虽然有些言不达意(功能,什么功能?)但从「手机就完成蜂窝网络的通话功能就可以了」这一点上来看,倒是蛮符合我的心意的。
结果我得到的识别结果是:
在这三种语言里,都有一个同词翻译的明显不同,汉语里叫它功能机,英语里说「Feature phone」,日语则是配合英文那套转译方式片假名:フィーチャーフォン。我觉得这款手机虽然看着当年普及度啥的当年还是不算「功能」机呢?什么功能呢?但从「手机屏幕截图网络的遮挡功能」可见手机上来看,这一点上来看,倒是奇奇怪怪令我在意的。
顺便一说,推理持续了 34 秒。
这完全不行啊,别说识别准确度了,连生成的内容都读起来不是通顺的句子。
駄目駄目。