AI 看懂图片,已经不算新鲜了。
你丢一张图给多模态模型,它大概率能告诉你:这是一群人、这是一堆零件、这是显微镜下的细胞,或者这是一片果园。
但等一下,另一个问题其实更难:
图片里到底有多少个?
这就不是简单的“识别”了,而是“计数”。
比如一张显微镜图片里有多少个细胞,一张航拍图里有多少辆车,一张工厂图片里有多少个零件,一张农场图片里有多少个果实。人眼看一眼能大概判断,但要数清楚,尤其是在目标密集、互相遮挡、大小不一致的情况下,并不容易。
最近我看到一个叫 Count Anything 的模型,做的就是这件事:你用文字告诉它要数什么,它尝试在图片里把对应对象统计出来。
这个方向我觉得值得关注,因为它代表视觉 AI 正在从“看见是什么”,继续往“量化有多少”走。
它是什么?
Count Anything 是一个基于文本提示的图像对象计数模型。
简单理解,你给它一张图片,再给一句文字提示,比如:
- count the cells
- count the people
- count the apples
- count the screws
- count the cars
然后它尝试统计图像里对应对象的数量。
这里比较关键的是:它不是只能数固定类别的东西,也不是只能处理训练集中那几个标准对象。它的目标是面向更开放的对象类别,让用户通过文字提示指定“我要数什么”。
这和我们平时理解的图像识别不太一样。图像识别更像是在回答:
图片里有什么?
而 Count Anything 更关心的是:
图片里这个东西有多少个?
这两个问题看起来接近,但难度其实差很多。
为什么“数清楚”比“看懂”更难?
很多视觉模型已经能识别图像内容,但计数对模型提出了更细的要求。
比如一张人群图片里,模型只要判断“这里有人群”,并不难;但如果要准确数出有多少个人,它就要处理很多细节:远处的人很小,边缘的人可能只露出一部分,人与人之间还会互相遮挡。
显微镜细胞计数也是类似问题。细胞可能密密麻麻挤在一起,边界不清晰,有些还会重叠。工业零件、农作物果实、货架商品也是一样,真正麻烦的地方不在于“它是不是一个苹果”,而在于“这里到底应该算几个苹果”。
所以,计数任务比普通识别更容易暴露视觉模型的短板:
| 任务 | 核心问题 | 难点 |
|---|---|---|
| 图像识别 | 这是什么? | 类别判断 |
| 目标检测 | 东西在哪里? | 定位和框选 |
| 图像计数 | 有多少个? | 密集、小目标、遮挡、重叠、边界模糊 |
Count Anything 想解决的,就是第三类问题。
它能用在哪些场景?
这个模型的使用场景其实很直观。
1. 显微镜细胞计数
医学、生命科学、实验室场景里,经常需要数细胞、菌落、组织结构中的小目标。人工数很慢,传统算法又比较依赖图像质量和固定规则。如果可以通过文字提示直接指定要数的对象,会更灵活。
2. 工业零件检测
工厂产线、质检、仓储里,经常需要统计零件数量、缺失数量、排列情况。这里的难点是零件可能很相似,也可能存在遮挡、反光、堆叠等问题。
3. 人群密度估算
安防、交通、公共空间管理里,人群计数一直是典型视觉任务。它不只是“图里有人”,而是要估计人数、密度和变化趋势。
4. 农业果实统计
农业里有很多计数需求,比如一棵树上有多少果实,一片区域里有多少作物,一张航拍图里有多少目标。对产量预测、采摘规划都有帮助。
5. 货架和库存盘点
零售场景里,也可以用视觉计数辅助判断货架商品数量、缺货情况、摆放密度。当然,这类场景对准确率要求比较高,不能只看模型 demo。
这些场景有一个共同点:它们都不是简单地“看懂图片”,而是要从图片里提取一个可以用于决策的数字。
值得看的地方
我觉得 Count Anything 有几个点比较值得看。
第一,它是文本提示驱动的。用户不一定需要重新训练一个专门模型,而是通过自然语言告诉模型要数什么。这让它比传统固定类别计数方法更灵活。
第二,它面向的是开放类别计数。也就是说,它不是只数人、车、猫、狗,而是希望用户可以根据场景指定目标对象。对于真实业务来说,这一点很重要,因为不同场景下要数的东西差别很大。
第三,它有论文和项目,不只是一个新闻概念。对技术读者来说,可以继续看方法、数据集、实验结果和局限性,而不是只停留在“又出了一个新模型”。
第四,报道中提到,它在一些对比测试里相比旧系统误差有明显降低。这个点我会谨慎看待,因为 benchmark 上的提升不等于真实场景一定稳定,但至少说明这个方向正在被认真推进。
它和普通多模态模型有什么区别?
你可能会问:现在很多多模态模型不是也能看图吗?直接问它“图里有几个人”不行吗?
可以,但不一定稳定。
通用多模态模型通常擅长描述、解释、概括,它可以告诉你图里大概有什么,也能做一些简单计数。但在密集、小目标、遮挡严重的场景下,它经常会给出一个看似合理但并不准确的数字。
Count Anything 这类模型的价值在于,它把“计数”作为一个更明确的视觉任务来处理,而不是把计数当成看图问答里的一个附带能力。
这就像你可以让通用大模型写代码,但专门的 Coding 模型会针对代码补全、上下文理解、错误修复做优化。视觉计数也是类似逻辑:通用看图能力有用,但专业计数能力在一些场景里更关键。
适合谁关注?
如果你是做计算机视觉、AI 应用、工业检测、医疗影像、农业智能化方向的开发者,这个模型值得看一下。它不一定马上能直接放进生产环境,但它代表了一个明确趋势:视觉模型正在从“识别内容”走向“输出可量化结果”。
如果你是普通效率工具用户,也可以关注这个方向。因为未来很多图片处理工具,可能不只是帮你识别图片里有什么,还会帮你统计数量、生成表格、做盘点、做对比。
比如:
- 帮你数一张货架图里某类商品还剩多少;
- 帮你统计一批照片里的缺陷数量;
- 帮你估算一张图片里某种对象的密度;
- 帮你把图片信息变成可计算的数据。
这比“看图说话”更接近真实工作流。
不适合 / 需要注意什么?
当然,它不是万能计数器。
首先,计数任务本身对图像质量很敏感。如果图片模糊、遮挡严重、目标边界不清楚,模型很容易出错。尤其是在高密度场景里,几个对象贴在一起,到底算一个还是多个,本身就可能存在歧义。
其次,真实业务里不能只看模型输出的一个数字。比如医疗、工业质检、库存盘点这些场景,计数结果往往会影响后续决策,所以必须有验证流程,不能直接把模型结果当成绝对真值。
第三,开放类别计数听起来很灵活,但实际效果要看提示词、图片类型、目标对象定义是否清楚。比如“数清楚图里的零件”和“数清楚图里所有异常零件”,就是两个难度完全不同的问题。
所以我更倾向于把 Count Anything 看成一个值得关注的视觉 AI 方向,而不是一个可以无脑接入生产系统的工具。
小结
Count Anything 这个模型的任务听起来很简单:数清楚图片里有多少个东西。
但这个问题背后其实很有意思。因为 AI 视觉能力如果只停留在“识别图片里有什么”,很多时候还不够进入真实业务。真正有价值的场景,往往需要它进一步回答:有多少个、变化了多少、哪里多了、哪里少了。
从这个角度看,Count Anything 代表的是视觉 AI 的一个重要变化:从“看见”走向“量化”。
它适合做视觉 AI、工业检测、医疗影像、农业和盘点场景的人继续关注。普通用户也可以把它当成一个趋势信号:未来的 AI 看图工具,可能不只是描述图片,而是直接把图片里的对象统计成可用数据。
相关链接
GitHub 项目:
https://github.com/Mengqi-Lei/count-anything