hello
发布于 2026-06-14 / 4 阅读
0
0

这个 AI 模型的任务很简单:帮你数清楚图片里有多少个东西

AI 看懂图片,已经不算新鲜了。

你丢一张图给多模态模型,它大概率能告诉你:这是一群人、这是一堆零件、这是显微镜下的细胞,或者这是一片果园。

但等一下,另一个问题其实更难:

图片里到底有多少个?

这就不是简单的“识别”了,而是“计数”。

比如一张显微镜图片里有多少个细胞,一张航拍图里有多少辆车,一张工厂图片里有多少个零件,一张农场图片里有多少个果实。人眼看一眼能大概判断,但要数清楚,尤其是在目标密集、互相遮挡、大小不一致的情况下,并不容易。

最近我看到一个叫 Count Anything 的模型,做的就是这件事:你用文字告诉它要数什么,它尝试在图片里把对应对象统计出来。

这个方向我觉得值得关注,因为它代表视觉 AI 正在从“看见是什么”,继续往“量化有多少”走。


它是什么?

Count Anything 是一个基于文本提示的图像对象计数模型。

简单理解,你给它一张图片,再给一句文字提示,比如:

  • count the cells
  • count the people
  • count the apples
  • count the screws
  • count the cars

然后它尝试统计图像里对应对象的数量。

这里比较关键的是:它不是只能数固定类别的东西,也不是只能处理训练集中那几个标准对象。它的目标是面向更开放的对象类别,让用户通过文字提示指定“我要数什么”。

这和我们平时理解的图像识别不太一样。图像识别更像是在回答:

图片里有什么?

而 Count Anything 更关心的是:

图片里这个东西有多少个?

这两个问题看起来接近,但难度其实差很多。


为什么“数清楚”比“看懂”更难?

很多视觉模型已经能识别图像内容,但计数对模型提出了更细的要求。

比如一张人群图片里,模型只要判断“这里有人群”,并不难;但如果要准确数出有多少个人,它就要处理很多细节:远处的人很小,边缘的人可能只露出一部分,人与人之间还会互相遮挡。

显微镜细胞计数也是类似问题。细胞可能密密麻麻挤在一起,边界不清晰,有些还会重叠。工业零件、农作物果实、货架商品也是一样,真正麻烦的地方不在于“它是不是一个苹果”,而在于“这里到底应该算几个苹果”。

所以,计数任务比普通识别更容易暴露视觉模型的短板:

任务核心问题难点
图像识别这是什么?类别判断
目标检测东西在哪里?定位和框选
图像计数有多少个?密集、小目标、遮挡、重叠、边界模糊

Count Anything 想解决的,就是第三类问题。


它能用在哪些场景?

这个模型的使用场景其实很直观。

1. 显微镜细胞计数

医学、生命科学、实验室场景里,经常需要数细胞、菌落、组织结构中的小目标。人工数很慢,传统算法又比较依赖图像质量和固定规则。如果可以通过文字提示直接指定要数的对象,会更灵活。

2. 工业零件检测

工厂产线、质检、仓储里,经常需要统计零件数量、缺失数量、排列情况。这里的难点是零件可能很相似,也可能存在遮挡、反光、堆叠等问题。

3. 人群密度估算

安防、交通、公共空间管理里,人群计数一直是典型视觉任务。它不只是“图里有人”,而是要估计人数、密度和变化趋势。

4. 农业果实统计

农业里有很多计数需求,比如一棵树上有多少果实,一片区域里有多少作物,一张航拍图里有多少目标。对产量预测、采摘规划都有帮助。

5. 货架和库存盘点

零售场景里,也可以用视觉计数辅助判断货架商品数量、缺货情况、摆放密度。当然,这类场景对准确率要求比较高,不能只看模型 demo。

这些场景有一个共同点:它们都不是简单地“看懂图片”,而是要从图片里提取一个可以用于决策的数字。


值得看的地方

我觉得 Count Anything 有几个点比较值得看。

第一,它是文本提示驱动的。用户不一定需要重新训练一个专门模型,而是通过自然语言告诉模型要数什么。这让它比传统固定类别计数方法更灵活。

第二,它面向的是开放类别计数。也就是说,它不是只数人、车、猫、狗,而是希望用户可以根据场景指定目标对象。对于真实业务来说,这一点很重要,因为不同场景下要数的东西差别很大。

第三,它有论文和项目,不只是一个新闻概念。对技术读者来说,可以继续看方法、数据集、实验结果和局限性,而不是只停留在“又出了一个新模型”。

第四,报道中提到,它在一些对比测试里相比旧系统误差有明显降低。这个点我会谨慎看待,因为 benchmark 上的提升不等于真实场景一定稳定,但至少说明这个方向正在被认真推进。


它和普通多模态模型有什么区别?

你可能会问:现在很多多模态模型不是也能看图吗?直接问它“图里有几个人”不行吗?

可以,但不一定稳定。

通用多模态模型通常擅长描述、解释、概括,它可以告诉你图里大概有什么,也能做一些简单计数。但在密集、小目标、遮挡严重的场景下,它经常会给出一个看似合理但并不准确的数字。

Count Anything 这类模型的价值在于,它把“计数”作为一个更明确的视觉任务来处理,而不是把计数当成看图问答里的一个附带能力。

这就像你可以让通用大模型写代码,但专门的 Coding 模型会针对代码补全、上下文理解、错误修复做优化。视觉计数也是类似逻辑:通用看图能力有用,但专业计数能力在一些场景里更关键。


适合谁关注?

如果你是做计算机视觉、AI 应用、工业检测、医疗影像、农业智能化方向的开发者,这个模型值得看一下。它不一定马上能直接放进生产环境,但它代表了一个明确趋势:视觉模型正在从“识别内容”走向“输出可量化结果”。

如果你是普通效率工具用户,也可以关注这个方向。因为未来很多图片处理工具,可能不只是帮你识别图片里有什么,还会帮你统计数量、生成表格、做盘点、做对比。

比如:

  • 帮你数一张货架图里某类商品还剩多少;
  • 帮你统计一批照片里的缺陷数量;
  • 帮你估算一张图片里某种对象的密度;
  • 帮你把图片信息变成可计算的数据。

这比“看图说话”更接近真实工作流。


不适合 / 需要注意什么?

当然,它不是万能计数器。

首先,计数任务本身对图像质量很敏感。如果图片模糊、遮挡严重、目标边界不清楚,模型很容易出错。尤其是在高密度场景里,几个对象贴在一起,到底算一个还是多个,本身就可能存在歧义。

其次,真实业务里不能只看模型输出的一个数字。比如医疗、工业质检、库存盘点这些场景,计数结果往往会影响后续决策,所以必须有验证流程,不能直接把模型结果当成绝对真值。

第三,开放类别计数听起来很灵活,但实际效果要看提示词、图片类型、目标对象定义是否清楚。比如“数清楚图里的零件”和“数清楚图里所有异常零件”,就是两个难度完全不同的问题。

所以我更倾向于把 Count Anything 看成一个值得关注的视觉 AI 方向,而不是一个可以无脑接入生产系统的工具。


小结

Count Anything 这个模型的任务听起来很简单:数清楚图片里有多少个东西。

但这个问题背后其实很有意思。因为 AI 视觉能力如果只停留在“识别图片里有什么”,很多时候还不够进入真实业务。真正有价值的场景,往往需要它进一步回答:有多少个、变化了多少、哪里多了、哪里少了。

从这个角度看,Count Anything 代表的是视觉 AI 的一个重要变化:从“看见”走向“量化”。

它适合做视觉 AI、工业检测、医疗影像、农业和盘点场景的人继续关注。普通用户也可以把它当成一个趋势信号:未来的 AI 看图工具,可能不只是描述图片,而是直接把图片里的对象统计成可用数据。


相关链接

GitHub 项目:
https://github.com/Mengqi-Lei/count-anything

论文:
https://arxiv.org/abs/2605.30846


评论