MMBench

堆友AI

MMBench是什么

MMBench是多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。MMBench推出一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。MMBench涵盖多种任务类型,如视觉问答、图像描述生成等,基于综合多维度指标,为模型提供全面的性能评估。MMBench 的排行榜展示不同模型在这些任务上的表现,帮助研究者和开发者了解当前多模态技术的发展水平,推动相关领域的技术进步。

MMBench

MMBench主要功能

  • 细粒度能力评估:将多模态能力细分为多个维度(如感知、推理等),针对每个维度设计相关问题,全面评估模型的细粒度能力。
  • 大规模多模态数据集:提供约 3000 个多项选择题,覆盖 20 种能力维度,支持模型在多种场景下的性能测试。
  • 创新评估策略:采用“循环评估”策略,用多次循环推理测试模型的稳定性,减少噪声影响,提供更可靠的评估结果。
  • 多语言支持:提供英文和中文版本的数据集,支持对模型在不同语言环境下的能力评估。
  • 数据可视化:支持数据样本的可视化,帮助用户更好地理解数据结构和内容。
  • 官方评估工具:提供 VLMEvalKit,支持对多模态模型的标准化评估,并可用于提交测试结果获取准确率。
  • 基准测试与排行榜:排行榜展示不同模型在 MMBench 数据集上的性能表现,为研究者提供参考。

MMBench

如何使用MMBench

  • 安装依赖:确保安装必要的工具和库。MMBench 官方推荐使用其评估工具 VLMEvalKit。通过以下命令安装。
pip install vlmevalkit
  • 下载数据集:从 MMBench 官方 GitHub 仓库:https://github.com/open-compass/mmbench/下载数据集。根据需求选择 VLMEvalKit 格式或 Legacy 格式的数据集。例如,下载 MMBench-Dev 数据集:
wget <Download Link (VLMEvalKit)> -O MMBench_DEV_EN.zip
unzip MMBench_DEV_EN.zip
  • 加载和浏览数据:用 VLMEvalKit 提供的脚本加载和查看数据样本。以下是示例代码:
from vlmeval.dataset import ImageMCQDataset
from vlmeval.smp import mmqa_display

# 加载 MMBench 开发集
dataset = ImageMCQDataset('MMBench_DEV_EN')

# 查看第 0 个样本
dataset.display(0)

# 构建多模态提示
item = dataset.build_prompt(0)
print(item)
  • 模型推理:用你的多模态模型对数据集进行推理。以下是一个示例命令,使用 llava_v1.5_7b 模型进行推理:
python run.py --model llava_v1.5_7b --data MMBench_DEV_EN --mode infer
    • 运行后,推理结果将保存为一个 Excel 文件,例如:llava_v1.5_7b/MMBench_DEV_EN.xlsx
  • 评估模型性能:用 VLMEvalKit 对模型的预测结果进行评估。评估工具根据 MMBench 的标准计算准确率等指标。
  • 提交测试结果
    • 在 MMBench 领先榜上提交测试结果,按照以下步骤操作:
      • 使用测试集数据进行推理,生成预测结果文件(如 llava_v1.5_7b/MMBench_TEST_EN.xlsx)。
      • 登录 MMBench 领先榜上传预测结果文件。
      • 领先榜将自动计算并展示模型在各个能力维度上的性能表现。

MMBench的应用场景

  • 模型性能评估:MMBench 提供全面的多模态基准测试平台,能对视觉语言模型在不同任务和能力维度上的表现进行细粒度评估,帮助研究者和开发者清晰了解模型的强项和弱项,为模型优化提供方向。
  • 学术研究支持:研究人员用 MMBench 数据集进行新模型的开发和验证,推动多模态技术的前沿研究。
  • 工业应用开发:在工业领域,企业评估和选择适合其产品的多模态模型,确保所采用的模型在实际应用场景中具备足够的性能和稳定性,提高产品的市场竞争力。
  • 教育与培训:作为教学资源,帮助学生和研究人员更好地理解多模态模型的评估方法和应用场景,基于实践项目和课程练习提升对多模态技术的理解和应用能力。
  • 跨领域应用:MMBench 的多模态数据集涵盖多个领域,如文化、科学、医疗等,例如 CCBench(中国文化相关基准测试)能评估模型在特定文化领域的表现,推动文化研究和跨文化交流。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

类似于MMBench的工具

Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

MagicArena

字节推出的视觉生成模型对战平台

SuperCLUE

中文通用大模型综合性测评基准

PubMedQA

生物医学研究问答数据集和模型得分排行榜

CMMLU

一个综合性的大模型中文评估基准

H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型评估系统

即梦AI



暂无评论

暂无评论…


Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *

Scroll to Top