November 2025 – Page 64

CMMLU是综合性的中文评估基准，专门用在评估语言模型在中文语境下的知识和推理能力，涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学，需要知识的人文科学和社会科学，及需要生活常识的中国驾驶规则等。

Aitools November 2, 2025

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。

Aitools November 2, 2025

MMLU 全称 Massive Multitask Language Understanding，是一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，由UC Berkeley大学的研究人员在2020年9月推出。

Aitools November 2, 2025

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件，由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出，包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别，用以评测大模型中文理解能力。

Aitools November 2, 2025

Grok 是马斯克旗下的xAI公司最新推出的人工智能助手，一个与 ChatGPT 类似的聊天机器人，关键的区别之处在于 Grok 可以实时访问 𝕏（原Twitter）数据，可以为用户提供最新且独特的信息。

Aitools November 2, 2025

通义智文是阿里云推出的基于通义大模型的免费AI阅读助手，可智能阅读网页、论文、图书和文档，帮助用户在更短的时间内精读文章内容，获取提要和概述，快速掌握要点，提高阅读效率。同时支持自由提问，可解答用户关于文章的问题或其他不解之处。

Aitools November 2, 2025

通义灵码是阿里推出的免费AI编程工具，基于通义大模型，帮助开发者提升编程效率和质量。具备多种实用功能，如智能代码续写，能根据上下文实时生成代码；自然语言生成代码，用户只需用自然语言描述需求，可快速生成对应代码；能自动生成代码注释、解释代码逻辑，以及协助排查异常报错。

Aitools November 2, 2025

CodeFuse 是一款为国内开发者提供智能研发服务的产品，该产品是基于蚂蚁集团自研的基础大模型进行微调的代码大模型。CodeFuse 具备代码补全、添加注释、解释代码、生成单测，以及代码优化功能，以帮助开发者更快、更轻松地编写代码。

Aitools November 2, 2025

触手AI是为插画、漫画、设计等用户打造的国产AI绘画创作平台，并已通过国内第二批深度合成服务算法备案。支持文生图、图生图、参考生图、lora在线模型训练、海量模型可使用。

Aitools November 2, 2025

百度文库AI助手是百度基于文心一言推出的一站式AI文档助手，可帮助用户高效解答问题，辅助进行内容创作、内容总结、PPT生成等，并且助力激发灵感和想象。

Aitools November 2, 2025