CMMLU

CMMLU是综合性的中文评估基准,专门用在评估语言模型在中文语境下的知识和推理能力,涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学,需要知识的人文科学和社会科学,及需要生活常识的中国驾驶规则等。

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI语言模型评估框架)封装。

MMLU

MMLU 全称 Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大学的研究人员在2020年9月推出。

C-Eval

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,用以评测大模型中文理解能力。

Grok

Grok 是马斯克旗下的xAI公司最新推出的人工智能助手,一个与 ChatGPT 类似的聊天机器人,关键的区别之处在于 Grok 可以实时访问 𝕏(原Twitter)数据,可以为用户提供最新且独特的信息。

通义智文

通义智文是阿里云推出的基于通义大模型的免费AI阅读助手,可智能阅读网页、论文、图书和文档,帮助用户在更短的时间内精读文章内容,获取提要和概述,快速掌握要点,提高阅读效率。同时支持自由提问,可解答用户关于文章的问题或其他不解之处。

通义灵码

通义灵码是阿里推出的免费AI编程工具,基于通义大模型,帮助开发者提升编程效率和质量。具备多种实用功能,如智能代码续写,能根据上下文实时生成代码;自然语言生成代码,用户只需用自然语言描述需求,可快速生成对应代码;能自动生成代码注释、解释代码逻辑,以及协助排查异常报错。

CodeFuse

CodeFuse 是一款为国内开发者提供智能研发服务的产品,该产品是基于蚂蚁集团自研的基础大模型进行微调的代码大模型。CodeFuse 具备代码补全、添加注释、解释代码、生成单测,以及代码优化功能,以帮助开发者更快、更轻松地编写代码。

触手AI绘画

触手AI是为插画、漫画、设计等用户打造的国产AI绘画创作平台,并已通过国内第二批深度合成服务算法备案。支持文生图、图生图、参考生图、lora在线模型训练、海量模型可使用。

百度文库AI助手

百度文库AI助手是百度基于文心一言推出的一站式AI文档助手,可帮助用户高效解答问题,辅助进行内容创作、内容总结、PPT生成等,并且助力激发灵感和想象。