问题/痛点描述
目前库上有一个 Synthetic 数据集,可以自定长度,然后测试性能,但是这个方式有一个缺陷在于,里面的内容都是无意义的重复 token 或是随机的噪声,对于投机推理特性(mtp eagle3 之类的)性能测试的提升无法验证,因为这种特性需要大小模型协同推理,如果输入是无意义内容则采信率和实际场景差异过大。
建议方案
目前参考 MindIE 对于投机推理的实际测试场景,会使用一个自己写的简单脚本,基于 gsm8k 数据集循环重复达到指定的输入长度(使用 AutoTokenizer 的能力判断 Token 数量)。希望 AISBench 可以参考实现一个类似的功能,或者设计一个更好的方案。对于这个测试场景的关键功能需求有 2 点:
- 可以指定长度;
- 输入的内容是具有一般意义上的人类语义,而不能是噪声或者是简单重复。
备选方案
可以考虑设计一个建议方案以外的更好的方案,只需要满足关键功能需求即可。
补充建议:如果可以的话,也可以做一个功能更加强大的自定义数据集生成器,用来更方便的测试 prefix cache 等市场爆火的关键推理特性。
预期价值
使得 aisbench 测试框架,在性能测试场景下,可以有更完备的功能。目前此需求提及的功能,是业界推理框架的非常常见的需求,且开发工作量应该较为可控,对于整个 AISBench 的功能完备性、易用性和生态推广都具有显而易见的帮助。
参与意向