Grok3并没带来颠覆式效果,但合成数据开辟了一个新方向。
Grok3的性能媲美甚至超过了DeepSeek和Chatgpt等,但他是在20万块英伟达高性能显卡的基础上大力出奇迹的结果,虽然引入了“思维链”,加强了机器深度思考和逻辑推理的功能,但仍是缩放定律有多少投入获得多少结果的延续,他的出现只是加强版的Chatgpt。
但是他在训练过程中因为现有数据已经满足不了需求,使用到了大量的合成数据,合成数据可在一定程度上补充数据量,使模型有足够数据进行训练,而且可增加数据的多样性,涵盖更多可能的情况和特征组合,让模型学习到更全面的模式和规律。不过合成数据对质量的要求很高,若生成方法不合理或参数设置不当,可能与真实数据分布存在偏差,影响模型训练效果。所以生成合成数据同样是一个有较高门槛的事情,但未来确是大模型训练中的重要一环。
国内上市公司有能力做合成数据的有以下几家:
星环科技:企业级大数据基础软件开发商,积极探索数据的合成、生成。
海天瑞声:主营AI训练数据的研发设计、生产及销售业务,目前有参与合成数据领域。
虹软科技:主营视觉人工智能技术的研发和应用,产品支持开发合成数据方案。

评论列表