转自:证券日报
本报记者 邬霁霞
作为人工智能产业链上游的关键基础资源,“AI语料”正迅速成为资本市场新的焦点。A股上市公司也纷纷加快布局,力求在人工智能产业链上游抢占战略制高点。
市场前景广阔
所谓AI语料,是指用于训练人工智能算法和模型的文本、语音、图像或其他形式的数据集合。AI语料作为训练人工智能算法和模型的核心资源,其重要性随着技术发展与行业渗透持续提升。求思咨询数据显示,2023年我国AI语料市场规模达68.7亿元,预计到2025年将突破100亿元大关,增长至109亿元,年复合增长率超过25%。
中国电子商务专家服务中心副主任郭涛向《证券日报》记者表示:“随着AI技术在各行业的渗透日益深入,AI语料市场有望持续扩容。尤其是在医疗、金融、教育等对数据质量和安全性要求极高的行业,定制化、高质量的AI语料将拥有极为广阔的市场空间。而且,随着技术的不断进步,语料的收集、整理、标注和应用效率也会不断提升,这无疑将进一步推动AI语料市场的发展。”
政策层面的支持也为行业发展注入强劲动能。2024年12月份,国家发展改革委等六部门联合印发《关于促进数据产业高质量发展的指导意见》,明确提出支持企业面向人工智能应用创新,开发高质量数据集,大力发展“数据即服务”“知识即服务”“模型即服务”等新业态。2025年2月19日,国家数据局召开高质量数据集建设工作启动会,明确指出要扎实做好高质量数据集建设工作,加快推动形成一批标志性成果,以此赋能行业高质量发展。
中国数实融合50人论坛智库专家洪勇在接受《证券日报》记者采访时表示:“在政策红利与市场需求的双重推动下,AI语料的价值正经历全面重估。优质语料库不仅是AI模型训练的基础材料,更成为企业构建差异化竞争优势的核心资产。其价值将通过市场估值提升、商业合作拓展、技术创新突破等多维度得以体现。”
相关行业龙头抢滩
面对如此广阔的市场前景,众多上市公司积极投身AI语料领域。
在文本语料领域,中文在线集团股份有限公司依托20余年文化数字产业积累,构建起涵盖文学、教育、科技等多类型的高质量语料库;中国科技出版传媒股份有限公司、中国出版传媒股份有限公司等出版龙头则将专业学术资源转化为AI语料,服务于科研、教育等领域的AI应用。
视频语料赛道呈现多元化布局态势。浙江华策影视股份有限公司凭借影视剧制作优势积累海量原始素材库,为AI在视频领域的应用提供了丰富资源;中广天择传媒股份有限公司的“淘剧淘”平台汇聚了优质电视剧版权,并出售大模型客户,为大模型训练提供深度数据支持。
视觉(中国)文化发展股份有限公司在图片语料领域优势突出。作为全球领先的视觉内容数字版权供应商,其拥有近5亿专业级图文对、80万小时视频音乐素材,还具备完善的结构化元数据,为AI视觉应用提供了海量图像和视频语料。
除文化传媒行业外,其他行业巨头也纷纷布局AI语料领域。浙江核新同花顺网络信息股份有限公司、上海钢联电子商务股份有限公司等公司在金融和大宗商品领域的语料库建设,推动金融科技的快速发展。北京值得买科技股份有限公司、汇纳科技股份有限公司等公司则通过消费语料库,助力AI更好地理解和满足消费者需求。中远海运科技股份有限公司在航运领域的语料库布局,将有助于提高航运效率和安全性。而成都市贝瑞和康基因技术股份有限公司在医疗语料库方面的深耕,有望为医疗AI的发展提供有力支持。
此外,多家上市公司通过投资者互动平台披露了其布局动态。比如,杭州当虹科技股份有限公司于2月11日回应称,公司目前已针对多个行业场景建设对应的语料库;居然智家新零售集团股份有限公司于2月7日回复,截至2024年12月底,公司拥有设计模型超1600万,空间设计案例超3900万,这些模型及设计方案可作为AI学习的语料库,公司针对这类数据资产已建立户型库、模型库、素材库和优质方案库等对应数据库。
深度科技研究院院长张孝荣对《证券日报》记者表示:“AI语料市场作为AI产业的关键支撑,正迎来黄金发展期。相关上市公司积极布局,有望在这一领域构建起强大的竞争优势。但企业也需清醒认识到,要在激烈的市场竞争中脱颖而出,不仅要在技术创新、资源整合上持续发力,还需高度重视数据安全和隐私保护。同时,政府和行业协会也应加强引导与规范,推动行业标准化建设,共同促进AI语料行业健康、可持续发展。”
(责任编辑:孙丹)