? 中新社北京8月14日电 (记者 刘亮)在人工智能时代,Token(即“词元”)作为处置惩罚文本的最小数据单位,犹如互联网时代的“流量”。中国国家数据局局长刘烈宏14日在北京举行的新闻宣布会上先容,阻止今年6月尾,中国日均Token消耗量已突破30万亿。 国务院新闻办公室当天举行新闻宣布会,先容“十四五”时期数字中国建设生长成绩。刘烈宏在会上体现,2024年头,中国日均Token的消耗量为1000亿,阻止今年6月尾,日均Token消耗量已突破30万亿,1年半时间增添了300多倍,这反应了中国人工智能应用规?焖僭鎏。 他指出,人工智能快速生长,与中国高度重视数据事情密不可分。中国是第一个把数据作为生产要素的国家,多措并举增进数据资源的开发使用。中国强调“人工智能+”行动到那里,高质量数据集的建设和推广就要到那里。 近年来,中国鼎力大举推动高质量数据供应,出台高质量数据集建设相关文件,多部分联合推动相关事情。同时,一连推进高质量数据集建设事情。阻止今年6月尾,中国已建设高质量数据集凌驾3.5万个,总体量超400PB。据悉,1PB可存储约5亿张2MB巨细的高清照片,400PB相当于中国国家图书馆数字资源总量的140倍左右。 人工智能模子的训练也推动数据生意需求攀升。刘烈宏先容,阻止今年6月尾,中国各地高质量数据集累计生意额近40亿元人民币,数据生意机构挂牌的高质量数据集总规模达246PB。以北京数交所为例,高质量数据集占生意总量的比例从去年的10%跃升到现在的近80%。 中文数据在海内大模子的训练性能提升方面施展着主要作用。刘烈宏说,中国大都模子训练使用的中文数据占比已凌驾60%,有的模子已达80%。中文高质量数据的开发和供应能力一连增强,推动中国人工智能模子性能快速提升。(完)