人工智能中的数据与大模型
人工智能可以简单地划分为三个部分:一是物理硬件,包括CPU、GPU、NPU等,相当于人类用来思考的大脑,负责提供算力;二是如同人类用来逻辑推理以及计算的智力系统、通常被简称为大语言大模型;三是如同人脑中存储的信息量,也视为认知和经验的总和,在人工智能中被称为数据,算力、大模型、数据是构成人工智能的主要三要素、缺一不可;
算力是人工智能的物理硬件基础,它由构成数据处理器的芯片和处理器机群组成,这些机群通常被称为数据计算中心,每个数据中心处理能力的总和决定了一个人工智能公司物理硬件的智力水平,比如,一秒钟能处理万亿级数据的数据中心,和只能处理百万级数据的数据中心,所输出的智力效果必然不同。我们常说一个人聪明也会用“反应快”代指这个人聪明,其实反应快就是对信息(计算机中称为数据)处理的快,因此,如果没有强大计算能力的大计算中心、而且是分布式计算中心做支撑,人工智能无法达到高智力水平。
大模型开发与训练是人工智能中智能输出准确性的关键、大模型开发与训练是在2个不同环境中进行的。大模型是通过使用尽可能多的状态参数(数学上可称为条件函数)开发出的静态逻辑关系数学大模型,每个参数本身就是个函数、开发者使用的参数越多、越深入、模型的智能水平也越高。然而,这些初始模型通常会存在非常多的逻辑“冲突”,这些冲突的逻辑需要非常多位具备不同逻辑思维的专业人员在使用中调整或修正、才能不断地提高模型的“智力”平滑性,因此,人工智能公司一般都“开源模型”、但是模型的根仍然掌握在他们手中,任何对模型的修改只是枝叶层面的调整,无法改变根部结构和根部对树木的控制;
大模型训练是把“静态”模型动态化的过程、这个过程常以一个参数或Token为主题、向模型请求任务、通过模型对数据的关联运算建立参数之间的关系。蒸馏(distill)法是数据模型训练方法之一,通过不断地激活不同参数并提问,从而获得数据答案的过程,模型训练是大模型向准确性发展的关键环节。因此,一些国家的人工智能开发公司“欢迎”甚至刺激、鼓励他国使用其模型,达到训练自己大模型的目的,因为这些“寄生模型”最后还是依赖于“根部模型”。通过他人的使用、模型可以在不同维度上获得更多的参数和参数间的“神经数据”关联,简单来说,人工智能用的人越多、就越聪明!
数据是人工智能的智能材料,缺少数据,人工智能就像是“巧妇难为无米之炊”。如果把计算中心比作木材加工厂、那么数据就是木材,没有木材、不论用什么方法(也不论什么大模型)都无法产出最终的木材产品。数据不仅是人工智能输出智能成果的原材料、数据还是机器深度学习路径和神经网络中神经元关联性的基础,没有现存的人类数据支撑,人工智能根本不可能存在,因为人工智能实质上是把人类已经开发出的不同数据格式粉碎后、再以现存数据综合构建智能基模对外输出人类综合智能的过程;
随着人工智能的不断发展、数模在不同维度和深度上也在不断增加和加深,人工智能会越来越彰显出高智力能力,随着参数的积累,人工智能会变得越来越聪明,而且人工智能的智力发展是数据之间以神经网络为基础不断建立“数据神经元”关联的过程,所以人工智能不但会越来越聪明,也会越来越细腻!
总结而言,分布式计算中心提供的算力是人工智能的大脑、数据则是信息和情报、大模型是通过算力处理这些信息情报之间关联性的计算逻辑,因此,没有算力和数据基材,人工智能就不会存在!
对于企业来说,参与人工智能应从数据开始思考!
法国宣布将与阿联酋合建人工智能园区
2025-02-10 来源: 新华网
新华社巴黎2月7日电,法国总统府爱丽舍宫6日晚发布新闻公报说,法国将与阿拉伯联合酋长国合作建设人工智能园区。这一园区将位于法国境内,园区内数据中心的耗电量将达1吉瓦。
公报说,法国总统马克龙与到访的阿联酋总统穆罕默德·本·扎耶德·阿勒纳哈扬于6日晚共同出席了《法国和阿联酋人工智能合作框架协议》的签署仪式。该人工智能园区项目作为协议内容的一部分,其首批项目投资将在今年5月举办的第八届“选择法国”国际商务峰会上宣布。
据法国媒体报道,这是即将在巴黎举行的人工智能行动峰会前宣布的人工智能投资项目。该园区投资规模可能达300亿至500亿欧元。据介绍,法国境内有35个占地面积共约1200公顷的地点已准备好用于建设新的数据中心。
人工智能行动峰会将于2月10日至11日在巴黎举行。全球多国的国家元首、政府首脑以及国际组织负责人、企业和研究机构代表等将赴会,以进一步深化全球人工智能治理合作。