RSS
 
当前位置 : 主页 > 能源科技 >

Cloudera:“百模齐放”中的变与不变

时间:2023-07-24 00:03 浏览:

随着ChatGPT等大模型的出现,人工智能正以一日千里的速度飞快发展。那么从MapReduce、Hive,到Spark、Flink,再到ChatGPT,在数据处理方法不断升级的过程中,有哪些是相对不变的存在?“人工智能市场瞬息万变,不变的是任何大语言模型或AI模型的成功都需要数据和企业情境。”Cloudera大中华区技术总监刘隶放近日向记者表示。

作为大数据平台提供商,Cloudera为客户管理超过2500万TB的数据,与超大规模服务商不相上下,具有得天独厚的优势。近期Cloudera发布了现成大型语言模型(LLM)蓝图,为企业带来了基于大语言模型的生成式AI蓝图,帮助企业从可信、安全和负责任的AI应用中受益。

处理方式改变,数据相对不变

似乎一夜之间,人工智能迅速升温,人们言必谈ChatGPT,各种大模型竞相发布,AI用例遍地开花。从人工智能不太智能到人工智能机不可失,这样的转变来得远比想象中要快。

刘隶放表示,Cloudera是一个数据平台企业,AI的升温对于Cloudera是个绝佳的机会。Cloudera帮助客户管理可信任的数据,创建可信AI所需的安全、治理和溯源,赋能云上企业数据,帮助企业构建自己的AI平台,让企业AI变得更强大。平台上超过2500万TB的数据,是其独特的优势所在。

目前虽然ChatGPT很热,但是企业大多选择合作伙伴的大模型,而不是直接用公有云上面的大模型,刘隶放分析有4方面原因。第一,训练的数据与自己相关,是自己专业领域的特定数据。第二,关联性和准确性很重要,对于大型企业而言,如果答案错误损失将难以估量。第三,可信和安全,用户不能接受有偏差或者错误的答案。第四,随着人工智能的不断发展,金融、制造等行业也会有风险、安全合规的需求。

刘隶放介绍,Cloudera一直以来致力于大数据分析,开发了混合开放式湖仓一体解决方案,将数据湖、数据仓融合在一起,在保持原始数据的基础上对其进行加工和处理。在此过程中,Cloudera也使用过Hive、Spark等传统模型。那么,大语言模型与之前的模型有何不同之处?“大语言模型更加简单、快速、缩放自如,覆盖所有数据,这是AI进化的一个挑战。”刘隶放认为。

无论数据处理方式怎样改变,数据则保持相对不变,从最开始的MapReduce查询引擎到现在的ChatGPT对话方式,数据一直掌握在客户手中,对于客户而言是最重要、最珍贵的资源。客户也希望无论模型如何改变,自己管理自己的数据,不要锁定在一种数据处理引擎上,在此基础上尝试并拥抱变化。

确保数据安全合规、交互性强

顺应AI趋势,刘隶放宣布,未来Cloudera将从传统平台转向AI平台,具体来看Cloudera将参与3个部分:一是CDP基础平台,基于2500万TB数据,为客户未来的分析系统提供数据支撑;二是数据加工过程;三是嵌入LLM模型,企业可以将要使用的LLM模型嵌入到Cloudera的Cloudera Machine Learning(CML)中,训练模型,在平台上部署AI应用。

总结而言,Cloudera的AI布局包括三个平台:现成大型语言模型(LLM)、CML、Cloudera Data Engineering(CDE)。作为CDP的服务组件,CML的安全体系遵循CDP整体平台,无论是私有部署、私有云,还是公有云。通过CDE平台和基础平台结合,通过算法可以帮助CML加工处理提供数据,同时可以使用GPU加快平台处理。刘隶放强调,Cloudera的目的不是做模型,其CML平台不会自己研发,而是广泛适配市面上的大模型。

目前Cloudera仍在初期尝试阶段,CML中内嵌了许多模型,在使用过程中满足了合规要求,确保数据不会泄露,同时也兼顾了数据的交互性。刘隶放强调,在帮助企业落地大模型方面,Cloudera首先要帮助企业解决合规问题,在此基础上通过训练得到准确有意义的答案。

可以说,安全可控是Cloudera平台的主要特色,也是无论传统模型时代还是现在的大语言模型时代,众多用户持续信赖和选择Cloudera的重要原因。