阿拉伯语大语言模型:埃及数字化转型的新引擎
埃及正在通过“2030愿景”国家战略,大力推进数字化转型,核心是通过数字技术推动经济增长、提高政府效率,并促进社会各领域的创新与发展。在这一进程中,阿拉伯语大语言模型(LLM)成为关键驱动力,为埃及及阿拉伯语世界的数字化转型提供了强有力的技术支持。
华为云:引领阿拉伯语大语言模型创新
2024年5月,华为云在埃及开罗宣布开服,成为全球首家在埃及建立公有云的公司。华为云不仅带来了先进的云计算服务,还发布了业界首个千亿参数的标准阿拉伯语大语言模型。这一模型基于华为自主研发的盘古AI技术,使用了大量本地数据进行训练,能够深刻理解阿拉伯世界的文化、历史及知识习惯。
华为云全球Marketing与销售服务总裁石冀琳表示:“通过我们独特的AI计算框架和训练平台能力,埃及将能够建立属于自己的大型语言模型,这对于保护和传承国家的历史、文化和知识至关重要。”
该模型的自动语音识别(ASR)服务覆盖二十多个阿拉伯语国家,准确率高达96%。此外,华为云还针对政府、电力、石油天然气、金融等行业特定语料库进行了专门训练,帮助行业客户实现垂直数字化转型。
新紫光集团:推动本土化创新与人才培养
在2024年中非合作论坛峰会期间,新紫光集团与埃及信息技术产业发展局(ITIDA)、应用创新中心(AIC)、埃及电信公司(Telecom Egypt)签署了多领域合作协议。新紫光集团将推动本土化产品及解决方案的设计研发,开展本地数据中心的建设及云服务的实施,并开发高质量开源阿拉伯语大语言模型。
此外,新紫光集团还计划携手埃及相关机构,聚焦可再生能源技术的研发及制造等领域,共同推进新项目的投资及建设。这一系列举措将为埃及的数智产业升级提供强力支撑,并显著提升埃及在全球数字经济中的竞争力。
全球最大阿拉伯语数据集:赋能语言模型训练
北京智源人工智能研究院与埃及阿拉伯科技与海运学院(AASTMT)、亚历山大图书馆(BA)等机构合作,构建了目前全球数据量最大的开源阿拉伯语预训练数据集ArabicText 2022。该数据集包含200GB+的高质量预训练文本,新闻、资讯、百科等文字与知识富集类数据占比超过65%,为阿拉伯语语言模型的训练提供了丰富的数据支持。
基于这一数据集,研究团队训练并开源了阿拉伯语语言大模型(ALM 1.0),为阿拉伯语世界的自然语言处理研究与应用奠定了坚实基础。
埃及2030愿景:数字化与智能化的未来
埃及政府将人工智能、大数据、物联网等新兴技术视为“2030愿景”战略的关键驱动力,并成立了人工智能国家委员会(NCAI),推出了人工智能国家战略。通过与中国企业的深度合作,埃及在数字基础设施、金融普惠、智慧城市建设等方面取得了显著进展。
未来,埃及将继续通过数字技术推动经济结构转型,提升社会福祉,并在非洲和阿拉伯地区发挥更加重要的领导作用。阿拉伯语大语言模型的广泛应用,将为这一进程注入新的活力,助力埃及实现可持续发展的宏伟目标。
结语
阿拉伯语大语言模型不仅是技术创新的成果,更是埃及及阿拉伯语世界数字化转型的重要工具。华为云、新紫光集团等企业的技术布局,以及全球最大阿拉伯语数据集的发布,为这一领域的发展提供了强有力的支持。随着“2030愿景”战略的深入推进,埃及将在数字化与智能化的道路上迈出更加坚实的步伐,为全球数字经济贡献更多力量。