“文心一言”屡上热搜,百度云启动在清远的数据标注基地

资讯 1年前 (2023) 千度导航
10 0 0

3月22日,百度智能云(清远)人工智能基础数据产业基地(简称“百度智能云清远数据标注基地”)启动仪式在清远举行,标志百度公司在广东建成的首个数据标注基地正式开启运营。

“文心一言”屡上热搜,百度云启动在清远的数据标注基地

3月22日,百度智能云(清远)人工智能基础数据产业基地启动仪式在清远举行。

这也是百度公司在全国布局的第9个数据标注基地。此前,百度公司曾在山西临汾、重庆奉节、四川达州、甘肃酒泉、江西新余、浙江丽水等地完成基地建设。

“文心一言”屡上热搜,百度云启动在清远的数据标注基地

百度智能云(清远)人工智能基础数据产业基地。

记者了解到,此前百度公司在国内各地所建设的数据标注基地,对当地有孵化培育优质数据标注企业、建设区域数字经济带等利好。例如,2018年9月百度在山西建成国内首个人工智能基础数据产业基地。截至目前该基地已完成注册企业53家,其中11家被评为国家级科技型中小企业,7家被评为国家级高新技术企业;累计完成营业收入超过5亿元。

此次清远市政府与百度公司达成合作,是否旨在“复刻”上述经验?清远的数据标注基地期望的规模如何?能为清远当地带来怎样的经济效益?此外,数据标注与近期传得沸沸扬扬的“文心一言”,有什么关系?

什么是数据标注师?

——将“面向人的数据”转化为“面向设备系统的数据”

走进清远市清新区富力中以科技小镇的百度智能云清远数据标注基地,在崭新敞亮的办公厅里,数据标注师通过对数据贴标签、做记号、标颜色或划重点的方式,让机器“看得懂”数据,供机器不断学习训练。

如上的过程就是“数据标注”,也是数据标注师的工作内容。

“作为人工智能算法的‘燃料’,数据是人工智能实现应用落地的必备要素,成为近年人工智能热潮中必不可少的推动力。”业内人士介绍,“但大多数数据为非结构化数据,只有经过标注、加工才能激活数据价值。”

“数据标注是对未处理的初级数据,包括语音、图片、文本、视频等进行加工处理,并转换为机器可识别信息的过程。”在华南师范大学计算机学院教授范冰冰看来,数据标注是将“面向人的数据”转化为“面向设备系统的数据”。

“例如,我们知道一组化学结构的能量,这些能量是它的原始数据。我们可以将其中能量大于100单位的不稳定的结构标注为‘1’,低于100单位的稳定的结构标注为‘0’,这样处理可以让机器易于理解。” 中山大学一位以机器学习为主要科研手段的研究生陈同学跟记者介绍,“这是对数据进行标注的一种方式,或者叫打标签。”

“目前人工智能进军各行各业是个大趋势,伴随这个趋势,数据标注师的需求口也越来越大。”业内人士介绍。有关数据显示,中国人工智能基础数据服务行业发展增长迅速。据IDC中国2021年《中国人工智能基础数据服务市场研究报告》,2020年中国人工智能基础数据服务市场规模为18亿元,预计2025年将突破120亿元,2020-2025年复合增长率为47%。

数据标注师属于“人工智能训练师”,这一职业直到2020年才正式成为新职业并纳入国家职业分类目录。然而,数据标注师的行业规模扩张迅速。据国内AI数据服务行业首家挂牌企业数据堂数据显示,截至去年年底,全国数据标注师的从业人数已经超过了2000万。

“文心一言”屡上热搜,百度云启动在清远的数据标注基地

目前,百度智能云清远数据标注基地内已有首批超50名数据标注师上岗工作。

为什么选择清远?

——区位、人才、政策“三板斧”优势

去年7月,清远市政府与百度智能云签约,正式拉开双方合作的序幕。

百度智能云清远数据标注基地以“数据标注”为主营业务。据介绍,一方面将加速清远市形成集数据采集、标注、流通、应用为一体的AI数据生态,构建AI数据服务体系;另一方面将提供就业创业新机会,助力清远数字人才培育。

清远缘何成为百度在广东的首个数据标注基地选址?

“清远优渥的营商环境,距离应用市场、人才高地更近,都是企业最终选择落子清远的重要因素。”百度智能云数据应用业务部高级生态合作经理符君介绍。

区位上,清远位于广东中北部,地处粤、湘、桂三省(区)交会处,向北具有“三省通衢”的独特区位优势, 近年来,清远市紧抓粤港澳大湾区建设和广东省“一核一带一区”区域发展战略的重要机遇,深入推进“广清一体化”, 不断加快“入珠融湾”步伐。

政策上,“十四五”时期,清远坚持创新驱动发展,将数字经济作为大力发展的战略性新兴产业之一,通过培育和引进5G、大数据、人工智能等新兴产业,推进数字经济高质量发展。清远市2023年政府工作报告也指出,要推动百度人工智能数据基地等项目的建设,加快打造优势产业集群,全力打造引领高质量发展的新动能新优势。

人才上,经过10年规划建设,清远省职教城内现已聚集10所高校、超10万学生,将成为百度智能云清远数据标注基地的重要先发优势,提供数据服务支撑与人才赋能。

“清远位于广东粤北地区,经济发展起步晚、起点低,经济发展水平与珠三角城市有差距,正大力推动融湾发展,数字经济发展将为清远提供‘弯道超车’的机会。”在启动仪式上,清远市政府相关负责人表示,希望基地的建成能够孵化出更多优秀数据标注企业和人才,为清远数据服务产业发展提供强劲的动力,延伸辐射周边地区进行创业发展,起到良好示范带动效应,逐渐形成区域数字产业经济带。

数据标注基地对清远将带来哪些利好?

——有望培育数字人才、优质数据标注企业,建设区域数字经济带

在百度智能云清远数据标注基地建设目标中,“推进区域产业链现代化”“拓展当地就业岗位”是关键词。目前,百度智能云清远数据标注基地内首批数据标注师多数为清远本地人,成功实现了“家门口的就业”。

他山之石,可以攻玉。此前落地的数据标注基地发展情况如何?对当地发展有何裨益?能否成为清远数字经济发展的参考样本?记者了解后认为,该基地的落子,有人才、产业等方面的利好。

打造企业“培养基”,孵化优质数字企业。以百度山西数据标注基地为例,基地依托山西省政策资源、产业基础及百度在大数据、人工智能领域丰富的生态资源,孵化培育优质数据标注企业成绩显著。截至2022年9月,百度山西数据标注基地已吸引和培育优质数据标注企业53家。其中11家被评为国家级科技型中小企业,7家被评为国家级高新技术企业。

据介绍,基地可为个人提供一站式的创业扶持,包括团队组建、人员招聘、人员培训、项目补贴、运营管理等

构建区域数据能力,建设数据智能基础设施。数据标注基地可以为平台的客户提供专业、高质量的定制化AI数据服务,夯实平台服务能力和数据资源,塑造多场景、大批量的AI数据标注能力。

百度公司积累和开放了大量语音、图像、知识图谱等领域的成熟AI模型,这些AI数据产品开箱即用,能够帮助本地企业快速构建AI能力,作为数据基础设施底座支撑区域智能化转型和区域高质量发展。

“这些将加速清远市形成集数据采集、标注、流通、应用为一体的AI数据生态,构建AI数据服务体系。”业内人士表示。

有助于培育数字人才,实现“家门口的就业”。“数字标注对学历水平要求并不高。”业内人士介绍,基地采用统一的标准化专业培养体系,针对不同的人才进行层级划分,分方向培养,践行“线上+线下,实训+就业”新型人才培养模式,通过一段时间培训,数字标注师可以很快上手。

曾有专家认为,“留不住人才”是目前清远发展面临的主要问题之一,“引进新业态,将提高就业吸引力,吸引更多清远人才‘雁归’或留住。”

□相关

“文心一言”等人工智能模型将推动数据标注师更大需求

去年2022年11月, ChatGPT聊天机器人由OpenAI公司发布,随后因其极其出色的文本生成和对话交互能力在世界范围内迅速走红,也得到许多业界人士的高度认可。例如据每日经济新闻报道,微软创始人比尔盖茨曾表示,OpenAI的GPT人工智能模型是他所见过的最具革命性的技术进步。

ChatGPT可以回答几乎所有的常识问题,可以写论文、写代码……功能极其强大。而就在ChatGPT今年年初大火过后不久,百度公司即官宣将发布一款对标它的聊天程序——“文心一言”,将在三月份完成内测,面向公众开放。

一石激起千层浪,此后,百度旗下的“文心一言”程序进展成为国内不少计算机用户的关心对象,在其正式发布首日开放内测,就有超60万人申请测试。从透露消息到正式发布,它已多次登上国内热搜。可以预料的是,据百度官微消息,27日“文心一言”将上线云服务,届时又将引发关注。

作为人工智能技术,“文心一言”自然也离不开数据标注。

“‘文心’是百度公司开发的人工智能大模型,‘文心一言’将人工智能推广到更大的应用场景,这将直接导致数据标注师需求的增加。”业内人士跟记者介绍。

人工智能需要经过标注的数据来进行训练,每次进入新的领域,就意味着出现一片新的未曾标注的数据蓝海。

例如在百度智能云清远数据标注基地,由于粤语语音转写是该基地落地广东后着力推动完善的功能之一,该基地需要更多粤语方面的数据,于是在招募数据标注师时会有相关方面倾向,是否掌握粤语也成为该基地招募数据标注师考虑的因素之一。

可以看到,百度智能云此前在国内建立的其他基地,数据标注师的人数均较多。例如在百度山西数据标注基地,已有5000名数据标注师入驻;在百度智能云(山东)人工智能基础数据产业基地,数据标注师达1500余人;而去年6月开启招聘的百度新余数据标注基地,三个月后已经有数据标注师700余人。

清远目前预计招聘的200名人数会不会较少?相关负责人介绍,基地或有扩张可能,但目前仍未明确。

版权声明:千度导航 发表于 2023年3月26日 00:50。
转载请注明:“文心一言”屡上热搜,百度云启动在清远的数据标注基地 | 千度百科

相关文章