世界卫生组织(WHO)宣布新冠肺炎为“全球性流行病”甫于2021年3月11日届满一周年。

这一年多以来,科技界的共识是“自动化”,以及能够透过远程操控的“云端计算”是人类应对封城、限行等突发事件的最佳技术方案。

有趣的是,各界对人工智能在新冠疫情肆虐各国期间的总体表现评价不一。

除了自动化成为大多数公司进行数码转型的首要议程外,视频会议、线上教学、预录网络课程也是各国官方部门、公立机构以及私人企业谋求保持居家工作效率、顺畅沟通、吸取新知、培训技能的重点投资项目。

即便人工智能没有直接发挥及时预防和有效制止新冠肺炎扩散的实效,OpenAI的GPT-3、DeepMind所开发的AlphaFold 2,还有中国日前公布的悟道2.0,还是让人惊艳不已。

当然,这些日子以来,从事投资、专研以及开发人工智能项目的群体也没有闲著。AI界积极的探索增强数据模型预测准确度的良好软件工程准则。其中一项有趣的发现是,好的数据(good data)比大数据(big data)对人工智能建模起更大的作用。

前些时候,知名深度学习专家吴恩达(Andrew Ng)在其创立之机构Landing.AI的网络分享会中分享其团队的研究结论──对于数据样本量等同或小于1万的人工智能模型,纠正数据错误、改善数据素质、加强数据标注用词的统一性,比通过修正和完善化演算法,能更有效的提高数据模型所导出结论的准确度。

基于现阶段的人工智能程序开发经验显示,修正数据的瑕疵和改善数据的素质比改进算法的逻辑更能提高数据驱动人工智能模型的性能,吴恩达以及他的团队正积极推广“以数据为中心”的人工智能系统范式(Data Centric AI),来代替以调教数据模型算法为主,收效较不理想的“以模型为中心”的人工智能系统开发流程(Model Centric Approach)。

相对于对数据弃芜存菁的“以数据为中心”之范式,在“以模型为中心”的AI方法论中,系统开发和维护团队著重于建立一个足够好的模型,来抵消所收集之数据中可能存在的数据瑕疵或噪声数据(noisy data,无意义的数据)。

应以更少数据来追求成效 

一篇于2021年2月13日发表于美国的科技博客网站《Venture Beat》的文章《人工智能的进步取决于我们使用更少的数据,而不是更多》,很贴切的总结了人工智能的性能对数据量的依赖程度,是判断人工智能技术成熟度的指标。

在各种大型语言模型(large language models)人工智能技术竞相以更多的参数来达到足以以假乱真的仿人会话和创作能力的时候,学界和科技界开始出现反思:人工智能的进度,应该是以更少量的数据来产生更大的科研成果作为标杆(benchmarking)的,而不是反其道而行,以更多的数据来追求成效。

这几年来最风靡全球的自然语言处理模型(Natural Language Processing Model)如谷歌的BERT、由Nvidia研发的MegatronLM模型、微软的图灵自然语言生成(Turing-NLG),甚至是OpenAI的GPT-2以及GPT-3都是以谷歌在2017年公布的Transformer语言模型(Language Model)为技术基石。

微软的合作伙伴OpenAI在去年发布的GPT-3模型,以1750亿个参数,和Common Crawl资料库于2016年至2019年间所抓取的数据,再加上海量的网络文本,书籍内容和维基百科资料来培训模型;今年初公布的谷歌大型语言模型TRILLION Parameter Switch Transformer model更进一步,以1.6兆个参数来建模。

科技及网页开发新闻网站《The Next Web》亦有评论文章,对以提高硬件性能和扩大数据量来换取更佳运算成效的人工智能科研风潮提出以下总结:

这项技术的主旨是,足够的(硬体驱动)蛮力(运算)将引领出更佳计算技术的应用,从而让人类得以用更少的电脑计算,来做更多的事。 

我个人的解读是,市面上首屈一指的大型语言模型,都以超强的硬体驱动运算能力来建模。

以海量参数和数据构筑的预训练模型(pre-trained model),过后可以用来轻易的完成“几次学习”(few-shot learning)、“一次学习”(one-shot learning)、甚至是“少于一次的学习”(less than one-shot learning),似乎和人类一样聪明,通过学习极少的数据就能够见微知著、举一反三。

事实上,我认为这其实是变相的转移学习(transfer learning),预训练模型已经从数以亿计的参数和培训数据中掌握基本的知识架构,所以才能在完成建模后,在小数据学习(low-data training/small-data training)时,从极其稀缺的数据中导出我们所希冀的高学习成效。

诚然,当下大部分的人工智能研究项目和应用程序的开发都是以发掘和收集有用的数据、加工转换数据的格式,以及以数据培训人工智能模型为基础,来达到以数据分析、优化和自动化的最大效益。然而,无止尽的堆积数据,一味的以大、以多来取胜却不是可持续的人工智能发展方向。

或许,各国科研机构以及科技巨擘对待数据的方式,不应该是争相以更多的私有化数据来比拼人工智能的性能,而是逐步开放数据来造福人群,让更多的专才应用宝贵的数据来开发惠及普罗大众的应用程序,正如《经济学人》在2020年4月的文章《拆掉这堵墙》(Tear down this wall)所指出的那样:数据如果能被广泛的共享,它不只不像石油可以被重复的使用而不会枯竭,还可以用来驱动各种人工智能算法。


 

参考资料:
1.https://youtu.be/06-AZXmwHjo
2.https://www.technologyreview.com/2021/03/26/1021258/ai-pioneer-andrew-ng-machine-learning-business/
3.https://venturebeat.com/2021/02/13/ai-progress-depends-on-us-using-less-data-not-more/
4.https://thenextweb.com/news/googles-new-trillion-parameter-ai-language-model-is-almost-6-times-bigger-than-gpt-3
5.https://www.economist.com/business/2020/04/23/microsoft-embraces-big-data
6.https://mp.weixin.qq.com/s?__biz=MjM5MjA1Mzk2MQ%3D%3D&mid=2650878008&idx=1&sn=8fea21efc3ba7eb6fd1ec598c3dc7bcc&chksm=bd59bf9e8a2e368802ce2fa56f196cc179edd431f383b79f256a153e6712c56495ef9a393e21&token=354722024&lang=zh_CN
7.https://www.deeplearning.ai/wp-content/uploads/2021/06/MLOps-From-Model-centric-to-Data-centric-AI.pdf
8.https://www.forbes.com/sites/gilpress/2021/06/16/andrew-ng-launches-a-campaign-for-data-centric-ai/?sh=2866fc2b74f5

 

热门新闻

阅读全文

23岁女星被曝“裸聊不雅片” 尺度惊讶网民

阅读全文

【台铁出轨】太鲁阁隧道又见遗骸 罹难者家属被托梦“还在隧道里”

阅读全文

20年来坚持投注相同号码组合 森幸运儿赢走6460万博彩奖金

阅读全文

世界首例! 上海医院治愈25年糖尿病病患

阅读全文

【LIVE】团结政府新古毛补选终极政治座谈会

阅读全文

小贩不满执法员取缔起冲突

阅读全文

林艾萱:只有保住前线我们才能安全

东方文荟

最近于社交媒体上传出一则来自前线医护人员发声的语音视频,视频里没有画面,但我们却可以深刻感受到这些日夜为人民作战的前线人...

阅读全文

黄振峰:建设的时刻到了!

东方文荟

美国著名的Mosaic浏览器共同开发者、科技业钜子安德森(Marc Andreessen)在2020年疫情突击时曾在部落...

阅读全文

黄大志:二战后华巫关系的关键时刻

东方文荟

不久前上网寻找科研材料时,意外发现学者莫里森(Ian Morrison)撰写的一篇论文,题为 《Aspects of t...

阅读全文

陈仁杰:关了个寂寞

东方文荟

看到近日国内新冠确诊病例时,相信大家都会不自觉一股怒气油然而生。年初,套上抗疫的帽子,国家正式迈入紧急状态,国会随著停摆...

阅读全文

林艾萱:请珍惜食物库的良善理念

东方文荟

政府自宣布延长行管令后,人民自动自发,号召起“大家照顾大家”(KITA  JAGA KITA)运动,无论是升白旗救援、设...

阅读全文

杜新宝:荀子给老师们的提醒

东方文荟

荀子有一篇叫《正论》的文章,专门剖析和批驳当时社会的一些说法。其中一个说法是“尧舜都不能教化人,因为尧的儿子朱和舜的异母...

阅读全文

黄大志:谈委曲求全与“汉奸”

东方文荟

不久前就新山前侨领黄羲初在二战日治时期扮演过的角色,曾引发一场是非争论。争执双方的立场可在字缝中看出端倪,但可能是谨慎起...

阅读全文

蓝志锋:依斯迈的三大挑战──政治、大选和抗疫

东方文荟

新任副首相的依斯迈沙比里正式打卡上班的第一天,就告诉媒体,自己很忙碌,从早忙到晚。他不仅忙碌,最难熬和艰巨的工作并非治理...

阅读全文

孙和声:中美争锋与亚洲

东方文荟

据报导,近来中国高层有人提出东升西沉,东治西乱的看法。这个“东”当然是指中国而非一般意义的亚洲。这种提法突显出,中国对自...

阅读全文

杨欣儒:政府机构与职位的华文译名

东方文荟

由马来西亚华语规范理事会(语范)编撰的《华文译名手册3》即将出版。其中有一项是中央政府机构的华文译名,这里让我们讨论这些...