这篇文章来自我在哈尔滨工业大学的学弟、机器学习从业者Jiasheng Tang。希望能跟大家科普一些关于人工智能创业的常识。
内容起源于一次小范围的对话:作为投资公司负责投资/调研人工智能相关企业/市场的人,如何判断什么样的企业值得投资?人工智能在当下是很热,无数的科技公司都会强调自己是一家基于智能的公司。口若悬河涛涛不绝地谈起我们使用了人工智能技术balabala...所以我想谈谈如何在这样的对话甚至新闻稿中识别相关内容的可靠性。
随着存储成本的逐步降低,对于很多公司来讲,无论是采购硬盘还是购买云存储服务,获取并保存海量数据并不是特别困难的一件事。现在声称做人工智能的公司,也一定会强调他们有大数据的积累。拥有大量数据在近些年已经是一件开始常态化的事情,真正的问题是如何把数据用起来。那么基于这个假设,就可以一步一步地追问下去:
1. 你们数据量到底有多大?每日产出多少个T的数据?线上都有会收集哪类日志?
2. 有几个的集群去处理、最大的集群有多少台机器?
3. 上线之后,使得哪些业务有提升?
4. 一个常规的流程(从数据采集到新模型上线)能做到t+几?
5. ……
以上问题大概就能了解这个公司在数据收集和数据计算上的能力,没有相关处理能力的公司/团队可以在这一轮就再见了。
因为这个只是钱的问题。
很多公司就到这一步开始平庸(仅仅能对数据做简单的分析),这也给了大家一个印象:国内的公司数据水平只停留在数据分析(甚至不如)。
如果说计算能力还可以用钱堆到一个还不错的规模,那么算法能力,就完全要靠人。 深入地做数据分析以至于应用相关的人工智能技术(或者几乎可以替换地叫机器学习技术),是具备一定的门槛的。仅仅是以呈现报表、统计相关指标更多的是一种业务能力的体现。针对于公司的算法能力,可以问如下的问题(还是递进顺序):
1. 如何根据分析的结果进行建模?
2. 如何使用算法去解决问题?(这个问题有点太专业了...
3. 有能力在线上服务中使用非常复杂的算法么?(线上服务中能够使用多复杂的算法?)
4. ……
对于在这一步开始扯人工智能、神经网络、深度学习等术语试图“群魔乱舞”的时候,首先,保持警惕,坚持问出以上几个问题;更进一步,如果有开始大谈奇点论的问题的话,那就可以转身走人了。
还有一点是属于业务层面的事情:是否有使用机器学习算法的必要性。对于创业公司,这一点要格外注意。大公司往往有这个能力甚至闲心让人工智能处处使用(AI everywhere)。然而对于创业公司,衡量人力物力投入、产出、开发周期、效果、甚至业务底线是很关键的。如果一家仍在创业期的公司开始考虑让非必要业务强行使用机器学习,是很危险的信号;机器学习应用在创业公司的第一目的应该是:让主业务(比如对投资人负责的业务)保持增长。
所以我一直持有一个观点:排除广告、图像、语音类业务之外,只有相对成熟的公司才具备条件(包括充足的人力、良好的数据积累、计算能力、业务规模足够等)盘点自己的各项业务,寻找依靠算法的可行提升点。人工智能应该是规划,不是追求热点。
这个有点涉及到问题的本质:我们为什么谈任何公司都要拥抱、或者说规划智能?其实这还真的不全是因为要忽悠(笑)。
所谓拥抱智能其实归根结底是一个更好的解决方案:用一类技术为公司提供无数种可能性。我们看到滴滴做智能派单、智能路径规划;看到阿里做个性化推荐;看到DeepMind曾经为谷歌数据中心省了数亿美元...这类技术更本质上讲,都是优化技术的具体呈现,它包括:
1. 常见机器学习算法的立足点凸优化/非凸优化(深度学习完全是非凸优化)
2. 经济学领域活跃的博弈论
3. 管理科学中的运筹学
4. 组合优化(很多参加过计算机竞赛选手的最爱之一)、在线优化等……
优化,在以前曾经是很多行业高端的BI;人工智能,在这一次的浪潮里面,其实是新瓶装了优化这个醇香的酒。
首先,这应该是一种能够透过交流、PR稿、媒体报道等内容,看到背后虚实的判断力。而不是泛泛而谈的人工智能概念与伦理问题、奇点临近等。
因为在这里不想涉及到过多深入的领域知识,考虑到相关人工智能必要性的背景知识,推荐大家可以看一本书--吴军博士的《数学之美》(定位在了解+一点的专业性)。哪怕这些年的更新更复杂的技术,本质也没有脱离“数学”问题的范畴。 (《智能时代》我本人并没有看过,不过也有人推荐)
智能相关,两个角度来判定到底是不是靠谱(这个靠谱的阈值有点高)地在做事:
对于人工智能,如果一个团队或者公司强调他们是做优化的,那十有八九是靠谱的——这是看待所做事情的角度;对于智能硬件,如果一个创业团队或者公司强调他们是做gpu、FPGA、手机等硬件/端的解决方案(并且有真实的demo),也是靠谱的——涉及到计算能力的未来发展。
最后,希望这篇文章能够给想具备产业判断能力的人提供一个视角。