发布时间:2025-07-15
浏览次数:0
你可能并不察觉,然而机器学习技术其实已经深入到了我们的日常生活。比如,当你向搜索引擎输入查询信息,它会为你筛选出相应的搜索结果,甚至包括展示哪些广告。又或者,当你打开邮箱,会发现大部分垃圾邮件都被计算机自动过滤掉了。不论是你在亚马逊网站上购买书籍,还是登录网飞公司网站观看视频,机器学习系统都会根据你的喜好推荐一些可能感兴趣的产品。脸书运用机器学习技术来挑选向您展示的更新内容,而推特亦会依据此技术来决定哪些文章将被展示。在您使用计算机的任何时刻,都存在机器学习技术的应用可能性。
传统观念中,计算机执行任务的唯一途径(无论是进行简单的加法运算还是操控飞机),便是详尽记录算法并阐述其运作机制。然而,机器学习算法却与此截然不同:它们能从数据中自行领悟操作方法。数据量越丰富,它们的工作效率也就越高。如今,我们无需再为计算机编写程序,它们能够自行进行编程。
机器学习技术不仅活跃于网络领域,而且渗透到了我们日常生活的方方面面:从清晨醒来直至夜晚入梦,它无时无刻不在我们的身边。
清晨7点钟,你的收音机闹钟准时响起,播放了一首你未曾聆听过的旋律,然而你却对它情有独钟。电台凭借其特色,能够免费为你定制音乐,依据你的音乐品味进行推荐,仿佛是你私人定制的radio jock。这些曲目或许是通过机器学习算法精心挑选的。随后,你开始享用早餐,同时翻阅早报。几个小时前,早报已经印刷完毕。在印刷过程中codejock,我们运用了学习算法,对各项参数进行了细致的调整,确保报纸不会出现折痕。同时,你房间的温度恰到好处,而且电费支出也明显减少了,这一切都得益于你安装的Nest智能温控器。
驾驶车辆前往职场,车辆不断调整燃油喷射和排气再循环系统,以实现最理想的燃油消耗。借助交通预报系统(Inrix),你能够有效减少高峰时段的通勤时间,这无疑有助于减轻你的压力。在职场中,机器学习技术协助你应对信息过载。你运用数据立方体来整合庞大数据,从各个维度审视这一立方体,提取最为关键的信息。您需选择是采纳方案A还是方案B,以促进网站业务的增长。网络学习系统将测试这两种布局方案,并提供相应的反馈。您需要对潜在供应商的网站进行调研,不过要注意,网站内容是使用外语的。无需担心,谷歌会自动完成翻译工作。同时,电子邮件会自动分类并存储到对应的文件夹中,确保邮箱中只保留关键信息,操作起来极为便捷。文字处理软件能够识别并纠正你的语法和拼写错误。你已找到一条即将启程的航班信息,却选择暂缓购买机票,原因是必应旅行预计票价将有所下调。你可能并未察觉到这一点,若非机器学习技术提供协助,你或许需要亲自忙碌于各项事务。
在休息间隙,你浏览了个人持有的共同基金,多数基金依靠学习算法进行股票选择,其中一些基金甚至完全由学习系统独立操作。随着午餐时间的来临,你漫步在街头,寻找用餐地点,这时你拿出手机,借助Yelp点评应用来寻找帮助。你的手机内置了众多学习算法,它们勤奋地工作,纠正拼写错误、领会语音指令、降低传输误差、扫描条形码,以及执行诸多其他任务。手机竟能预知你的下一步行动,并据此为你提供建议。比如,在享用完午餐之后,它会谨慎地提醒你,由于外地来访者的航班晚点,下午的会面需要延后。
夜色渐浓,下班时刻,你步向自家的爱车,依托先进的机器学习技术,你的安全将得到保障;系统将实时监控停车场的监控录像,一旦发现异常行为,便会及时通知不在现场的安保人员。归途中,你于超市门前驻足,步入商品陈列走廊,该走廊通过智能算法精心规划:确定摆放何种商品,走廊尽头应展示哪些商品,洋葱、番茄辣酱是否应置于调味品区,抑或靠近墨西哥玉米片。你使用信用卡结账。智能算法将发送支付提醒至你,待你确认后,支付过程即告完成。另一算法不断追踪异常交易,一旦判定你的卡信息可能被盗用,便会向你发出警告。此外,还有算法致力于分析你对该卡的满意度,若你作为优质客户对服务尚有微词,银行在你考虑更换卡片前,将竭力提供更为周到的服务。
你步履轻快地踏入家门,来到信箱前,惊喜地发现一封友人的信件,它是由一种能识别手写地址的智能算法负责投递的。然而,信箱里也可能混有垃圾邮件,它们则是由另一种筛选算法挑选出来的。你稍作停留,享受着夜晚那清新凉爽的空气。你所居住的城市,犯罪率显著降低,这得益于警方开始运用统计模型来预测犯罪高发区域,并在此处部署了更多的警力。随后,你和家人围坐在餐桌前,共进晚餐。市长在新闻报道中亮相,你为他投下了宝贵的一票;那天选举之际,算法判定你为“潜在未投票选民”,随后他亲自拨通了你的电话。晚餐过后,你沉浸在球赛的激情中,两支球队均运用统计学的原理来选拔球员。或许,你还会与孩子们在Xbox上畅玩,算法则精准地追踪你的位置和活动。临睡前,你按时服用药物,而医生借助学习算法来精确设定和监测你的用药时间。医师同样能够运用机器学习技术协助你进行疾病检测,比如,通过解读X光片来识别一系列异常体征。
机器学习贯穿了你人生的各个阶段。在备考SAT大学入学考试时,你若在网上学习,某些算法便会为你练习的短文评分。当你申请商学院并即将参加GMAT考试时,其中一个评估文章的工具便是一个学习系统。求职之际,某个学习算法或许会从海量文件中筛选出你的简历,并向潜在雇主推荐:“此人相当合适,不妨一观。”近期公司对你的加薪,或许也要归功于另一学习算法。若你有意购置房产,.com网站便会估算你所看中的每套房产的价值,随后帮你找到心仪的住所。在申请住房贷款时,某个学习算法将分析你的申请资料,并提出是否可以通过贷款的建议。尤为关键的是,在运用网络交友平台的过程中,借助机器学习技术,你或许能够邂逅命中注定的伴侣。
社会日新月异,学习算法的领域亦然。机器学习正在深刻地改变着科学、技术、商业、政治乃至战争的格局。卫星、DNA测序仪和粒子加速器以空前的精确度深入探索自然奥秘,与此同时,学习算法将海量数据转化为崭新的科学认知。企业对自身用户的理解,从未达到如今这般深入。在美利坚合众国的总统选举中,凭借卓越的选举策略,奥巴马成功击败了竞争对手罗姆尼,赢得了选举的胜利。无人驾驶的汽车、船舶、飞机在投入市场前,分别进行了陆地、水面和空中的测试。你的个人喜好并未被亚马逊的推荐系统所收录,该系统通过分析你过往的购物记录,便能准确判断你的偏好。谷歌的自动驾驶车辆通过自主学习,掌握了在道路上平稳驾驶的技巧,工程师们无需逐个编写算法,对车辆如何行进、如何从A点抵达B点进行细致指导——这样的指导并非必需,因为具备学习功能的车辆能够通过观察驾驶员的操作来习得驾驶技能。
机器学习被誉为“世间新奇之物”,它是一种自我构建的技术。追溯至远古时代,我们的祖先便开始琢磨如何打磨石头,从此人类便未曾停歇地创造着各种工具,无论是亲手制作的,还是通过大规模生产。而学习算法,这种工具本身,亦能被用来设计出更多的工具。正如毕加索所言:“计算机并无实际用途,它们只能为你提供答案。”计算机本身不具备创新的能力,它们的行为完全取决于用户的指令。当任务要求具备创造性时,机器学习技术便成为关键。学习算法就好比技艺高超的工匠,它们所创造出的每一个成果都是独一无二的,并且能够根据客户的具体需求进行细致的定制。然而,与将石头加工成砖块、将金属铸造成饰品不同,学习算法的运作是将数据转化为算法。算法掌握的数据越多,其精确度也就越高。
现代人渴望世界能迎合他们的需求,而非他们去适应世界的规则。在长达百万年的传奇故事中,机器学习成为了最新的一章:借助它,无需费劲心力,世界便能洞察你的愿望,并据此作出调整。这就像漫步在魔法森林,当你穿梭其间时,四周的环境(今日虚拟,明日现实)会自动进行重组。你所选择的路径将化为一条道路,而曾经迷失的角落也将涌现指引的标志。
这些技术看似拥有神奇的力量,它们相当实用,因为机器学习的本质在于预测——预测我们的需求,预测我们行为的后果,预测达成目标的方法,以及预测世界的未来变化。过去,我们曾依赖巫医和占卜师来做出预测,但他们的可靠性实在不高;而科学的预测虽然更加可靠,但它的应用范围仅限于那些我们可以系统观察和轻松模仿的事物。然而,大数据和机器学习则突破了这一局限。我们能够运用独立思考的能力来预判诸多日常事件,比如接球或是与人交谈,然而,仍有一些即便我们竭尽全力也无法预知的情况。在这可预测与难以预测之间的显著差距,正是机器学习能够填补的领域。
矛盾之处在于,尽管学习算法在自然与人类行为领域拓展了新的领域,然而,它们依旧被一层神秘的面纱所笼罩。媒体频繁报道与机器学习相关的新闻:苹果公司推出了Siri个人助理,IBM的超级计算机沃森在《危险边缘》节目中击败了人类,塔吉特公司能够在未成年妈妈的父母察觉之前告知她怀孕的消息,美国国家安全局在搜寻信息关联点……然而,在这些事件中,我们尚不清楚学习算法是如何发挥作用的。计算机吸纳了数以万亿计的数据字节,奇迹般地孕育出新的见解,即便是关于大数据的著作,也鲜少触及“这一过程究竟如何展开”的奥秘。人们通常认为,学习算法的实质在于探寻两个事件间的关联,比如,通过谷歌搜索探究“感冒药”与感冒之间的内在联系。然而,探索连接点与机器学习之间的联系,就好比砖块与建筑的关系,建筑是由砖块构筑而成,然而,仅仅是堆积的砖块并不能构成一座真正的“建筑”。
一项新技术若如机器学习那般广受欢迎且带来变革,若对其内在机理一无所知,实为一大遗憾。这种模糊不清可能会引发错误和不当使用。亚马逊的算法在预测人们阅读何种书籍方面堪称无人能敌。美国国家安全局的算法能够判断你是否可能成为恐怖分子。气候模型能够评估大气中二氧化碳的安全程度。而选股模型在推动经济发展方面甚至超越了大多数人的能力。无法掌控那些你无法理解的事物,这是追求幸福生活的公民、专家学者以及普通大众都需要认识到机器学习重要性的一个关键所在。
本书的首要任务是揭露机器学习的奥秘。类似地,并非只有机械师和汽车工程师需要了解汽车引擎的工作原理,每位驾驶者都应知晓转动方向盘能改变车辆行驶方向,踩下刹车能使车辆停止。然而,现今鲜少有人能理解学习算法背后的原理,更不用说掌握其应用方法了。心理学家丹·诺曼提出了“概念模型”这一术语,用以指代为了高效运用技术所必须具备的初步认知。本书将详细阐述机器学习的概念模型。
并非所有算法的运作机制一致,这种多样性导致了结果的差异,例如亚马逊和网飞的推荐算法。若它们都试图根据“你所喜爱的事物”来引导你,亚马逊可能会将你引向之前频繁浏览的书籍类别,而网飞则可能将你带往你不太熟悉且显得有些奇特的新领域,并试图让你对那里产生喜爱之情。在本著作中,我们得以一窥亚马逊、网飞等企业所采用的多种算法。相较之下,网飞算法对用户喜好的洞察更为透彻(尽管深度仍有限),但令人玩味的是,这并不意味着亚马逊也应采纳此算法。网飞的经营策略是依托于复杂电影、电视节目的长尾效应来激发需求,而这些作品的生产成本相对较低。它通常不会大力推荐大片的购买,考虑到你的会员费用可能并不充裕。而亚马逊则不存在这样的困扰:尽管它擅长运用长尾效应,但同时也愿意向你销售价格更高的热门商品,这也有助于简化其物流流程。对于那些看似奇特的产品,若作为订阅会员可以免费体验,我们或许会愿意尝试;但若需要额外付费,我们选择它们的可能性就会大大降低。
每年都会有成百上千种新型算法问世,而这些算法均源自少数几个相近的核心理念。若想洞察机器学习如何塑造我们的世界,深入理解这些理念是至关重要的。本书将详细介绍这些理念。算法学习并非遥不可及,它不仅适用于计算机领域,还能帮助我们解答诸多现实问题,例如:我们如何进行学习?是否存在更优的学习途径?我们能够预测哪些内容?我们是否可以信赖所学到的知识?面对这一议题,机器学习领域内的不同流派给出了各自的观点。
机器学习领域大致分为五个主要学派,我们将逐一进行阐述:符号学派视学习为一种逆向演绎过程,并从哲学、心理学、逻辑学等领域汲取智慧;联结学派则通过对大脑结构的逆向研究,汲取神经科学和物理学的灵感;进化学派在计算机中模拟生物进化过程,并运用遗传学和进化生物学的相关知识;贝叶斯学派将学习视为一种基于概率的推理方式,其理论基础为统计学;而类推学派则通过对外推相似性判断进行学习,其思想深受心理学和数学优化理论的影响。在追求机器学习目标的引领下,我们打算重新审视过往一个世纪的学术发展历程,并尝试以全新的视角来解读这一历史阶段。
机器学习存在五大流派,各自拥有核心算法。借助这些通用的学习算法,理论上,人们能够从各个领域的海量数据中提炼知识。符号学派的核心算法是逆向演绎法,联结学派采用的是反向传播算法,进化学派则运用遗传编程技术,贝叶斯学派依赖贝叶斯推理方法,而类推学派则擅长支持向量机算法。在实践应用中,这些算法并非在所有任务中都适用,有的场合下它们能发挥作用,而在另一些场合下则不行。我们渴望找到一种能够融合这五种算法的终极解决方案。尽管有人觉得这目标难以达成,但对于机器学习研究者而言,这一愿景激励着我们不懈努力,驱使我们日夜兼程。
若存在一种至高无上的算法,那么这种算法将能够从数据中习得涵盖过去、现在以及未来的全部知识。研发出这样的终极算法,将成为科学史上的一项重大突破。它将推动各种知识的快速发展,并可能以我们目前尚无法预料的手段来重塑世界。终极算法与机器学习之间的联系,恰似标准模型与粒子物理学,亦或是中心法则与分子生物学的关联:这一统一原理能够阐释人类目前所了解的一切,并为未来数十载乃至数百年的发展奠定坚实基础。当前,我们正面临诸多挑战,诸如研发家用机器人以及攻克癌症等,而终极算法正是这些难题的核心所在。
以癌症为例,治疗此病极为棘手,原因在于它通常是一种复杂的病症。肿瘤可能由多种因素引发,且在扩散过程中会发生基因突变。要彻底消灭肿瘤细胞,最有效的方式是对其基因进行排序,探究哪些药物能够对抗癌细胞(此方法对人体无害,患者需提供基因及用药记录),甚至有可能为你量身定制一种新药。然而,没有任何一位医生能够完全掌握这一过程所需的所有知识。对于机器学习而言,这无疑是一项再理想不过的使命。实际上,与亚马逊和网飞日常进行的搜索任务相比,其任务在于为你寻觅恰当的治疗方案,而非推荐适宜的书籍或影片。而且,这项任务在复杂度和挑战性上均有增无减。遗憾的是,尽管目前的学习算法在诊断疾病方面已能达到超越人类水平的精确度,但治愈癌症仍远远超出了它们的认知范畴。如果我们可以找到终极算法,这将不再是难题。
本书旨在助你构建理想的算法。或许你误以为这需借助复杂的数学运算和严密的学术研究,实则不然。这要求你先暂时搁置数学的深奥,转而观察涵盖广泛的学习行为模式。对于那些对算法领域尚不熟悉的门外汉而言,他们如同远道而来的探险者踏入终极算法的森林。在某些视角下,他们甚至可能比那些对某一学科过于专注的专家更有可能创造出终极算法。一旦我们掌握了概念性的解决方案,便可以进一步完善数学方面的细节,然而这并非本书的主旨和核心所在。我们之所以对各个学派进行探讨,旨在汇总它们的见解,并探寻其适用的领域。需牢记,任何一位盲人都不可能全面了解一头大象的全貌。我们将特别关注哪些学派能为治疗癌症提供助力,同时也会关注这些学派存在的不足之处。接下来,我们将汇总所有见解,逐步将其转化为可行的方案——虽然这方案可能并非完美无瑕的终极算法,但无疑是目前我们能找到的与终极算法最为接近的方案。我们期望这一方案能够释放你的思维,激发你的想象力。在阅读本书的过程中,如果你发现某些章节理解起来较为吃力,完全可以根据个人情况选择性地阅读,甚至跳过它们。本书的核心内容至关重要,在充分理解了各个学派的见解之后,若能再次阅读那些较为艰涩的章节,你所能获得的收益或许将远超以往。
我从事机器学习领域的研究已超过20个春秋。这份对机器学习的热情源于一本奇特的书——《人工智能》。在大四那年,我在书店偶然发现这本书,其书名令人好奇。书中仅有关于机器学习的一章,然而当我阅读这一章节时,便立刻认定,掌握知识是构建人工智能的核心。当时的技术条件还相当初级,我暗自思忖,或许我能够在这个领域有所作为。因此,我放弃了攻读MBA的打算,转而选择了在加州大学欧文分校深造博士学位。那时,机器学习尚属冷门,鲜有人涉足,研究者数量稀少,然而加州大学却拥有一支庞大的研究队伍。有些同学因看不到机器学习的发展前景而选择了放弃,而我却坚定地继续前行。对我而言,教授计算机知识是极具吸引力的:一旦我们成功实现这一目标,其他难题便会轻松解决。五年后,我完成了学业,那时数据挖掘技术正风靡一时,我便着手撰写此书。我的博士论文融合了符号学派与类推学派的理论。在过去十年间,我持续将符号学派与贝叶斯学派的理念相融合,而近期,我还在尝试将它们与联结学派的观点相结合。是时候进行下一步研究,并尝试综合这5个范式了。
写这本书时,我的脑海里浮现出各式各样但又有相似之处的读者。
关于大数据与机器学习的讨论引发了众多争议,若你对这些话题充满兴趣,并对论文中呈现的内容持有质疑,寻求更深层理解,那么这本书将是你开展变革的实用手册。
若你对机器学习在商业领域的应用抱有浓厚兴趣,本书将至少提供以下六种助力:助你成为分析领域的智者消费者;最大化利用你的数据专家资源;有效规避数据挖掘项目中的诸多风险;探索无需手写编码软件,何种操作可以自动化;缓解信息系统的僵化程度;并展望即将到来的新技术趋势。我曾目睹众多耗费巨额时间和金钱来攻克难题的人们,他们不是采用了不当的学习策略,就是错误地理解了学习策略的真谛。若想避免此类失败,实际上,仅需阅读此书即可。
若您系寻常百姓或身处决策之位,对大数据与机器学习所带来之社会及政治议题感兴趣,本书将为您揭示这一技术的基础知识:何为机器学习,其能做什么,又有哪些限制。书中避免冗杂的细节,让您不会感到枯燥。我们将探讨从隐私保护到未来就业,再到机器人化可能引发的战争道德问题,揭示问题的关键所在,并学习如何正确地思考这些问题。
身为科研人员或技术专家,你定会认识到机器学习是一项不容忽视的强大工具。在当前的大数据时代,即便是面对中等规模的数据,传统的统计方法已无法助你更进一步。此时,你需要借助机器学习的非线性分析技术,以更精确地模拟各类现象,从而开启一个全新且科学的认知视野。今日,“范式转移”一词被滥用得相当普遍,然而,我必须强调,本书所要阐述的主题正是围绕“范式转移”这一概念展开的。
作为机器学习领域的专家,您或许已对本书中的多数内容驾轻就熟,然而,书中仍不乏独到的见解、深具价值的观点,以及实用案例与生动类比。本书的撰写初衷,便是希望为读者带来关于机器学习的创新思考,甚至激发您探索全新研究领域的灵感。四周充斥着易于实现的目标,我们应当追求这样的目标codejock,然而,我们亦不应忽视那些触手可及的更宏伟的成就(对此,我允许自己用“终极算法”这一诗意表达来代指通用的学习算法)。
身为学子,不论年龄,你或许是面临专业选择的高中生,或许是决定研究方向的大学生,亦或是考虑转行、经验丰富的专业人士,我都希望这本书能激发你对这个充满魅力的领域产生兴趣。在当今社会,机器学习专家的需求极为迫切,若你选择投身其中,你将不仅能体验到令人振奋的时刻和丰厚的物质回报,还能拥有为社会贡献力量的绝佳机会。若你已投身于对主算法的研究与探索,本书期望能为你揭示其发展脉络;即便你在旅途中不经意间邂逅此书,亦不失为一本值得你倾注心力的读物。
最后还需特别指出,若你对奇迹充满向往,那么投身于机器学习领域无疑将是一场心灵的盛宴。我衷心邀请你共同踏上这场旅程。
是微软对体感周边外设正式发布的名字。——编者注
IBM,国际商业机器公司。——编者注
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码