译者 | 刘涛
审校 | 孙淑娟
人工智能(AI)和机器学习(ML)是我们日常生活的伙伴,很难想象没有算法和统计模型会是怎样一种生活。每当我们听到机器学习这个词时,首先想到的就是 Python。因为Python长期以来一直是机器学习的代言人,它在帮助实现机器学习的技术层面上发挥了重要作用。
Python可能是最优美的机器学习语言,有48.24%的开发人员使用它。由于Python具有强大便利的低级包和高级API接口,它在科学计算的所有领域中都具有无可比拟的优势,但在用于特定任务时,它也有一些缺点。因此,对于Python替代语言的需求也越来越普遍。
目前,许多新兴语言在性能上与Python相当,甚至比Python更好。所以它不再是机器学习的唯一选项。Scala,Julia,MQL5以及其他非 Python超集的语言可以用来开发和提供机器学习应用。因此机器学习不再局限于Python。
本文将探讨新机器学习语言的出现,以及它们如何侵蚀Python市场份额以及未来机器学习的变化。
1.Python的缺点
让我们来讨论一下Python的一些缺点,这些缺点是开发者和数据科学家经常面对的。
性能和速度
Python开发速度很快,但是计算速度非常慢。它使用解释器而非编译器。由于执行顺序代码,它比其他的数据科学编程语言要慢。Python的速度比C慢,因为C有很多有用的工具和库。除非你掌握了矢量化代码,否则你会发现它是多么的慢。
Cython是一个Python的超集,它将Python源代码编译成C语言代码,最关键是提供了C语言级的运算速度,而无需额外的运算资源。很多程序员使用Cython编写Python代码的运行速度和C语言的一样快,但是更简洁易读。
设计局限
Python在设计方面存在着巨大的缺陷,这是由它的动态类型造成的。 通常编程语言中的动态类型变量不需要特别声明。Python使用的是鸭子型,这种类型让人困惑。在鸭子型中,一个对象的类或属性没有它的功能那么重要。 鸭子型不需要类型检查。 您也可以对进程或属性进行验证。
内存消耗效率低
Python由于其庞大的结构而占用了大量内存。此外,Python数据类型在内存消耗方面很灵活。它不适用于内存密集型任务。其灵活的数据类型也会导致内存消耗。因此,当您创建大型且长期运行的Python系统时,Python中的内存管理变得具有挑战性。
线程不足
与其他语言相比,Python线程效率更低。尽管Python是多线程处理任务,但每次只能执行一个线程。因此,多线程的 Python 提供了单线程的处理效率。Python有一个全局解释器锁 (GIL),同一时间只允许一个线程使用。只有在Python使用原生库的情况下,才能同时运行多线程。此外,Python的超集 Jython可以实现多线程,而Python则不行。
2.为什么数据科学家要寻找Python替代者?
Python确实很棒。但它不可能同时既是闪电侠又是无敌浩克!有人可能需要闪电侠,有人可能需要绿巨人。用户需求是多样性的。同样,Python也不是专为数学和数据科学应用而设计的。它需要一个像NumPy或Tensorflow这样的第三方库,专门用于深度学习算法。因此,与Python相比,数据专用编程语言更具优势。
例如,在商业领域,机器学习需要速度和可扩展性以减少执行时间。您不能让顾客等太久。因此,您需要更快的ML语言(通用函数式编程语言)来执行。速度越快越好。
现在,Python已经很快了,但还有什么能比Python更快的呢?有的,它是Julia,或是Scala!
在这种情况下,数据科学家更喜欢使用与Python不同的编程语言。
3.数据科学的Python替代方案
在各种应用程序环境中,有几种Python替代方案的性能与Python相当或优于Python。以下是一些Python数据科学的替代方案:
(1)Julia
Julia是一种全新的高级动态编程语言,具有创新性、快速性和舒适性。它是一种能够编写各种应用程序的通用语言。值得一提的是,其软件包生态系统和功能有很大一部分都是面向高级数值计算的,非常适合机器学习。
Julia基于多种语言构建,包括C语言和Python、R和MATLAB等高级动态类语言。Julia汲取了这些语言的可选类型、语法和特性,因为Julia的目标是整合它们的优点并消除其缺点。
Julia的创造者希望开发出一种语言,可以像C语言一样快速地处理科学计算、机器学习、数据挖掘、大规模线性代数、分布式和并行计算。然而,他们最终开发出的语言速度更快。 尽管Python的速度越来越快,但Julia还是胜过了它。
Julia简化了许多用于机器学习的数学符号。它提供诸如ArrayFire这样的多样化GPU编程包,它能使GPU执行通用代码。每个包都有自己独特的编程模式,比如, NVIDIA有CUDA. Jl,AMD有AMDGPU. jl和oneAPI。
机器学习工程师可以在大型集群中快速部署Julia,受益于其强大的工具,例如MLBase.jl、Flux.jl(深度学习)、MLJ.j(通用机器学习)和Knet.jl(深度学习)。Flux是 一个高速的深度机器学习库,它预装了额外的工具,使Julia的能力达到了最大化。 同样,还包括适用于 ML应用程序的ScikitLearn.jl、TensorFlow.jl和MXNet.jl。
Julia擅长解决复杂的计算问题。因此,包括斯坦福大学和东京都立大学在内的众多著名学府都开设了Julia课程。 它在与Python的比较中,性能也很稳固。
(2)Scala
像Logan Kilpatrick这样的众多行业高管认为,Julia是机器学习和数据科学的未来。
Julia的主要特点:
- Julia的一些核心功能可实现高效的数据科学计算:
- Julia的运算速度很快。它比Python快2-20倍;
- 灵活丰富的库功能;
- 内置包管理器;
- PyCall和CCall 包直接调用Python;
- 使用类似shell的功能管理其他进程;
- 为并行和分布式计算而开发;
- 自动为各种参数类型生成高效代码;
- 具有MIT许可证的免费和开源软件。
Scala是一种高级编程语言,它同时支持面向对象和函数式编程技术。Martin Odersky创建了它,并于2004年6月正式推出。Scala在开发人员中越来越受欢迎,并且正在跨越当今的技术。
Scala是一种与Java应用程序和库兼容的Java虚拟机 (JVM) 语言。 因为它缺乏基本数据的概念,所以经常被认为是一种静态语言。 它的多范式、多核架构很复杂。
ApacheSpark是一种功能强大、速度快的实时数据流和数据处理工具。Scala Spark有助于复杂的映射、ETL和大型数据处理任务。Scala允许用户通过理解代码来实现新的Spark功能。Scala与Java的兼容性使程序员能够快速掌握面向对象的概念。
SparkMLlib包含了Spark中的高质量算法和出色的性能,使其成为可扩展的机器学习库。分类、回归、聚类、协同过滤和降维都包含在Spark的MLlib机器学习库中。此外,Breeze、Spire、Saddle和Scalalab是其他一些有助于创建强大的数据处理应用程序的ML库。
ApacheKafka是一种开源分布式事件流平台,随着Python的流行,Spark也开始大行其道。Scala Spark中执行缓慢的内容必然会在PySpark中崩溃。此外,您可以使用TensorFlow Scala库为机器学习模型创建一个适应性强的高性能服务系统。
Scala的静态类型有助于复杂的应用程序。它的JVM和JavaScript运行时使高性能系统能够轻松访问库。此外,它的性能优于Python。 它也在与Python的比较中站稳了脚跟。
Scala的主要特点
Scala的一些核心功能可实现高效的数据科学计算:
- Scala的速度比Python快10倍;
- 具备高级类型推断机制;
- 样例类(case class)和模式匹配;
- 拥有简洁但易读的表达性语法;
- 提供高阶函数;
- 使用Singleton对象而不是静态变量;
- 使用OOP、FP或混合风格的代码;
- Scala源代码编译为“. class”文件,该文件在JVM上执行。
(3)MQL5
MQL5是一种提供高级数据分析及机器学习功能的高级面向对象编程语言。它基于广泛使用和广为人知的编程语言C++之上,并以速度快、通用性强著称。
MQL5不是像Python、Julia或Scala那样的日常ML语言。 它专门为金融市场创造,用于监控金融工具。该语言的核心与其他语言相似,但具有独特的功能。MQL5支持整数、布尔值、文字、字符串、日期、时间和枚举。它把结构和类都定义为复杂数据类型。
MQL5语言说明文档列出了函数、操作、保留字等。此外,它还提供了整数、布尔值、文字、字符串、日期和时间等数据类型。它有复杂的结构和类。 此外,该说明文档还包括交易策略、控制面板、自定义视效和文件访问等的标准库类定义。
此外,MQL5拥有超过1,500个用于新应用开发的源代码库。 您可以使用包含大量数值分析函数的ALGLIB库。同样,还有用于处理时间序列的TimeSeries库和用于开发模糊模型的Fuzzy库以及其他各种库。
MQL5是一种功能强大的编程语言,可以帮助您构建实时系统,提供可视化的决策帮助。MQL5 支持枚举、结构、类和事件。通过增加主嵌入式函数的数量,MQL5程序可以与DLL进行通信。
MQL5具有与C++类似的语法,可以很容易地把用不同的编程语言编写的程序转换成MQL5程序。因此,在使用数据分析、人工智能或金融工具作为交易机器人时,您可以获得与C++相同的效率。
MQL5的主要特点
MQL5的一些核心功能可实现高效的数据科学计算:
- MQL5是以C++为基础的。因此,其速度与C++相当,且超过Python;
- 专为金融市场的工具和分析而创建;
- 完全事件驱动;
- 1500多个源代码库;
- 可预定义标准常量和枚举。服务架构存储信息;
- 更改配色方案、创建控制面板、添加自定义交易品种以及从MQL5程序导出价格图表;
- 12种新的绘图样式,512个缓冲区,以及从过去到未来的直接索引值计算;
- 在图表和多币种测试器中调试外汇智能交易系统(Expert Advisor)
4. 您应该选择哪种Python ML替代方案?
编程语言好比驾驶赛车,一部合适的汽车是必不可少的,司机就更不用说了。同样,作为一名数据科学家,您正是这些独特跑车的驾驶员。
每位数据科学家或开发人员对特定技术都有自己的要求和规范。最佳的技术选择取决于您需要的视角和功能。因此,很难做出最终选择。
如果您希望实现多进程的运算,而且要求非常高的运算速度,则可以选择Julia。 它是三者中最快的。另一方面,如果您正在做大型项目,Scala应该是更好的选择,因为它能够胜任。如果您对金融工具感兴趣,MQL5则是最佳选择。
同样,每一种程序设计语言都有自己特点和擅长领域。因此,选择满足您的要求和规范的语言才是最好的做法。
5. 总结
机器学习是一个持续的、不断进化的过程。随着时间的推移,它与标准化ML (SML) 语言一起出现,并在Python中流行起来。如今,具有不同需求的机器学习语言呈现多样化的发展。
简而言之,Python是一种非常出色的机器学习语言。但Python并不是一种数据科学专用语言,并且有一些更加现代的编程语言可以比它更有效地执行特定任务。
因此,新兴的编程语言正在机器学习领域中获得了市场份额并不断增长。希望在未来几年内,它们也能够普及流行起来。
原文链接:https://hackernoon.com/not-only-python-problems-errors-and-alternatives
译者介绍
刘涛,51CTO社区编辑,某大型央企系统上线检测管控负责人,主要职责为严格审核系统上线验收所做的漏扫、渗透测试以及基线检查等多项检测工作,拥有多年网络安全管理经验,多年PHP及Web开发和防御经验,Linux使用及管理经验,拥有丰富的代码审计、网络安全测试和威胁挖掘经验。精通Kali下SQL审计、SQLMAP自动化探测、XSS审计、Metasploit审计、CSRF审计、webshell审计、maltego审计等技术。