找回密码
 立即注册
查看: 715|回复: 2

最全数据科学C/C++机器学习库汇总,记得保藏,否则下次就找不到啦!

[复制链接]

1

主题

0

回帖

7

积分

新手上路

积分
7
发表于 2023-5-22 16:53:27 | 显示全部楼层 |阅读模式
C++在数据科学及大数据中到底有多重要?
引言和动机--为什么是C++?

C++是动态负载平衡、自适应缓存、开发大型数据框架和库的抱负选择。谷歌的MapReduce,MunGDB,下面列出的大大都深度学习库都是用C++实现的。以超低延迟和极高吞吐量著称的Scylla,使用C++作为Apache Casand and Amazon DynDoDB的替代者进行编码。
C++作为编程语言(包罗内存打点、性能特性和系统编程)的一些独特优势,绝对是开发快速可扩展的数据科学和大数据库最有效的东西之一。
此外,Julia(由麻省理工学院开发的一种编译的交互式语言)正在成为Python在科学计算和数据措置范围的潜在竞争对手。其快速措置速度、并行性、静态以及动态键入和用于插入库的 C++ 绑定功能,简化了开发人员/数据科学家集成和使用 C++ 作为数据科学和大数据库的工作。
1. 来自谷歌AI的TensorFlow
由 Google 开发的热门深度学习库,它拥有本身的东西、库和社区资源生态系统,使研究人员和开发人员能够轻松构建和部署 ML 撑持的应用法式。
官方文档:https://www.tensorflow.org/lite/microcontrollers/library
GitHub:https://github.com/tensorflow/serving
2. Berkeley(伯克利)的Caffe
伯克利视觉和学习中心开发了用于快速功能嵌入或 Caffe C++卷积架构的深度学习框架。
GitHub:https://github.com/intel/caffe
3. 微软认知东西包 (CNTK)
微软认知东西包是一个统一的深度学习东西包,它通过定向图辅佐将神经网络翻译为一系列计算法式。
GitHub:microsoft/CNTK
4. mlpack 库
mlpack是一个快速、灵活的机器学习库,用 C++编写,提供具有 Python 绑定、Julia 绑定和 C++ 类的最先进的机器学习算法。
GitHub:mlpack/mlpack
5. DyNet
动态神经网络东西包(撑持动态计算图形)或 DyNet 是一种用 C++ (在 Python 中具有绑定)编写的高性能神经网络库,可以在 CPU 或 GPU 上高效运行。它撑持自然语言措置、图形布局、强化学习等。
GitHub:https://github.com/clab/dynet
6. Shogun
Shogun 是一个开源机器学习库,它提供广泛的高效和统一的机器学习方式,如多种数据暗示、算法类和通用东西的组合,用于快速原型设计数据管道。
GitHub:shogun-toolbox/shogun
7. FANN
快速人工神经网络(FANN)是C语言中的多层人工神经网络,撑持完全连接和稀疏连接的网络。它撑持固定点和浮点中的跨平台执行。此外,它还撑持基于拓扑的不竭成长训练和基于反传布的DL模型培训。
GitHub:libfann/fann
8. OpenNN
开放神经网络 (OpenNN) 是一个开源 (C/C++) 神经网络高性能库,用于高级分析,撑持分类、回归、预测等。
GitHub:Artelnics/opennn
9. SHARK库
Shark 是一个快速、模块化、通用的开源机器学习库 (C/C++),用于应用和研究,撑持线性和非线性优化、基于内核的学习算法、神经网络以及各种其他机器学习技术。
GitHub:Shark-ML/Shark
10. Armadillo
Armadillo 是一个线性代数 (C/C++) 库,其功能类似于 Matlab。该库以快速将研究代码转换为出产环境、模式识别、计算机视觉、信号措置、生物信息学、统计学、计量经济学等而著名。


11. Faisis
faiss:此库(C/C++)用于高效相似性搜索和密集向量聚类。它包含以任何大小的向量集进行搜索的算法,这些向量可能不适合 RAM 中的矢量集。它还撑持通过 CUDA 提供的可选 GPU 和可选 Python 接口。
GitHub:facebookresearch/faiss
12.随机丛林
13. Boosting
XGBoost – 并行优化的通用梯度提升库。
ThunderGBM – 用于 GPU 上的 GBDTs 和随机丛林的快速库。
LightGBM – 基于决策树算法的快速、分布式、高性能梯度提升(GBDT、GBRT、GBM 或 MART)框架,用于排名、分类和许多其他机器学习任务。
CatBoost – 决策树库上的通用梯度提升,具有开箱即用的分类功能撑持。它易于安装,包含快速推理实现,并撑持 CPU 和 GPU(甚至多 GPU)计算。
14. 保举系统
Recommender(保举) – 一个 C 语言库,使用协作过滤(CF)进行产物保举/建议。
混合保举系统 – 基于scikit学习算法的混合保举系统。
15. 自然语言措置
BLLIP 解析器 -- BLLIP 自然语言解析器(也称为查尼亚克 -约翰逊解析器)。
colibri-core -- C++库、命令行东西和 Python 绑定,用于快速、高效记忆地提取和措置基本语言布局(如 n-gram 和 skiagram)。
CRF++ -- 用于分段/标识表记标帜挨次数据的条件随机字段 (CLF) 的开源实现和其他自然语言措置任务。[已弃用]
CRFsuite -- CRFifsuite 是用于标识表记标帜挨次数据的条件随机字段 (CLF) 的实现。[已弃用]
CRF 模型 -- 基于分歧深度学习的 CRF模型。frog --为荷兰语开发的基于内存的NLP套件:PoS 标识表记标帜器、lemmatizer、依赖分析器、NER、浅层解析器、形态分析仪。
MeTA -- ModErn 文本分析是一个 C++ 数据科学东西包,有助于挖掘大文本数据,包罗文本标识表记标帜化,包罗解析树、主题模型、分类算法、图形算法、语言模型、多线程算法等深层语义功能。
MIT信息提取东西包 -- C、C++ 和 Python 东西,用于定名实体识别和关系提取
ucto -- 用于各种语言的 Unicode 感知正则表达式标识表记标帜器、东西和C++库,撑持 FoLiA 格式。
16. 数据流挖掘
StreamDM: 适用于挖掘撑持以下算法的大数据流。
SGD 学习者和感知器:

  • 朴素贝叶斯
  • CluStream
  • Hoeffding决策树
  • Bagging
  • 流KM ++
数据发生器:

  • HyperplaneGenerator
  • RandomTreeGenerator
  • RandomRBFGenerator
  • RandomRBFEventsGenerator
17. 数据布局/图形/动态编程算法
https://github.com/TheAlgorithms/C-Plus-Plus
18. 通用机器学习
Darknet -- Darknet是一个开源神经网络框架,用 C 和 CUDA 编写,撑持 CPU 和 GPU 计算。
cONNXr -- ONNX 运行时以纯 C (99) 编写,零依赖关系集中在小型嵌入式设备上。对机器学习模型进行推理,无论您使用哪个框架进行训练。易于安装和编译无处不在,即使在非常旧的设备。
BanditLib -- 一个简单的多臂Bandit库。[已弃用]
CUDA -- 这是一个快速 C++/CUDA 实现卷积深度学习
DeepDetect -- 一个用 C++ 11编写的机器学习API和处事器。它使最先进的机器学习易于使用并集成到现有应用法式中。
分布式机器学习东西包 (DMTK) -- 微软的分布式机器学习(参数处事器)框架。在多台机器上启用大型数据集的训练模型。与它绑缚的当前东西包罗:LightLDA 和分布式(多感)字嵌入。
DLib -- 一套 ML 东西,设计为易于在其他应用中安装。
DSSTNE -- 由亚马逊创建的软件库,用于使用 GPU 训练和部署深度神经网络,该软件库强调速度和扩展性,而不是尝试灵活性。
DyNet -- 动态神经网络库与具有动态布局的网络很好地工作,这些网络可对每个训练实例进行更改,用Python中的绑定编写C++。
Fido -- 用于嵌入式电子和机器人技术的高度模块化 C++ 机器学习库。
igraph -- 通用图形库。
英特尔DAAL -- 由英特尔开发并针对英特尔架构进行优化的高性能软件库。库为数据分析的所有阶段提供了算法构建块,并允许以批措置,联机和分布式模式措置数据。
libfm -- 一种通用方式,可以通过特征工程模拟大大都分化模型。
MLDB -- 机器学习数据库是为机器学习而设计的数据库。通过RESTful API发送命令以存储数据,使用SQL探索数据,然后训练机器学习模型,并将其公开为API。
mlpack -- 可扩展的C ++机器学习库。
MXNet -- 具有动态,可感知突变的Dataflow Dep Scheduler的轻量,便携式,灵活的分布式/移动深度学习;适用于Python,R,Julia,Go,Javascript等。
proNet-core -- 通用网络嵌入框架:成对暗示优化Network Edit。
PyCUDA -- CUDA的Python接口
ROOT -- 模块化的科学软件框架。它提供了措置大数据措置,统计分析,可视化和存储所需的所有功能。
shark -- 一个快速、模块化、功能丰硕的开源 C++ 机器学习库。
Shogun -- 机器学习东西箱。
sofia-ml -- 快速增量算法套件。
Stan -- 一种概率编程语言,操作汉密尔顿蒙特卡洛采样实现完整的贝叶斯统计揣度。
Timbl -- 一种软件包/ C ++库,实现了几种基于内存的学习算法,此中IB1-IG是k比来邻分类的实现,而IGTree是IB1-IG的决策树近似,常用于NLP。
Vowpal Wabbit(VW) -- 一个快速的核心学习系统。
Warp-CTC -- 在CPU和GPU上快速并行地实现连接主义时间分类(CTC)。
ThunderSVM -- 在GPU和CPU上的快速SVM库。
LKYDeepNN -- 仅标头的 C++11 神经网络库。低依赖性,当地繁体中文文档。
xLearn -- 高性能,易于使用且可扩展的机器学习套件,可用于解决大规模的机器学习问题。 xLearn对于解决大规模稀疏数据上的机器学习问题出格有用,这在Internet处事(例如在线广告和保举系统)中非常常见。
Featuretools –一个用于自动特征工程的库。它擅长使用可反复使用的特征工程“基元”将事务和关系数据集转换为用于机器学习的特征矩阵。
skynet -- 用于学习神经网络的库,具有C接口,在JSON中设置了网。用C ++编写,并使用Python,C ++和C#进行绑定。
Feast -- 用于打点,发现和访谒机器学习功能的功能存储。 Feast可为模型训练和模型处事提供一致的特征数据视图。
Hopsworks -- 具有AI的数据密集型平台,具有业界首个开源功能存储。 Hopsworks Feature Store既提供了用于基于Apache Hive进行培训和批措置的功能库,又为在线应用法式提供了基于MySQL Cluster的功能处事数据库。
Polyaxon -- 一个可重现和可扩展的机器学习和深度学习的平台。
sara -- C ++计算机视觉库,具有易于理解且高效的计算机视觉算法实现。 [Mozilla Public License版本2.0]
ANNetGPGPU -- 基于GPU(CUDA)的人工神经网络库。 [LGPL]
btsk -- 游戏行为树入门套件。 [zlib]
Evolving Objects -- 基于模板的ANSI-C++演化计算库,可辅佐您快速地编写本身的随机优化算法。 [LGPL]
frugally-deep -- 只使用C++中的 KARAS 模型的头文件库。[MIT]
Genann -- C中的简单神经网络库。[zlib]
MXNet -- 具有动态,可感知突变的Dataflow Dep Scheduler的轻量,便携式,灵活的分布式/移动深度学习;适用于Python,R,Julia,Scala,Go,Javascript等。
PyTorch -- 具有强大GPU加速功能的Python中的张量和动态神经网络。
Recast / Detour --(3D)导航网格生成器和探路器,主要用于游戏。 [zlib]
tiny-dnn -- 在C++11中仅有标头,无依赖项的深度学习框架。 [BSD]
Veles -- 用于快速深度学习应用法式开发的分布式平台。 [Apache]
Kaldi -- 语音识别东西包。 [Apache]
19. 计算机视觉
CCV -- 基于 C/缓存/核心计算机视觉库,一个现代计算机视觉库。
VLFeat -- VLFeat 是一个开放和便携式的计算机视觉算法库,它具有 Matlab 东西箱。
DLib -- DLib有C++和Python接口,用于人脸检测和训练一般对象检测器。
EBLearn -- Eblearn 是一个面向对象的 C++库,实现各种机器学习模型 [弃用]
OpenCV -- OpenCV 具有C++、C、Python、Java 和 MATLAB 接口,并撑持 Windows、Linux、Android 和 Mac 操作系统。
VIGRA -- VIGRA 是一种通用的C++计算机视觉和机器学习库,用于使用 Python 绑定实现任意维数。
Openpose -- 一个实时多人关键点检测库,用于身体、面部、手和脚的评估。
20. Facebook 研究的FlashLight
FlashLight是一个快速、灵活的机器学习库,完全由Facebook AI Research Speech团队以及Torch和Deep Speech的创建者以C++编写而成。
GitHub:facebookresearch/flashlight
21. 阿里巴巴的MNN(移动神经网络)
MNN 是一个高效、轻量级的深度学习框架。它撑持深度学习模型的推理和培训,具有业界领先的设备推理和训练性能。
Gitee:Gitee 极速下载/mnn
22.  Facebook 研究的Habitat-SIM
Habitat-SIM (C++) 库允许在高度传神的和高效的 3D 模拟器中培训浮现的 AI 代办代理 (虚拟机器人), 然后再将学到的技能转移到现实中。它使用静态数据集(例如 ImageNet、COCO、VQA)与 AI,此中代办代理通过从中学习在现实环境中工作。
GitHub:facebookresearch/habitat-sim
--END--
这应该是最全的数据科学C++机器学习库汇总了
如果大师感觉有用,记得点附和、保藏哈~

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

5

回帖

3

积分

新手上路

积分
3
发表于 2023-5-22 16:53:50 | 显示全部楼层
相当不错 赞赞赞
回复

使用道具 举报

0

主题

1

回帖

0

积分

新手上路

积分
0
发表于 2023-5-22 16:53:56 | 显示全部楼层
作者见多识广啊
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-11-25 14:48 , Processed in 0.060268 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表