入门机器学习/深度学习要多长时间？

h678h · 发表于 2023-8-24 09:54:30

研究生在读，尝试数据通过手环采集，手环采集数据的主要模块是六轴传感器和温湿度传感器。之前老板还让我调研课题标的目的（多传感器啥的）。。。目前进度还逗留在看手环端的代码，机器学习深度学习算法啥的都还没开始，不知道做个动作识别系统花费的学习时间要多长，怕做不完T.T

幽游狐 · 发表于 2023-8-24 09:55:26

入门深度学习最简单高效的方式就是找一个自己感兴趣的方向，做一个demo出来，这个demo可以很简单，有可视化的结果就可以了，然后实现这个demo的过程就是入门的过程。
我说一下自己入门深度学习的经历吧。

我读硕士的时候，老师给的方向是图像描述（image captioning），简单说就是看图说话，给定一张图像数据，用简短的文字描述出这张图片的场景内容。

因为image caption任务同时会处理两种模态的信息，一种是图像，一种是文本，所以会涉及到CV和NLP两种领域的知识，技术面会相对广一点，做的人比纯CV或者纯NLP相对少一点，这个方向也相对比较好发论文毕业。
其中CV方向涉及到的技术内容，主要是CNN去提取图像特征得到feature map，那么这里就需要去了解CNN的一些技术内容：

convolution的计算过程是怎样的，感受野的概念，输出feature map的尺寸怎么计算，feature map的物理意义。
一些特殊的conv，depthwise conv、group conv、deformable conv，dalited conv
batch normalization在训练、推理阶段的计算过程，bn的作用。
经典网络的构建，vgg，mobilenet，resnet，resneXt的构建。

除了用CNN去提取图像的feature map，在image caption中还能用fater rcnn这种两阶段的目标检测方式，去精细提取目标级的feature，会比CNN提取的feature map更加友好。那么这里就会涉及到目标检测的相关技术内容。

faster rcnn检测方式的基本思想，RPN以及RCNN阶段的技术原理，RoIAlign、RoIPooling的计算过程，并且深度理解它们的物理意义。
其实做到第一点对处理image caption任务已经足够了，如果想更全面的了解目标检测，内容还是很多，不多叙述。

涉及到NLP的技术内容：

自然语言在计算机中如何表示，word2vec、word embedding怎么理解。做自然语言生成式任务时，RNN，GRU，LSTM这些模型的原理及各自的优劣势，训练方式是什么。
词向量的表征方式ELMo的提出，18年新的架构transformer的提出，理解self-attention、multi-head attention、cross-attention、masked self-attention的计算过程，随后BERT、GPT的提出，用新的架构处理词向量的表征方式，提供高性能词向量的表征方式，加速下游各个子任务finetuning的速度。

理解了CV和NLP的关键技术内容，接着及时要了解怎么把两种不同模态的信息进行高效相互。这部分内容就是image caption论文所涉及的内容，需要你阅读大量论文，去理清整个image caption发展脉络。我之前写过一篇文章，介绍了几篇非常经典的论文思路。
图像描述（image captioning）深入解析其中一个核心解决的问题就是text在每个时间步中如何高效去对齐图像特征或者目标特征，随着transformer刚被提出的时候是处理机器翻译任务，image caption这个任务也可以看成是一个机器翻译任务，就是把一张图像翻译成一个句子，本质和机器翻译是差不多的。因此，另一个有意思的问题就是如何用transformer架构处理image caption任务，也可以结合LSTM和transformer一起去处理。
还有一篇文章是整理了image caption的一些资料，涉及到数据集，公开的顶会论文解读，和比较好的github代码仓库。
超全image captioning资料汇总以上差不多就是理论知识内容，深度学习是一门理论和实践相结合的学科，代码实践能力对于深度学习来说是非常重要的，所以入门深度学习必须重视代码能力。
我当时就是从
https://github.com/sgrvinod/a-PyTorch-Tutorial-to-Image-Captioning这个仓库中慢慢吃透image caption的代码实现，阅读代码的过程正好是你真正理解理论知识的体现，刚开始肯定是比较困难的，但是越往后，你会时不时有一种豁然开朗的感觉。
image caption是一个image to text的转化过程，是一种多模态的模型。现在正是多模态大模型非常火热的时候，如果你想学习前沿的大模型技术，真心推荐你们去了解一下「知乎知学堂」联合「AGI课堂」官方发布的：AI大模型公开课，两天时间，带你学习前沿的技术路线。像image caption这个任务现在ChatGPT已经具备了，并且它还能完成其他任务。你报名完之后记得添加助教小姐姐微信，可以领取免费优质学习资料，自己先整体学习一下，然后再跟着老师学习，这样效率会更高。
从代码的角度来看，他涉及到的内容也是比较多的。我当时也没有系统去学习编程相关的东西，比如python语法啊，函数啊，类啊这些，我是在阅读代码的过程中不断去学习的，哪里不懂就去查，去理解，每个不懂的点都搞懂，然后自己去实现一遍加深理解，这样会相对来说快一点。比如PyTorch框架的使用，数据怎么用Dataset分装，模型怎么用Module写，模型分布式训练的使用等等。
所以从技术理论到技术实现这一整个过程下来，差不多就是入门深度学习的过程，当然我的这个方向同时涉及了CV和NLP两个领域，入门相对纯CV或纯NLP会慢一点，不过方法是差不多的。
以上就是我的小白经历。

安仔真的爱秀文 · 发表于 2023-8-24 09:56:10

掌握好学习的方法和路径，其实并不难，我群里的不少同学经过三个月的学习已经能够入门。当然学习是无止境的事情，入门之后仍然要精益求精。
学习的Notes的集合在这里，大家自取：

机器学习Cheat Sheet
<hr/>抛开吴恩达不谈，那可能其他的姿势可能就不怎么灵，咳咳。。。
正经的，还是给想要入门机器学习的同学推荐一下学习的路径吧。

总的来说，
第一步：基础的线性代数、微积分、概率论的知识：

划重点：
线性代数：
掌握矩阵的相乘、转置、矩阵的逆，

掌握向量的模长计算
掌握掌握计算矩阵的特征值和特征向量，以及矩阵分解

微积分：
掌握矩阵的求偏导

概率论：
组合学
条件概率（贝叶斯法则）
独立事件的理解
PDF 和 CDF
期望和方差

协方差矩阵
相关性矩阵
分布概型
中心极限定理

第二步：有监督类机器学习

Discriminative Model VS Generative Model
损失函数
梯度下降
似然

线性回归
支持向量机模型
树模型与集成算法
Learning Theory

第三步：无监督类机器学习

最大似然
K-Means算法
递归聚类

主要元素分析
独立元素分析

第四步：深度神经网络

神经网络
激活函数
反向传播

卷积神经网络
循环神经网络
强化学习

第五步：掌握“调参”等模型优化技巧

模型选择
交叉验证
正则化
Bias 和 Variance 的trade-off
过拟合和次拟合的诊断

第六步：掌握机器学习的任务指标

混淆矩阵
分类任务：Accuracy、Precision、Recall、F1 Score、ROC、AUC等指标
回归任务：MSE

<hr/>广告时间：

我目前在微软担任主力面试官，也是目前我们部门的算法面试出题人，同时也向技术社区输出了不少改编题，也通过组织求职群帮在过去的五年中帮助了三千多位同学成功进入FLAG等顶尖科技公司。

关于我们的干货分享群：大家可以加助教Andy的微信进群：MSBZ1019，也可以加我的个人微信：MSFT_Justin

在我们群里吸收干货的同学，即便是在Hiring Freeze的去年和大裁员的今年，也有不少上岸了大厂。我们的求职群帮在过去的五年中帮助了三千多位同学成功进入FLAG等顶尖科技公司。更多内容可以访问我们大牛学院的网站：

大牛学院

关于我们的课程和项目指导：
关于职业规划四节课

老贾：关于职业规划四节课
关于算法突击班与算法面试的常见问题

老贾：关于算法突击班与算法面试的常见问题

北美求职Timeline以及保offer项目介绍

老贾：北美求职Timeline以及保offer项目介绍

wxd520 · 发表于 2023-8-24 09:56:38

现在无论是计算机专业还是其他的实体行业（机械、制造等等）对于人工智能的需求都还是蛮大的。所以现在也有很多人想入门人工智能，或者转行人工智能。其实人工智能是一个很大的方向，现在提到的人工智能基本上都默认以深度学习为主导的方法，但其实人工智能和深度学习的关系是：深度学习是机器学习的一个子集，机器学习是人工智能的一个子集。
那么现在深度学习这么火，答主就简单的出深度学习的角度来回答一下这个问题。
其实对于深度学习这个日新月异，每年爆发式更新模型的方向来说，学习路线的最尽头肯定是阅读你这个方向最新的论文，无论是科研人员还是已经走上工作岗位打算转行的打工人。阅读论文的来源一般是各种顶会（CVPR、ECCV、ICCV）、顶刊（TPAMI）。如果你嫌麻烦可以直接去谷歌学术或者 arXiv 上搜索你关注的内容，在搜索的时候最好把时间设定在最近几年。
说完学习路线的尽头，我们来看看入门的一些要求。对于入门深学习而言，你是必须掌握 Python 这门语言的，主要的原因是很多模型开源的代码都是基于 Python 实现的，而且目前针对深度学习的两个主流框架 pytorch 和 TensorFlow 都是支持 Python 开发的，也就是说深度学习的生态很大一部分是依赖 Python 的。所以说学习和掌握 Python 是入门深度学习必须的步骤，如果你不会也不用担心，入门 Python 还是非常简单的，目前知乎推出了一个基于 Python 的数据开发课程，如果你感兴趣的话可以购买学习一下，现在也不是很贵才一毛钱，以后可能就不好说了，所以直接买就完事了，也算是薅羊毛了。
好当你掌握了 Python，那么下一步就是去学习一些基础的数学知识了，因为如果一点数学知识都不知道的话后面论文中的公式你可能都看不懂，更不用提推导复现模型了。但你也没必要害怕，主要的就是基本的线性代数知识，也就是本科大一下学期学的，以及一些高等数学中的微积分知识。因为深度学习说的通俗一点就是大量的线代中矩阵运算和微积分中偏微分用于梯度下降。

当你掌握 Python 编程和基本的线代知识以及微积分以后，你现在就可以去看看最基本的深度学习网络模型了。虽然说现在深度学习日新月异，但是目前的很多新模型都是基于这些基础模型上进一步创新和跨领域应用的。这些基本的模型不仅能带你理解深度学习，也能帮你打下坚实的基础，这对于你后面去理解新模型和创新是非常重要的
下面就从计算机视觉（二维图片处理、三维点云数据处理）、自然语言处理列举几个最基本的模型。
深度学习网络基础知识：正向传播、梯度下降、反向传播、常见的几个 LOSS 函数（损失函数）
开山鼻祖：FCN 网络（全连接神经网络）

计算机视觉（2D 图片任务）：
1.CNN（这个就不过多介绍了，已经是如雷贯耳了）
2.FCN（膨胀卷积，是分割任务中祖师爷般的存在）
3.RCNN 系列（目标检测任务霸主，现在很多下游任务还是会把 faster rcnn 当做骨干网络）
计算机视觉（3D 视觉点云或者体素任务）：
1.PointNet/PointNet++（在三维视觉中基于点数据流派的开山之作）
2.VoteNet（何凯明在三维目标检测的力作）
自然语言处理方向：

当你读完上面论文，你就可以去专门的看你自己方向的论文了，希望这篇回答对你有所帮助。
原文作者：数学建模钉子户

使用 App 查看完整内容目前，该付费内容的完整版仅支持在 App 中查看
🔗App 内查看

昌邑火葬场 · 发表于 2023-8-24 09:56:53

入门深度学习的学习总结

齐隆嘉嘉普 · 发表于 2023-8-24 09:57:23

可长可短，如果是计算机专业背景的，熟悉python，c++，一般两个月；非计算机的则可能3个月以上

		自动登录	找回密码
密码			立即注册

入门机器学习/深度学习要多长时间？

本帖子中包含更多资源

本帖子中包含更多资源