小白求推荐人工智能学习路线和教程

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 704 天前的主题，其中的信息可能已经有所发展或是发生改变。

原本是 Java 开发，公司因业务转型，打算做大模型、人工智能方面，各位有没有这方面的学习路线和资料推荐下

人工智能

路线

Java

教程

27 条回复 • 2025-01-14 10:09:35 +08:00

Dav1s

2024 年 2 月 26 日

https://roadmap.sh/ai-data-scientist

bright0908

2024 年 2 月 26 日

@crazychang #1 老哥，直接秒回啊😨

shinyzhu

2024 年 2 月 26 日

我也在开始深入学习。先推荐两个小课程，全免费。AI for Everyone 和 Generatve AI for Everyone

bright0908

2024 年 2 月 26 日

@crazychang @shinyzhu 多谢两位

murmur

2024 年 2 月 26 日

你们公司的大模型就用程序员转行做

那不是尾气都吃不着啥公司啊

fredweili

2024 年 2 月 26 日

https://python.langchain.com/docs/get_started

Alias4ck

2024 年 2 月 26 日

https://github.com/microsoft/AI-For-Beginners

shinsekai

2024 年 2 月 26 日

现在再看吴恩达机器学习和深度学习会不会太老了

Ricardoo

2024 年 2 月 26 日

@shinsekai 机器学习可以先不看，先看深度学习。啥时候闲下来再往回补，机器学习的各种经典算法大模型基本不用

dustookk

2024 年 2 月 26 日

本公司如果没有大量的用户数据需要 “训练”，我理解是不是掌握 Openai 的 embedding 各类 API 就行了。

stimw

2024 年 2 月 26 日 via Android

楼上有些离谱的。

在职、转型的就不要从 machine learning 开始看了。看 deep learning 甚至看看现成 api docs 才是正确的。。

老老实实当调包侠...

L13

2024 年 2 月 26 日

先让公司准备好足够的显卡和数据，不然就面向 API 变成就行了

ShadowPower

2024 年 2 月 26 日

建议快速过一眼：
https://zh.d2l.ai/

了解其中的概念即可。
然后直接找一些项目代码看看。

bright0908

2024 年 2 月 26 日

@murmur #5 目前我们部门是做 Java 产品，但是这个产品前几年还能接到项目，现在已经很难接到项目了，所以打算转型，我也很疑惑为什么不把我们开了，重新招专门搞人工智能的😂

bright0908

2024 年 2 月 26 日

@dustookk #10 公司从之前项目积累了很多数据，所以才考虑做这方面的内容

LLLeo

2024 年 2 月 26 日

收藏了，最近也在准备了解这方面的知识

snowflake007

2024 年 2 月 26 日

我们刚上了一个端云结合的项目。手机很多 AI 都是端云结合

ShadowPower

2024 年 2 月 26 日

@murmur 是这样的，市面上很多“算法工程师”其实都是价格贵的同时工程能力一般，适合搞科研。
但是目前大模型，如果想在模型架构上优化的话，研究成本极高。

实际上大模型的路径依赖的现象很严重。大家都倾向于直接在前人尝试过的最好的模型上训练。

最后比拼的是，谁的数据质量更高（可以是专注于某个领域的数据），以及谁可以搞定多机训练。

里面最主要的问题其实是：如何充分利用多机算力，规避性能瓶颈；如果机器发生了故障，如何不影响训练进程。

NoOneNoBody

2024 年 2 月 26 日

我是从人脸识别开始的……
机器学习可以不看，但 numpy ，pandas 还是要懂，无论什么学习，整理数据还是必须的，你不能靠 for 来完成数据处理
机器学习可以不看，但 sklearn 文档还是该知道怎么查，sklearn 的文档比较有用

ps: python 的类型问题烦死人，float32 和 float64 没指定好，都能导致 pytorch 跑不起来

hardto

2024 年 2 月 26 日

@bright0908 说说业务场景

NoOneNoBody

2024 年 2 月 26 日

好多模型人家都弄好了，写个程序其实不难，不怕见笑，我只会抄
例如 sklearn AgglomerativeClustering 聚类核心代码就两行
agglomerative = AgglomerativeClustering(n_clusters=n_clusters)
clusters = agglomerative.fit_predict(scaled_weighted_features)
但是大量的工作是怎么整理数据符合 fit_predict 的要求，还有就是跑一次可能很耗时，如果结果不理想，就要重新组织数据再一次，再一次，再一次……

更多的工作在查错，因为数据量太大，你搞不清是哪一个样本出错的，或者是怎样的错误
例如跑着跑着断了，报错是维度不一致，想维度问题其实是想不通的，一般数据都是批量处理的，不会出现单个数据维度异常，其实更大可能是某个数据为空或者 np.nan ，模型优先“检查维度”导致报错是维度不一致
原始数据不为空，但一些转换处理会导致部分变为空，例如 rolling 移动窗口首尾有窗口不够的问题，diff 左右值求差必然少一个，过滤数据后忘了“补齐”或“对齐”……诸如此类

还有前面说的 float 类型的事，数据没错，程序逻辑也没错，就是跑起来就报错，因为 pytorch 默认 float32 ，但 numpy 默认 float64……破，搞了我几个小时，一直以为数据错了
如果用到 numba 加速的话，类型也是大问题

个人建议 numpy/pandas 还是要熟，有批量转换和查找的能力，“查找”就是定位，找到哪一行哪一列的数据

我近半年写的代码，写出来都是很快，随机模拟生成数据都能跑，就是用实际数据就断，估计近半时间都是在花类型的查“错”上

bright0908

2024 年 2 月 26 日

@hardto #20 主要是给矿上做的产品，类似于盘古大模型这种

bright0908

2024 年 2 月 26 日

@ShadowPower #13 好的，多谢老哥

bright0908

2024 年 2 月 26 日

@NoOneNoBody #21 收到😺，多谢老哥给的经验

dayeye2006199

2024 年 2 月 26 日

学好英语，好好做 prompt

Dlin

2025 年 1 月 13 日

老歌，过去一年了，有没有坚持深入了解这一块？了解的效果如何。

bright0908

2025 年 1 月 14 日

@Dlin #26 没有，公司突然让我去干别的项目了