来源:AI前哨
本文约7730字,建议阅读10分钟。
本文为你学习AI从入门到专家供应必备的学习路线和优质学习资源。
[导 读]本文由有名开源平台,AI技能平台以及领域专家:Datawhale,ApacheCN,AI有道和黄海广博士联合整理贡献,内容涵盖AI入门根本知识、数据剖析\挖掘、机器学习、深度学习、强化学习、前沿Paper和五大AI理论运用领域:自然措辞处理,打算机视觉,推举系统,风控模型和知识图谱。是你学习AI从入门到专家必备的学习路线和优质学习资源。
根本知识
1. 数学
数学是学不完的,也没有几个人能像博士一样踏实地学好数学根本,入门人工智能领域,实在只须要节制必要的根本知识就好。AI的数学根本最紧张是高档数学、线性代数、概率论与数理统计三门课程,这三门课程是本科必修的。这里整理了一个大略单纯的数学入门文章:
数学根本:高档数学
https://zhuanlan.zhihu.com/p/36311622
数学根本:线性代数
https://zhuanlan.zhihu.com/p/36584206
数学根本:概率论与数理统计
https://zhuanlan.zhihu.com/p/36584335
机器学习的数学根本资料下载:
1) 机器学习的数学根本.docx
中文版,对高档数学、线性代数、概率论与数理统计三门课的公式做了总结。
2) 斯坦福大学机器学习的数学根本.pdf
原版英文材料,非常全面,建议英语好的同学直接学习这个材料。
下载链接:
https://pan.baidu.com/s/1LaUlrJzy98CG1Wma9FgBtg 提取码: hktx
国外经典数学教材:
比较海内浙大版和同济版的数学教材更加普通易懂,深入浅出,便于初学者更好地奠定数学根本。下载链接:
https://blog.csdn.net/Datawhale/article/details/81744961
2. 统计学
入门教材:深入浅出统计学
进阶教材:商务与经济统计
推举视频:可汗学院统计学
http://open.163.com/special/Khan/khstatistics.html
3. 编程
入门人工智能领域,首推Python这门编程措辞。
1) Python安装:
Python安装包,我推举下载Anaconda,Anaconda是一个用于科学打算的Python发行版,支持 Linux, Mac, Windows系统,供应了包管理与环境管理的功能,可以很方便地办理多版本Python并存、切换以及各种第三方包安装问题。
下载地址:
https://www.anaconda.com/download/
推举选Anaconda (python 3.7版本)
IDE:推举利用pycharm,社区版免费
下载地址:
https://www.jetbrains.com/
安装教程:
Anaconda+Jupyter notebook+Pycharm:
https://zhuanlan.zhihu.com/p/59027692
Ubuntu18.04深度学习环境配置(CUDA9+CUDNN7.4+TensorFlow1.8):
https://zhuanlan.zhihu.com/p/50302396
2) python入门的资料推举
a.廖雪峰python学习条记
https://blog.csdn.net/datawhale/article/category/7779959
b.python入门条记
作者李金,这个是jupyter notebook文件,把python的紧张语法演示了一次,值得推举。下载链接:
https://pan.baidu.com/s/1IPZI5rygbIh5R5OuTHajzA 提取码: 2bzh
c.南京大学python视频教程
这个教程非常值得推举,python紧张语法和常用的库基本涵盖了。
查看地址:
https://www.icourse163.org/course/0809NJU004-1001571005?from=study
看完这三个资料后python基本达到入门水平,可以利用scikit-learn等机器学习库来办理机器学习的问题了。
3)补充
代码规范:
https://zhuanlan.zhihu.com/p/59763076
numpy练习题:
https://zhuanlan.zhihu.com/p/57872490
pandas练习题:
https://zhuanlan.zhihu.com/p/56644669
数据剖析/挖掘
1. 数据剖析的根本书本
《利用python进行数据剖析》
这本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy,Pandas、Matplotlib以及IPython等)高效地办理各式各样的数据剖析问题。如果把代码都运行一次,基本上就能办理数据剖析的大部分问题了。
2. 特色工程
https://blog.csdn.net/Datawhale/article/details/83033869
3. 数据挖掘项目
https://blog.csdn.net/datawhale/article/details/80847662
机器学习
1. 公开课 吴恩达《Machine Learning》
这绝对是机器学习入门的首选课程,没有之一!
即便你没有踏实的机器学习所需的踏实的概率论、线性代数等数学根本,也能轻松上手这门机器学习入门课,并体会到机器学习的无穷意见意义。
课程主页:
https://www.coursera.org/learn/machine-learning
中文视频:
网易云教室搬运了这门课,并由黄海广等人翻译了中笔墨幕。
中文条记及作业代码:
https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes
2. 公开课 吴恩达 CS229
吴恩达在斯坦福教授的机器学习课程 CS229 与 吴恩达在 Coursera 上的《Machine Learning》相似,但是有更多的数学哀求和公式的推导,难度稍难一些。该课程对机器学习和统计模式识别进行了广泛的先容。
课程主页:
http://cs229.stanford.edu/
中文视频:
http://open.163.com/special/opencourse/machinelearning.html
中文条记:
https://kivy-cn.github.io/Stanford-CS-229-CN/#/
速查表:
这份给力的资源贡献者是一名斯坦福的毕业生 Shervine Amidi。作者整理了一份超级详细的关于 CS229的速查表
https://zhuanlan.zhihu.com/p/56534902
作业代码:
https://github.com/Sierkinhane/CS229-ML-Implements
3. 公开课 林轩田《机器学习基石》
台湾大学林轩田老师的《机器学习基石》课程由浅入深、内容全面,基本涵盖了机器学习领域的很多方面。其作为机器学习的入门和进阶资料非常适宜。而且林老师的传授教化风格也很诙谐风趣,总让读者在轻松愉快的氛围中节制知识。这门课比 Ng 的《Machine Learning》稍难一些,侧重于机器学习理论知识。
中文视频:
https://www.bilibili.com/video/av36731342
中文条记:
https://redstonewill.com/category/ai-notes/lin-ml-foundations/
配套教材
配套书本为《Learning From Data》,在线书本主页:http://amlbook.com/
4. 公开课 林轩田《机器学习技法》
《机器学习技法》课程是《机器学习基石》的进阶课程。紧张先容了机器学习领域经典的一些算法,包括支持向量机、决策树、随机森林、神经网络等等。难度要略高于《机器学习基石》,具有很强的实用性。
中文视频:
https://www.bilibili.com/video/av36760800
中文条记:
https://redstonewill.com/category/ai-notes/lin-ml-techniques/
5. 书本 《机器学习》
周志华的《机器学习》被大家亲切地称为“西瓜书”。这本书非常经典,讲述了机器学习核心数学理论和算法,适宜有作为学校的教材或者中阶读者自学利用,入门时学习这本书本难度轻微偏高了一些。
合营《机器学习实战》一起学习,效果更好!
读书条记:
https://www.cnblogs.com/limitlessun/p/8505647.html#_label0
公式推导:
https://datawhalechina.github.io/pumpkin-book/#/
课后习题:
https://zhuanlan.zhihu.com/c_1013850291887845376
6. 书本 《统计学习方法》
李航的这本《统计学习方法》堪称经典,包含更加完备和专业的机器学习理论知识,作为夯实理论非常不错。
讲课 PPT:
https://github.com/fengdu78/lihang-code/tree/master/ppt
读书条记:
http://www.cnblogs.com/limitlessun/p/8611103.html
https://github.com/SmirkCao/Lihang
参考条记:
https://zhuanlan.zhihu.com/p/36378498
代码实现:
https://github.com/fengdu78/lihang-code/tree/master/code
8. 书本 《Scikit-Learn 与 TensorFlow 机器学习实用指南》
在经由前面的学习之后,这本《Scikit-Learn 与 TensorFlow 机器学习实用指南》非常适宜提升你的机器学习实战编程能力。
这本书分为两大部分,第一部分先容机器学习根本算法,每章都配备 Scikit-Learn 实操项目;第二部分先容神经网络与深度学习,每章配备 TensorFlow 实操项目。如果只是机器学习,可先看第一部分的内容。
全书代码:
https://github.com/ageron/handson-ml
9. 实战 Kaggle 比赛
比赛是提升自己机器学习实战能力的最有效的办法,首选 Kaggle 比赛。
Kaggle 主页:
https://www.kaggle.com/
Kaggle 路线:
https://github.com/apachecn/kaggle
10. 工具 Scikit-Learn 官方文档
Scikit-Learn 作为机器学习一个非常全面的库,是一份不可多得的实战编程手册。
官方文档:
https://scikit-learn.org/stable/index.html
中文文档(0.19):
http://sklearn.apachecn.org/#/
深度学习
1. 公开课 吴恩达《Deep Learning》
在吴恩达开设了机器学习课程之后,发布的《Deep Learning》课程也备受好评,吴恩达老师的课程最大的特点便是将知识循规蹈矩的传授给你,是入门学习不可多得良好视频资料。
全体专题共包括五门课程:01.神经网络和深度学习;02.改进深层神经网络-超参数调试、正则化以及优化;03.构造化机器学习项目;04.卷积神经网络;05.序列模型。
课程视频
网易云教室:
https://mooc.study.163.com/university/deeplearning_ai#/c
Coursera:
https://www.coursera.org/specializations/deep-learning
课程条记
之前编写过吴恩达老师机器学习个人条记黄海广博士带领团队整理了中文条记:
https://github.com/fengdu78/deeplearning_ai_books
参考论文
吴恩达老师在课程中提到了很多精良论文,黄海广博士整理如下:
https://github.com/fengdu78/deeplearning_ai_books/tree/master/%E5%8F%82%E8%80%83%E8%AE%BA%E6%96%87
课程PPT及课后作业
吴恩达深度学习课程,包含课程的课件、课后作业和一些其他资料:
https://github.com/stormstone/deeplearning.ai
2. 公开课 Fast.ai《程序员深度学习实战》
说到深度学习的公开课,与吴恩达《Deep Learning》并驾齐驱的另一门公开课便是由Fast.ai出品的《程序员深度学习实战》。这门课最大的特点便是“自上而下”而不是“自下而上”,是绝佳的通过实战学习深度学习的课程。
视频地址
B站地址(英笔墨幕):
https://www.bilibili.com/video/av18904696?from=search&seid=10813837536595120136
CSDN地址(2017版中笔墨幕):
https://edu.csdn.net/course/detail/5192
课程条记
英文条记原文:
https://medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-1-602f73869197
由ApacheCN组织的中文翻译:
https://github.com/apachecn/fastai-ml-dl-notes-zh
3. 公开课 CS230 Deep Learning
斯坦福的深度学习课程CS230在4月2日刚刚开课,对应的全套PPT也随之上线。从内容来看,今年的课程与去年的差别不大,涵盖了CNNs, RNNs, LSTM, Adam, Dropout, BatchNorm, Xavier/He initialization 等深度学习的基本模型,涉及医疗、自动驾驶、手语识别、音乐天生和自然措辞处理等领域。
4. 书本 神经网络与深度学习 - 复旦邱锡鹏
本书是入门深度学习领域的极佳教材,紧张先容了神经网络与深度学习中的根本知识、紧张模型(前馈网络、卷积网络、循环网络等)以及在打算机视觉、自然措辞处理等领域的运用。
复旦教授邱锡鹏开源发布《神经网络与深度学习》
5. 书本 《深度学习》
完成以长进修后,想要更加系统的建立深度学习的知识体系,阅读《深度学习》准没错。该书从浅入深先容了根本数学知识、机器学习履历以及现阶段深度学习的理论和发展,它能帮助人工智能技能爱好者和从业职员在三位专家学者的思维带领下全方位理解深度学习。
书本先容
《深度学习》常日又被称为花书,深度学习领域最经典的脱销书。由环球有名的三位专家IanGoodfellow、YoshuaBengio和AaronCourville撰写,是深度学习领域奠基性的经典教材。该书被大众尊称为“AI圣经”。
在线阅读
该书由浩瀚网友众包翻译,电子版在以下地址得到:
https://github.com/exacity/deeplearningbook-chinese
6. 书本 《深度学习 500 问》
当你看完了所有的视频,研习了AI圣经,一定充满了满脑筋问号,此时不如来深度学习口试中常见的500个问题。
书本先容
DeepLearning-500-questions,作者是川大的一名精良毕业生谈继勇。该项目以深度学习口试问答形式,网络了 500 个问题和答案。内容涉及了常用的概率知识、线性代数、机器学习、深度学习、打算机视觉等热点问题,该书目前尚未完结,却已经收成了Github 2.4w stars。
项目地址:
https://github.com/scutan90/DeepLearning-500-questions
7. 工具 TensorFlow 官方文档
学深度学习一定离不开TensorFlow
官方文档:
https://www.tensorflow.org/api_docs/python/tf
中文文档:
https://github.com/jikexueyuanwiki/tensorflow-zh
8. 工具 PyTorch官方文档
PyTorch是学深度学习的另一个主流框架
官方文档:
https://pytorch.org/docs/stable/index.html
中文文档(版本0.3):
https://github.com/apachecn/pytorch-doc-zh
强化学习
1. 公开课 Reinforcement Learning-David Silver
与吴恩达的课程对付机器学习和深度学习初学者的意义相同,David Silver的这门课程绝对是大多数人学习强化学习必选的课程。
课程从浅到深,把强化学习的内容娓娓道来,极其详尽。不过由于强化学习本身的难度,听讲这门课还是有一定的门槛,建议还是在大致理解这个领域之后不雅观看该视频学习效果更佳,更随意马虎找到学习的重点。
视频地址
B站地址(中笔墨幕):
https://www.bilibili.com/video/av45357759?from=search&seid=9547815852611563503
课程原地址:
https://www.youtube.com/watch?v=2pWv7GOvuf0
课程资料
课程PPT:
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
课程条记:
https://www.zhihu.com/people/qqiang00/posts
2. 公开课 李宏毅《深度强化学习》
David Silver的课程虽然内容详尽,但前沿的很多内容都没有被包括在内,这时,台大李宏毅的《深度强化学习》便是学习前沿动态的不二之选。
视频地址
B站地址(中笔墨幕):
https://www.bilibili.com/video/av24724071?from=search&seid=9547815852611563503
课程原地址:
https://www.youtube.com/watch?v=2pWv7GOvuf0
课程资料
课程PPT:
http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html
课程条记:
https://blog.csdn.net/cindy_1102/article/details/87905272
前沿Paper
1. Arxiv
Arxiv Stats
Arxiv 机器学习最新论文检索主页地址:
https://arxiv.org/list/stat.ML/recent?ref=bestofml.com
Arxiv Sanity Preserver
Andrej Karpathy 开拓了 Arxiv Sanity Preserver,帮助分类、搜索和过滤特色
主页地址:
http://www.arxiv-sanity.com/?ref=bestofml.com
2. Papers with Code
Papers with Code(Browse state-of-the-art)
这个网站叫做 Browse state-of-the-art。它将 ArXiv 上的最新深度学习论文与 GitHub 上的开源代码联系起来。该项目目前包含了 651 个排行榜,1016 个深度学习任务,795 个数据集,以及重磅的 10257 个含复当代码的精良论文。切实其实便是一个探求论文和代码的利器。它将 1016 个深度学习任务分成了 16 大类,涉及了深度学习的各个方面。
主页地址:
https://paperswithcode.com/sota
举两个例子:
CV:
https://paperswithcode.com/area/computer-vision
NLP:
https://paperswithcode.com/area/natural-language-processing
Papers with Code(Sorted by stars)
这份资源网络了 AI 领域从 2013 - 2018 年所有的论文,并按照在 GitHub 上的标星数量进行排序。
GitHub 项目地址:
https://github.com/zziz/pwc
3. Deep Learning Papers 阅读路线
如果你是深度学习领域的新手,你可能会碰着的第一个问题是“我该当从哪篇论文开始阅读?”下面是一个深入学习论文的阅读路线图!
GitHub 项目地址:
https://github.com/floodsung/Deep-Learning-Papers-Reading-Roadmap
这份深度学习论文阅读路线分为三大块:
Deep Learning History and BasicsDeep Learning MethodApplications4. Deep Learning Object Detection
目标检测(Object Detection)是深度学习 CV 领域的一个核心研究领域和主要分支。纵不雅观 2013 年到 2019 年,从最早的 R-CNN、Fast R-CNN 到后来的 YOLO v2、YOLO v3 再到今年的 M2Det,新模型层出不穷,性能也越来越好!
本资源对目标检测近几年的发展和干系论文做出一份系统先容,总结一份超全的文献 paper 列表。
GitHub 项目地址:
https://github.com/hoya012/deep_learning_object_detection
5. 有名会议
会议
NeurIPS:https://nips.cc/
ICML:https://icml.cc/
ICLR:https://iclr.cc/
AAAI:https://aaai.org/Conferences/AAAI-19/
IJCAI:https://www.ijcai.org/
UAI:http://www.auai.org/uai2019/index.php
打算机视觉:
CVPR:http://cvpr2019.thecvf.com/
ECCV:https://eccv2018.org/program/main-conference/
ICCV:http://iccv2019.thecvf.com/
自然措辞处理:
ACL:http://www.aclcargo.com/
EMNLP:https://www.aclweb.org/portal/content/emnlp-2018
NAACL:https://naacl2019.org/
有名期刊:
JAIR:https://www.jair.org/index.php/jair
JMLR:http://www.jmlr.org/
其它
机器人方面,有 CoRL(学习)、ICAPS(方案,包括但不限于机器人)、ICRA、IROS、RSS;
对付更理论性的研究,有 AISTATS、COLT、KDD。
理论运用
自然措辞处理1. NLP是什么
自然措辞处理(NLP,Natural Language Processing)是研究打算机处理人类措辞的一门技能,目的是填补人类互换(自然措辞)和打算机理解(机器措辞)之间的差距。NLP包含句法语义剖析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统和对话系统等领域。
2. 课程推举
CS224n 斯坦福深度自然措辞处理课
17版中笔墨幕:
https://www.bilibili.com/video/av41393758/?p=1
课程条记:
http://www.hankcs.com/?s=CS224n%E7%AC%94%E8%AE%B0
2019版课程主页:
http://web.stanford.edu/class/cs224n/
自然措辞处理 - Dan Jurafsky 和 Chris Manning
B站英笔墨幕版:
https://www.bilibili.com/video/av35805262/
学术激流网:
http://academictorrents.com/details/d2c8f8f1651740520b7dfab23438d89bc8c0c0ab
3. 书本推举
Python自然措辞处理
入门读物,整本书不仅涉及了语料库的操作,也对传统的基于规则的方法有所涉及。全书包括了分词(tokenization)、词性标注(POS)、语块(Chunk)标注、句法阐发与语义阐发等方面,是nlp中不错的一本实用教程。
自然措辞处理综论
By Daniel Jurafsky和James H. Martin
本书十分威信,是经典的NLP教科书,涵盖了经典自然措辞处理、统计自然措辞处理、语音识别和打算措辞学等方面。
统计自然措辞处理根本
By Chris Manning和HinrichSchütze
更高等的统计NLP方法,在统计基本部分和n元语法部分先容得都很不错。
4. 博客推举
我爱自然措辞处理
地址:http://www.52nlp.cn/
TFIDF、文档相似度等等在这个网站上都有普通易懂的阐明
措辞日志博客(Mark Liberman)
地址:
http://languagelog.ldc.upenn.edu/nll/
natural language processing blog
地址:https://nlpers.blogspot.com/
美国Hal Daumé III掩护的一个natural language processing的 博客,常常评论最新学术动态,值得关注。有关于ACL、NAACL等学术会议的参会感想和对论文的点评
5. 项目推举
基于LSTM的中文问答系统
https://github.com/S-H-Y-GitHub/QA
基于RNN的文本天生器
https://github.com/karpathy/char-rnn
基于char-rnn的汪峰歌词天生器
https://github.com/phunterlau/wangfeng-rnn
用RNN天生手写数字
https://github.com/skaae/lasagne-draw
6. 开源NLP工具包
中文NLP干系:
https://github.com/crownpku/Awesome-Chinese-NLP
英文NLP干系:
NLTK: http://www.nltk.org/
TextBlob: http://textblob.readthedocs.org/en/dev/
Gensim: http://radimrehurek.com/gensim/
Pattern: http://www.clips.ua.ac.be/pattern
Spacy: http://spacy.io
Orange: http://orange.biolab.si/features/
Pineapple: https://github.com/proycon/pynlpl
7. 干系论文
100 Must-Read NLP Papers
https://github.com/mhagiwara/100-nlp-papers
打算机视觉
1. 打算机视觉的运用
2. 课程推举
Stanford CS223B
比较适宜根本,适宜刚刚入门的同学,跟深度学习的结合相对来说会少一点,不会整门课讲深度学习,而是紧张讲打算机视觉,方方面面都会讲到
李飞飞:CS231n课程:
https://mp.weixin.qq.com/s/-NaDpXsxvu4DpXqVNXIAvQ
3. 书本推举
入门学习:
《Computer Vision:Models, Learning and Inference》
经典威信的参考资料:
《Computer Vision:Algorithms and Applications》
理论实践:
《OpenCV3编程入门》
推举系统
1. 推举系统是什么
推举系统便是自动联系用户和物品的一种工具,它能够在信息过载的环境中帮助用户创造令他们感兴趣的信息,也能将信息推送给对它们感兴趣的用户。推举系统属于资讯过滤的一种运用。
2. 推举课程
推举系统专项课程《Recommender Systems Specialization》
这个系列由4门子课程和1门毕业项目课程组成,包括推举系统导论,最近邻协同过滤,推举系统评价,矩阵分解和高等技能等。
不雅观看地址:
https://www.coursera.org/specializations/recommender-systems
3. 书本推举
《推举系统实践》(项亮 著)
《推举系统》(Dietmar Jannach等 著,蒋凡 译)
《用户网络行为画像》(牛温佳等 著)
《Recommender Systems Handbook》(Paul B·Kantor等 著)
4. 算法库
LibRec
LibRec是一个Java版本的覆盖了70余个各种型推举算法的推举系统开源算法库,由海内的推举系统大牛郭贵冰创办,目前已更新到2.0版本,它有效地办理了评分预测和物品推举两大关键的推举问题。
项目地址: https://github.com/guoguibing/librec
官网地址: https://www.librec.net/
LibMF
C++版本开源推举系统,紧张实现了基于矩阵分解的推举系统。针对SGD(随即梯度低落)优化方法在并行打算中存在的 locking problem 和 memory discontinuity问题,提出了一种 矩阵分解的高效算法FPSGD(Fast Parallel SGD),根据打算节点的个数来划分评分矩阵block,并分配打算节点。
项目地址:
http://www.csie.ntu.edu.tw/~cjlin/libmf/
SurPRISE
一个Python版本的开源推举系统,有多种经典推举算法
项目地址:http://surpriselib.com/
Neural Collaborative Filtering
神经协同过滤推举算法的Python实现
项目地址:
https://github.com/hexiangnan/neural_collaborative_filtering
Crab
基于Python开拓的开源推举软件,个中实现有item和user的协同过滤
项目地址:http://muricoca.github.io/crab/
5. 常用数据集
MovieLen
https://grouplens.org/datasets/movielens/
MovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法。小规模的库是943个独立用户对1 682部电影作的10 000次评分的数据;大规模的库是6 040个独立用户对3 900部电影作的大约100万次评分。适用于传统的推举任务
Douban
https://www.cse.cuhk.edu.hk/irwin.king.new/pub/data/douban
Douban是豆瓣的匿名数据集,它包含了12万用户和5万条电影数据,是用户对电影的评分信息和用户间的社交信息,适用于社会化推举任务。
BookCrossing
http://www2.informatik.uni-freiburg.de/~cziegler/BX/
这个数据集是网上的Book-Crossing图书社区的278858个用户对271379本书进行的评分,包括显式和隐式的评分。这些用户的年事等人口统计学属性(demographic feature)都以匿名的形式保存并供剖析。这个数据集是由Cai-Nicolas Ziegler利用爬虫程序在2004年从Book-Crossing图书社区上采集的。
6. 推举论文
经典必读论文整理,包括综述文章、传统经典推举文章、社会化推举文章、基于深度学习的推举系统文章、专门用于办理冷启动的文章、POI干系的论文、利用哈希技能来加速推举的文章以及推举系统中经典的探索与利用问题的干系文章等。
项目地址:
https://github.com/hongleizhang/RSPapers
7. 推举项目
今日头条推举系统机制先容,面向内容创作者。分享人:项亮,今日头条推举算法架构师:
https://v.qq.com/x/page/f0800qavik7.html?
3分钟理解今日头条推举系统事理
https://v.qq.com/x/page/g05349lb80j.html?
facebook是如何为十亿人推举好友的
https://code.facebook.com/posts/861999383875667/recommending-items-to-more-than-a-billion-people/
Netflix的个性化和推举系统架构
http://techblog.netflix.com/2013/03/system-architectures-for.html
风控模型(评分卡模型)
1. 评分卡模型简介
评分卡模型时在银行、互金等公司与借贷干系业务中最常见也是最主要的模型之一。简而言之它的浸染便是对客户进行打分,来对客户是否优质进行评判。
根据评分卡模型运用的业务阶段不用,评分卡模型紧张分为三大类:A卡(Application score card)申请评分卡、B卡(Behavior score card)行为评分卡、C卡(Collection score card)催收评分卡。个中申请评分卡用于贷前,行为评分卡用于贷中,催收评分卡用于贷后,这三种评分卡在我们的信贷业务的全体生命周期都至关主要。
2. 推举书本
《信用风险评分卡研究——基于SAS的开拓与履行》
3. 评分卡模型建模过程
样本选取
确定演习样本、测试样本的不雅观察窗(特色的韶光跨度)与表现窗(标签的韶光跨度),且样本的标签定义是什么?一样平常情形下风险评分卡的标签都是考虑客户某一段韶光内的延滞情形。
特色准备
原始特色、衍生变量
数据洗濯
根据业务需求对缺失落值或非常值等进行处理
特色筛选
根据特色的IV值(特色对模型的贡献度)、PSI(特色的稳定性)来进行特色筛选,IV值越大越好(但是一个特色的IV值超过一定阈值可能要考虑是否用到未来数据),PSI越小越好(一样平常建模时取特色的PSI小于即是0.01)
对特色进行WOE转换
即对特色进行分箱操作,把稳在进行WOE转换时要看重特色的可阐明性
建立模型
在建立模型过程中可根据模型和变量的统计量判断模型中包含和不包含每个变量时的模型质量来进行变量的二次筛选。
评分指标
评分卡模型一样平常关注的指标是KS值(衡量的是好坏样本累计分部之间的差值)、模型的PSI(即模型整体的稳定性)、AUC值等。
知识图谱
1. 知识图谱是什么
知识图谱是一种构造化数据的处理方法,它涉及知识的提取、表示、存储、检索等一系列技能。从渊源上讲,它是知识表示与推理、数据库、信息检索、自然措辞处理等多种技能发展的领悟。
2. 推举资料
为什么须要知识图谱?什么是知识图谱?——KG的前世今生
https://zhuanlan.zhihu.com/p/31726910
什么是知识图谱?
https://zhuanlan.zhihu.com/p/34393554
智能搜索时期:知识图谱有何代价?
https://zhuanlan.zhihu.com/p/35982177?from=1084395010&wm=9848_0009&weiboauthoruid=5249689143
百度王海峰:知识图谱是 AI 的基石
http://www.infoq.com/cn/news/2017/11/Knowledge-map-cornerstone-AI#0-tsina-1-5001-397232819ff9a47a7b7e80a40613cfe1
译文|从知识抽取到RDF知识图谱可视化
http://rdc.hundsun.com/portal/article/907.html?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io
3. 紧张内容
3.1 知识提取
构建kg首先须要办理的是数据,知识提取是要办理构造化数据天生的问题。我们可以用自然措辞处理的方法,也可以利用规则。
利用规则
正则表达式
正则表达式(Regular Expression, regex)是字符串处 理的基本功。数据爬取、数据洗濯、实体提取、关系提取,都离不开regex。
推举资料入门:
精通正则表达式
regexper 可视化:例 [a-z](\d{4}(\D+))
pythex 在线测试正则表达式:
http://pythex.org/
推举资料进阶:
re2 :
Python wrapper for Google's RE2 using Cython
https://pypi.python.org/pypi/re2/
Parsley :更人性化的正则表达语法
http://parsley.readthedocs.io/en/latest/tutorial.html
中文分词和词性标注
分词也是后续所有处理的根本,词性(Part of Speech, POS)便是中学大家学过的动词、名词、形容词等等的词的分类。一样平常的分词工具都会有词性标注的选项。
推举资料入门:
jieba 中文分词包
https://github.com/fxsjy/jieba
中文词性标记集
https://github.com/memect/kg-beijing/wiki/
推举资料进阶:
genius 采取 CRF条件随机场算法
https://github.com/duanhongyi/genius
Stanford CoreNLP分词
https://blog.csdn.net/guolindonggld/article/details/72795022
命名实体识别
命名实体识别(NER)是信息提取运用领域的主要根本工具,一样平常来说,命名实体识别的任务便是识别出待处理文本中三大类(实体类、韶光类和数字类)、七小类(人名、机构名、地名、韶光、日期、货币和百分比)命名实体。
推举资料:
Stanford CoreNLP 进行中文命名实体识别
https://blog.csdn.net/guolindonggld/article/details/72795022
利用深度学习
利用自然措辞处理的方法,一样平常是给定schema,从非构造化数据中抽取特定领域的三元组(spo),如最近百度举办的比赛便是利用DL模型进行信息抽取。
序列标注
利用序列生出模型,紧张是标记出三元组中subject及object的起始位置,从而抽取信息。
推举资料:
序列标注问题
https://www.cnblogs.com/jiangxinyang/p/9368482.html
seq2seq
利用seq2seq端到真个模型,紧张借鉴文本择要的思想,将三元组算作是非构造化文本的择要,从而进行抽取,个中还涉及Attention机制。
推举资料:
seq2seq详解
https://blog.csdn.net/irving_zhang/article/details/78889364
详解从Seq2Seq模型到Attention模型
https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/
3.2 知识表示
知识表示(Knowledge Representation,KR,也译为知识表现)是研究如何将构造化数据组织,以便于机器处理和人的理解的方法。
须要熟习下面内容:
JSON和YAML
json库:
https://docs.python.org/2/library/json.html
PyYAML: 是Python里的Yaml处理库
http://pyyaml.org/wiki/PyYAML
RDF和OWL语义:
http://blog.memect.cn/?p=871
JSON-LD
主页:http://json-ld.org/
3.3 知识存储
须要熟习常见的图数据库
a.知识链接的办法:字符串、外键、URI
b.PostgreSQL及其JSON扩展
Psycopg包操作PostgreSQL
http://initd.org/psycopg/docs/
c.图数据库 Neo4j和OrientDB
1.Neo4j的Python接口 https://neo4j.com/developer/python/
2.OrientDB:http://orientdb.com/orientdb/
d.RDF数据库Stardog
Stardog官网:http://stardog.com/
3.4 知识检索
须要熟习常见的检索技能
ElasticSearch教程:
http://joelabrahamsson.com/elasticsearch-101/
4. 干系术语及技能路线
本体:
https://www.zhihu.com/question/19558514
RDF:
https://www.w3.org/RDF/
Apache Jena:
https://jena.apache.org/
D2RQ:
http://d2rq.org/getting-started
4.1 Protege构建本体系列
protege:
https://protege.stanford.edu/
protege利用:
https://zhuanlan.zhihu.com/p/32389370
4.2 开拓措辞
python或java
4.3 图数据库技能
Neo4j:https://neo4j.com/
AllegroGraph:https://franz.com/agraph/allegrograph/
4.4 可视化技能
d3.js:https://d3js.org/
Cytoscape.js:http://js.cytoscape.org/
4.5 分词技能
jieba:https://github.com/fxsjy/jieba
hanlp:https://github.com/hankcs/HanLP
5. 项目实战
基于知识图谱的问答:
https://github.com/kangzhun/KnowledgeGraph-QA-Service
Agriculture_KnowledgeGraph:
https://github.com/qq547276542/Agriculture_KnowledgeGraph
编辑:文婧
— 完 —
关注清华-青岛数据科学研究院官方微信"大众年夜众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。