Outline
Lecture 2: The Learning Problems
- Learning with Different Output Space
- Learning with Different Data Label
- Learning with Different Protocol
- Learning with Different Input Space
Learning with Different
Output Spcae
Multilabel Classification
上一篇我們討論到的Credit Approval Problem是一個binary classification(二元分類問題),相似的還有email spam/non-spam等。那麼相類似的還有以下Multiclass Classification:
在圖像辨識中甄別物體屬於哪種類型,而候選類型存在多個。
相類似的還有Multilabel classification: classify input to multiple(or no) categories。即分類的物體可能同時屬於多個class:
Multilabel Classification可以轉化為多個 isolated binary classification,這種方法叫做Binary Relevance(BR)。BR有以下缺點:
- Isolation- hidden relations not exploited.
- Imbalanced- few yes, many no
Regression: Patient Recovery Prediction Problem
Regression是指用ML產出的output是一個實數或者一個實數範圍,即
Sophisticated Output: Image Generation Problems
有一些output形式比較複雜的問題,如圖片的合成等圖片操作問題,這時output的維度極高。
Learning with Different
Data Label
Supervised
Supervised learning: every
come with corresponding
supervised(監督式)學習的data set中每個input都有對應的output。
Unsupervised
unsupervised learning: Learning without
Self-supervised: Unsupervised+Self-defined Goal(s)
自監督學習是一種介於監督式與非監督式學習之間的機器學習方法。資料本身並沒有label,而是通過pretext task進行一個預訓練。
Semi-supervised
Semi-supervised learning: leverage unlabeled data to avoid 'expensive' labeling
半監督式學習在資料集中有一小部分labeled data而大部分是沒標註的。
Weakly-supervised
Weakly-supervised learning: another realistic family to reduce labeling burden.
獲得大量完整的labeled data是相對困難的,弱監督學習退而求其次選擇complementary label。
Reinforcement Learning
Reinforcement Learning: learn with 'partical/implicit information(often sequentially)'
沒有直接的label但是對機器不同的判斷給予不同的reward進行訓練。
Mini Summary
Learning
with Different Protocol
Batch Learning
batch supervised multiclass classification: learn from all known data.
即一次性將所有data提供給機器做一次性的學習,非常常見的ML protocol。
Online Learning
online: hypothesis 'improves' through receiving data instances sequentially
在模型上線後依然由新獲取的data來更新自己的模型,以 spam detection為例:
而在現實的應用中,online和batch的模式常常是相互結合的。
Active Learning
Active: improve hypothesis with fewer labels(hopefully) by asking questions strategically
機器主動的詢問input對應的label來幫助改進自身模型。
Mini Summary of ML Protocol
Learning with Different Space
Feature可以分為:
- Concrete Feature 具體特征
- Raw Feature 原始特征
- Abstract Features 抽象特征
Concrete Feature
Concrete features: the 'easy' one for ML
這種特征是非常具體且對機器訓練非常有直接幫助的,例如在硬幣分類中的硬幣尺寸這一特征。Concrete feature常常由人類思考得到。
Raw feature
Raw features: often need human("feature engineering") or machines to convert to concrete ones.
比較低階原始(常常是物理層面上的)的feature,如對於數字辨識中,考慮每個像素的特征則為raw feature,若考慮對稱性則為concrete feature
Raw feature往往需要被轉換為Concrete feature以更好的ML,這個過程可以通過人工或者機器完成,以下為機器的自動式轉換:
從圖片中截取pattern作為feature並判斷是否合適,重複該過程得到的pattern逐漸得到concrete feature。
Abstract Features
Abstract: again need 'feature conversion/extraction/construction'
比較抽象的feature,諸如學生的學號等,也需要轉換為concrete feature。
Mini Summary
参考
- https://tzuruey.medium.com/neurips-day-7-self-supervised-learning-workshop-5ec57ce5eab1
- https://www.csie.ntu.edu.tw/~htlin/course/ml21fall/