網(wǎng)上有很多關(guān)于如何學(xué)習(xí)pos機(jī),機(jī)器學(xué)習(xí)的知識(shí),也有很多人為大家解答關(guān)于如何學(xué)習(xí)pos機(jī)的問(wèn)題,今天pos機(jī)之家(m.afbey.com)為大家整理了關(guān)于這方面的知識(shí),讓我們一起來(lái)看下吧!
本文目錄一覽:
如何學(xué)習(xí)pos機(jī)
文章目錄
1. 機(jī)器學(xué)習(xí)基本概念2. sklearn機(jī)器學(xué)習(xí)庫(kù)3. 評(píng)估指標(biāo)4. 機(jī)器學(xué)習(xí)用到的python庫(kù)1. 機(jī)器學(xué)習(xí)基本概念1.1. 常用算法
線性回歸(Linear Regression)邏輯回歸(Logistic Regression)聚類(lèi)(k-means,DBSCAN)決策樹(shù)(Decision Tree)集成算法(Random forest ,AdaBoost,Gradient Boosting)支持向量機(jī)(Support Vector Machine)k近鄰(K-Nearest Neighbors)線性判別分析(Linear Discriminant Analysis)樸素貝葉斯(Bayes Theorem)1.2. 基本概念
訓(xùn)練集:又稱訓(xùn)練樣例,用來(lái)進(jìn)行訓(xùn)練,也就是產(chǎn)生模型或者算法的數(shù)據(jù)集測(cè)試集:又稱測(cè)試樣例,用來(lái)專(zhuān)門(mén)進(jìn)行測(cè)試已經(jīng)學(xué)習(xí)好的模型或者算法的數(shù)據(jù)集特征值:屬性的集合,通常用一個(gè)向量來(lái)表示,附屬于一個(gè)實(shí)例標(biāo)記:實(shí)例類(lèi)別的標(biāo)記(正例與反例或者更多)分類(lèi):目標(biāo)標(biāo)記為類(lèi)別型數(shù)據(jù)回歸:目標(biāo)標(biāo)記為連續(xù)型數(shù)值有監(jiān)督學(xué)習(xí):訓(xùn)練集有類(lèi)別標(biāo)記無(wú)監(jiān)督學(xué)習(xí):訓(xùn)練集無(wú)類(lèi)別標(biāo)記半監(jiān)督學(xué)習(xí):訓(xùn)練集既有有類(lèi)別標(biāo)記又有無(wú)類(lèi)別標(biāo)記1.3. 機(jī)器學(xué)習(xí)步驟框架
把數(shù)據(jù)拆分為訓(xùn)練集和測(cè)試集用訓(xùn)練集和訓(xùn)練集的特征向量來(lái)訓(xùn)練算法用學(xué)習(xí)來(lái)的算法運(yùn)用在測(cè)試集上來(lái)評(píng)估算法(可能要涉及到調(diào)整參數(shù),用驗(yàn)證集)1.4. 機(jī)器學(xué)習(xí)中分類(lèi)和預(yù)測(cè)算法的評(píng)估
準(zhǔn)確性速度強(qiáng)壯性可規(guī)模性可解釋性1.5. 分類(lèi)與回歸問(wèn)題
2. sklearn機(jī)器學(xué)習(xí)庫(kù)2.1. 定義
簡(jiǎn)介:sklearn是基于python語(yǔ)言的機(jī)器學(xué)習(xí)工具包,是目前做機(jī)器學(xué)習(xí)項(xiàng)目當(dāng)之無(wú)愧的第一工具。 sklearn自帶了大量的數(shù)據(jù)集,可供我們練習(xí)各種機(jī)器學(xué)習(xí)算法。 sklearn集成了數(shù)據(jù)預(yù)處理、數(shù)據(jù)特征選擇、數(shù)據(jù)特征降維、分類(lèi)\\回歸\\聚類(lèi)模型、模型評(píng)估等非常全面算法。分類(lèi):識(shí)別某個(gè)對(duì)象屬于哪個(gè)類(lèi)別,常用的算法有:SVM(支持向量機(jī)),nearest neighbors(最近鄰)、random forest(隨機(jī)森林)回歸:預(yù)測(cè)與對(duì)象相關(guān)聯(lián)的連續(xù)值屬性,常用算法:SVR(支持向量機(jī)), ridge regression(嶺回歸)、Lasso聚類(lèi):將相似對(duì)象自動(dòng)分組,常用算法: k-Means、 spectral clustering、mean-shift降維:減少要考慮的隨機(jī)變量的數(shù)量,PCA(主成分分析), eature selection(特征選擇)、non-negative matrix factorization(非負(fù)矩陣分解)模型選擇:比較,驗(yàn)證,選擇參數(shù)和模型,常用的模塊有:grid search(網(wǎng)格搜索)、cross validation(交叉驗(yàn)證)、 metrics(度量)預(yù)處理:特征提取和歸一化,把輸入的數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法可用的數(shù)據(jù)2.2. sklearn數(shù)據(jù)類(lèi)型
機(jī)器學(xué)習(xí)最終處理的數(shù)據(jù)都是數(shù)字,只不過(guò)這些數(shù)據(jù)可能以不同的形態(tài)被呈現(xiàn)出來(lái),如矩陣、文字、圖片、視頻、音頻等。
2.3. sklearn總覽
2.3.1. 數(shù)據(jù)預(yù)處理
sklearn.preprocessing函數(shù)功能preprocessing.scale( )標(biāo)準(zhǔn)化preprocessing.MinMaxScaler( )最大最小值標(biāo)準(zhǔn)化preprocessing.StandardScaler( )數(shù)據(jù)標(biāo)準(zhǔn)化preprocessing.MaxAbsScaler( )絕對(duì)值最大標(biāo)準(zhǔn)化preprocessing.RobustScaler( )帶離群值數(shù)據(jù)集標(biāo)準(zhǔn)化preprocessing.QuantileTransformer( )使用分位數(shù)信息變換特征preprocessing.PowerTransformer( )使用冪變換執(zhí)行到正態(tài)分布的映射preprocessing.Normalizer( )正則化preprocessing.OrdinalEncoder( )將分類(lèi)特征轉(zhuǎn)換為分類(lèi)數(shù)值preprocessing.LabelEncoder( )將分類(lèi)特征轉(zhuǎn)換為分類(lèi)數(shù)值preprocessing.MultiLabelBinarizer( )多標(biāo)簽二值化preprocessing.OneHotEncoder( )獨(dú)熱編碼preprocessing.KBinsDiscretizer( )將連續(xù)數(shù)據(jù)離散化preprocessing.FunctionTransformer( )自定義特征處理函數(shù)preprocessing.Binarizer( )特征二值化preprocessing.PolynomialFeatures( )創(chuàng)建多項(xiàng)式特征preprocesssing.Normalizer( )正則化preprocessing.Imputer( )彌補(bǔ)缺失值sklearn.svm函數(shù)介紹svm.OneClassSVM( )無(wú)監(jiān)督異常值檢測(cè)上述preprocessing類(lèi)函數(shù)的方法如下:函數(shù)方法介紹xxx.fit( )擬合數(shù)據(jù)xxx.fit_transform( )擬合并轉(zhuǎn)換數(shù)據(jù)xxx.get_params( )獲取函數(shù)參數(shù)xxx.inverse_transform( )逆轉(zhuǎn)換xxx.set_params( )設(shè)置參數(shù)xxx.transform( )轉(zhuǎn)換數(shù)據(jù)2.3.2. 數(shù)據(jù)集sklearn.datasets獲取小數(shù)據(jù)集(本地加載):datasets.load_xxx()獲取大數(shù)據(jù)集(在線下載):datasets.fetch_xxx()本地生成數(shù)據(jù)集(本地構(gòu)造):datasets.make_xxx()數(shù)據(jù)集介紹load_iris( )鳶尾花數(shù)據(jù)集:3類(lèi)、4個(gè)特征、150個(gè)樣本load_boston( )波斯頓房?jī)r(jià)數(shù)據(jù)集:13個(gè)特征、506個(gè)樣本load_digits( )手寫(xiě)數(shù)字集:10類(lèi)、64個(gè)特征、1797個(gè)樣本load_breast_cancer( )乳腺癌數(shù)據(jù)集:2類(lèi)、30個(gè)特征、569個(gè)樣本load_diabets( )糖尿病數(shù)據(jù)集:10個(gè)特征、442個(gè)樣本load_wine( )紅酒數(shù)據(jù)集:3類(lèi)、13個(gè)特征、178個(gè)樣本load_files( )加載自定義的文本分類(lèi)數(shù)據(jù)集load_linnerud( )體能訓(xùn)練數(shù)據(jù)集:3個(gè)特征、20個(gè)樣本load_sample_image( )加載單個(gè)圖像樣本load_svmlight_file( )加載svmlight格式的數(shù)據(jù)make_blobs( )生成多類(lèi)單標(biāo)簽數(shù)據(jù)集make_biclusters( )生成雙聚類(lèi)數(shù)據(jù)集make_checkerboard( )生成棋盤(pán)結(jié)構(gòu)數(shù)組,進(jìn)行雙聚類(lèi)make_circles( )生成二維二元分類(lèi)數(shù)據(jù)集make_classification( )生成多類(lèi)單標(biāo)簽數(shù)據(jù)集make_friedman1( )生成采用了多項(xiàng)式和正弦變換的數(shù)據(jù)集make_gaussian_quantiles( )生成高斯分布數(shù)據(jù)集make_hastie_10_2( )生成10維度的二元分類(lèi)數(shù)據(jù)集make_low_rank_matrix( )生成具有鐘形奇異值的低階矩陣make_moons( )生成二維二元分類(lèi)數(shù)據(jù)集make_multilabel_classification( )生成多類(lèi)多標(biāo)簽數(shù)據(jù)集make_regression( )生成回歸任務(wù)的數(shù)據(jù)集make_s_curve( )生成S型曲線數(shù)據(jù)集make_sparse_coded_signal( )生成信號(hào)作為字典元素的稀疏組合make_sparse_spd_matrix( )生成稀疏堆成的正定矩陣make_sparse_uncorrelated( )使用稀疏的不相關(guān)設(shè)計(jì)生成隨機(jī)回歸問(wèn)題make_spd_matrix( )生成隨機(jī)堆成的正定矩陣make_swiss_roll( )生成瑞士卷曲線數(shù)據(jù)集2.3.3. 特征選擇sklean.feature_selection函數(shù)功能feature_selection.SelectKBest( ) feature_selection.chi2 ( )feature_selection.f_regression( ) feature_selection.mutual_info_regression( )選擇K個(gè)得分最高的特征feature_selection.VarianceThreshold( )無(wú)監(jiān)督特征選擇feature_selection.REF( )遞歸式特征消除feature_selection.REFCV( )遞歸式特征消除交叉驗(yàn)證法feature_selection.SelectFromModel( )特征選擇2.3.4. 特征降維sklearn.decomposition函數(shù)功能decomposition.PCA( )主成分分析decomposition.KernelPCA( )核主成分分析decomposition.IncrementalPCA( )增量主成分分析decomposition.MiniBatchsparsePCA( )小批量稀疏主成分分析decomposition.SparsePCA( )稀疏主成分分析decomposition.FactorAnalysis( )因子分析decomposition.TruncatedSVD( )截?cái)嗟钠娈愔捣纸鈊ecomposition.FastICA( )獨(dú)立成分分析的快速算法decomposition.DictionaryLearning( )字典學(xué)習(xí)decomposition.MiniBatchDictonaryLearning( )小批量字典學(xué)習(xí)decomposition.dict_learning( )字典學(xué)習(xí)用于矩陣分解decomposition.dict_learning_online( )在線字典學(xué)習(xí)用于矩陣分解decomposition.LatentDirichletAllocation( )在線變分貝葉斯算法的隱含迪利克雷分布decomposition.NMF( )非負(fù)矩陣分解decomposition.SparseCoder( )稀疏編碼sklearn.manifold函數(shù)功能manifold.LocallyLinearEmbedding( )局部非線性嵌入manifold.Isomap( )流形學(xué)習(xí)manifold.MDS( )多維標(biāo)度法manifold.t-SNE( )t分布隨機(jī)鄰域嵌入manifold.SpectralEmbedding( )頻譜嵌入非線性降維2.3.5. 模型構(gòu)建(1)分類(lèi)模型sklearn.tree函數(shù)功能tree.DecisionTreeClassifier()決策樹(shù)sklearn.ensemble函數(shù)功能ensemble.BaggingClassifier()裝袋法集成學(xué)習(xí)ensemble.AdaBoostClassifier( )提升法集成學(xué)習(xí)ensemble.RandomForestClassifier( )隨機(jī)森林分類(lèi)ensemble.ExtraTreesClassifier( )極限隨機(jī)樹(shù)分類(lèi)ensemble.RandomTreesEmbedding( )嵌入式完全隨機(jī)樹(shù)ensemble.GradientBoostingClassifier( )梯度提升樹(shù)ensemble.VotingClassifier( )投票分類(lèi)法sklearn.linear_model函數(shù)功能linear_model.LogisticRegression( )邏輯回歸linear_model.Perceptron( )線性模型感知機(jī)linear_model.SGDClassifier( )具有SGD訓(xùn)練的線性分類(lèi)器linear_model.PassiveAggressiveClassifier( )增量學(xué)習(xí)分類(lèi)器sklearn.svm函數(shù)功能svm.SVC( )支持向量機(jī)分類(lèi)svm.NuSVC( )Nu支持向量分類(lèi)svm.LinearSVC( )線性支持向量分類(lèi)sklearn.neighbors函數(shù)功能neighbors.NearestNeighbors( )無(wú)監(jiān)督學(xué)習(xí)臨近搜索neighbors.NearestCentroid( )最近質(zhì)心分類(lèi)器neighbors.KNeighborsClassifier()K近鄰分類(lèi)器neighbors.KDTree( )KD樹(shù)搜索最近鄰neighbors.KNeighborsTransformer( )數(shù)據(jù)轉(zhuǎn)換為K個(gè)最近鄰點(diǎn)的加權(quán)圖sklearn.discriminant_analysis函數(shù)功能discriminant_analysis.LinearDiscriminantAnalysis( )線性判別分析discriminant_analysis.QuadraticDiscriminantAnalysis( )二次判別分析sklearn.gaussian_process函數(shù)功能gaussian_process.GaussianProcessClassifier( )高斯過(guò)程分類(lèi)sklearn.naive_bayes函數(shù)功能naive_bayes.GaussianNB( )樸素貝葉斯naive_bayes.MultinomialNB( )多項(xiàng)式樸素貝葉斯naive_bayes.BernoulliNB( )伯努利樸素貝葉斯(2)回歸模型sklearn.tree函數(shù)功能tree.DecisionTreeRegress( )回歸決策樹(shù)tree.ExtraTreeRegressor( )極限回歸樹(shù)sklearn.ensemble函數(shù)功能ensemble.GradientBoostingRegressor( )梯度提升法回歸ensemble.AdaBoostRegressor( )提升法回歸ensemble.BaggingRegressor( )裝袋法回歸ensemble.ExtraTreeRegressor( )極限樹(shù)回歸ensemble.RandomForestRegressor( )隨機(jī)森林回歸sklearn.linear_model函數(shù)功能linear_model.LinearRegression( )線性回歸linear_model.Ridge( )嶺回歸linear_model.Lasso( )經(jīng)L1訓(xùn)練后的正則化器linear_model.ElasticNet( )彈性網(wǎng)絡(luò)linear_model.MultiTaskLasso( )多任務(wù)Lassolinear_model.MultiTaskElasticNet( )多任務(wù)彈性網(wǎng)絡(luò)linear_model.Lars( )最小角回歸linear_model.OrthogonalMatchingPursuit( )正交匹配追蹤模型linear_model.BayesianRidge( )貝葉斯嶺回歸linear_model.ARDRegression( )貝葉斯ADA回歸linear_model.SGDRegressor( )隨機(jī)梯度下降回歸linear_model.PassiveAggressiveRegressor( )增量學(xué)習(xí)回歸linear_model.HuberRegression( )Huber回歸sklearn.svm函數(shù)功能svm.SVR( )支持向量機(jī)回歸svm.NuSVR( )Nu支持向量回歸svm.LinearSVR( )線性支持向量回歸sklearn.neighbors函數(shù)功能neighbors.KNeighborsRegressor( )K近鄰回歸neighbors.RadiusNeighborsRegressor( )基于半徑的近鄰回歸sklearn.kernel_ridge函數(shù)功能kernel_ridge.KernelRidge( )內(nèi)核嶺回歸sklearn.gaussian_process函數(shù)功能gaussian_process.GaussianProcessRegressor( )高斯過(guò)程回歸sklearn.cross_decomposition函數(shù)功能cross_decomposition.PLSRegression( )偏最小二乘回歸(3)聚類(lèi)模型sklearn.cluster函數(shù)功能cluster.DBSCAN( )基于密度的聚類(lèi)cluster.GaussianMixtureModel( )高斯混合模型cluster.AffinityPropagation( )吸引力傳播聚類(lèi)cluster.AgglomerativeClustering( )層次聚類(lèi)cluster.Birch( )利用層次方法的平衡迭代聚類(lèi)cluster.KMeans( )K均值聚類(lèi)cluster.MiniBatchKMeans( )小批量K均值聚類(lèi)cluster.MeanShift( )平均移位聚類(lèi)cluster.OPTICS( )基于點(diǎn)排序來(lái)識(shí)別聚類(lèi)結(jié)構(gòu)cluster.SpectralClustering( )譜聚類(lèi)cluster.Biclustering( )雙聚類(lèi)cluster.ward_tree( )集群病房樹(shù)模型方法方法功能xxx.fit( )模型訓(xùn)練xxx.get_params( )獲取模型參數(shù)xxx.predict( )預(yù)測(cè)新輸入數(shù)據(jù)xxx.score( )評(píng)估模型分類(lèi)/回歸/聚類(lèi)模型xxx.set_params( )設(shè)置模型參數(shù)2.3.6. 模型評(píng)估分類(lèi)模型評(píng)估函數(shù)功能metrics.accuracy_score( )準(zhǔn)確率metrics.average_precision_score( )平均準(zhǔn)確率metrics.log_loss( )對(duì)數(shù)損失metrics.confusion_matrix( )混淆矩陣metrics.classification_report( )分類(lèi)模型評(píng)估報(bào)告:準(zhǔn)確率、召回率、F1-scoremetrics.roc_curve( )受試者工作特性曲線metrics.auc( )ROC曲線下面積metrics.roc_auc_score( )AUC值回歸模型評(píng)估函數(shù)功能metrics.mean_squared_error( )平均決定誤差metrics.median_absolute_error( )中值絕對(duì)誤差metrics.r2_score( )決定系數(shù)聚類(lèi)模型評(píng)估函數(shù)功能metrics.adjusted_rand_score( )隨機(jī)蘭德調(diào)整指數(shù)metrics.silhouette_score( )輪廓系數(shù)2.3.7. 模型優(yōu)化函數(shù)
功能
model_selection.cross_val_score( )
交叉驗(yàn)證
model_selection.LeaveOneOut( )
留一法
model_selection.LeavePout( )
留P法交叉驗(yàn)證
model_selection.GridSearchCV( )
網(wǎng)格搜索
model_selection.RandomizedSearchCV( )
隨機(jī)搜索
model_selection.validation_curve( )
驗(yàn)證曲線
model_selection.learning_curve( )
學(xué)習(xí)曲線
3. 評(píng)估指標(biāo)3.1. 各種算法的評(píng)估指標(biāo)3.2. 分類(lèi)任務(wù)二分類(lèi)問(wèn)題的混淆矩陣:
TP代表正樣本中預(yù)測(cè)正確的樣本個(gè)數(shù);FN代表正樣本中預(yù)測(cè)錯(cuò)誤的樣本個(gè)數(shù);FP代表負(fù)樣本中預(yù)測(cè)錯(cuò)誤的樣本個(gè)數(shù);TN代表父樣本中預(yù)測(cè)正確的樣本個(gè)數(shù),以下的公式基本都基于混淆矩陣而言。
準(zhǔn)確率:準(zhǔn)確率表示的是分類(lèi)正確的比例(所有樣本),但是在樣本不平衡的情況下,并不能作為很好的指標(biāo)來(lái)衡量結(jié)果。A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\\frac{TP+TN}{TP+TN+FP+FN}Accuracy=TP+TN+FP+FNTP+TN對(duì)應(yīng)sklearn包 :sklearn.metrics.accuracy_score(y_true, y_pred, *, normalize=True, sample_weight=None)參數(shù):參數(shù)說(shuō)明y_true1d array-like, or label indicator array / sparse matrix 真實(shí)標(biāo)簽。y_pred1d array-like, or label indicator array / sparse matrix 預(yù)測(cè)標(biāo)簽,由分類(lèi)器返回。normalizebool, optional (default=True) 如果為False,則返回正確分類(lèi)的樣本數(shù)。否則,返回正確分類(lèi)的樣本的分?jǐn)?shù)。sample_weightarray-like of shape (n_samples,), default=None 樣本權(quán)重。返回值:返回值說(shuō)明scorefloat 如果normalize == True,則返回正確分類(lèi)的樣本的分?jǐn)?shù)(浮點(diǎn)數(shù)),否則返回正確分類(lèi)的樣本數(shù)(整數(shù))。 最佳性能,在normalize == True時(shí),為1;在normalize == False時(shí),為樣本數(shù)量。精確率(查準(zhǔn)率):精確率代表的是預(yù)測(cè)為正樣本的樣本總體中預(yù)測(cè)正確的占比(正樣本)。P r e c i s i o n = T P T P + F P Precision=\\frac{TP}{TP+FP}Precision=TP+FPTP對(duì)應(yīng)sklearn包 :sklearn.metrics.precision_score(y_true, y_pred, *, labels=None, pos_label=1, average='binary', sample_weight=None, zero_division='warn')參數(shù):參數(shù)說(shuō)明y_true1d array-like, or label indicator array / sparse matrix 真實(shí)目標(biāo)值。y_pred1d array-like, or label indicator array / sparse matrix 分類(lèi)器返回的估計(jì)目標(biāo)。labelslist, optional 當(dāng)average!='binary’時(shí)要包括的一組標(biāo)簽,如果average是None,則為標(biāo)簽的順序??梢耘懦龜?shù)據(jù)中存在的標(biāo)簽,例如,以忽略多數(shù)否定類(lèi)的方式計(jì)算多類(lèi)平均值,而數(shù)據(jù)中不存在的標(biāo)簽將導(dǎo)致宏平均值中的0成分。對(duì)于多標(biāo)簽?zāi)繕?biāo),標(biāo)簽是列索引。 默認(rèn)情況下,y_true和y_pred中的所有標(biāo)簽均按排序順序使用。 在版本0.17中進(jìn)行了更改:針對(duì)多類(lèi)問(wèn)題改進(jìn)了參數(shù)標(biāo)簽。pos_labelstr or int, 1 by default average ='binary’且數(shù)據(jù)為二進(jìn)制的報(bào)告類(lèi)。如果數(shù)據(jù)是多類(lèi)或多標(biāo)簽的,則將被忽略; 設(shè)置labels= [pos_label]和average!='binary’將僅報(bào)告該標(biāo)簽的分?jǐn)?shù)。averagestring, [None|‘binary’ (default)| ‘micro’| ‘macro’| ‘samples’|‘weighted’] 對(duì)于多類(lèi)/多標(biāo)簽?zāi)繕?biāo),此參數(shù)是必需的。如果為None,則返回每個(gè)班級(jí)的分?jǐn)?shù)。否則,將根據(jù)數(shù)據(jù)的平均表現(xiàn)確定類(lèi)型: - 'binary': 僅報(bào)告由pos_label指定的類(lèi)的結(jié)果。僅當(dāng)目標(biāo)(y_ {true,pred})為二進(jìn)制時(shí)才適用。 - 'micro': 通過(guò)計(jì)算真正例、假負(fù)例和假正例的總數(shù)來(lái)全局計(jì)算指標(biāo)。 - 'macro': 計(jì)算每個(gè)標(biāo)簽的指標(biāo),并找到其未加權(quán)平均值。 沒(méi)有考慮標(biāo)簽不平衡。 - 'weighted': 計(jì)算每個(gè)標(biāo)簽的指標(biāo),并找到它們受支持的平均權(quán)重(每個(gè)標(biāo)簽的真實(shí)實(shí)例數(shù))。這會(huì)更改‘macro’以解決標(biāo)簽不平衡的問(wèn)題;這可能導(dǎo)致F-score不在精確度和召回率之間。 - 'samples': 計(jì)算每個(gè)實(shí)例的指標(biāo),并找到它們的平均值(僅對(duì)不同于accuracy_score的多標(biāo)簽分類(lèi)有意義)。sample_weightarray-like of shape (n_samples,), default=None 樣本權(quán)重。zero_division“warn”, 0 or 1, default=”warn” 設(shè)置零分頻時(shí)返回的值。如果設(shè)置為“ warn”,則該值為0,但也會(huì)發(fā)出警告。返回值:返回值說(shuō)明precisionfloat (if average is not None) or array of float, shape = [n_unique_labels] 二進(jìn)制分類(lèi)中正類(lèi)的精度,或者多類(lèi)任務(wù)的每個(gè)類(lèi)的精度的加權(quán)平均值。召回率(查全率):召回率代表的是實(shí)際為正樣本的樣本總體中預(yù)測(cè)正確的占比。精確度與召回率是一對(duì)矛盾的度量,一般來(lái)說(shuō),精確率高的時(shí)候,召回率往往偏低;精確率低的時(shí)候,召回率往往偏高。R e c a l l = T P T P + F N Recall=\\frac{TP}{TP+FN}Recall=TP+FNTP對(duì)應(yīng)sklearn包 :sklearn.metrics.recall_score(y_true, y_pred, *, labels=None, pos_label=1, average='binary', sample_weight=None, zero_division='warn')參數(shù):參數(shù)說(shuō)明y_true1d array-like, or label indicator array / sparse matrix 真實(shí)目標(biāo)值。y_pred1d array-like, or label indicator array / sparse matrix 分類(lèi)器返回的估計(jì)目標(biāo)。labelslist, optional 當(dāng)average!='binary’時(shí)要包括的一組標(biāo)簽,如果average是None,則是標(biāo)簽的順序??梢耘懦龜?shù)據(jù)中存在的標(biāo)簽,例如,以忽略多數(shù)否定類(lèi)的方式計(jì)算多類(lèi)平均值,而數(shù)據(jù)中不存在的標(biāo)簽將導(dǎo)致宏平均值中的0成分。對(duì)于多標(biāo)簽?zāi)繕?biāo),標(biāo)簽是列索引。 默認(rèn)情況下,y_true和y_pred中的所有標(biāo)簽均按排序順序使用。 在版本0.17中進(jìn)行了更改:針對(duì)多類(lèi)問(wèn)題改進(jìn)了參數(shù)標(biāo)簽。pos_labelstr or int, 1 by default average ='binary’且數(shù)據(jù)為二進(jìn)制的報(bào)告類(lèi)。如果數(shù)據(jù)是多類(lèi)或多標(biāo)簽的,則將被忽略; 設(shè)置labels=[pos_label]和average!='binary’將僅報(bào)告該標(biāo)簽的分?jǐn)?shù)。averagestring, [None|‘binary’ (default)| ‘micro’| ‘macro’| ‘samples’|‘weighted’] 對(duì)于多類(lèi)/多標(biāo)簽?zāi)繕?biāo),此參數(shù)是必需的。如果為None,則返回每個(gè)類(lèi)的得分。否則,將根據(jù)數(shù)據(jù)的平均表現(xiàn)確定類(lèi)型: - 'binary': 僅報(bào)告由pos_label指定的類(lèi)的結(jié)果。僅當(dāng)目標(biāo)(y_ {true,pred})為二進(jìn)制時(shí)才適用。 - 'micro': 通過(guò)計(jì)算真正例、假負(fù)例和假正例的總數(shù)來(lái)全局計(jì)算度量。 - 'macro': 計(jì)算每個(gè)標(biāo)簽的度量,并找到其未加權(quán)平均值。 這沒(méi)有考慮標(biāo)簽不平衡。 - 'weighted': 計(jì)算每個(gè)標(biāo)簽的度量,并找到它們受支持的平均權(quán)重(每個(gè)標(biāo)簽的真實(shí)實(shí)例數(shù))。這會(huì)更改‘macro’以解決標(biāo)簽不平衡的問(wèn)題;這可能導(dǎo)致F-score不在精確度和召回率之間。 - 'samples': 計(jì)算每個(gè)實(shí)例的度量,并找到它們的平均值(僅對(duì)不同于accuracy_score的多標(biāo)簽分類(lèi)有意義)。sample_weightarray-like of shape (n_samples,), default=None 樣本權(quán)重。zero_division“warn”, 0 or 1, default=”warn” 設(shè)置零分頻時(shí)返回的值。如果設(shè)置為“ warn”,則該值為0,但也會(huì)發(fā)出警告。返回值:返回值說(shuō)明recallfloat (if average is not None) or array of float, shape = [n_unique_labels] 二進(jìn)制分類(lèi)中的正例類(lèi)的召回率或多類(lèi)別任務(wù)的每個(gè)類(lèi)別的召回率加權(quán)平均P-R曲線:以查準(zhǔn)率為縱軸,查全率為橫軸,就得到了查準(zhǔn)率-查全率曲線,又被稱為P-R曲線。P-R曲線能直觀地顯示出學(xué)習(xí)器在樣本總體上的查全率、查準(zhǔn)率。如下圖,學(xué)習(xí)器A優(yōu)于學(xué)習(xí)器C(學(xué)習(xí)器A的曲線完全包住學(xué)習(xí)器C),但是學(xué)習(xí)器A與B很難比較,因?yàn)槌霈F(xiàn)了交叉,平衡點(diǎn)(BEP)也就是查準(zhǔn)率等于查全率的時(shí)候,對(duì)應(yīng)的坐標(biāo)值,坐標(biāo)值大的相對(duì)優(yōu)一點(diǎn)。但BEP過(guò)于簡(jiǎn)化,因此常用F1。對(duì)應(yīng)sklearn包 :sklearn.metrics.average_precision_score(y_true, y_score, *, average='macro', pos_label=1, sample_weight=None)參數(shù):參數(shù)說(shuō)明y_truearray, shape = [n_samples] or [n_samples, n_classes] 真正的二進(jìn)制標(biāo)簽或二進(jìn)制標(biāo)簽指示符。y_scorearray, shape = [n_samples] or [n_samples, n_classes] 目標(biāo)分?jǐn)?shù)可以是肯定類(lèi)別的概率估計(jì)值,置信度值或決策的非閾值度量(如某些分類(lèi)器上的“ decision_function”所返回)。averagestring, [None, ‘micro’, ‘macro’ (default), ‘samples’, ‘weighted’] 如果為None,則返回每類(lèi)的得分。否則,將確定對(duì)數(shù)據(jù)平均表現(xiàn)的類(lèi)型: - ‘micro’: 通過(guò)將標(biāo)簽指標(biāo)矩陣的每個(gè)元素都視為標(biāo)簽來(lái)全局計(jì)算指標(biāo)。 - ‘macro’: 計(jì)算每個(gè)標(biāo)簽的指標(biāo),并找到其未加權(quán)平均值。此處沒(méi)有考慮標(biāo)簽不平衡問(wèn)題。 - ‘weighted’: 計(jì)算每個(gè)標(biāo)簽的指標(biāo),并找到它們的平均值,然后按支持度(每個(gè)標(biāo)簽的真實(shí)實(shí)例數(shù))加權(quán)。 - ‘samples’: 計(jì)算每個(gè)實(shí)例的指標(biāo),并找到它們的平均值。 當(dāng)y_true為二進(jìn)制時(shí)將被忽略。pos_labelint or str (default=1) 正向類(lèi)別的標(biāo)簽。僅適用于二進(jìn)制y_true。 對(duì)于multilabel-indicator y_true,pos_label固定為1。sample_weightarray-like of shape (n_samples,), default=None 樣本權(quán)重。返回值:返回值說(shuō)明average_precisionfloatF值:當(dāng)需要在精確率與召回率之間進(jìn)行權(quán)衡時(shí),F(xiàn)1曲線同時(shí)考慮了兩者,可以作為一種評(píng)價(jià)指標(biāo),它是精確率和召回率的調(diào)和平均數(shù)。當(dāng)β > 1時(shí),召回率的權(quán)重高于精確率,當(dāng)β < 1時(shí)精確率的權(quán)重高于召回率,當(dāng)β = 1時(shí),就變成了F1值。F β = ( 1 + β 2 ) ? P r e c i s i o n ? R e c a l l β 2 ? P r e c i s i o n + R e c a l l F_\\beta=(1+\\beta^2)\\cdot\\frac{Precision \\cdot Recall}{\\beta^2 \\cdot Precision + Recall}Fβ=(1+β2)?β2?Precision+RecallPrecision?RecallF1:F 1 = 2 ? P r e c i s i o n ? R e c a l l P r e c i s i o n + R e c a l l F_1=\\frac{2\\cdot Precision \\cdot Recall}{Precision + Recall}F1=Precision+Recall2?Precision?Recall對(duì)應(yīng)sklearn包 :sklearn.metrics.f1_score(y_true, y_pred, *, labels=None, pos_label=1, average='binary', sample_weight=None, zero_division='warn')參數(shù):參數(shù)說(shuō)明y_true1d array-like, or label indicator array / sparse matrix 真實(shí)目標(biāo)值。y_pred1d array-like, or label indicator array / sparse matrix 分類(lèi)器返回的估計(jì)目標(biāo)。labelslist, optional 當(dāng)average!='binary’時(shí)要包括的一組標(biāo)簽,如果average是None,則是標(biāo)簽的順序。可以排除數(shù)據(jù)中存在的標(biāo)簽,例如,以忽略多數(shù)否定類(lèi)的方式計(jì)算多類(lèi)平均值,而數(shù)據(jù)中不存在的標(biāo)簽將導(dǎo)致宏平均值中的0成分。對(duì)于多標(biāo)簽?zāi)繕?biāo),標(biāo)簽是列索引。 默認(rèn)情況下,y_true和y_pred中的所有標(biāo)簽均按排序順序使用。 在版本0.17中進(jìn)行了更改:針對(duì)多類(lèi)問(wèn)題改進(jìn)了參數(shù)標(biāo)簽。pos_labelstr or int, 1 by default average ='binary’且數(shù)據(jù)為二進(jìn)制的要進(jìn)行報(bào)告的類(lèi)。如果數(shù)據(jù)是多類(lèi)或多標(biāo)簽的,則將被忽略;設(shè)置labels=[pos_label]及average!='binary’將僅報(bào)告該標(biāo)簽的得分。averagestring,[None| ‘binary’(default)| ‘micro’| ‘macro’| ‘samples’| ‘weighted’] 對(duì)于多類(lèi)/多標(biāo)簽?zāi)繕?biāo),此參數(shù)是必需的。如果為None,則返回每個(gè)類(lèi)的得分。否則,將確定數(shù)據(jù)執(zhí)行的平均類(lèi)型: - 'binary': 僅報(bào)告由pos_label指定的類(lèi)的結(jié)果。僅當(dāng)目標(biāo)(y_ {true,pred})為二進(jìn)制時(shí)才適用。 - 'micro': 通過(guò)計(jì)算真正例、假負(fù)例和假正例的總數(shù)來(lái)全局計(jì)算度量。 - 'macro': 計(jì)算每個(gè)標(biāo)簽的度量,并找到其未加權(quán)平均值。 這沒(méi)有考慮標(biāo)簽不平衡。 - 'weighted': 計(jì)算每個(gè)標(biāo)簽的度量,并找到它們受支持的平均權(quán)重(每個(gè)標(biāo)簽的真實(shí)實(shí)例數(shù))。這會(huì)更改‘macro’以解決標(biāo)簽不平衡的問(wèn)題;這可能導(dǎo)致F-score不在精確度和召回率之間。 - 'samples': 計(jì)算每個(gè)實(shí)例的度量,并找到它們的平均值(僅對(duì)不同于accuracy_score的多標(biāo)簽分類(lèi)有意義)。sample_weightarray-like of shape (n_samples,), default=None 樣本權(quán)重。zero_division“warn”, 0 or 1, default=”warn” 設(shè)置除數(shù)為零(即所有預(yù)測(cè)和標(biāo)簽均為負(fù))時(shí)的返回值。如果設(shè)置為“warn”,則該值為0,但也會(huì)發(fā)出警告。返回值:返回值說(shuō)明f1_scorefloat or array of float, shape = [n_unique_labels] 二進(jìn)制分類(lèi)中的正例類(lèi)的F1分?jǐn)?shù),或者對(duì)于多類(lèi)別任務(wù),每個(gè)類(lèi)別的F1分?jǐn)?shù)的加權(quán)平均值。G值:是精確率與召回率的另一種評(píng)價(jià)指標(biāo),它是精確率和召回率的幾何平均數(shù)。G = P r e c i s i o n ? R e c a l l G=\\sqrt{Precision \\cdot Recall}G=Precision?RecallROC曲線和AUC :當(dāng)測(cè)試集中的正負(fù)樣本的分布變化的時(shí)候,ROC曲線能夠保持不變,即ROC曲線能夠很好的消除樣本類(lèi)別不平衡對(duì)評(píng)估指標(biāo)產(chǎn)生的影響(把實(shí)際中的正樣例與負(fù)樣例分開(kāi)考慮)。ROC曲線與下方坐標(biāo)軸圍成的面積就是AUC,考慮的是樣本預(yù)測(cè)的排序質(zhì)量,因此與排序誤差有緊密聯(lián)系,AUC的值應(yīng)當(dāng)越大越好。對(duì)應(yīng)sklearn包 (AUC):sklearn.metrics.auc(x, y)參數(shù):參數(shù)說(shuō)明xarray, shape = [n] x坐標(biāo)。這些必須是單調(diào)遞增或單調(diào)遞減。yarray, shape = [n] y坐標(biāo)。返回值:返回值說(shuō)明aucfloat對(duì)應(yīng)sklearn包(ROC) :sklearn.metrics.roc_curve(y_true, y_score, *, pos_label=None, sample_weight=None, drop_intermediate=True)參數(shù):參數(shù)說(shuō)明y_truearray, shape = [n_samples] 真正的二進(jìn)制標(biāo)簽。 如果標(biāo)簽既不是{-1,1}也不是{0,1},則應(yīng)該明確給出pos_label。y_scorearray, shape = [n_samples] 目標(biāo)分?jǐn)?shù)可以是正例類(lèi)的概率估計(jì)值,置信度值或決策的非閾值度量(如某些分類(lèi)器上的“ decision_function”所返回)。pos_labelint or str, default=None 正例類(lèi)的標(biāo)簽。當(dāng)pos_label = None時(shí),如果y_true在{-1,1}或{0,1}中,則pos_label設(shè)置為1,否則將引發(fā)錯(cuò)誤。sample_weightarray-like of shape (n_samples,), default=None 樣本權(quán)重。drop_intermediateboolean, optional (default=True) 是否降低一些未達(dá)到最佳閾值的閾值,這些閾值不會(huì)出現(xiàn)在繪制的ROC曲線上。 這對(duì)于創(chuàng)建較淺的ROC曲線很有用。 版本0.17中的新功能:參數(shù)drop_intermediate。返回值:返回值說(shuō)明fprarray, shape = [>2] 增加假正例率,使得元素i是score >= thresholds[i]預(yù)測(cè)的假正例率。tprarray, shape = [>2] 增加真正例率,使得元素i是score >= thresholds[i]的預(yù)測(cè)的真正例率。thresholdsarray, shape = [n_thresholds] 用于計(jì)算fpr和tpr的決策函數(shù)的閾值遞減。 thresholds [0]表示沒(méi)有實(shí)例在預(yù)測(cè)中,可以任意設(shè)置為max(y_score)+ 1。真正率、假正率、真負(fù)率、假負(fù)率:真正率:在所有實(shí)際為正例的樣本中,正確判斷為正例的概率;假正率:在所有實(shí)際為負(fù)例的樣本中,錯(cuò)誤判斷為負(fù)例的概率;真負(fù)率:在所有實(shí)際為負(fù)例的樣本中,正確判斷為負(fù)例的概率;假負(fù)率:在所有實(shí)際為正例的樣本中,錯(cuò)誤判斷為正例的概率。T P R = T P T P + F N F P R = F P F P + T N T N R = T N T N + F P F N R = F N F N + T P TPR=\\frac{TP}{TP+FN} \\quad FPR=\\frac{FP}{FP+TN} \\quad TNR=\\frac{TN}{TN+FP} \\quad FNR=\\frac{FN}{FN+TP} \\quadTPR=TP+FNTPFPR=FP+TNFPTNR=TN+FPTNFNR=FN+TPFN對(duì)應(yīng)sklearn包 :sklearn.metrics.confusion_matrix(y_true, y_pred, *, labels=None, sample_weight=None, normalize=None)參數(shù):參數(shù)說(shuō)明y_truearray-like of shape (n_samples,) 真實(shí)目標(biāo)值。y_predarray-like of shape (n_samples,) 分類(lèi)器返回的估計(jì)目標(biāo)。labelsarray-like of shape (n_classes), default=None 索引矩陣的標(biāo)簽列表。可用于重新排序或選擇標(biāo)簽的子集。如果指定None,則那些在y_true或y_pred中至少出現(xiàn)一次的標(biāo)簽將按照排序使用。sample_weightarray-like of shape (n_samples,), default=None 樣本權(quán)重。 版本0.18中的新功能。normalize{‘true’, ‘pred’, ‘a(chǎn)ll’}, default=None 對(duì)真實(shí)(行),預(yù)測(cè)(列)條件或所有總體的混淆矩陣進(jìn)行歸一化。 如果為None,則不會(huì)對(duì)混淆矩陣進(jìn)行歸一化。返回值:返回值說(shuō)明Cndarray of shape (n_classes, n_classes) 混淆矩陣,其第i行和第j列條目指示真實(shí)標(biāo)簽為第i類(lèi)且預(yù)測(cè)標(biāo)簽為第j類(lèi)的樣本數(shù)。3.3. 回歸任務(wù)均方誤差(MSE)或L2范數(shù)損失:通過(guò)計(jì)算真實(shí)值與預(yù)測(cè)值的差值的平方和的均值來(lái)衡量距離。M S E = 1 m ∑ i = 1 m ( f ( x i ) ? y i ) 2 MSE=\\frac{1}{m} \\sum_{i=1}^{m}{(f(x_i)-y_i)^2}MSE=m1i=1∑m(f(xi)?yi)2對(duì)應(yīng)sklearn包 :
sklearn.metrics.mean_squared_error(y_true, y_pred, *, sample_weight=None, multioutput='uniform_average', squared=True)
參數(shù):
參數(shù)
說(shuō)明
y_true
array-like of shape (n_samples,) or (n_samples, n_outputs) 真實(shí)目標(biāo)值。
y_pred
array-like of shape (n_samples,) or (n_samples, n_outputs) 預(yù)測(cè)目標(biāo)值。
sample_weight
array-like of shape (n_samples,), optional 樣本權(quán)重。
multioutput
string in [‘raw_values’, ‘uniform_average’] or array-like of shape (n_outputs) 定義多個(gè)輸出值的匯總。類(lèi)似數(shù)組的值定義了用于平均誤差的權(quán)重。 - ‘raw_values’: 如果是多輸出格式的輸入,則返回完整的錯(cuò)誤集。 - ‘uniform_average’: 所有輸出的誤差均以相同的權(quán)重平均。
squared
boolean value, optional (default = True) 如果為T(mén)rue,則返回MSE值;如果為False,則返回RMSE值。
返回值:
返回值
說(shuō)明
loss
float or ndarray of floats 非負(fù)浮點(diǎn)值(最佳值為0.0)或浮點(diǎn)值數(shù)組,每個(gè)目標(biāo)對(duì)應(yīng)一個(gè)浮點(diǎn)值。
均方根誤差(RMSE): 通過(guò)計(jì)算真實(shí)值與預(yù)測(cè)值的差值的平方和的均值的標(biāo)準(zhǔn)差來(lái)衡量距離。R M S E = 1 m ∑ i = 1 m ( f ( x i ) ? y i ) 2 RMSE=\\sqrt{ \\frac{1}{m} \\sum_{i=1}^{m}{(f(x_i)-y_i)^2}}RMSE=m1i=1∑m(f(xi)?yi)2平均絕對(duì)誤差(MAE)或L1范數(shù)損失: 通過(guò)計(jì)算預(yù)測(cè)值和真實(shí)值之間的距離的絕對(duì)值的均值來(lái)衡量距離。M A E = 1 m ∑ i = 1 m ∣ y i ? f ( x i ) ∣ MAE=\\frac{1}{m} \\sum_{i=1}^{m}|{y_i-f(x_i)|}MAE=m1i=1∑m∣yi?f(xi)∣對(duì)應(yīng)sklearn包 :sklearn.metrics.mean_absolute_error(y_true, y_pred, *, sample_weight=None, multioutput='uniform_average')參數(shù):參數(shù)說(shuō)明y_truearray-like of shape (n_samples,) or (n_samples, n_outputs) 真實(shí)目標(biāo)值。y_predarray-like of shape (n_samples,) or (n_samples, n_outputs) 預(yù)測(cè)目標(biāo)值。sample_weightarray-like of shape (n_samples,), optional 樣本權(quán)重。multioutputstring in [‘raw_values’, ‘uniform_average’] or array-like of shape (n_outputs) 定義多個(gè)輸出值的匯總。類(lèi)似數(shù)組的值定義了用于平均誤差的權(quán)重。 - ‘raw_values’: 如果是多輸出格式的輸入,則返回完整的錯(cuò)誤集。 - ‘uniform_average’: 所有輸出的誤差均以相同的權(quán)重平均。返回值:返回值說(shuō)明lossfloat or ndarray of floats 如果多輸出為‘raw_values’,則分別為每個(gè)輸出返回均值絕對(duì)錯(cuò)誤。如果多輸出是‘uniform_average’或權(quán)重的ndarray,則將返回所有輸出錯(cuò)誤的加權(quán)平均值。 MAE輸出為非負(fù)浮點(diǎn)。最佳值為0.0。3.4. 無(wú)監(jiān)督任務(wù)輪廓系數(shù):適應(yīng)于實(shí)際類(lèi)別信息未知的情況。對(duì)于單個(gè)樣本,設(shè)a是與它同類(lèi)別中其它樣本的 平均距離,b是與它距離最近不同類(lèi)別中樣本的平均距離,定義為:S = b ? a m a x ( a , b ) S=\\frac{b-a}{max(a,b)}S=max(a,b)b?a對(duì)應(yīng)sklearn包 :
sklearn.metrics.silhouette_score(X, labels, *, metric='euclidean', sample_size=None, random_state=None, **kwds)
參數(shù):
參數(shù)
說(shuō)明
X
array [n_samples_a, n_samples_a] if metric == “precomputed”, or, [n_samples_a, n_features] otherwise 樣本之間的成對(duì)距離數(shù)組或特征數(shù)組。
labels
array, shape = [n_samples] 每個(gè)樣本的預(yù)測(cè)標(biāo)簽。
metric
string, or callable 計(jì)算特征陣列中實(shí)例之間的距離時(shí)使用的度量。如果metric是字符串,則它必須是metrics.pairwise.pairwise_distances允許的選項(xiàng)之一。如果X是距離數(shù)組本身,則使用metric=“precomputed”。
sample_size
int or None 在數(shù)據(jù)的隨機(jī)子集上計(jì)算輪廓系數(shù)時(shí)要使用的樣本大小。如果sample_size為None,則不使用采樣。
random_state
int, RandomState instance or None, optional (default=None) 確定用于選擇樣本子集的隨機(jī)數(shù)生成。當(dāng)sample_size不為None時(shí)使用。在多個(gè)函數(shù)調(diào)用之間傳遞int以獲得可重復(fù)的結(jié)果。請(qǐng)參閱詞匯表。
**kwds
optional keyword parameters 任何其他參數(shù)都直接傳遞給距離函數(shù)。如果使用scipy.spatial.distance度量,則參數(shù)仍取決于度量。有關(guān)用法示例,請(qǐng)參見(jiàn)scipy文檔。
返回值:
返回值
說(shuō)明
silhouette
float 所有樣本的平均輪廓系數(shù)。
4. 機(jī)器學(xué)習(xí)用到的python庫(kù)4.1. NumpyNumpy:通常用來(lái)進(jìn)行矢量化的計(jì)算常用函數(shù):創(chuàng)建數(shù)組
np.array()
用于創(chuàng)建一維或多維數(shù)組
np.arange()
在給定的間隔內(nèi)返回具有一定步長(zhǎng)的整數(shù)
np.linspace()
創(chuàng)建一個(gè)具有指定間隔的浮點(diǎn)數(shù)的數(shù)組
np.random.randint()
在一個(gè)范圍內(nèi)生成n個(gè)隨機(jī)整數(shù)樣本
np.zeros()
創(chuàng)建一個(gè)全部為0的數(shù)組
np.ones()
創(chuàng)建一個(gè)全部為1的數(shù)組
np.full()
創(chuàng)建一個(gè)單獨(dú)值的n維數(shù)組
數(shù)組操作
np.min()
返回?cái)?shù)組中的最小值
np.max()
返回?cái)?shù)組中的最大值
np.mean()
返回?cái)?shù)組的平均數(shù)
np.median()
返回?cái)?shù)組的中位數(shù)
np.np.sort()
對(duì)數(shù)組排序
優(yōu)點(diǎn):numpy的基本對(duì)象是ndarray,最大的優(yōu)勢(shì)在于用它進(jìn)行多維數(shù)組的計(jì)算,不用寫(xiě)多重for循環(huán),直接可以進(jìn)行矢量化的運(yùn)算封裝了vectorize函數(shù),可以把處理標(biāo)量的函數(shù)矢量化,極大地提高了計(jì)算速度缺點(diǎn):ndarray中的數(shù)據(jù)類(lèi)型必須相同,于是有了pandas可以處理不同數(shù)據(jù)類(lèi)型的數(shù)據(jù)集4.2. PandasPandas: 通常用來(lái)處理結(jié)構(gòu)化的數(shù)據(jù)優(yōu)點(diǎn):數(shù)據(jù)結(jié)構(gòu)Series,理解為一個(gè)一維的數(shù)組,只是index名稱可以自己改動(dòng)。類(lèi)似于定長(zhǎng)的有序字典,有index和value數(shù)據(jù)結(jié)構(gòu)DataFrame,理解為一個(gè)二維數(shù)組,索引有兩個(gè)維度,可更改。一行一樣本,一列一特征。每一行都可以看作一個(gè)樣本,每一列都可以看作一個(gè)Series封裝的to_datetime函數(shù)轉(zhuǎn)換日期數(shù)據(jù)類(lèi)型,支持大多數(shù)的日期格式,而且轉(zhuǎn)換后的datetime類(lèi)型數(shù)據(jù)支持日期運(yùn)算4.3. MatplotlibMatplotlib: 用來(lái)繪制出直觀的圖表Figure:是指整個(gè)圖形,也就是一張畫(huà)布,包括了所有的元素,如標(biāo)題,軸線等;Axes:繪制 2D 圖像的實(shí)際區(qū)域,也稱為軸域區(qū),或者繪圖區(qū);Axis:是指圖形的水平軸和垂直軸,包括軸的長(zhǎng)度、軸的標(biāo)簽和軸的刻度等;
xlabel、ylabel: 設(shè)置橫軸、縱軸標(biāo)簽及大小
xticks、yticks: 設(shè)置坐標(biāo)軸刻度的字體大小
plt.legend():添加圖例
plt.scatter():函數(shù)用于生成一個(gè)scatter散點(diǎn)圖
plt.plot(x, y, format_string, **kwargs) :繪制函數(shù)曲線(繪制坐標(biāo)圖)
以上就是關(guān)于如何學(xué)習(xí)pos機(jī),機(jī)器學(xué)習(xí)的知識(shí),后面我們會(huì)繼續(xù)為大家整理關(guān)于如何學(xué)習(xí)pos機(jī)的知識(shí),希望能夠幫助到大家!