數(shù)據(jù)的清理,并不是完全刪除與假設(shè)無關(guān)的原始data,。在進(jìn)行清理中,,如果認(rèn)為某個set的數(shù)據(jù)有誤,,或者無關(guān),可以建立另一個文件夾,,將其放入其中,,避免數(shù)據(jù)的誤判導(dǎo)致數(shù)據(jù)無法恢復(fù)。數(shù)據(jù)清理是一件難度較高的工作,,因?yàn)橐坏?shù)據(jù)收集完成,,在從中甄別invalid的數(shù)據(jù)是困難的。一般來說,,數(shù)據(jù)清理是建立在查找該特定數(shù)據(jù)是否與其他數(shù)據(jù)保持完全或者大體一致的基礎(chǔ)之上的,。判定的標(biāo)準(zhǔn)是,數(shù)據(jù)是否完整,,格式是否正確,,是否具有相關(guān)性。
具體操作方法:
第一步:整理dataset,。將你打算展開清理的數(shù)據(jù)整體按照一定的標(biāo)準(zhǔn)或者規(guī)格有序進(jìn)行整理,。比如,可以將results作為一個column,,將不同的結(jié)果對應(yīng)放入對應(yīng)的區(qū)域,。這種方法可以有效提高你的清理數(shù)據(jù)的速度。
第二步:自行肉眼查看是否有數(shù)據(jù)不一致的地方,??梢圆榭矗總€column是否對應(yīng)到了特定的不相互包容的數(shù)據(jù),。如果是,則可以通過將其相加,,查看是否有遺漏數(shù)據(jù),。如果否,則查看是否遺漏的column,。如果數(shù)據(jù)是從其他地方手動錄入,,則需要檢查,是否在錄入中有明顯錯誤,。如果大部分的數(shù)據(jù)的區(qū)間均保持了大體一致或者類似,,但某個數(shù)據(jù)出現(xiàn)了極高或者極地點(diǎn),則需要檢查該insistent數(shù)據(jù)是否valid,。
第三步,,采用統(tǒng)計(jì)學(xué)https://www.lxws.net/statistics-daixie.html方法或者圖表深入清理數(shù)據(jù)。通過直觀的可視化的表現(xiàn)方式,,能夠讓你在一堆數(shù)據(jù)中直接看到那個與眾不同的一個,。通過 boxplots或者scatterplots,,能夠一眼看出數(shù)據(jù)的分布,以及是否存在某個特別高或特別地的data,。通過table,,能夠看出數(shù)據(jù)的分布,從而能夠幫助你決定采用何種統(tǒng)計(jì)學(xué)方法進(jìn)行研究,。
通過上述的數(shù)據(jù)清理,,便能夠大致對數(shù)據(jù)集進(jìn)行診斷。常見的需要刪除或者進(jìn)一步確認(rèn)的數(shù)據(jù)有:重復(fù)的data,。重復(fù)的數(shù)據(jù)沒有價值,,直接刪除就好。如果將重復(fù)數(shù)據(jù)kept 在數(shù)據(jù)集中,,將容易導(dǎo)致result的偏差,。某些因素的重要性相比于peer 研究成果會顯得比重不恰當(dāng)?shù)母摺?/div>
invalid data。通過數(shù)據(jù)清理,,發(fā)現(xiàn)的那些明顯不一致,invalid的數(shù)據(jù),。未采集到的數(shù)據(jù)。missing 數(shù)據(jù)可能是因?yàn)樗鸭瘯r的遺漏,,也可能因?yàn)樵谠O(shè)計(jì)環(huán)節(jié)的失誤,。應(yīng)對措施:如果不影響整體結(jié)果,可以放任不管,;如果對整體形成較大影響,,則需要補(bǔ)充。 outliners,。這是數(shù)據(jù)中出現(xiàn)的extreme ones,。如果outliners是真實(shí)的,則將成為重點(diǎn)論述的對象,。如果outliners是錯誤測量或者計(jì)算的結(jié)果,,則需要修改。