Ang
Normalization ay ginagamit upang alisin ang kalabisan na data at tinitiyak na ang mga mahusay na kalidad ng mga cluster ay nabuo na maaaring mapabuti ang kahusayan ng clustering algorithm. Kaya ito ay naging isang mahalagang hakbang bago clustering bilang Euclidean distansya ay napakasensitibo sa mga pagbabago sa mga pagkakaiba[3].
Kailangan ba nating i-normalize ang data para sa K-means clustering?
Tulad ng sa k-NN method, ang mga katangiang ginagamit para sa clustering ay dapat masukat sa mga maihahambing na unit. Sa kasong ito, ang mga unit ay hindi isang isyu dahil ang lahat ng 6 na katangian ay ipinahayag sa isang 5-point scale. Hindi kailangan ang normalization o standardization.
Paano ka maghahanda ng data bago mag-cluster?
Paghahanda ng Data
Upang magsagawa ng cluster analysis sa R, sa pangkalahatan, ang data ay dapat ihanda tulad ng sumusunod: Ang mga row ay mga obserbasyon (mga indibidwal) at ang mga column ay mga variable. Dapat alisin o tantyahin ang anumang nawawalang halaga sa data. Dapat istandardize ang data (i.e., scaled) para maihambing ang mga variable.
Dapat bang sukatin ang data para sa clustering?
Sa clustering, kinakalkula mo ang pagkakatulad sa pagitan ng dalawang halimbawa sa pamamagitan ng pagsasama-sama ng lahat ng data ng feature para sa mga halimbawang iyon sa isang numeric na halaga. Ang pagsasama-sama ng data ng tampok ay nangangailangan na ang data ay may parehong sukat.
Bakit mahalagang I-normalize ang mga feature bago ang clustering?
Ang
Standardization ay isang mahalagang hakbang ng Datapreprocessing.
Tulad ng ipinaliwanag sa papel na ito, pinapaliit ng k-means ang error function gamit ang Newton algorithm, ibig sabihin, isang gradient-based na optimization algorithm. Ang pag-normalize ng data ay nagpapabuti sa convergence ng mga naturang algorithm.