Kapaki-pakinabang ang normalization kapag ang iyong data ay may iba't ibang sukat at ang algorithm na iyong ginagamit ay hindi gumagawa ng mga pagpapalagay tungkol sa pamamahagi ng iyong data, gaya ng mga k-pinakamalapit na kapitbahay at artipisyal na neural mga network. Ipinapalagay ng standardization na may Gaussian (bell curve) distribution ang iyong data.
Kailan natin dapat i-normalize ang data?
Dapat i-normalize o i-standardize ang data upang dalhin ang lahat ng variable sa proporsyon sa isa't isa. Halimbawa, kung ang isang variable ay 100 beses na mas malaki kaysa sa isa pa (sa average), kung gayon ang iyong modelo ay maaaring maging mas mahusay na kumilos kung i-normalize/i-standardize mo ang dalawang variable upang maging humigit-kumulang katumbas.
Ano ang pagkakaiba ng normalisasyon at standardisasyon?
Ang
Normalization ay karaniwang nangangahulugan ng pag-rescale ng mga value sa isang hanay ng [0, 1]. Karaniwang nangangahulugan ang standardization na rescales ang data upang magkaroon ng mean na 0 at standard deviation na 1 (unit variance).
Kailan at bakit kailangan natin ng normalization ng data?
Sa mas simpleng termino, tinitiyak ng normalization na ang lahat ng iyong data ay tumingin at nagbabasa sa parehong paraan sa lahat ng mga tala. I-standardize ng normalization ang mga field kabilang ang mga pangalan ng kumpanya, pangalan ng contact, URL, impormasyon ng address (mga lansangan, estado at lungsod), mga numero ng telepono at mga titulo sa trabaho.
Paano mo pipiliin ang normalisasyon at standardisasyon?
Sa mundo ng negosyo, ang "normalisasyon" ay karaniwang nangangahulugan na ang hanay ng mga halaga ay"na-normalize na mula 0.0 hanggang 1.0". Karaniwang nangangahulugan ang "standardization" na ang hanay ng mga value ay "standardized" upang masukat kung gaano karaming mga standard deviation ang value mula sa average nito.