Data cleansing

สถานะล่าสุด: เผยแพร่แล้ว
คำศัพท์: Data cleansing
ศัพท์บัญญัติ:
อักษรย่อ:
ความหมาย: การทำความสะอาดข้อมูล
รายละเอียด: Data cleansing หรือ data cleaning หรือ data scrubbing หมายถึง การทำความสะอาดข้อมูล เป็นกระบวนการตรวจสอบและการแก้ไข (หรือลบ) รายการข้อมูลที่ไม่ถูกต้องออกไปจากชุดข้อมูล ตารางหรือฐานข้อมูล ซึ่งเป็นหลักสำคัญของฐานข้อมูล เพราะหมายถึงความไม่สมบูรณ์ ความไม่ถูกต้อง ความไม่สัมพันธ์กับข้อมูลอื่นๆ เป็นต้น จึงต้องมีการแทนที่ การปรับปรุง หรือการลบข้อมูลที่ไม่ถูกต้องเหล่านี้ออกไป เพื่อให้ข้อมูลมีคุณภาพ

การทำความสะอาดข้อมูล เกิดขึ้นเนื่องจาก มีความไม่สอดคล้องของข้อมูล ซึ่งอาจเกิดจากข้อผิดพลาดของการบันทึกข้อมูล การส่งข้อมูล หรือการให้ความหมายของข้อมูลที่จัดเก็บแตกต่างกัน ยิ่งต้องมีการบูรณาการกับฐานข้อมูลอื่นๆ เช่น คลังข้อมูล หรือหลายฐานข้อมูล จึงมีโอกาสสูงที่จะเกิด "ข้อมูลที่ไม่สะอาด" ขึ้น

คลังข้อมูลถูกนำข้อมูลไปใช้เพื่อการตัดสินใจ ความถูกต้องของข้อมูลจึงเป็นสิ่งสำคัญเพื่อหลีกเลี่ยงการสรุปที่ผิดพลาด ตัวอย่างเช่น ข้อมูลที่เกิดการซ้ำซ้อนหรือขาดหายไป จะส่งผลให้มีสถิติที่ไม่ถูกต้องหรือทำให้เข้าใจผิดได้ เนื่องจากข้อมูลในคลังข้อมูลมีจำนวนมากจำนวนข้อมูลที่เกิดความไม่สอดคล้องกันจึงมากตามไปด้วย การทำความสะอาดจึงเป็นปัญหาใหญ่ที่สุดของคลังข้อมูล ในกระบวนการ ETL ซึ่งหมายถึง การดึง/สกัดข้อมูล (Extraction) การส่งผ่าน/แปลงข้อมูล (Transformation) และการนำข้อมูลเข้า (Loading) ก็จะพบความผิดพลาดของข้อมูลมากขึ้น การทำความสะอาดข้อมูลจึงมีความจำเป็นมากยิ่งขึ้น

เอกสารแหล่งที่มา: ไม่ระบุ
กลุ่ม: บรรณารักษ์และสารสนเทศศาสตร์
See also: Data cleaning, data scrubbing