วิธีการเปลี่ยนชนิดของข้อมูลและชื่อคอลัมน์โดยใช้ AzureML
ในกระบวนการเตรียมข้อมูล (Preprocess) นั้นปัญหาที่เรามักพบและต้องทำการแก้ไขในกระบวนการการเตรียมข้อมูลนี้คือชนิดของข้อมูลในแต่ละคอลัมน์ไม่ตรงกับที่เราต้องการเช่น เราต้องการข้อมูลแบบ category แต่ข้อมูลของเราดันเป็น numeric หรือการที่เรานำเข้าข้อมูลมา หรือมีการเปลี่ยนแปลข้อมูลในกระบวนการก่อนหน้าทำให้เราต้องแก้ไขชื่อคอลัมน์เหล่านั้นซึ่งสิ่งเหล่านี้สามารถทำได้โดยใช้ module ที่ชื่อว่า Edit Metadata ซึ่งมีขั้นตอนใน AzureML ดังนี้
1. ลากข้อมูลที่เราต้องการเปลี่ยนชนิดของข้อมูลหรือเปลี่ยนชื่อคอลัมน์มาไว้บน Workspace โดยนำข้อมูลที่เรานำเข้ามาจาก Saved Dataset เลือก My Datasets จากนั้นลากชุดข้อมูลที่เราต้องการมาไว้บน Workspace และหากเราต้องการนำเข้าข้อมูลในรูปแบบอื่น เช่น นำเข้าข้อมูลจากเว็บ เราก็เลือก module นั้นมาวางได้เลย
2. จากนั้นเราจะดูรายละเอียดของชนิดของข้อมูลโดยการคลิกขวาที่วงกลมเล็ก ๆ ใต้ชุดข้อมูลที่เรานำมาวาง แล้วเลือก Visualize เพื่อดูว่ามีคอลัมน์ไหนที่ชนิดของข้อมูลไม่ตรงหรือมีคอลัมน์ที่ต้องการเปลี่ยนชื่อหรือไม่ เช่นในตัวอย่างเราต้องการเปลี่ยนคอลัมน์ Income จาก string เป็น category เพื่อทำการ classification ต่อดังรูป
3. เมื่อเราพบว่ามีคอลัมน์ที่มีชนิดของข้อมูลไม่ตรงเราจะทำการเปลี่ยนชนิดของข้อมูลโดยค้นหา Module ที่มีชื่อว่า Edit Metadata แล้วลากมาวางบน Workspace จากนั้นลากเส้นเชื่อมจากชุดข้อมูลของเรามาเชื่อมกับ Module นี้
4. เลือกคอลัมน์ที่เราต้องการจะเปลี่ยนชนิดของข้อมูลโดยกด Launch column selector จากนั้นกดเลือกคอลัมน์ที่เราต้องการมาไว้ทาง Selected Columns แล้วคลิกเครื่อง
5. หลังจากนั้นเราจะเลือกชนิดของข้อมูลที่เราต้องการจะเปลี่ยนจาก parameter โดยเลือกจาก Data Type หรือหากเราต้องการจะเปลี่ยนเป็น category เราสามารถเลือกจากตัวเลือก Categorical ได้เลย หรือหาเราต้องการเปลี่ยน Fields ของข้อมูลเราสามารถทำการเปลี่ยนจาก parameter ที่ชื่อว่า Fields ได้เช่นเดียวกัน ส่วน parameter ตัวสุดท้ายเราจะใช้สำหรับการเปลี่ยนชื่อคอลัมน์นั้นเองค่ะ โดยเราสามารถปรับ parameter ได้ตามที่เราต้องการ และตามความเหมาะสมของข้อมูลของเราได้เลยค่ะ
6. เมื่อปรับ parameter เรียนร้อยแล้วเรากด RUN เพื่อเปลี่ยนชนิดของข้อมูลได้เลย จะเห็นได้ว่าจากตัวอย่างเราเปลี่ยนชนิดของข้อมูลจาก string มาเป็น category ได้ดังรูป
จากขั้นตอนขั้นต้นเราจะเห็นว่าปัญหาการที่ชนิดของข้อมูลไม่ตรงกับชนิดที่เราต้องการหรือแม้แต่การที่เราต้องการเปลี่ยนชื่อคอลัมน์เพื่อนำไปวิเคราะห์ต่อในกระบวนการถัดไปเราสามารถทำได้อย่างง่ายดายเพียงแค่ใช้ module ที่ชื่อว่า Edit Metadata เราก็จะได้ผลลัพธ์ตามที่เราต้องการค่ะ