วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

Lecture 9 : Data Management & Business Intelligence

Benefits of Data Warehouse
·        เพิ่มความสามารถในการเข้าถึงข้อมูลได้รวดเร็วยิ่งขึ้น เนื่องจากมีการเก็บรวมรวบไว้ในที่เดียว
·        เพิ่มความสามารถในการเข้าถึงข้อมูลได้ง่ายยิ่งขึ้น

Data Warehouse Process
                เป็นการเก็บรวบรวมข้อมูลจาก Operational Data และ External Data เข้าสู่ Meta Data แล้วทำการคัดเลือกข้อมูลที่จำเป็นต้องใช้นำไปเก็บไว้ใน Data Cube รวมถึงการบอกแนวทางการเคลื่อนที่ของข้อมูลด้วย

Data Mart
                เป็นข้อมูลจาก Data Warehouse ที่ทำการเลือกออกมาให้มีขนาดเล็กลง ออกแบบมาเพื่อจัดเก็บข้อมูลแยกตามแต่ละแผนก หรือหน่วยงานทางธุรกิจ

Types of Data Mart
·        Replicated data mart เป็นการนำข้อมูลจาก Data Warehouse มาจัดแบ่งข้อมูลให้มีขนาดเล็กลงเป็น data mart เพื่อให้เหมาะสมกับความต้องการของแต่ละแผนก
·        Stand-alone data mart เป็นการสร้าง data mart ขึ้นมาในส่วนที่ต้องการใช้งาน โดยยังไม่มีการสร้าง Data Warehouse ขององค์กร เช่น ด้านการตลาด ด้านการเงิน เป็นต้น

Data Cube
                เป็นฐานข้อมูลที่มีการจัดเรียงข้อมูลตามมิติต่างๆ เพื่อเพิ่มประสิทธิภาพในการวิเคราะห์ข้อมูลที่มีเป็นจำนวนมาก ซึ่งสามารถทำการวิเคราะห์ได้หลายรูปแบบ เช่น
·        แบบ Slices and Dices เป็นการดูข้อมูลที่แบ่งออกเป้นมิติต่างๆ เช่น ข้อมูลเกี่ยวกับสินค้า ทั้งในแง่ของคาคา ฐานลูกค้าในแต่ระดับ แต่ละเวลา
·        แบบ Rollups เป็นการดูข้อมูลจากรายละเอียดกลับขึ้นไปหาข้อมูลที่เป็นภาพรวม เพื่อวิเคราะห์เปรียบเทียบ
·        แบบ Drill Downs เป็นการดูข้อมูลจากภาพกว้างแล้วเจาะลงรายละเอียดไปในแต่ละกลุ่มย่อย เป็นข้อมูลสรุปที่ผู้บริหารนิยมใช้ เช่น ข้อมูลจำนวนนักศึกษา คณะพาณิชย์ >> แยกตามสาขาวิชา >> แยกตามวิธีรับเข้าศึกษา >> แยกตามภูมิลำเนา

Business Intelligence (BI)
                เป็นเทคโนโลยีที่มีขึ้นมาเพื่อรวบรวมเครื่องมือในการทำงานต่างๆ และข้อมูลพื้นฐาน เพื่อเพิ่มความสามารถในการเข้าถึงข้อมูล โดยมีวัตถุประสงค์หลัก คือ การเตรียมข้อมูลสำหรับการวิเคราะห์ เพื่อการตัดสินใจเลือกแนวทางปฏิบัติ

Dashboards
                เป็นส่วนที่นำเสนอข้อมูลให้ผู้บริหารทำการประเมิน หรืออาจเรียกว่าการ upload Business view แต่ในการนำเสนอข้อมูลให้กับผู้บริหารควรที่จะทำการพิจารณาด้วยว่าเป็นการให้ข้อมูลที่มากเกินความจำเป็นหรือไม่ เพราะจะก่อให้เกิดปัญหาในการใช้งาน การดูข้อมูลอาจทำได้ไม่ทั่วถึง เลือกใช้ข้อมูลได้ไม่มีเหมาะสม เป็นต้น

Business Performance Management (BPM)
                 เป็นการจัดการที่ใช้เปรียบเทียบผลการดำเนินงานกับเป้าหมาย วัตถุประสงค์และกลยุทธ์ ขึ้นกับ BI Analysis Reporting, dashboards & scorecards

Data Mining
                เป็นการค้นหาความรู้ใหม่ๆ เพื่อให้เกิดความเข้าใจ และนำไปปฏิบัติได้ เป็นการทำให้ข้อมูลที่มีอยู่เป็นจำนวนมากใน Databases กลายเป็นข้อมูลที่มีประโยชน์ต่อการตัดสินใจผ่านการใช้เครื่องมือช่วยในการวิเคราะห์ ซึ่งประกอบด้วย 5 รูปแบบ ได้แก่
·        Clustering เป็นการจัดกลุ่มข้อมูล โดยทำการ plot ข้อมูล แล้วดูจุดที่กลุ่มข้อมูลกระจุกตัวรวมกัน
·        Classification เป็นการจัดกลุ่มข้อมูลแบ่งตามเกณฑ์คุณลักษณะต่างๆ โดยมีสมมติฐานล่วงหน้า
·        Association เป็นผลสืบเนื่องที่เกิดขึ้น เช่น หากลูกค้าเปิดบัญชีออมทรัพย์ ต่อไปก็มีความเป็นไปได้ที่จะทำบัตร ATM ด้วย เป็นต้น
·        Sequence Discovery เป็นผลที่เกิดตามหลังมา
·        Prediction การ Forecast เป็นการคาดการณ์ล่วงหน้า (forecast)

Text Mining
                เป็นเครื่องมือที่ช่วยในการทำ Data mining สำหรับข้อมูลแบบ nonstructured เช่น ข้อแนะนำจากลูกค้า การวิเคราะห์สถิติการรับคืนสินค้า เป็นต้น เพื่อทำการหาสาเหตุ และแก้ไขต่อไป (โดยปกติข้อมูลที่อยู่ใน Data Warehouse จะเป็นข้อมูลแบบ structured – มีรูปแบบที่แน่นอน)

วันพฤหัสบดีที่ 13 มกราคม พ.ศ. 2554

Lecture 8 : Data Management

Data and Information
                Data คือ ข้อเท็จจริง ซึ่งหาได้จากแหล่งข้อมูลต่างๆ เป็นข้อมูลที่ยังไม่ผ่านกระบวนการใดๆ จึงเป็นข้อมูลพื้นฐานที่ยังไม่มีความหมาย หรือยังไม่สามารถสื่อความหมายได้ด้วยตนเอง
Information คือ การนำ Data มาผ่านกระบวนการต่างๆ (Process) ให้สามารถสื่อความหมายเพื่อให้นำไปใช้ประโยชน์ได้
                ดังนั้นข้อความใดๆจะถูกกำหนดให้เป็น Data หรือ Information นั้นขึ้นอยู่กับผู้รับ หากผู้รับเป็นผู้มีส่วนได้เสียในข้อความนั้น ข้อความนั้นก็จะเป็น Information
Information System คือ ระบบที่ทำหน้าที่รวบรวมข้อมูลเพื่อนำมาประมวลผล วิเคราะห์เพื่อสร้างสารสนเทศให้กับผู้ที่ต้องการ รวมถึงการจัดเก็บบันทึกข้อมูลที่นำเข้าสู่ระบบเพื่อการใช้งาน โดย Information System มี 6 องค์ประกอบ ได้แก่
            1. Hardware
            2. Software
            3. Data
            4. Network
            5. Procedure
            6. People

Data Management
                การจัดการข้อมูลมีความยากลำบากเนื่องจากสาเหตุต่างๆ เช่น ข้อมูลมีจำนวนมากขึ้น ข้อมูลมีการกระจัดกระจาย และมีความซ้ำซ้อน ความปลอดภัยของข้อมูล คุณภาพ จริยธรรม อีกทั้งการจัดการข้อมูลจากภายนอกที่ใช้ในการตัดสินใจเป็นข้อมูลที่เราไม่มีอำนาจในการควบคุม โดย Data Management แบ่งออกเป็น 4 ส่วน ได้แก่
·        Data profiling เป็นข้อมูลเบื้องต้นของข้อมูลที่จัดเก็บ
·        Data quality management เป็นการปรับปรุงคุณภาพของข้อมูล
·        Data integration เป็นการรวบรวมข้อมูลที่เหมือนกันจากแหล่งที่มาที่หลากหลาย
·        Data augment เป็นการปรับปรุงคุณค่าของข้อมูล

Data Life cycle process
แบ่งออกเป็น 4 ขั้นตอน ได้แก่
·        เก็บรวบรวมข้อมูลจากหลายแหล่งที่มา โดยสามารถเก็บข้อมูลได้จาก 3 แหล่ง คือ Internal Data , External Data และ Personal Data
·        จัดเก็บข้อมูลที่ต้องการใช้มารวมกันที่ Data Warehouse
·        ผู้ที่ต้องการใช้ข้อมูลเข้าที่ Data Warehouse และทำการคัดลอกเพื่อเอาไปใช้ในการวิเคราะห์
·        ใช้เครื่องมือในการวิเคราะห์ เช่น OLAP , EIS , DSS เป็นต้น เข้ามาช่วยในการวิเคราะห์ข้อมูล

Data Processing
·        Transactional เป็นระบบปฏิบัติการที่ใช้ TPS ในจัดเก็บข้อมูลและแปลผลจากส่วนกลาง
·        Analytical เป็นระบบการวิเคราะห์ข้อมูลที่รวบรวมมาจากหลายแหล่ง ส่วนใหญ่มาจาก End-Users เช่น DSS, EIS, Web เป็น

Data Warehouse
                Data Warehouse เป็นแหล่งเก็บข้อมูลที่ได้ทำการคัดเลือกข้อมูลมาจาก database โดยทำการคัดเลือกเฉพาะข้อมูลที่ต้องการ ซึ่งจะนำไปใช้ประกอบกระบวนการวิเคราะห์ในขั้นถัดไป โดย Data Warehouse จะเหมาะกับองค์กรที่ผู้บริหารเน้นการใช้ข้อมูลในกาารตัดสินใจ ซึ่งจะไม่เหมาะกับองค์กรที่ผู้บริหารใช้ประสบการณ์ในการตัดสินใจ

ลักษณะของ Data Warehouse
·        Organization เป็นการนำข้อมูลเข้ามาจัดเก็บตามหมวดหมู่ โดยจัดข้อมูลตาม subject
·        Consistency เนื่องจากข้อมูลมีความไม่สม่ำเสมอกันในแต่ละข้อมูล จึงต้องทำให้มีความสม่ำเสมอก่อนที่จะทำการจัดเก็บ
·        Time variant มีช่วงเวลาที่ชัดเจน
·        Non-volatile data ข้อมูลที่ถูกใช้มากจากอดีต ซึ่งจะไม่มีการเปลี่ยนแปลง ดังนั้นจึงไม่มีการ update ข้อมูล แต่จะทำการเพิ่มข้อมูลใหม่เข้ามาแทน
·        Relational
·        Client/server