SCB Data Lake พัฒนาการจากจุดเริ่มต้นจนถึงปัจจุบัน

ไทยพาณิชย์ ธนาคารพาณิชย์แห่งแรกของไทยที่เป็นหนึ่งในเสาหลักทางการเงินให้กับคนไทยมากว่า 115 ปี ผ่านร้อนผ่านหนาวฝ่าวิกฤติครั้งแล้วครั้งเล่า มาด้วยวิสัยทัศน์ที่กว้างไกล และหนึ่งในการแสดงให้เห็นถึงการเป็นองค์กรที่เป็นผู้นำที่ก้าวล้ำหน้าองค์กรอื่นๆ คือการเห็นถึงความสำคัญของ “ข้อมูล” ว่าคือขุมทรัพย์ในการดำเนินธุรกิจ และได้การวางรากฐานด้านดาต้าและเทคโนโลยีเป็นองค์กรแรกๆ ของไทยตั้งแต่คำว่า “ดาต้า” ยังเป็นไม่คำที่คุ้นหูเหมือนทุกวันนี้ บทความนี้เราพาไปย้อนรอยการสร้าง Data Lake ของธนาคารที่เก่าแก่ที่สุดในประเทศไทยและพัฒนาการจนถึงวันนี้ ที่พูดได้อย่างเต็มปากว่าเป็นหนึ่งในบริษัทต้นๆ ของไทยที่มีเทคโนโลยีด้าน Data & AI ที่ล้ำหน้ามากที่สุดแห่งหนึ่งในประเทศไทย 

data1

ยุคบุกเบิก จาก Enterprise Data Warehouse ก้าวเข้าสู่ Data Lake On-Premise

จากจุดเริ่มต้นเล็กๆ ในปี 2015 ในช่วงบุกเบิกมีทีม Enterprise Data Warehouse (EDW) ใช้ระบบ Data Warehouse ซึ่งเป็น concept ที่นำข้อมูลทุกอย่างมารวมกัน ในช่วงนั้นก็เริ่มมีความพยายามจะสร้าง Data lake ซึ่งเป็นช่วงที่ Big Data กำลังเข้ามา เริ่มมีคำว่า Big data, Data Unstructured  คำว่า “Data Lake” เป็นศัพท์ใหม่ แต่คำว่า Data เกิดมานานแล้ว Data lake คือการเอาข้อมูลมารวมศูนย์กลางและเพื่อซัพพอร์ตการทำ Analytics, Operation และอื่นๆ เป็นเหมือนพื้นที่ที่เก็บข้อมูลขนาดใหญ่ เป็นข้อมูลแบบ Unstructured, Semi Structured สมัยก่อนการทำ Data จะเป็น Structured หมด เป็น Database เป็น Table แต่พอเป็นเกิด Big Data ทำให้สามารถเก็บ Text file หรือ ไฟล์รูปภาพได้ ภาพของ Data Lake จะเชื่อมต่อกับทีม Data Warehouse โดยทีม Data Warehouse จะทำ Data Relational Model ซึ่งนี่ก็เป็น concept ปกติที่ทำก่อนที่ Data Lake จะเกิด ในช่วงบุเบิก SCB ยังมีทีมงานภายในไม่มากโดยยังเป็นหน่วยงานหนึ่งในฝ่าย IT   ต่อมาในช่วงปี 2016 ได้ริเริ่มทำ Data lake, Big Data ซึ่งเป็นช่วงที่เริ่มมี platform โดยมีการจ้าง vendor เจ้าแรกซึ่งเป็นบริษัทชั้นนำ คือ Accenture เข้ามาทำงานร่วมกันเพื่อสร้าง Data Platform การทำงานช่วงแรกเป็น Project Turnkey โดย Accenture เป็นทีมที่ทำงานหลัก ส่วนทีมภายในของ SCB จะทำการรีวิว โปรเจคนี้ใช้เวลาทำเป็นปี เนื่องจากตอนนั้นยังเป็น Data Lake On-Premise ใช้ server ติดตั้งที่ Data Center โดยใช้ Platform Big Data-Cloudera ที่เป็นที่นิยมในช่วงที่ Big Data เพิ่งเกิด ซึ่ง SCB เองก็ทำงานบน Cloudera เช่นกัน แต่ที่ SCB การ Design จะแตกต่างจากที่อื่นไม่ได้ทำ Data Lake Concept แบบทั่วไป คือไม่พึ่งพา Data Warehouse เลย  เพราะปกติจะส่งไฟล์ให้ EDW แล้วนำเข้า Database ซึ่งใช้ Teradata แล้วนำข้อมูลมาเข้ากระบวนการออกมาเป็น Model แต่ SCB ไม่ได้ทำแบบนั้น เอาไฟล์ข้อมูล ใส่ตรงเข้า Big Data เลย แล้ว Transform ออกมาเป็น Model เองอยู่บน Big Data ไม่มีการ Co Assist  กับ EDW


วัตถุประสงค์ของ Data lake คือ ใช้ในการทำ Analytics ส่วน EDW เดิม ช่วยในเรื่อง Operation, Downstream, และ Application  มีการแบ่งหน้าที่ว่า EDW ทำอะไร Data Lake ทำอะไร ผู้ใช้งานหลักๆ ของ Data Lake คือ ทีม Analytics ที่กระจายอยู่ในแต่ละหน่วยงาน แต่ละ BU สมัยก่อนทีมต่างๆ ยังใช้ EDW เป็น Source เพราะตอนนั้นมี EDW ปั่นข้อมูลตรงกลางที่เดียว แต่ EDW ก็มีข้อจำกัดเวลาที่รันข้อมูลเยอะๆ จะแชร์ Resource กัน ทำให้ช้าเพราะทุกอย่างรวมเป็นศูนย์เดียวและการทำ Scale ยาก  Data Lake ก็เหมือนเป็นสิ่งที่เอามาแก้ปัญหาเรื่อง  Analytics ที่วิเคราะห์ที่ต้องดู Historical นานๆ  ซึ่ง EDW มีข้อจำกัดคือเก็บข้อมูลได้ไม่นาน ซึ่งเป็นอีกเหตุผลที่ Data Lake เกิดเพื่อให้เก็บ History ได้เยอะๆ และทีม Analysis สามารถวิเคระห์ข้อมูลย้อนหลังได้เยอะๆ และรันได้รวดเร็ว  ต่อมาผู้ใช้งานก็เริ่มทยอยมาใช้ Data lake มากขึ้น ทีมแรกๆ ที่ย้ายมาใช้ Data Lake คือทีม FIA เป็นผู้ใช้กลุ่มแรกที่เข้ามาใช้มาให้ Requirement กับทีม Data lake เพราะเขาต้องใช้ข้อมูลไปทำ Analysis เยอะ ทีม Data Lake ได้เริ่มทำ Model ที่ใช้ช่วยงานด้าน Finance ต่อมาก็เริ่มมีผู้ใช้งานกลุ่มใหม่ๆ เพิ่มเข้ามาเรื่อยๆ  ก็เป็นจุดที่ทำให้มีพัฒนาการเพิ่มมากขึ้น


ทยานสู่ฟ้า จาก Data Lake On Premise สู่ Data Lake On-Cloud

หลังจากที่ Platform Data Lake เสร็จประมาณช่วงปี 2017  ปี  ต่อมาในปี 2018  ผู้บริหารก็มีนโยบายให้ขึ้น Cloud เป็น จากเดิมรวมยู่กับไอที พอทำ Project นี้เสร็จก็ตั้งโครงสร้างใหม่ เป็น Data Officer แยกทีม Data ออกมาต่างหาก เป็นหน่วนงานชื่อ DSS (Data Solution Support) ในโครงสร้างจะมีทีม Data Science  ทีม Data Engineer มีการแบ่งกล่องงานตามภาพของ Data Lake Platform เพื่อไปซัพพอร์ตทีม Analytics ผู้ใช้งานทีมแรกๆ เป็นทีม FIA ช่วงนั้นก็เริ่มมีการสร้างทีม Data Science เริ่มหาคนสร้างคน โดยกลุ่มนี้เป็นผู้ใช้งานที่เป็น Analytics & AI จริงๆ โดยใช้เพียง Data lake ไม่ใช่ EDW เลย พอขึ้น Cloud ก็เริ่มมีทีมเข้ามาใช้งานเพิ่มขึ้นเรื่อยๆ ทีม Analytics ทีมเดิมที่เคยใช้ EDW ก็ทยอยเปลี่ยนมาใช้ Cloud แต่ก็ยังไม่สามารถ Cut off ได้หมด เนื่องจากยังมีบางทีมเช่น ทีม Risk ยังใช้ EDW เป็นหลักอยู่  ภาพจากปี 2018 เข้าสู่ปี 2019 มีการอัพเกรด Service อัพเกรด Version เป็นสเต็บๆ ไป ข้อดีของการขึ้นไปอยู่บน Cloud สิ่งที่เห็นชัดเจนคือการใช้งานการให้บริการกับผู้ใช้ Data สะดวก รวดเร็ว การดูแล Platform รวมทั้งการ Scale นั้นง่ายขึ้นจริง ตาม Concept ของ Cloud ที่ควรจะเป็น นอกจากนั้นยังไม่ต้องมี Data Center  ถ้าเปรียบเทีนบกับการทำ Scale สมัยก่อนที่เป็น On-Premise ที่ต้องใช้ Server ที่ใช้ Bigdata-Cloudera ซึ่งจริงๆ ก็เป็น Parallel Processing แต่ตอนนั้นต้องไปติดตั้งที่ Data Center ซึ่งมีกระบวนการมากมาย เช่น ผ่านกระบวนการจัดซื้อ Hardware ก่อน ต้องทำ Network ต่างๆ มี ขั้นตอนค่อนข้างเยอะ สมมติว่า Run ระบบแล้ว Performance ไม่ได้ ก็ต้องจูนนิ่ง จูนสคริปต์กันใหม่ต้องใช้เวลาแก้ปัญหา สมัยก่อนใช้ Teradata  Parallel Processing Databased Engine ซึ่งดีกว่า Oracle ธรรมดา ที่เมื่อก่อนใช้ทำ Data Warehouse ซึ่งเป็น Databased พื้นฐานซึ่งรับสเกลได้ระดับนึงแต่พอสเกล Data เยอะขึ้นเรื่อยๆ จะช้า Big Data อย่าง Teredata ก็มาขาย Solution ที่เป็น Parallel Processing ก็คือก็แบ่งโหนดแต่ต้องเป็น Hardware เฉพาะของเขาเลย ทำให้ Teredata มีราคาแพงมาก ซึ่งตอนนั้น Teradata ก็เป็นอันดับหนึ่งในตลาดของ Data Warehouse เนื่องจากเร็วมาก ถ้าเทียบกับ Relational Databased ทั่วไป Teradata เป็นอันดับหนึ่งมาเป็นสิบปี  แต่พอ Big data ซึ่งเป็น Open source เกิดขึ้นผู้ใช้งานก็ไม่ขยายการใช้ Teradata เพราะราคาแพง แต่มาขยายที่ Big Data แล้วแบ่งกลุ่มผู้ใช้งาน พวก Data Science ก็เพิ่งเกิดพร้อมๆ กับ Big data พอมาเป็น Big Data อยากจะรันข้อมูลย้อนหลังเท่าไหร่ก็ทำได้ Query data ได้เหมือนเดิมโดยที่ราคาไม่แพง เมื่อเทียบทั้งราคาและความรวดเร็ว ความสะดวกทำให้การอยู่บน Cloud การทำงานมีประสิทธิภาพมากขึ้นในราคาที่ถูกลง  ทุกวันนี้เรามีเป็นหมื่น Jobs และเก็บข้อมูลมหาศาลตั้งแต่ปี 2016 ข้อดีของการขึ้นไปอยู่บน cloud คือถูก และถ้าข้อมูลเกินหนึ่งปีสามารถแบ่งเป็น Archive โดยที่เราแค่ทำ Configuration property เช่นถ้า file เกิน 1 ปีให้มา Auto move  ทำให้เก็บข้อมูลได้ยาวๆ

เสริมแกร่ง เพิ่มศักยภาพ จาก Data Lake On-Cloud สู่ Data Lakehouse On-Cloud และ Real Time Signals 

SCB นำระบบ Data ขึ้น Cloud นำหน้าไปแล้วในเทรนด์ที่ควรจะเป็น พูดได้ว่าเป็นองค์กรแถวหน้าของไทยในเทคโนโลยีด้าน Data & AI  SCB นำ Data ขึ้น Cloud ทั้งหมด  Transform ทั้ง Engine, ETL(Extract, Transform, Load),Logic ต่างๆ ที่ Cloud ทั้งหมด ไม่ได้พึ่ง Data Warehouse เดิมเลย ก้าวขึ้นไปอีกระดับกับการเป็น Data Lakehouse On-Cloud โหลด Data แล้วทำ Data Governance โดย Data Science ใช้ Azure Databricks ซึ่งสามารถวิเคราะห์ข้อมูลได้อย่างรวดเร็วมาก ทำโมเดล Machine Learning  สร้างทีม Engineer เป็นของตัวเองไม่ใช้ระบบเดิมที่พึ่ง Outsource เน้นการสร้างทีมงานภายใน ทุกวันนี้ถ้าดูจำนวน Data Engineer จะมีอยู่ประมาณ 40 คน ทีมใหญ่ขึ้น มีการสร้างทีม PM, FA  วางเป็นสัดเป็นส่วน ชัดเจนว่าใครรับผิดชอบเรื่องไหน เช่น FA (Function Analyst) ก็จะมีหน้าที่เหมือน BA (Business Analyst) คือเป็นคนที่ไปคุยตรงกับ Business ว่าเขาอยากได้อะไรในเชิงธุรกิจ มี Project Manager ดูแลบริหารโครงการ เสร็จแล้วก็ส่งมาให้ BRS (Business Requirements Specifications) แล้วส่งต่อให้ทีม Data Engineer ซึ่งในทีม Data Engineer  จะมีส่วนงาน SA (System Analyst) ว่าจาก Business requirement ที่ FA ส่งมา จะแปลงให้เป็นกึ่ง Business กึ่ง Technical อย่างไร หน้าที่ของ SA ฝั่ง Data Engineer ก็มีหน้าที่ไป Mapping ว่า Source ระบบจะอยู่ตรงไหน แล้วก็ Implement  หรือในกรณีที่ Business ต้องการได้บางอย่างเพิ่มเช่น Deposit amount ก็จะทำ mapping ส่งให้ Data Engineer Development นำไป develop ไปจนขึ้น Production แล้วส่งต่อมามาที่ทีม QA  ทำหน้าที่ทดสอบ ตาม Cycle  ถ้าทดสอบผ่าน แล้วก็มาขั้นการ Deploy โดยทีม Operation มารับงานต่อ Operation ก็มีหน้าที่ Monitor ทีม Develop ก็ไปทำ Project อื่นต่อได้เลย เพราะทีม Develop ไม่ต้อง Monitor ทำให้งานแต่ละ Role มีความชัดเจน งานโปรเจคมีความไหลลื่น ฟังก์ชั่นการทำงานแยกชัด ทำให้ทุกคน Focusใน Function & Role ของตัวเอง ทุกวันนี้ก็สเกลขึ้นไปเรื่อยๆ เช่น จาก Cloud Version เก่า HDInsight 3.6  ก็อัพเกรดเป็น Version ใหม่เป็น HDI 4.0 เมื่อปี 2021 นอกจากนั้นยังมี Feature ใหม่ๆ ทำ BO (Business Objective) ทำ Self- Service ให้ผู้ใช้งานสามารถ Drag and Drop Report เองได้


ในปี 2021 มีอีกสิ่งที่เริ่มทำคือ Real Time Signals  ก่อนที่ project นี้จะขึ้นได้ต้องไป Defense กับทีม IT คุยกับผู้ใช้งานต่างๆ รวมทั้ง Data Science เริ่มแรกก็ทำ Prototype ให้ผู้บริหารเห็นก่อน แล้วลองทริกเกอร์ ทำให้ Dashboard บน PowerBI มีการแสดงกราฟเคลื่อนไหว แต่ Use case จริง ส่งเข้า LINE Connect เลย เช่น พอลูกค้าโอนเงินปุ๊บ เข้า Model ของ Data science แล้วส่งเข้า LINE Connect นอกจากนั้นสามารถไปดึงข้อมูลเช่น  Transaction ของ SCB Easy ได้อีกด้วย  เช่น ลูกค้าถอนเงินปุ๊บจะไปเข้า Real Time Platform ของเขา แล้วทีม Data ไปดำเนินการในการนำข้อมูล Real time เข้า Data Lakehouse ไปทำ Case ส่ง Use case ให้กับ Data Science ส่งเหมือน Campaign  เช่น ลูกค้าโอนเงินเสร็จ ถ้าเขาเข้า Criteria ที่จะเสนอผลิตภัณฑ์สินเชื่อ พอคลิกปุ๊บก็ส่ง Offer ผลิตภัณฑ์สินเชื่อให้ลูกค้าได้เลย ซึ่ง SCB ก็ยังไม่หยุดเพียงแค่นี้ มีแผนการที่จะพัฒนาระบบให้มีประสิทธิภาพยิ่งขึ้น


เดินหน้าสู่การเป็นผู้นำระดับภูมิภาคก่อตั้ง DataX ล้ำหน้าด้วย Monoline Platform

ก้าวขึ้นอีกระดับกับการแยกเป็นบริษัทผู้ให้บริการด้าน Data & AI ด้วยเทคโนโลยีที่ทันสมัยที่สุด  เป็นภาพ Centralized Data Platform ที่ชัดเจนมากขึ้น   ดังนั้นการจัดตั้งบริษัท SCB DataX จะเปลี่ยนภาพทีม Data ไปจากเดิมอย่างมาก เพราะ SCBX มีการตั้งบริษัทลูกกระจายออกไปหลายบริษัท โดยมี DataX เป็นศูนย์กลางข้อมูลทั้งหมดและให้บริการด้าน Data & AI กับบริษัทลูกอื่นๆ โดยจะมี Platform ใหม่ที่เรียกว่า Monoline Platform ที่ DataX ต้อง Implement ให้กับบริษัทลูกอื่นๆของ SCBX ที่ถือว่าเป็นลูกค้า DataX ทำ Data Platform ให้ซัพพอร์ตบริษัทภายในกรุ๊ปทำ Data Analytics ให้บริษัทนั้นๆ  ขณะเดียวกันก็ต้องทำเรื่อง Data Sharing ขึ้นไปบน Cloud ซึ่งตอนนี้เรานำ Data ขึ้นไปตรงกลาง แต่ต่อไปต้องมี Monoline เล็กๆ ต่อท่อตรงไปที่บริษัทลูกค้าซึ่งอาจมากถึง 20 บริษัท ณ วันนี้ได้เริ่มทำทีละบริษัท  และจะขยายขึ้นเรื่อยๆ ดังนั้นการดูแล Platform การบริหารจัดการ การทำ Sharing จะมีความยากมากขึ้น ซึ่งก็ถือว่าเป็นความท้าทาย ที่ DataX จะต้องมุ่งมั่นทำให้สำเร็จ เพราะว่าการทำ Monoline ให้แต่ละบริษัทไม่ใช่เรื่องง่าย ทุกบริษัทเองก็มีทีมงานที่มีทักษะไม่เหมือนกัน ความชำนาญไม่เท่ากัน DataX Transform logic ต่างๆเหมือนเดิมหมด แต่ Platform จะเป็น Platform ที่แยก ดังนั้นในการทำ Sharing จะมีเรื่องการทำ Consent ที่ต้องดูแลอย่างรอบคอบ ซึ่งต่างจากสมัยก่อนที่เป็น SCB เป็นองค์กรเดียว ผู้ใช้งานก็เป็นคนภายใต้ SCB ที่เดียว การทำ Data Governance จึงง่ายกว่า การใช้ข้อมูลจะไม่ได้ซับซ้อนเท่ากับการเป็น DataX Monoline Platform มันจะมีเรื่องกฎหมาย เรื่องการขอ Consent พอบริษัทต่างๆ แยกออกไป แต่ละบริษัทก็มี Data ของเขาเองด้วย มี Source ของเค้าเองต้องทำระบบใหม่หมด คนที่ทำหน้าที่ตรงนี้ต้องทำ Mapping การทำ Monoline Platform ต้องสร้างระบบ การทำ Data Sharing ที่จะทำอย่างไรให้ Across กันได้ เป็นความท้าทายที่ทีม DataX ต้องพัฒนาระบบ Data ขึ้นไปอีกระดับ ถ้ามองในระดับประเทศยังไม่มีบริษัทไหนที่จะแตกบริษัททำ Data เฉพาะแยกออกมา ในไทยส่วนใหญ่ยังใช้ Data Warehouse ไม่เป็นแผนกหนึ่งใน IT ก็อาจเป็น Data officer หรือเป็นทีมอยู่ในฝั่ง Business สำหรับ DataX เครื่องมือ เทคโนโลยี แพลตฟอร์มต่างๆ เป็น Cutting Edge Technology เป็นเทคโนโลยีที่อยู่ในกลุ่ม Leaders ใน Quadrant ที่ Gartner ประเมินและจัดลำดับไว้ DataX จะเป็น Data LakeHouse – Data Integration โดยมีบริการด้าน Data & AI ที่ล้ำหน้าและครบวงจรเพื่อตอบโจทย์เฉพาะของแต่ธุรกิจ ยกระดับ Customer Experience ที่จะนำไปสู่การสร้างผลกำไรและความสำเร็จของกลุ่มบริษัทในเครือ SCBX


สิ่งสำคัญที่ทำให้เกิดบริษัท SCB DataX ในวันนี้ได้ เพราะผู้บริหารของ SCB ให้เล็งเห็นความสำคัญของ Data มาก ถ้าเรื่องนี้ไม่ได้รับการผลักดันจากผู้บริหารระดับบนอย่างจริงจังก็ไม่สามารถมี DataX ได้ในวันนี้ ซึ่งแสดงให้เห็นวิสัยทัศน์อันกว้างไกลของยานแม่ SCBX ที่จะนำกลุ่มบริษัทในเครือทั้งหมด เข้าสู่ Blue Ocean ที่มีโอกาสทางธุรกิจมากมายรออยู่ข้างหน้า โดยใช้ Data เป็นเข็มทิศนำทางให้กลุ่มบริษัทก้าวสู่ประตูแห่งโอกาสทางธุรกิจที่ถูกต้องแม่นยำด้วย Data และเทคโนโลยีที่ชาญฉลาด ที่จะนำกลุ่มบริษัท SCBXก้าวสู่ความสำเร็จไปด้วยกัน


ขอบคุณข้อมูลจาก SCB DataX : https://data-x.ai/