การอ้างสิทธิ์ด้าน AI ของ DeepSeek สร้างความสั่นสะเทือนไปทั่วโลก แต่ไม่ใช่ทุกคนที่เชื่อเช่นนั้น
CNBC USA Tech : Ryan Browne @Ryan_Browne_
Dylan Butts @in/dylan-b-7a451a107
จุดสำคัญ
DeepSeek อ้างว่า R1 มีประสิทธิภาพเหนือกว่าโมเดล o1 ล่าสุดของ OpenAI แม้ว่าจะมีราคาเพียงเศษเสี้ยวหนึ่งของราคาที่ห้องปฏิบัติการ AI ของสหรัฐฯ เรียกเก็บสำหรับโมเดลภาษาขนาดใหญ่ก็ตาม
ข้อกล่าวอ้างดังกล่าวได้จุดประกายความกังวลเกี่ยวกับจำนวนเงินมหาศาลที่ยักษ์ใหญ่ด้านเทคโนโลยีใช้จ่ายไปกับ AI แต่ผู้เชี่ยวชาญหลายคนก็ยังคงตั้งคำถาม
อย่างไรก็ตาม การตรวจสอบอย่างละเอียดรอบๆ DeepSeek ดูเหมือนว่าจะออกมาไม่ดี แต่กลุ่มนักวิทยาศาสตร์ด้าน AI ต่างก็เห็นพ้องต้องกันว่านี่เป็นก้าวที่เป็นบวกสำหรับอุตสาหกรรม
Dado Ruvic | Reuters
บริษัทปัญญาประดิษฐ์ DeepSeek ของจีนสร้างความปั่นป่วนให้กับตลาดในสัปดาห์นี้ ด้วยการอ้างว่าโมเดล AI ใหม่ของตนมีประสิทธิภาพเหนือกว่า OpenAI และมีต้นทุนในการสร้างเพียงเศษเสี้ยวเดียวเท่านั้น
ข้ออ้างดังกล่าว-โดยเฉพาะอย่างยิ่งว่าโมเดลภาษาขนาดใหญ่ของ DeepSeek มีค่าใช้จ่ายในการฝึกอบรมเพียง 5.6 ล้านดอลลาร์สหรัฐฯ-ได้จุดประกายความกังวลเกี่ยวกับเงินจำนวนมหาศาลที่ยักษ์ใหญ่ด้านเทคโนโลยีกำลังใช้จ่ายอยู่ในปัจจุบันสำหรับโครงสร้างพื้นฐานการประมวลผลที่จำเป็นสำหรับการฝึกอบรมและรันเวิร์กโหลด AI ขั้นสูง
นักลงทุนกังวลถึงผลกระทบอันเลวร้ายของ DeepSeek ส่งผลให้มูลค่าตลาดของ Nvidia ลดลงเกือบ 600,000 ล้านดอลลาร์เมื่อวันจันทร์ ซึ่งถือเป็นการลดลงในวันเดียวที่มากที่สุดสำหรับบริษัทใดๆ ในประวัติศาสตร์สหรัฐฯ
แต่ไม่ใช่ทุกคนที่เชื่อในคำกล่าวอ้างของ DeepSeek
CNBC ขอความเห็นจากผู้เชี่ยวชาญในอุตสาหกรรมเกี่ยวกับ DeepSeek และเปรียบเทียบกับ OpenAI ผู้สร้าง Chatbot ที่โด่งดังอย่าง ChatGPT ซึ่งเป็นตัวจุดประกายการปฏิวัติ AI
DeepSeek คืออะไร?
เมื่อสัปดาห์ที่แล้ว DeepSeek ได้เปิดตัว R1 ซึ่งเป็นโมเดลการใช้เหตุผลรูปแบบใหม่ที่แข่งขันกับ o1 ของ OpenAI โมเดลการใช้เหตุผลคือโมเดลภาษาขนาดใหญ่ที่แบ่งคำกระตุ้นออกเป็นส่วนย่อยๆ และพิจารณาแนวทางต่างๆ ก่อนสร้างการตอบสนอง โมเดลนี้ได้รับการออกแบบมาเพื่อประมวลผลปัญหาที่ซับซ้อนในลักษณะเดียวกับมนุษย์
DeepSeek ก่อตั้งขึ้นในปี 2023 โดย Liang Wenfeng ผู้ก่อตั้งร่วมของกองทุนป้องกันความเสี่ยงเชิงปริมาณที่เน้น AI อย่าง High-Flyer เพื่อมุ่งเน้นไปที่โมเดลภาษาขนาดใหญ่และการเข้าถึงปัญญาประดิษฐ์ทั่วไป หรือ AGI
แนวคิด AGI หมายความถึงปัญญาประดิษฐ์ (AI) ที่มีประสิทธิภาพเท่าเทียมหรือเหนือกว่าสติปัญญาของมนุษย์ในการทำงานที่หลากหลาย
เทคโนโลยีเบื้องหลัง R1 ส่วนใหญ่ไม่ได้มีอะไรใหม่ อย่างไรก็ตาม สิ่งที่น่าสังเกตก็คือ DeepSeek เป็นรายแรกที่นำเทคโนโลยีดังกล่าวไปใช้งานในโมเดล AI ประสิทธิภาพสูง โดยบริษัทระบุว่าสามารถลดการใช้พลังงานได้อย่างมาก
“สิ่งที่ได้เรียนรู้คือมีความเป็นไปได้มากมายในการพัฒนาอุตสาหกรรมนี้ แนวทางด้านเทคโนโลยีที่ใช้ชิประดับไฮเอนด์และเงินทุนจำนวนมากถือเป็นแนวทางด้านเทคโนโลยีอย่างหนึ่ง” เซียะเหมิง ลู่ ผู้อำนวยการฝ่ายเทคโนโลยีภูมิสารสนเทศของ Eurasia Group กล่าว
“แต่ DeepSeek พิสูจน์ให้เห็นว่าเรายังอยู่ในขั้นเริ่มต้นของการพัฒนา AI และเส้นทางที่ OpenAI วางไว้อาจไม่ใช่เส้นทางเดียวที่จะไปสู่ AI ที่มีความสามารถสูง”
มันแตกต่างจาก OpenAI อย่างไร?
DeepSeek มีระบบหลักสองระบบที่ได้รับความสนใจจากชุมชน AI ได้แก่ V3 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่แยกผลิตภัณฑ์ออกจากกัน และ R1 ซึ่งเป็นโมเดลการใช้เหตุผล
ทั้งสองโมเดลเป็นโอเพ่นซอร์ส ซึ่งหมายความว่าโค้ดพื้นฐานนั้นฟรีและเปิดให้นักพัฒนาคนอื่นๆ นำไปปรับแต่งและเผยแพร่ต่อได้
โมเดลของ DeepSeek มีขนาดเล็กกว่าโมเดลภาษาขนาดใหญ่อื่นๆ มาก V3 มีพารามิเตอร์หรือตัวแปรรวม 671 พันล้านตัวที่โมเดลเรียนรู้ระหว่างการฝึก และแม้ว่า OpenAI จะไม่ได้เปิดเผยพารามิเตอร์ แต่ผู้เชี่ยวชาญคาดว่าโมเดลล่าสุดจะมีอย่างน้อยหนึ่งล้านล้านตัว
ในด้านประสิทธิภาพ DeepSeek ระบุว่าโมเดล R1 มีประสิทธิภาพเทียบเท่ากับ o1 ของ OpenAI ในงานการใช้เหตุผล โดยอ้างถึงเกณฑ์มาตรฐานต่างๆ เช่น AIME 2024, Codeforces, GPQA Diamond, MATH-500, MMLU และ SWE-bench Verified
ในรายงานทางเทคนิค บริษัทระบุว่าโมเดล V3 ของตนมีต้นทุนการฝึกอบรมเพียง 5.6 ล้านดอลลาร์ ซึ่งน้อยกว่าต้นทุนหลายพันล้านดอลลาร์ที่ห้องปฏิบัติการ AI ที่มีชื่อเสียงของตะวันตก เช่น OpenAI และ Anthropic ใช้จ่ายไปในการฝึกอบรมและรันโมเดล AI พื้นฐาน อย่างไรก็ตาม ยังไม่ชัดเจนว่า DeepSeek มีต้นทุนในการดำเนินการเท่าใด
หากต้นทุนการฝึกอบรมมีความแม่นยำ แสดงว่าโมเดลดังกล่าวได้รับการพัฒนาด้วยต้นทุนเพียงเศษเสี้ยวของโมเดลคู่แข่งโดย OpenAI, Anthropic, Google และอื่นๆอีกมากมาย
Daniel Newman ซีอีโอของบริษัท The Futurum Group ซึ่งเป็นบริษัทวิเคราะห์ข้อมูลทางเทคโนโลยี กล่าวว่าการพัฒนาดังกล่าวชี้ให้เห็นถึง 'ความก้าวหน้าครั้งใหญ่'แม้ว่า เขาจะแสดงความสงสัยเกี่ยวกับตัวเลขที่ชัดเจนอยู่บ้างก็ตาม
“ผมเชื่อว่า ความก้าวหน้าของ DeepSeek บ่งชี้ถึงการเปลี่ยนแปลงที่สำคัญสำหรับกฎการปรับขนาดและมีความจำเป็นอย่างแท้จริง” เขากล่าว “ถึงจะพูดเช่นนั้นแล้ว ยังคงมีคำถามและความไม่แน่นอนมากมายเกี่ยวกับภาพรวมทั้งหมดของต้นทุนที่เกี่ยวข้องกับการพัฒนา DeepSeek”
ในขณะเดียวกัน Paul Triolio รองประธานอาวุโสด้านจีนและผู้นำนโยบายเทคโนโลยีของบริษัทที่ปรึกษา DGA Group กล่าวว่า เป็นเรื่องยากที่จะเปรียบเทียบโดยตรงระหว่างต้นทุนโมเดลของ DeepSeek กับต้นทุนของผู้พัฒนารายใหญ่ของสหรัฐฯ
“ตัวเลข 5.6 ล้านสำหรับ DeepSeek V3 นั้นเป็นเพียงการฝึกซ้อมครั้งเดียว และบริษัทเน้นย้ำว่าตัวเลขนี้ไม่ได้แสดงถึงต้นทุนโดยรวมของการวิจัยและพัฒนาเพื่อพัฒนาโมเดลดังกล่าว” เขากล่าว “ต้นทุนโดยรวมในขณะนั้นน่าจะสูงกว่านี้มาก แต่ยังคงต่ำกว่าจำนวนเงินที่บริษัท AI รายใหญ่ของสหรัฐฯ ใช้จ่าย”
DeepSeek ไม่พร้อมให้ความเห็นทันทีเมื่อ CNBC ติดต่อไป
เปรียบเทียบราคาระหว่าง DeepSeek และ OpenAI
DeepSeek และ OpenAI เปิดเผยราคาสำหรับการคำนวณของโมเดลบนเว็บไซต์ของพวกเขา
DeepSeek ระบุว่า R1 มีราคา 55 เซ็นต์ต่อ 1 ล้านโทเค็นของอินพุต'โทเค็น' หมายถึงแต่ละหน่วยข้อความที่ได้รับการประมวลผลโดยโมเดล – และ 2.19 ดอลลาร์ต่อ 1 ล้านโทเค็นของเอาท์พุต
เมื่อเปรียบเทียบกันแล้ว หน้าราคาของ o1 ของ OpenAI แสดงให้เห็นว่าบริษัทคิดค่าธรรมเนียม 15 ดอลลาร์ต่อโทเค็นอินพุต 1 ล้านโทเค็น และ 60 ดอลลาร์ต่อโทเค็นเอาต์พุต 1 ล้านโทเค็น สำหรับ GPT-4o mini ซึ่งเป็นโมเดลภาษาที่มีขนาดเล็กกว่าและมีต้นทุนต่ำของ OpenAI บริษัทคิดค่าธรรมเนียม 15 เซ็นต์ต่อโทเค็นอินพุต 1 ล้านโทเค็น
ความสงสัยเกี่ยวกับชิป
การเปิดเผย R1 ของ DeepSeek ได้นำไปสู่การถกเถียงอย่างดุเดือดต่อสาธารณชนเกี่ยวกับความจริงของคำกล่าวอ้างของบริษัท ซึ่งส่วนหนึ่งก็เนื่องมาจากโมเดลของบริษัทถูกสร้างขึ้นแม้จะมีการควบคุมการส่งออกจากสหรัฐฯ ที่จำกัดการใช้ชิป AI ขั้นสูงไปยังจีนก็ตาม
DeepSeek อ้างว่าตนได้ประสบความสำเร็จในการใช้คลิป Nvidia ที่มีคุณสมบัติครบถ้วน ซึ่งรวมถึงชิป H800 และ A100 ซึ่งมีความก้าวหน้าน้อยกว่าชิป H100 ของผู้ผลิตชิปรายนี้ซึ่งไม่สามารถส่งออกไปยังประเทศจีนได้
อย่างไรก็ตาม ในความเห็นต่อ CNBC เมื่อสัปดาห์ที่แล้ว Alexandr Wang ซีอีโอของ Scale AI กล่าวว่าเขาเชื่อว่า DeepSeek ใช้ชิปที่ถูกแบน ซึ่ง DeepSeek ปฏิเสธข้อกล่าวหาดังกล่าว
ตั้งแต่นั้นมา Nvidia ออกมาเปิดเผยว่า GPU ที่ DeepSeek ใช้สามารถรองรับการส่งออกได้
จริงหรือไม่จริง?
ผู้เชี่ยวชาญในอุตสาหกรรมดูเหมือนจะเห็นด้วยโดยกว้างๆ ว่าสิ่งที่ DeepSeek ประสบความสำเร็จนั้นน่าประทับใจ แม้ว่าบางคนจะตั้งคำถามต่อคำกล่าวอ้างของบริษัทจีนบางประการก็ตาม
“DeepSeek นั้นน่าประทับใจจริงๆ แต่ระดับของความตื่นตระหนกนั้นเป็นข้อกล่าวหาสำหรับหลายๆ คน” Palmer Luckey ผู้ประกอบการชาวสหรัฐฯ ผู้ก่อตั้ง Oculus และ Anduril เขียนบน X
“ตัวเลข 5 ล้านเหรียญสหรัฐนั้นเป็นเรื่องหลอกลวง กองทุนป้องกันความเสี่ยงของจีนผลักดันให้ชะลอการลงทุนในบริษัทสตาร์ทอัพด้าน AI ของอเมริกา ให้บริการการขายชอร์ตกับบริษัทยักษ์ใหญ่ของอเมริกา เช่น Nvidia และปกปิดการหลบเลี่ยงการคว่ำบาตร”
Seena Rejal ประธานเจ้าหน้าที่ฝ่ายพาณิชย์ของ NetMind ซึ่งเป็นบริษัทสตาร์ทอัพที่มีสำนักงานใหญ่ในลอนดอนที่ให้บริการเข้าถึงโมเดล AI ของ DeepSeek ผ่านเครือข่าย GPU แบบกระจาย กล่าวว่าเขาไม่เห็นเหตุผลที่จะไม่เชื่อ DeepSeek
“แม้ว่า จะคลาดเคลื่อนไปบ้าง แต่ก็ยังคงมีประสิทธิภาพดีเหมือนเดิม” เรจัลให้สัมภาษณ์ทางโทรศัพท์กับ CNBC เมื่อต้นสัปดาห์นี้ 'ตรรกะของสิ่งที่พวกเขาอธิบายนั้นสมเหตุสมผลมาก'
อย่างไรก็ตาม บางคนอ้างว่าเทคโนโลยีของ DeepSeek อาจไม่ได้ถูกสร้างขึ้นมาจากศูนย์
“DeepSeek ทำผิดพลาดแบบเดียวกับที่ O1 ทำ ซึ่งเป็นการบ่งชี้ที่ชัดเจนว่าเทคโนโลยีดังกล่าวถูกลอกเลียนแบบ” นักลงทุนมหาเศรษฐี Vinod Khosla กล่าวในรายการ X โดยไม่ได้ให้รายละเอียดเพิ่มเติม
OpenAI เองก็ได้อ้างถึงข้อเรียกร้องดังกล่าว โดยให้สัมภาษณ์กับ CNBC เมื่อวันพุธว่าบริษัทกำลังตรวจสอบรายงานที่ระบุว่า DeepSeek อาจใช้ข้อมูลเอาท์พุตจากโมเดลของตนอย่าง 'ไม่เหมาะสม' เพื่อพัฒนาโมเดล AI ซึ่งเป็นวิธีการที่เรียกว่า 'การกลั่น'
“เราใช้มาตรการตอบโต้เชิงรุกและเข้มข้นเพื่อปกป้องเทคโนโลยีของเรา และจะทำงานอย่างใกล้ชิดกับรัฐบาลสหรัฐฯ ต่อไปเพื่อปกป้องโมเดลที่มีความสามารถสูงสุดที่กำลังสร้างขึ้นที่นี่” โฆษกของ OpenAI กล่าวกับ CNBC
การแปลง AI ให้เป็นสินค้าโภคภัณฑ์
อย่างไรก็ตาม การตรวจสอบอย่างละเอียดรอบๆ DeepSeek ดูเหมือนว่าจะออกมาไม่ดี แต่กลุ่มนักวิทยาศาสตร์ด้าน AI ต่างก็เห็นพ้องต้องกันว่า นี่เป็นก้าวที่เป็นบวกสำหรับอุตสาหกรรม
Yann LeCun หัวหน้านักวิทยาศาสตร์ AI ของMeta
กล่าวว่า ความสำเร็จของ DeepSeek ถือเป็นชัยชนะของโมเดล AI โอเพนซอร์ส ไม่ใช่เป็นชัยชนะของจีนเหนือสหรัฐฯ เสมอไป Meta อยู่เบื้องหลังโมเดล AI โอเพนซอร์สยอดนิยมที่เรียกว่า Llama
“สำหรับ คนที่เห็นประสิทธิภาพของ DeepSeek แล้วคิดว่า ‘จีนกำลังแซงหน้าสหรัฐฯ ในด้าน AI’ คุณอ่านผิดแล้ว ความหมายที่ถูกต้องคือ ‘โมเดลโอเพนซอร์สกำลังแซงหน้าโมเดลที่เป็นกรรมสิทธิ์’เขากล่าวในโพสต์บน LinkedIn
“DeepSeek ได้รับประโยชน์จากการวิจัยแบบเปิดและโอเพ่นซอร์ส (เช่น PyTorch และ Llama จาก Meta) พวกเขาคิดค้นแนวคิดใหม่ๆ และสร้างแนวคิดเหล่านี้ขึ้นมาจากผลงานของผู้อื่น เนื่องจากผลงานของพวกเขาได้รับการเผยแพร่และเป็นโอเพ่นซอร์ส ทุกคนจึงสามารถได้รับประโยชน์จากสิ่งนี้ นั่นคือพลังของการวิจัยแบบเปิดและโอเพ่นซอร์ส”
ชม: เหตุใด DeepSeek จึงทำให้ AI ของอเมริกาตกอยู่ในอันตราย
- Katrina Bishop และ Hayden Field จาก CNBC มีส่วนร่วมในการรายงานนี้