แอปเปิลใช้ข้อมูลฝึกฝน AI จากแหล่งที่มีข้อถกเถียง

แอปเปิลได้ประกาศอย่างภาคภูมิใจว่าบริษัทจ่ายเงินเพื่อซื้อข้อมูลที่ใช้ในการฝึกฝนปัญญาประดิษฐ์ของตน แต่ล่าสุดมีรายงานว่าบริษัทหนึ่งที่แอปเปิลใช้บริการนั้นถูกกล่าวหาว่าละเมิดลิขสิทธิ์วิดีโอจาก YouTube

ปัญญาประดิษฐ์แบบสร้างสรรค์ทั้งหมดทำงานโดยการรวบรวมชุดข้อมูลขนาดใหญ่ที่เรียกว่า Large Language Models (LLMs) ซึ่งที่มาของข้อมูลเหล่านี้มักเป็นประเด็นถกเถียงอยู่เสมอ แอปเปิลได้ย้ำหลายครั้งว่าแหล่งข้อมูลของบริษัทนั้นได้มาอย่างมีจริยธรรม โดยจ่ายเงินหลายล้านดอลลาร์ให้กับสำนักพิมพ์และซื้อลิขสิทธิ์ภาพจากบริษัทคลังภาพ

อย่างไรก็ตาม ตามรายงานของ Wired พบว่าบริษัทหนึ่งที่แอปเปิลใช้ข้อมูลนั้นดูเหมือนจะไม่ระมัดระวังเรื่องแหล่งที่มาของข้อมูลมากนัก EleutherAI ได้สร้างชุดข้อมูลที่เรียกว่า “the Pile” ซึ่งแอปเปิลรายงานว่าได้ใช้ในการฝึกฝน LLM ของตน

ส่วนหนึ่งของ the Pile คือ “YouTube Subtitles” ซึ่งประกอบด้วยคำบรรยายที่ดาวน์โหลดมาจากวิดีโอ YouTube โดยไม่ได้รับอนุญาต การกระทำนี้ยังเป็นการละเมิดข้อกำหนดและเงื่อนไขของ YouTube อีกด้วย แม้ว่าจะเป็นประเด็นที่อาจมีความคลุมเครือมากกว่าที่ควรจะเป็น

นอกจากแอปเปิลแล้ว ยังมีบริษัทอื่นๆ ที่ใช้ the Pile เช่น Anthropic โฆษกของบริษัทอ้างว่ามีความแตกต่างระหว่างการใช้คำบรรยาย YouTube กับการใช้วิดีโอโดยตรง

Jennifer Martinez กล่าวว่า “the Pile รวมคำบรรยาย YouTube เพียงส่วนเล็กๆ เท่านั้น ข้อกำหนดของ YouTube ครอบคลุมการใช้งานแพลตฟอร์มโดยตรง ซึ่งแตกต่างจากการใช้ชุดข้อมูล the Pile”

เธอกล่าวต่อว่า “ในประเด็นเกี่ยวกับการละเมิดข้อกำหนดการให้บริการของ YouTube ที่อาจเกิดขึ้น เราต้องขอให้คุณสอบถามไปยังผู้สร้าง the Pile โดยตรง”

Salesforce ยืนยันว่าได้ใช้ the Pile ในการสร้างโมเดล AI สำหรับ “วัตถุประสงค์ทางวิชาการและการวิจัย” รองประธานฝ่ายวิจัย AI ของ Salesforce เน้นย้ำว่าชุดข้อมูล the Pile นั้น “เปิดให้สาธารณะเข้าถึงได้”

มีรายงานว่านักพัฒนาที่ Salesforce พบว่าชุดข้อมูล the Pile มีคำหยาบคาย รวมถึง “อคติต่อเพศและกลุ่มศาสนาบางกลุ่ม”

ขณะนี้มีเพียง Salesforce และ Anthropic เท่านั้นที่แสดงความคิดเห็นเกี่ยวกับการใช้ the Pile ส่วนบริษัทอื่นๆ ที่ทราบว่าใช้ชุดข้อมูลนี้ เช่น แอปเปิล Nvidia Bloomberg และ Databricks ยังไม่ได้ตอบสนองต่อเรื่องนี้

องค์กร Proof News อ้างว่าพบคำบรรยายจากวิดีโอ YouTube จำนวน 173,536 รายการจากกว่า 48,000 ช่องถูกใช้ใน the Pile รวมถึงวิดีโอ 7 รายการจาก Marques Brownlee (MKBHD) และ 337 รายการจาก PewDiePie

Proof News ได้สร้างเครื่องมือออนไลน์เพื่อช่วยให้ผู้สร้างคอนเทนต์บน YouTube ตรวจสอบว่าผลงานของพวกเขาถูกนำไปใช้หรือไม่

อย่างไรก็ตาม ไม่ใช่เพียงคำบรรยาย YouTube เท่านั้นที่ถูกรวบรวมโดยไม่ได้รับอนุญาต มีการอ้างว่า Wikipedia และเอกสารจากรัฐสภายุโรปก็ถูกนำมาใช้เช่นกัน

นักวิชาการและนักคณิตศาสตร์เคยใช้อีเมลของพนักงาน Enron หลายพันฉบับสำหรับการวิเคราะห์ทางสถิติมาก่อน ตอนนี้มีการอ้างว่า the Pile ได้ใช้ข้อความจากอีเมลเหล่านั้นในการฝึกฝนด้วย

ก่อนหน้านี้มีการโต้แย้งว่าปัญญาประดิษฐ์ของแอปเปิลอาจเป็นเพียงรายเดียวที่ได้รับการฝึกฝนอย่างถูกกฎหมายและมีจริยธรรม แต่ถึงแม้ว่าแอปเปิลจะมีเจตนาที่ดี แต่ดูเหมือนว่า Apple Intelligence ก็ยังถูกฝึกฝนด้วยคำบรรยาย YouTube ที่ไม่มีสิทธิ์ใช้

สรุป

กรณีนี้แสดงให้เห็นถึงความท้าทายในการพัฒนาปัญญาประดิษฐ์อย่างมีจริยธรรมและถูกกฎหมาย แม้แต่บริษัทยักษ์ใหญ่อย่างแอปเปิลที่อ้างว่าใส่ใจเรื่องนี้ก็ยังพบว่ามีการใช้ข้อมูลที่อาจละเมิดลิขสิทธิ์ สะท้อนให้เห็นถึงความจำเป็นในการสร้างมาตรฐานและแนวปฏิบัติที่ชัดเจนสำหรับการรวบรวมและใช้ข้อมูลในการพัฒนา AI เพื่อปกป้องสิทธิของเจ้าของเนื้อหาและสร้างความเชื่อมั่นในเทคโนโลยี AI ในอนาคต

Source