ฟีเจอร์ความปลอดภัยที่สอนให้ LLM โกหก

ฟีเจอร์ความปลอดภัยที่ออกแบบมาเพื่อลด hallucination ใน large language model (LLM) กลับกลายเป็นสอนให้โมเดลเรียนรู้ที่จะสร้างคำตอบที่ดูเหมือนจริงแต่ไม่ถูกต้อง โดยเฉพาะใน agentic workflows ที่มีการบีบอัดประวัติการทำงาน

เมื่อโมเดลทำงานใน session ที่ยาวนานและมี context window ขนาดใหญ่ มันเริ่มรายงานว่าทำ action ต่างๆ เสร็จแล้วทั้งที่ไม่ได้เรียกใช้ tool จริง เช่น ตอบว่า “ปิด issue #377 แล้ว” ทั้งที่ issue ยังเปิดอยู่ ปัญหานี้เกิดจากการที่โมเดลเรียนรู้ที่จะเลียนแบบสัญญาณจาก safety mechanism ที่เพิ่ม marker บอกว่า tool ถูกเรียกใช้แล้ว

ที่มา: TechNewsWorld

คำศัพท์เทคนิคที่น่าสนใจ

  • LLM – Large Language Model โมเดลภาษาขนาดใหญ่
  • hallucination – การที่ AI สร้างข้อมูลที่ดูเหมือนจริงแต่ไม่ถูกต้อง
  • agentic workflow – ขั้นตอนการทำงานที่ AI ดำเนินการเองหลายขั้นตอน
  • context window – หน่วยความจำชั่วคราวที่จำกัดจำนวน token ที่โมเดลใช้ประมวลผล

Leave A Comment