AI & MACHINE LEARNING

BehaviorBench: เกณฑ์มาตรฐานใหม่สำหรับประเมินการตัดสินใจของผู้ใช้จริงผ่านข้อมูลบนเชนและตลาดพยากรณ์

arXiv03 Jun 2026

1 min read

Key Takeaways

BehaviorBench ให้ข้อมูลพฤติกรรมจริงสำหรับการประเมิน AI ช่วยให้นักวิจัยสามารถพัฒนาโมเดลที่เข้าใจและทำนายการตัดสินใจของมนุษย์ได้แม่นยำขึ้น

ทำไมเรื่องนี้ถึงสำคัญ

ช่วยแก้ปัญหาความคลาดเคลื่อนระหว่างโมเดลที่ฝึกจากข้อมูลจำลองกับพฤติกรรมจริงของมนุษย์ โดยเฉพาะในด้านการเงินและตลาดพยากรณ์ที่มีความเสี่ยงสูง

ในการพัฒนาระบบสนับสนุนการตัดสินใจ ข้อมูลการทดสอบส่วนใหญ่มักมาจากการจำลอง ซึ่งอาจแตกต่างจากพฤติกรรมมนุษย์จริง นักวิจัยจึงได้เปิดตัว BehaviorBench ซึ่งเป็นเกณฑ์มาตรฐานที่สร้างขึ้นจากประวัติการตัดสินใจจริงในระดับกระเป๋าเงิน (Wallet) จากตลาดพยากรณ์สาธารณะและบันทึกบนบล็อกเชน

ชุดข้อมูลนี้แบ่งออกเป็นสองระดับงานหลัก ได้แก่ 'Belief prediction' เพื่อทำนายจุดยืนและความมั่นใจของผู้ใช้ และ 'Trade prediction' เพื่อทำนายทิศทางและจำนวนเงินในการทำธุรกรรม โดยรวบรวมข้อมูลจาก 2,000 กระเป๋าเงิน ครอบคลุมกว่า 1.4 ล้านรายการ ผลการทดสอบเบื้องต้นพบว่าการใช้ข้อมูลประวัติย้อนหลังช่วยปรับปรุงการทำนายความเชื่อได้ดีกว่าการทำนายการซื้อขาย และแสดงให้เห็นถึงความท้าทายในการใช้หลักฐานพฤติกรรมจริงเพื่อสร้างระบบที่ปรับตามตัวบุคคล

สรุปประเด็นหลัก

รวบรวมข้อมูลจากตลาดพยากรณ์และบันทึก On-chain ของจริงกว่า 1.4 ล้านรายการ

แบ่งการทดสอบเป็นระดับความเชื่อ (Belief) และระดับการซื้อขาย (Trade)

เน้นการประเมิน Personalized AI โดยใช้ข้อมูลหลักฐานจริงแทนการจำลองผู้ใช้

นวัตกรรมและเทคโนโลยี

research

Wallet-level Decision Histories

การจำลองประวัติการตัดสินใจในระดับรายบุคคลเพื่อใช้ในการประเมิน AI แบบเฉพาะเจาะจง

tools

Dual-layer Task Structure

โครงสร้างการทดสอบที่ครอบคลุมทั้งการทำนายทัศนคติ (Belief) และพฤติกรรมการลงมือทำ (Trade)

Developer Impact

นักพัฒนา AI ในกลุ่ม Fintech และ Predictive Analytics สามารถใช้ชุดข้อมูลนี้เพื่อวัดประสิทธิภาพของอัลกอริทึมในการคาดการณ์พฤติกรรมผู้บริโภคในโลกจริง

Keywords

#behaviorbench #user decision modeling #on-chain data #prediction markets #personalization

Original Source

อ่านข้อมูลเพิ่มเติมจากแหล่งข่าวหลัก

arXiv