AI & MACHINE LEARNING

Google เปิดตัวฟีเจอร์ Computer Use ใน Gemini 3.5 Flash ให้เอเจนต์คุมหน้าจอได้โดยตรง

Google Blog24 Jun 2026

1 min read

Key Takeaways

Gemini 3
5 Flash สามารถสั่งการและควบคุมอินเทอร์เฟซของคอมพิวเตอร์ได้แล้ว ช่วยให้นักพัฒนาสร้างระบบอัตโนมัติที่ซับซ้อนได้ง่ายขึ้น

ทำไมเรื่องนี้ถึงสำคัญ

นี่คือการขยายขอบเขตของ AI จากการเป็นผู้ช่วยแชทไปสู่การเป็นผู้ดำเนินการ (Action-oriented AI) ซึ่งจะช่วยลดภาระงานซ้ำซ้อนในระดับวิศวกรรมและธุรกิจได้อย่างมหาศาล

Google DeepMind ประกาศรวมความสามารถ 'Computer Use' เข้าเป็นเครื่องมือมาตรฐานในโมเดล Gemini 3.5 Flash ซึ่งก่อนหน้านี้มีเฉพาะในโมเดลแยกต่างหาก การอัปเดตนี้ทำให้นักพัฒนาสามารถสร้างเอเจนต์ (Agents) ที่มีความสามารถในการโต้ตอบข้ามแพลตฟอร์ม ทั้งบนเบราว์เซอร์ เว็บแอป และแอปพลิเคชันบนเดสก์ท็อปหรือมือถือ

ฟีเจอร์นี้ถูกออกแบบมาเพื่อรองรับงานประเภท Automation ที่ต้องทำอย่างต่อเนื่องและมีระยะเวลานาน (Long-horizon tasks) เช่น การทดสอบซอฟต์แวร์อัตโนมัติ หรืองานในระดับองค์กรที่ต้องใช้ข้อมูลจากหลายโปรแกรม นอกจากนี้ Google ยังเพิ่มระบบความปลอดภัย เช่น การขอคำยืนยันจากผู้ใช้ก่อนทำรายการสำคัญ และระบบตรวจจับ Prompt Injection เพื่อลดความเสี่ยงจากการสั่งการที่ไม่พึงประสงค์

สรุปประเด็นหลัก

รวมฟีเจอร์ Computer Use เข้าเป็นเครื่องมือมาตรฐานใน Gemini 3.5 Flash

รองรับการใช้งานทั้งบน Browser, Mobile และ Desktop

มาพร้อมระบบความปลอดภัย enterprise-grade และการป้องกัน Prompt Injection

นวัตกรรมและเทคโนโลยี

models

Built-in Computer Use Tool

เครื่องมือที่ทำให้โมเดลสามารถวิเคราะห์หน้าจอและสั่งการ GUI ได้โดยตรง

security

Enterprise Safeguard Systems

ระบบควบคุมความปลอดภัยที่ต้องการการยืนยันจากมนุษย์และการตรวจจับการโจมตีทางคำสั่ง

Developer Impact

นักพัฒนาสามารถใช้ Gemini API เพื่อสร้าง AI Agent ที่ทำงานแทนมนุษย์ในงานซับซ้อน เช่น UI Automation, Software Testing และการจัดการ Workflow ข้ามแอปพลิเคชัน

Keywords

#gemini 3.5 flash #computer use #ai agents #automation #google deepmind

Original Source

อ่านข้อมูลเพิ่มเติมจากแหล่งข่าวหลัก

Google Blog