AI models rank their own safety in OpenAI’s new alignment research

<img width="578" height="330" src="https://venturebeat.com/wp-content/uploads/2024/05/DALL%C2%B7E-2024-05-20-15.29.43-Create-a-conceptual-image-representing-Gen-AI-safety-problems-force-enterprises-to-upgrade-AI-audit-measures.-Visualize-a-scene-with-a-large-digita.webp?w=578" class="attachment-single-feed size-single-feed wp-post-image" alt="" decoding="async" loading="lazy" srcset="https://venturebeat.com/wp-content/uploads/2024/05/DALL·E-2024-05-20-15.29.43-Create-a-conceptual-image-representing-Gen-AI-safety-problems-force-enterprises-to-upgrade-AI-audit-measures.-Visualize-a-scene-with-a-large-digita.webp 1792w, https://venturebeat.com/wp-content/uploads/2024/05/DALL·E-2024-05-20-15.29.43-Create-a-conceptual-image-representing-Gen-AI-safety-problems-force-enterprises-to-upgrade-AI-audit-measures.-Visualize-a-scene-with-a-large-digita.webp?resize=300,171 300w, https://venturebeat.com/wp-content/uploads/2024/05/DALL·E-2024-05-20-15.29.43-Create-a-conceptual-image-representing-Gen-AI-safety-problems-force-enterprises-to-upgrade-AI-audit-measures.-Visualize-a-scene-with-a-large-digita.webp?resize=768,439 768w, https://venturebeat.com/wp-content/uploads/2024/05/DALL·E-2024-05-20-15.29.43-Create-a-conceptual-image-representing-Gen-AI-safety-problems-force-enterprises-to-upgrade-AI-audit-measures.-Visualize-a-scene-with-a-large-digita.webp?resize=800,457 800w, https://venturebeat.com/wp-content/uploads/2024/05/DALL·E-2024-05-20-15.29.43-Create-a-conceptual-image-representing-Gen-AI-safety-problems-force-enterprises-to-upgrade-AI-audit-measures.-Visualize-a-scene-with-a-large-digita.webp?resize=1536,878 1536w, https://venturebeat.com/wp-content/uploads/2024/05/DALL·E-2024-05-20-15.29.43-Create-a-conceptual-image-representing-Gen-AI-safety-problems-force-enterprises-to-upgrade-AI-audit-measures.-Visualize-a-scene-with-a-large-digita.webp?resize=400,229 400w, https://venturebeat.com/wp-content/uploads/2024/05/DALL·E-2024-05-20-15.29.43-Create-a-conceptual-image-representing-Gen-AI-safety-problems-force-enterprises-to-upgrade-AI-audit-measures.-Visualize-a-scene-with-a-large-digita.webp?resize=750,429 750w, https://venturebeat.com/wp-content/uploads/2024/05/DALL·E-2024-05-20-15.29.43-Create-a-conceptual-image-representing-Gen-AI-safety-problems-force-enterprises-to-upgrade-AI-audit-measures.-Visualize-a-scene-with-a-large-digita.webp?resize=578,330 578w, https://venturebeat.com/wp-content/uploads/2024/05/DALL·E-2024-05-20-15.29.43-Create-a-conceptual-image-representing-Gen-AI-safety-problems-force-enterprises-to-upgrade-AI-audit-measures.-Visualize-a-scene-with-a-large-digita.webp?resize=930,531 930w" sizes="(max-width: 578px) 100vw, 578px">Rules-based Rewards, a method from OpenAI that automates safety scoring, lets developers create clear-cut safety instructions for AI model fine-tuning. Read More

High School and College

Middle School

AI models rank their own safety in OpenAI’s new alignment research