Llm Safety Moderation: Research Area — Prolific Citations Library

Discover 1 peer-reviewed study in Llm Safety Moderation (2024). Explore research findings powered by Prolific's diverse participant panel.

This page lists 1 peer-reviewed paper in the research area of Llm Safety Moderation in the Prolific Citations Library, a curated collection of research powered by high-quality human data from Prolific.

Papers (1 of 1)

SafetyAnalyst: Interpretable, transparent, and steerable LLM safety moderation

Authors: Jing-Jing Li♡♠ Valentina Pyatkin♠ Max Kleiman-Weiner♣ Liwei Jiang♣ Nouha Dziri♠ &Anne G. E. Collins♡ Jana Schaich Borg♢ Maarten Sap♠◆ Yejin Choi♣ Sydney Levine♠

Year: 2024

Published in: ArXiv

Institution: Allen Institute for AI, Duke University, University of California Berkeley, University of Washington

Research Area: LLM Safety Moderation, Interpretable AI (XAI), LLM Alignment, Steerable AI

Discipline: Artificial Intelligence