ETH-430: Interpretability and Algorithmic Auditing

Course Description

Technical methods for understanding AI system behavior. Feature importance: SHAP, LIME, gradient-based attribution. Mechanistic interpretability: circuits, attention head analysis, activation patching. Probing classifiers. Concept activation vectors (TCAV). Auditing methodologies: internal audits, third-party audits, regulatory audits. How to audit an LLM: behavioral testing, red-teaming, capability elicitation. Documentation standards: model cards, datasheets for datasets, transparency reports.