我们正在寻找具备语言和文化认知的中文专业人士,以支持大语言模型 (LLM) 的多语言快速响应数据集的评估和增强。该职位涉及评分细则设计、翻译和模型输出评估、快速响应创建以及红队测试,重点是识别和揭示 LLM 行为中的文化差异和偏见。
主要职责:
评分标准定义和即时评估
使用特定地区/语言的示例更新评分标准定义,以确保其文化和语言相关性。确定是否需要针对特定语言或地区背景定制额外的评分标准。审查从英语翻译成目标语言(中文)的提示,并修改翻译中不自然或不准确的地方。撰写经过深思熟虑的提示,以测试 LLM 模型的文化意识。使用基于评分标准的标准化评估模板对提示-反应对进行评分,并提供详细的论证以支持结论。记录有问题的输出,并对其中违反评分标准或文化不敏感之处进行清晰的解释。
–
必备资格:
目标语言(中文)母语熟练,并熟悉相应地区的文化规范。优先考虑具有 LLM评估、内容审核或语言质量保证经验的申请者。注重细节,能够识别语言使用、语气和文化参照方面的细微问题。熟练使用电子表格和评估模板。持有相关专业的硕士学位。
优先资格:
具备快速工程或 LLM 测试经验。熟悉 Gemini、ChatGPT 或类似的 LLM 平台。能够清晰地阐述评分标准或快速修改背后的逻辑。
所需参与时间:每周 25 至 30 小时。