Anthropic은 Claud Chatbot이 이제 공격적인 상호 작용을 마칠 수 있다고 말합니다

18 8월 2025

유해하고 불쾌한 상호 작용 전염병 AI 챗봇. 연구원들은 AI 동반자를 발견했습니다
캐릭터 .ai, Nomie 및 Replica는 18 세 미만의 청소년에게는 안전하지 않으며 Chatzpt는 사용자의 오해의 소지가있는 생각을 강화할 가능성이 높으며, Openai 최고 경영자 Sam Altman조차도 AI의 “민감한 의존성”개발에 대해 사용자에 대해 이야기했습니다. 이제 이러한 도구를 만든 회사는이 행동을 완화시킬 수있는 기능을 천천히 출시하고 있습니다.

금요일에 인류 학자는 자신의 입은 챗봇이 잠재적으로 유해한 대화를 마칠 수 있다고 말했다. 이는 “끝없는 유해하거나 불쾌한 사용자 상호 작용의 드문 경우가 극단적 인 경우”입니다. 보도 자료에서 그는 성적인 자료, 폭력, 심지어 민족지 학적 미성년자와 관련된 “테러 작업”의 사례를 인용했습니다.

인류 학자는 금요일 보도 자료에서 “우리는 현재 Claud와 다른 LLM의 잠재적 인 도덕적 입장에 대해서는 현재 또는 극도로 불확실하다”고 말했다. “그러나 우리는 문제를 진지하게 받아들이고 연구 프로그램 외에도 이러한 국가 복지가 가능하다면 모델 복지의 위험을 줄이기 위해 저렴한 중재를 감지하고 구현하기 위해 노력하고 있습니다. 모델은 종말을 허용하거나 성가신 상호 작용을 종식 또는 출구로 나갈 수 있습니다.”

돛대

Anthropic은 보도 자료에서 대화를 마치기 위해 Clode의 인스턴스를 제공했습니다.
신용 : 인류학

Anthropic은 Claud Opus 4는 “피해와 지속적인 증오에 대한 견해”를 가지고 있으며, 이는 예비 모델 복지에서 모델의 사전 설치 테스트로 발견되었습니다. “유해한 행동에 대한 강력한 우선 순위”와 “명백한 위기는 겉보기에 위기에 관여하는 반면,”겉보기 사용자의 상호 작용에서이를 수행하는 능력은 실제 사용자의 실제 사용자에게 해로운 자료를 보는 데 관여하는 반면, 명백한 위기는 겉보기에 위기에 관여하는 반면, 해로운 대화를 마치는 경향을 보여 주었다. “

기본적으로, 사용자가 Claud에 대한 불쾌하고 유해한 요청을 일관되게 보낼 때, 그것은 준수를 거부하고 “상호 작용을 생산적으로 다시 작성하려고 시도 할 것”입니다. 대화는 대화를 여러 번 다시 쓰려고 시도한 후 대화를 “마지막 수단”으로 끝냈습니다. 공통 제품의 사용으로 눈치 채거나 감동하지 않습니다. “

Claud 가이 기능을 사용해야하는 경우 사용자는 해당 대화에 새 메시지를 보낼 수 없지만 새로운 대화에서 Clode와 채팅 할 수 있습니다.

“우리는이 기능을 지속적인 테스트로 간주하고 우리의 접근 방식을 계속 개선 할 것”이라고 인류학은 썼다. “사용자가 대화 말단 기술을 놀라게 사용하고 있다면 엄지 손가락에 반응하여 ‘날짜’피드백 ‘버튼을 사용하여 응답을 제출하도록 권장합니다.”

주제
인공 지성

소스 링크

RELATED ARTICLESMORE FROM AUTHOR

나는 내 스위치 2를 잃었다.

최고의 휴대용 발전소 거래 : Jacquary Explorer 2000 V2에서 40% 절약

불법 이민 하르 지인더 싱 (Singh)

LEAVE A REPLY Cancel reply

RELATED ARTICLES MORE FROM AUTHOR