OpenAi는 공식적으로 GPT -5를 출시하여 Power Chatzip에서 빠르고 유능한 AI 모델을 약속했습니다.
AI 회사는 수학, 코딩, 작문 및 건강 조언을 통해 정교한 성능을 자랑스럽게 생각합니다. Open은 GPT -5의 환각 속도가 이전 모델에 비해 감소했음을 자랑스럽게 공유합니다.
구체적으로, GPT는 GPT -4O의 12.9 %에 비해 시간의 9.6 %를 주장합니다. GPT -5 시스템 카드에 따르면 새로운 모델 환각율은 GPT -4O보다 26 % 낮습니다. 또한, GPT -5는 “적어도 하나의 큰 진정한 오류”로 44 % 적은 반응이 적었다.
정확한 진보이지만 10 GPT -5 중 대략 하나가있을 수 있음을 의미합니다. 특히 Openi가 의료를 새로운 모델의 희망적인 사용 사례로 촉발 시켰기 때문에 관련이 있습니다.
오늘 직접 열린 AE의 GPT -5를 시도하는 방법
GPT -5 환각을 줄이는 방법
환각은 AI 연구원들에게 걱정스러운 문제입니다. 더 큰 언어 모델 (LLM)은 다음 가능한 단어를 생산하도록 훈련되었으며, 이는 훈련 된 많은 양의 데이터로 관리됩니다. 이것은 LLM이 때때로 잘못되었거나 정통 깁 베리 인 자신감을 가진 문장을 만들 수 있음을 의미합니다. 누군가가 우수한 데이터, 훈련 및 컴퓨팅 능력과 같은 요소를 통해 모델이 개선한다고 가정 할 수 있으므로 환각 속도가 줄어 듭니다. 그러나 OPNA의 합리적 모델을 도입 한 결과, 연구자들이 완전히 설명 할 수 없다는 O3 및 O4 -MINI를 도입하려는 걱정스러운 경향이 나타났습니다. 1, GPT -4 및 GPT -4.5보다 더 많은 일을합니다. 일부 연구자들은 환각이 LLM의 근본적인 특징이라고 주장합니다.
돛대
GPT -5의 시스템 카드에 따르면 이전 모델보다 환각이 적습니다. OpenAi는 OpenAI GPT -5와 GPT -5- 생각이라고하는 추가 합리적인 에너지가있는 GPT -5 버전을 논리 모델 O3 및보다 전통적인 모델 GPT -4O에 대해 평가했습니다. 환각율은 웹 웹 웹에 대한 평가의 상당 부분에 액세스하고 있습니다. 일반적으로 모델이 교육 데이터에 대해서만 올바른 데이터의 답변을 온라인으로 소싱 할 수있을 때 모델이 더 정확합니다. 모델이 환각율에 대한 웹 브라우징에 액세스 할 수있는 경우 :
시스템 카드의 Openais는 또한 더 개방적이고 복잡한 프롬프트와 함께 다양한 버전의 GPT -5를 평가했습니다. 여기서 GPT -5 합리적 힘을 가진 이전 논리는 O3 및 O4 -mini보다 상당히 낮습니다. 합리적인 모델은 질문을 해결하기 위해 더 많은 컴퓨팅 파워를 적용하기 때문에 더 정확하고 환각적일 수 있습니다. 따라서 O3 및 O4-MINI의 환각 속도가 약간 놀랐습니다.
전반적으로 GPT -5는 웹에 연결할 때 꽤 잘 작동합니다. 그러나 다른 평가의 결과는 다른 이야기를 들려줍니다. Open은 그의 집 벤치 마크, General QA에서 GPT -5를 테스트했습니다. 이 테스트는 “시도 된 답변에 대한 모델의 정확성을 측정하는 시스템 카드 세부 사항에 대한 짧은 답변이있는 사실 검색 질문 모음”입니다. 이 평가를 위해 GPT -5에는 웹 액세스가 없었으며 보여줍니다. 이 테스트에서 환각율은 훨씬 높았습니다.
생각이있는 GPT -5 및 3보다 약간 낫고 일반 GPT -5는 1 %로 환각됩니다. 우수한 O 3 및 GPT -4O의 바닥에서 몇 퍼센트 포인트. 상당히 말하자면, 환각율은 일반적인 QA 평가를 통해 모델 전체에서 더 높습니다. 그러나 이것은 큰 편안함이 아닙니다. 웹 검색이 없으면 사용자는 환각과 결함의 많은 위험에 직면하게됩니다. 따라서 Chatzip을 정말로 중요한 것으로 사용하는 경우 웹을 검색하고 있는지 확인하십시오. 또는 웹 자체 만 검색 할 수 있습니다.
사용자는 GPT -5 환각을 찾는 데 오래 걸리지 않았습니다.
그러나 전체 저렴한 비율에 대한 예상치 못한 요율 보고서에도 불구하고 데모는 당혹스러운 오류를 나타 냈습니다. AI Research 비영리 단체 설립자이자 CEO 인 Beth Burns는 항공기가 항공기의 작동 방식을 설명하기 위해 GPT -5 데모의 실수를 설명했습니다. GPT -5는 Bernoli의 영향에 대한 일반적인 오해를 인용하여 화상을 말하며 공기가 항공기의 날개 주위로 흐르는 방식을 설명합니다. GPT -5에 대한 설명은 Aerodinamics의 기술에 들어 가지 않고 잘못되었습니다.
이 트윗은 현재 사용할 수 없습니다. 로드 또는 제거되었습니다.