뉴스 추천 (5): 주류 데이터 세트 소개
(20 13) 13 독일 뉴스 포털에 게시된 뉴스 문장 및 사용자의 클릭 로그를 수집하여 Plista4 데이터 세트를 구축했습니다. 70,353 편의 뉴스 문장 및 65,438+0,095,323 번의 클릭이 포함되어 있습니다. 이 데이터 세트의 문장 뉴스는 모두 독일어로, 사용자는 주로 독일어 국가에서 왔다.
Adreseavisen 웹 사이트의 저널에 따르면 Adressa 데이터는 48486 개의 뉴스 문장, 3083438 명의 사용자 및 27223576 건의 클릭 이벤트가 있는 10 주 내에 구축되었습니다. 각 클릭 이벤트에는 세션 시간, 뉴스 제목, 뉴스 범주 및 사용자 ID 와 같은 여러 속성이 포함되어 있습니다. 각 문장 뉴스는 작성자, 엔티티, 주제 등의 세부 사항과 관련이 있습니다. 이 데이터 세트의 문장 뉴스는 노르웨이어로 쓴 것이다. 전체 데이터 세트는 서로 다른 두 가지 크기의 버전으로 나뉩니다.
종합적으로 볼 때 Adressa 는 콘텐츠면에서 가장 포괄적이며 일반적인 뉴스 추천, 세션 기반 추천 및 지식지도 기반 추천에 사용할 수 있습니다.
20 18) 브라질의 인기 뉴스 포털 글로보에서 뉴스 추천 데이터 세트를 만들었습니다. 이 데이터 세트에는 약 365,438+04,000 명의 사용자, 46,000 편의 뉴스 문장 및 300 만 번의 클릭이 포함되어 있습니다. 각 클릭 기록에는 사용자 ID, 뉴스 ID 및 세션 시간 필드가 포함되어 있습니다. Kaggle 플랫폼에서 최초로 개방되어 훈련된 뉴스 임베딩을 제공하며 원본 뉴스 문장 정보가 필요하지 않습니다.
여기에는 14 180 개의 뉴스와 34022 개의 클릭 이벤트가 포함되어 있습니다. 각 뉴스 문장 는 word id 로 표기되어 있으며, 원문을 제공하지 않는다. 이 데이터 세트의 사용자 수는 사용자 ID 가 없으므로 알 수 없습니다.
유용하다고 생각되면 좋아하고 주목해 주세요. 추천에 관심이 있으시면 댓글 영역/사신 교류 ~ ~ ~