浜屽崄骞村墠锛屸€滄潅浜も€濅竴璇嶄粎鐢ㄤ簬妞嶇墿瀛﹀拰鍖栧棰嗗煙銆傚浠婏紝鈥滄贩鍚堚€濇蹇靛湪鎼滅储棰嗗煙钃媰鍙戝睍锛屼紬澶氭悳绱㈢郴缁熺悍绾锋帹鍑哄熀浜嶢I鎶€鏈殑娣峰悎鎼滅储瑙e喅鏂规銆備絾鈥滄贩鍚堟悳绱⑩€濈湡鐨勬湁鐢ㄥ悧锛岃繕鏄彧鏄竴绉嶆椂灏氾紵璁稿鎼滅储绯荤粺姝e湪鎺ㄥ嚭娣峰悎鎼滅储鍔熻兘锛岃繖浜涘姛鑳界粨鍚堜簡浼犵粺鎼滅储銆佹枃鏈俊鎭绱㈡妧鏈拰鍩轰簬AI鐨勨€滅煝閲忊€濇垨鈥滅缁忊€濇悳绱㈢殑鍏抽敭瀛椼€傗€滄贩鍚堟悳绱⑩€濆彧鏄竴涓祦琛岃瘝鍚楋紵姣曠珶锛屽熀浜庢枃鏈殑鎼滅储鏄竴绉嶅箍娉涗娇鐢ㄧ殑鎶€鏈紝鐢ㄦ埛宸茬粡涔犳儻浜嗗畠鐨勫姛鑳斤紝鐢氳嚦鏄畠鐨勫眬闄愭€с€傚皢鏂囨湰鎼滅储涓庢柊鐨凙I鎶€鏈浉缁撳悎鐪熺殑鑳借鎼滅储绯荤粺鍙樺緱鏇村ソ鍚楋紵绛旀寰堟槑鏄撅細瑙嗘儏鍐佃€屽畾銆傛暟鎹瓨鍌ㄧ幇鍦ㄦ槸澶氬獟浣撳拰澶氭ā寮忕殑锛屾枃鏈€佸浘鍍忋€佽棰戝拰闊抽閫氬父瀛樺偍鍦ㄥ悓涓€涓暟鎹簱鍜屽悓涓€鍙拌绠楁満涓娿€傝繖鎰忓懗鐫€濡傛灉鎮ㄦ兂鍦ㄤ簲閲戝簵鐨勭綉绔欎笂鎼滅储铻轰笣鍒€鐨勫浘鐗囷紝鎮ㄤ笉鑳藉彧鏌ヨ鈥滆灪涓濆垁鈥濅竴璇嶅苟鏈熸湜瀹冭繑鍥炵浉搴旂殑缁撴灉銆傞鍏堬紝鎮ㄥ繀椤诲瓨鍌ㄥ拰绱㈠紩鏂囨湰鎴栭」鐩殑鏍囩銆傞櫎闈炴偍鏄庣‘鍦板皢鏁版嵁搴撲腑鐨勬墍鏈夎灪涓濆垁鍥剧墖涓庢爣绛锯€滆灪涓濆垁鈥濇垨鍏朵粬琛ㄦ槑瀹冩槸铻轰笣鍒€鍥剧墖鐨勬枃鏈浉鍏宠仈锛屽惁鍒欎紶缁熸悳绱㈡妧鏈笉浼氳繑鍥炴悳绱㈢粨鏋溿€傚鏋滄偍娌℃湁鏄庣‘鐨勬爣绛惧拰鏂囨湰锛屽皢鏈€鍏堣繘鐨凙I鎶€鏈坊鍔犲埌鏂囨湰鎼滅储涓皢鏃犳祹浜庝簨銆傚湪杩欑鎯呭喌涓嬶紝灏咥I鎶€鏈笌浼犵粺鎼滅储鐩哥粨鍚堝氨娌℃湁鎰忎箟浜嗐€傚亣璁炬湁涓€瀹舵嫢鏈夊湪绾胯喘鐗╁钩鍙扮殑澶у瀷浜旈噾搴楋紝鍑哄敭鏁板崄涓囩涓嶅悓鐨勪骇鍝併€備絾鏄紝浠栦滑娌℃湁鍛樺伐鏉ュ垱寤鸿缁嗙殑浜у搧鏍囩鍜屾弿杩版垨妫€鏌ュ畠浠殑鍑嗙‘鎬э紱娌℃湁浜у搧鍥剧墖锛屼篃娌℃湁鏃堕棿鎷嶆憚濂界殑鍥剧墖銆傚洜姝わ紝鍗充娇鏄渶濂界殑鏂囨湰鎼滅储绯荤粺瀵逛粬浠潵璇翠篃鏄竴涓湁缂洪櫡鐨勮В鍐虫柟妗堛€傛渶鏂扮殑浜哄伐鏅鸿兘鎶€鏈彲浠ュ緢濂藉湴瑙e喅杩欎簺闄愬埗銆傛繁搴﹀涔犲拰绁炵粡鎼滅储浣垮垱寤哄己澶х殑閫氱敤绁炵粡缃戠粶妯″瀷浠ュ強浠ラ€氱敤鏂瑰紡灏嗘悳绱㈡ā鍨嬪簲鐢ㄤ簬涓嶅悓绫诲瀷鐨勬暟鎹紙鏂囨湰銆佸浘鍍忋€侀煶棰戝拰瑙嗛锛夋垚涓哄彲鑳姐€傚洜姝わ紝鍗充娇娌℃湁鏂囧瓧鏍囩锛屾悳绱⑩€滆灪涓濆垁鈥濅篃鍙互鎵惧埌铻轰笣鍒€鐨勫浘鐗囷紒浣嗘槸杩欎簺鏈€鍏堣繘鐨勬悳绱㈡妧鏈€氬父浼氳繑鍥炵己涔忓彲瑙i噴鎬х殑缁撴灉銆傚鎴峰彲鑳藉笇鏈涜緭鍏ユ煡璇⑩€淧hillipsscrewdriver鈥濓紝瀹為檯涓婅繑鍥炵殑浜у搧鏄€滀竴瀛楀拰Phillips铻轰笣鍒€锛?鑻卞闀库€濄€備紶缁熺殑鎼滅储鎶€鏈彲浠ュ仛鍒帮紝浣咥I鎶€鏈緢闅捐揪鍒拌繖鏍风殑鏁堟灉銆傛悳绱㈡ā鍨嬫垜浠皢鏋勫缓涓€涓熀浜庝笁绉嶇壒瀹氭悳绱㈡ā鍨嬬殑娣峰悎鎼滅储寮曟搸锛欱M25銆丼BERT鍜孋LIP銆侭M25鏄渶缁忓吀鐨勫熀浜庢枃鏈殑淇℃伅妫€绱㈢畻娉曘€侭M25浜?990骞翠唬棣栨寮€鍙戯紝鐜板凡骞挎硾浣跨敤銆傛湁鍏矪M25鐨勬洿澶氫俊鎭紝璇峰弬闃匯obertson&Zaragoza(2009):"銆?000a00015-7"2000a:")鍜?000b00016-9"2000b:")锛屾垨鏌ョ湅缁村熀鐧剧涓婂叧浜嶣M25鐨勬紨绀恒€傛垜浠娇鐢≒ython[rank_bm25]鍖呭疄鐜颁簡BM25鎺掑簭绠楁硶锛孲BERT鏄竴绉嶅箍娉涘簲鐢ㄤ簬鏂囨湰淇℃伅妫€绱㈢殑绁炵粡缃戠粶妗嗘灦锛屾垜浠娇鐢╩smarco-distilbert-base-v3妯″瀷鏄洜涓哄畠鏄负MS-MARCO娈佃惤鎺掑簭浠诲姟璁粌鐨勶紝绫讳技浜庢垜浠仛鐨勬帓搴忎换鍔★紝CLIP鏄竴涓繛鎺ュ浘鍍忓拰鎻忚堪鏂囨湰鐨勭缁忕綉缁滐紝瀹冩槸鍦ㄥ浘鍍?鏂囨湰瀵逛笂璁粌鐨勩€侰LIP鏈夊緢澶氬簲鐢紝鍦ㄦ湰鏂囦腑鎴戜滑灏嗙敤瀹冩潵瀹炵幇鏂囨湰鏌ヨ鍖归厤鍥惧儚骞惰繑鍥炲缁撴灉杩涜鎺掑悕锛屾垜浠娇鐢∣penAI鐨刢lip-vit-base-patch32妯″瀷锛岃繖涔熸槸鐩墠浣跨敤鏈€骞挎硾鐨凜LIP妯″瀷锛岃繖涓変釜妯″瀷閮藉彲浠ヨ緭鍏ヤ竴涓枃鏈煡璇紝杩斿洖鐢ㄦ埛鎸囧畾鏁伴噺鐨勭粨鏋滐紝骞朵笖姣忎釜缁撴灉閮芥湁涓€涓垎鏁般€傛煡璇㈢粨鏋滀細鎸夌収鍒嗘暟鎺掑簭锛屼笁涓ā鍨嬮兘鍙互杈撳叆鏂囨湰鏌ヨ鍜宺杩斿洖鐢ㄦ埛鎸囧畾鏁伴噺鐨勭粨鏋滐紝姣忎釜缁撴灉閮芥湁涓€涓垎鏁般€傛煡璇㈢粨鏋滃皢鎸夊垎鏁版帓搴忋€備笁绉嶆ā鍨嬮兘瀵规枃鏈煡璇㈣繘琛岃瘎鍒嗗拰鎺掑悕鍖归厤锛岀劧鍚庤繑鍥炰竴浜涙帓鍚嶉潬鍓嶇殑缁撴灉锛堢粨鏋滄暟閲忕敱鐢ㄦ埛纭畾锛夈€傛墍鏈変笁绉嶆ā鍨嬮兘鏄撲簬闆嗘垚銆係BERT鍜孋LIP閮藉湪-1.0锛堟煡璇㈡渶宸尮閰嶏級鍒?.0锛堟煡璇㈢殑鏈€浣冲尮閰嶏級涔嬮棿杩斿洖鍒嗘暟銆侭M25鍒嗘暟鏈€浣庝负0.0锛屼絾娌℃湁涓婇檺銆備负浜嗚繘琛屾瘮杈冿紝鎴戜滑鎵ц浜嗕互涓嬫搷浣滐細鍒犻櫎鐢盋LIP鎴朣BERT杩斿洖鐨勫皬浜?.0鐨勭粨鏋滐紝鍥犱负杩欎簺鏄敊璇尮閰嶇粨鏋溿€備娇鐢ㄥ叕寮忓皢BM25鍒嗘暟褰掍竴鍖栧湪0.0鍜?.0涔嬮棿锛氬皢BM25鍒嗘暟闄や互鏈韩鍔犱笂10銆傚尮閰嶅嚭鐜板湪涓€涓垨涓や釜锛屼絾涓嶆槸鎵€鏈変笁涓悳绱㈡柟娉曠殑椤堕儴缁撴灉锛屾垜浠负閿欒繃瀹冪殑鎼滅储鏂规硶鍒嗛厤涓€涓彃鍊煎垎鏁般€傚鏋滆姹傚墠N涓尮閰嶉」锛屾垜浠細涓虹己澶辩殑鍖归厤椤瑰垎閰嶄竴涓皬鐨勯潪闆跺€硷紝杩欐槸缁忛獙鍊笺€備緥濡傦紝鍋囪鎴戜滑鎼滅储鈥渟crewdriver鈥濆苟浠嶣M25銆丼BERT鍜孋LIP涓幏寰椾簡20涓渶浣冲尮閰嶃€侭M25鍜孲BERT鎼滅储閮藉湪鍓?0鍖归厤涓壘鍒颁簡浜у搧鈥滅澶磋灪涓濆垁缁?銆?鍗佸瓧鍜?骞斥€濓紝浣嗗畠涓嶅湪CLIP鐨勫墠20鍖归厤涓紝鍥犱负鍥剧墖鏄畠鐨勫寘瑁呯洅銆傛鏃讹紝鎴戜滑鍦ㄥ墠20涓狢LIP鍖归厤涓壘鍒版渶浣庡垎鏁帮紝骞跺皢璇ュ垎鏁板垎閰嶇粰浜у搧纾佸ご铻轰笣鍒€缁?銆?鍗佸瓧鍜?骞冲ご銆傛贩鍚堟悳绱㈡垜浠瀯寤轰簡涓€涓贩鍚堟悳绱㈡柟妗堬紝缁撳悎浜咮M25銆丼BERT鍜孋LIP鐨勬悳绱㈢粨鏋溿€傚浜庢瘡涓煡璇紝鎴戜滑浣跨敤3涓郴缁熸墽琛屾悳绱紝浠庢瘡涓郴缁熶腑妫€绱?0涓渶浣冲尮閰嶉」锛屽苟鎸夌収涓婁竴鑺傛墍杩拌皟鏁村畠浠殑鍒嗘暟銆傛瘡涓尮閰嶉」鐨勫垎鏁版槸3涓悳绱㈢郴缁燂紙SBERT銆丆LIP鍜屾爣鍑嗗寲BM25锛夊垎鏁扮殑鍔犳潈鍜屻€備笅闈㈡槸娣峰悎鎼滅储鏂规濡備綍宸ヤ綔鐨勭ず鎰忓浘锛氬湪瀹炶返涓紝鎴戜滑鍙戠幇浠ヤ笅鏉冮噸缁勫悎鏁堟灉寰堝ソ锛氬浜庤繖涓粨鏋滐紝鎴戜滑鍙互鐩磋鍦扮悊瑙f贩鍚堟悳绱㈢郴缁熷湪鏂囨湰妫€绱紙SBERT鍜孊M25).鍦ㄦ枃鏈埌鍥惧儚妫€绱?CLIP)涓婂ぇ浜?.5涓旂暐灏忎簬0.5锛孊M25鐨?.1鏉冮噸纭繚浜嗗浼犵粺鏈鍖归厤鐨勫亸濂斤紝鎴栬€呭湪绁炵粡妯″瀷鏃犳硶浜х敓鑹ソ鍖归厤缁撴灉鏃跺鍏惰繘琛岃ˉ鍏呫€傛悳绱㈠満鏅姣旀祴璇曟暟鎹悊鎯虫儏鍐典笅锛屾垜浠簲璇ユ湁鍦ㄧ嚎鍟嗗鐨勪骇鍝佹暟鎹簱鍜屾煡璇㈡棩蹇椼€傜劧鑰岋紝鍑轰簬鍟嗕笟鍜屾硶寰嬪師鍥狅紝鍏徃锛堝挨鍏舵槸铏氭瀯鐨勫叕鍙革級閫氬父涓嶄細鍚戠爺绌朵汉鍛樻彁渚涗骇鍝佹暟鎹簱鍜屾煡璇㈡棩蹇椼€傚洜姝わ紝鎴戜滑鍙兘浣跨敤鏇夸唬鏂规銆傛垜浠娇鐢ㄤ簡鏈€鎺ヨ繎鐨勬浛浠f柟妗堬細XMarket鏁版嵁闆嗐€傝繖浜涙暟鎹潵鑷?8涓浗瀹?鍦板尯鐨勪簹椹€婂競鍦猴紝鍖呮嫭浜氶┈閫婄綉绔欎笂鐨勪骇鍝佸浘鐗囷紝浠ュ強浜у搧鍚嶇О銆佷骇鍝佹弿杩般€佺被鍒拰鍚勭鍏冩暟鎹€傚湪鏈枃涓紝鎴戜滑浣跨敤浜哫Market鏁版嵁闆嗙殑涓€涓瓙闆嗭細浠呮潵鑷編鍥戒簹椹€婄綉绔欑殑鐢靛瓙绫诲埆鏉$洰锛屾秹鍙?37涓被鍒拰15,934绉嶄骇鍝併€傛澶栵紝鍦ㄦ瘡涓骇鍝佺殑鍙敤淇℃伅瀛楁涓紝鎴戜滑浠呬娇鐢ㄤ互涓嬪唴瀹癸細ASIN鈥斺€斾簹椹€婂垎閰嶇殑鍞竴浜у搧ID銆傛爣棰樷€斺€斾簹椹€婁娇鐢ㄧ殑浜у搧鏍囬銆傛弿杩扳€斺€斾骇鍝佺殑鏂囧瓧鎻忚堪锛屽ぇ姒傛潵鑷埗閫犲晢鎴栦緵搴斿晢銆傜被鍒€斾簹椹€婂垎灞備骇鍝佹湰浣撲腑鐨勬爣绛俱€傚浘鐗団€斺€斾簹椹€婂湪浜у搧椤甸潰涓婁娇鐢ㄧ殑鍥剧墖銆傝繖鏄竴涓ず渚嬪浘锛氭偍鍙互閫氳繃鐧诲綍JinaAI涓嬭浇鏁版嵁锛堝湪鍛戒护琛屼腑杈撳叆jinaauthlogin锛岃闂幇鏈夊笎鎴锋垨鍒涘缓甯愭埛锛夊苟浣跨敤DocArray妯″潡锛歠romdocarrayimportDocumentArrayxmarket_dataset=DocumentArray.pull('xmarket_dataset')xmarket_dataset.summary()鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€rsDocumentArrayInMemory鈹傗攤闀垮害16934鈹傗攤鍚岃川鏂囨。True鈹傗攤鍦?'chunks',)涓湁宓屽鏂囨。鈹傗攤鍏叡灞炴€?'id','tags','chunks')鈹傗攤MultimodaldataclassTrue鈹傗攤鈹傗暟鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈺暛鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈺攤鈹傗攤灞炴€ф暟鎹被鍨?鍞竴鍊煎搱s绌哄€尖攤鈹傗攢鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹傗攤chunks('ChunkArray',)16934False鈹傗攤id('str',)16934False鈹傗攤tags('dict',)16934閿欒鈹傗攤鈹傗暟鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€鈹€TaskDescription鐢变簬鎴戜滑娌℃湁浜氶┈閫婄殑鏌ヨ鏃ュ織锛屾垜浠棤娉曞鍏锋湁浠h〃鎬х殑鏌ヨ鏍锋湰杩涜绯荤粺娴嬭瘯锛屽洜姝ゆ垜浠彧鑳介€夋嫨浜氶┈閫婁负XMarket鏁版嵁闆嗕腑鐨勬瘡涓骇鍝佸垎閰嶇殑鐩镐技浣嗕笉鍚岀殑浠诲姟鍒嗛厤浜嗙被鍒睘鎬э紝骞朵负杩欎簺绫诲埆鍒嗛厤浜嗘枃鏈爣绛俱€備緥濡傦紝涓婁竴鑺備腑鐨勨€淪andiskMicroSD鍗♀€濆綊鍏モ€淢icroSD鍗♀€濈被鍒€傛垜浠敤浜庢瘮杈冪殑鎼滅储浠诲姟鏄皢杩欎簺绫诲埆鏍囩浣滀负鏂囨湰鏌ヨ锛岀劧鍚庢鏌ユ煡璇㈢粨鏋滄槸鍚︿负灞炰簬璇ョ被鍒殑浜у搧椤圭洰銆備负浜嗚繘琛屽畾閲忔瘮杈冿紝鎴戜滑浣跨敤MRR锛圡eanReciprocalRank锛変綔涓哄害閲忔爣鍑嗭紝娴嬮噺鏂瑰紡濡備笅锛氭煡璇㈠甫鏈夌被鍒爣绛剧殑鎼滅储绯荤粺锛屾绱㈣繑鍥炵殑鎺掑悕鏈€楂樼殑鍓?0涓粨鏋滐紝鐒跺悗鎵惧埌瀹為檯灞炰簬璇ョ被鍒殑缁撴灉锛屾渶鍚庯紝鏌ヨ鍒嗛厤1.0/rank鐨勫垎鏁般€備緥濡傦紝濡傛灉鎮ㄨ緭鍏ユ煡璇⑩€淢icroSD鍗♀€濓紝杩斿洖鐨勭涓€涓粨鏋滄槸灞炰簬鈥淢icroSD鍗♀€濈殑浜у搧锛屽垯璇ユ煡璇㈢殑寰楀垎涓?.0銆傚鏋滃墠鍥涗釜缁撴灉涓嶅睘浜庤绫诲埆锛屼絾绗簲涓粨鏋滃睘浜庤绫诲埆锛屽垯寰楀垎涓?.2銆傚鏋滃墠20涓粨鏋滈兘涓嶅睘浜庤绫诲埆锛屽垯寰楀垎涓?.0銆傚浜庢瘡涓悳绱㈢郴缁燂紝鎴戜滑閫氳繃骞冲潎鎵€鏈夋煡璇㈢殑鍒嗘暟鏉ヨ绠梍MRR_銆傜敱浜庤繖鍙栧喅浜庢瘡涓煡璇㈣繑鍥炵殑缁撴灉鏁伴噺锛屾垜浠皢鍒嗘暟鏍囪涓篲MRR@20锛坃returns20涓粨鏋滐級銆傚噯澶囨悳绱㈡暟鎹簱鍜岀储寮曟垜浠粠15934涓」鐩腑閫夋嫨浜?000涓」鐩繘琛屾祴璇曪紝娑电洊296涓被鍒€傚叾浣欐暟鎹皢鍦ㄤ笅涓€鑺備腑浣跨敤銆傜劧鍚庯紝閫氳繃鑾峰彇娴嬭瘯闆嗕腑姣忎釜浜у搧鐨勬爣棰樺拰鎻忚堪鏉ュ噯澶嘊M25绱㈠紩锛岀劧鍚庝娇鐢╮ank_bm25鍖呬腑鐨凚M25Okapi绠楁硶鍒涘缓鏂囨湰妫€绱㈡暟鎹簱銆傛湁鍏宠缁嗕俊鎭紝璇峰弬闃匞itHub涓婄殑鑷堪鏂囦欢銆傚浜嶴BERT妯″瀷锛屾垜浠垱寤轰簡涓€涓熀浜嶫inaAIDocArray鐨勫悜閲忔绱㈡暟鎹簱锛屼娇鐢ㄦ祴璇曢泦鐨勬爣棰樺拰鎻忚堪浣滀负杈撳叆鏂囨湰銆俰mportfinetunerfromdocarrayimportDocument,DocumentArraysbert_model=finetuner.build_model('sentence-transformers/msmarco-distilbert-base-v3')finetuner.encode(sbert_model,product_categories)finetuner.encode(sbert_model,product_texts)瀵逛簬CLIP锛屾垜浠娇鐢ㄧ浉鍚岀殑姝ラ锛屼絾浣跨敤鏉ヨ嚜鍚屼竴娴嬭瘯闆嗙殑浜у搧鍥惧儚銆俰mportfinetunerfromdocarrayimportDocument,DocumentArrayclip_text_model=finetuner.build_model('openai/clip-vit-base-patch32',select_model='clip-text')clip_vision_model=finetuner.build_model('openai/clip-vit-base-patch32',select_model='clip-vision')finetuner.encode(clip_text_model,product_categories)finetuner.encode(clip_vision_model,product_images)BaselineResults鎴戜滑閫氳繃璁$畻杩斿洖鐨勫墠20涓煡璇㈢粨鏋滅殑MMR@20鏉ヨ瘎浼颁笁涓悳绱㈢郴缁熺殑鎬ц兘绯荤粺锛氳繖涓粨鏋滃苟涓嶅鎬€侰LIP鐩存帴灏嗘枃鏈煡璇笌鍥惧儚杩涜姣旇緝锛岃€屼笉鏄皢鏌ヨ涓庢枃鏈弿杩拌繘琛屾瘮杈冿紝鍥犳鎬ц兘姣擝M25宸€傝櫧鐒禖LIP鐩存帴灏嗘枃鏈煡璇笌鍥剧墖杩涜瀵规瘮锛屼絾鍏禡RR@20浠呯暐浣庝簬BM25锛屽彲瑙丆LIP鐨勫己澶с€傚敖绠″姝わ紝鎴戜滑鍙互棰勬湡涓€涓函绮圭殑鍥惧儚椹卞姩鐨勬悳绱㈢郴缁熷緢闅炬弧瓒崇幇瀹炰笘鐣岀敤渚嬬殑闇€姹傘€係BERT鍩轰簬绁炵粡鏂规硶杩涜鏂囨湰鎼滅储锛屽钩鍧囨€ц兘浼樹簬BM25銆傚湪杩欎釜鏁版嵁闆嗕腑锛屾垜浠彲浠ョ湅鍒颁笌鍥惧儚淇℃伅鐩告瘮锛屾枃鏈俊鎭负鎼滅储绯荤粺鎻愪緵浜嗘洿濂界殑鎬ц兘銆侻ixedResults杩欓噷浣跨敤鐨勬贩鍚堟悳绱㈠紩鎿庣殑鍏蜂綋瀹炵幇锛屽寘鎷唬鐮侊紝鍙互鍦–olabNotebook涓壘鍒般€傛偍鍙互浣跨敤鑷繁鐨勬暟鎹拰鐢ㄤ緥杩涜灏濊瘯锛岀湅鐪嬭繖鏄惁鏄纭殑瑙e喅鏂规銆備娇鐢ㄧ浉鍚岀殑娴嬭瘯鏁版嵁锛屾垜浠娣峰悎鎼滅储鏂规杩涜浜嗙浉鍚岀殑娴嬭瘯銆傛垜浠€氳繃灏嗕笁涓悳绱㈢郴缁熸垚瀵圭粍鍚堬紝鐒跺悗灏嗕笁涓悳绱㈢郴缁熺粍鍚堝湪涓€璧锋潵瀹屾垚娴嬭瘯銆傛渶缁堬紝缁撴灉琛ㄦ槑娣峰悎鎼滅储绯荤粺浼樹簬鍗曚竴鎼滅储绯荤粺锛氭贩鍚堟悳绱㈡ā鍨嬬殑鎬ц兘鍧囦紭浜庡崟涓悳绱㈢郴缁熴€傝繖浜涚粨鏋滄樉绀轰簡娣峰悎鎼滅储鏂规硶鐨勬綔鍔涳紝鏈€澶х殑鏀剁泭鏉ヨ嚜涓や釜寰楀垎鏈€宸殑妯″瀷锛氭贩鍚圔M25鍜孋LIP锛屽畠浠殑寰楀垎浠庡ぇ绾?0%鎻愰珮鍒?1%锛岃鏄庢枃鏈拰鍥惧儚鎼滅储鏄簰琛ョ殑.鐒惰€岋紝SBERT+CLIP+BM25鏂规硶鐨勬敼杩涗笌鍗曠嫭鐨凷BERT鎼滅储绯荤粺鐩告瘮骞朵笉鏄剧潃锛孧MR浠?9%鎻愰珮浜?%鍒?3%銆侳ine-tuningFine-tuning鏄埄鐢ㄦ柊浠诲姟鐨勮缁冩暟鎹棰勮缁冩ā鍨嬭繘琛岃繘涓€姝ヨ缁冿紝浠庤€屾彁楂橀璁粌妯″瀷鐨勬€ц兘锛岄€傚簲鐗瑰畾浠诲姟銆侸inaAIFinetuner鏄竴涓畝鍖栫缁忕綉缁滃井璋冭繃绋嬬殑宸ュ叿銆傚畠閫氳繃澶勭悊浜戜笂鐨勬搷浣滃鏉傛€у拰鐗╃悊鍩虹璁炬柦锛屼娇寰皟绁炵粡缃戠粶鍙樺緱鏇村姞瀹规槗鍜岄珮鏁堛€傛垜浠粠XMarket鏁版嵁闆嗕腑閫夋嫨浜?000涓」鐩綔涓烘祴璇曟暟鎹紝骞朵娇鐢ㄥ墿浣欑殑绾?5000涓」鐩綔涓鸿缁冩暟鎹潵寰皟SBERT鍜孋LIP銆傪煉¤缁冮泦鍙寘鍚祴璇曢泦涓殑閮ㄥ垎绫诲埆锛屾病鏈夊晢鍝併€侸inaAIFinetuner璁粌绁炵粡缃戠粶浣垮睘浜庝竴绫荤殑鏂囨湰鐨勮緭鍑哄悜閲忔洿杩戯紝涓嶅睘浜庝竴绫荤殑杈撳嚭鍚戦噺鏇磋繙銆傚浜嶴BERT锛岄鍏堜粠璁粌闆嗕腑鎻愬彇浜у搧鏍囬銆佷骇鍝佹弿杩板拰绫诲埆鍚嶇О銆傚井璋冪殑鐩殑鏄缁僑BERT璇嗗埆鍚屼竴绫诲埆鐨勪骇鍝佸悕绉板拰鎻忚堪锛屽苟鍖归厤瀹冧滑鐨勭被鍒爣绛俱€備负姝わ紝鎴戜滑闇€瑕佹瀯寤轰竴涓狣ocumentArray瀵硅薄锛屼互渚挎牴鎹繖浜涗俊鎭娇鐢ㄨ缁冩暟鎹SBERT杩涜寰皟锛屽JinaAIFinetuner鏂囨。涓墍杩般€俰mportfinetuner#鐧诲綍鍒癴inetunerapifinetuner.login()#鍒涘缓骞舵彁浜BERT寰皟浣滀笟bert_run=finetuner.fit(model='sentence-transformers/msmarco-distilbert-base-v3',train_data=sbert_train_data,epochs=3,batch_size=64,learning_rate=1e-6,cpu=False,)#绛夊緟杩愯瀹屾垚锛乫inetuned_sbert_model=finetuner.get_model(sbert_run.artifact_id)鐒跺悗锛屾彁鍙栨垚瀵圭殑浜у搧鍥剧墖鍜岀被鍒悕绉帮紝骞朵娇鐢ㄧ浉鍚岀殑姝ラ鏋勯€爁inetuning鐨凜LIPDocumentArray瀵硅薄锛屽叾鐩殑鏄€氳繃璁粌妯″瀷浣跨被鍒悕绉板悜閲忓拰鍥惧儚鍚戦噺涔嬮棿鐨勮窛绂绘洿杩戙€?鍒涘缓骞舵彁浜LIP寰皟jobclip_run=finetuner.fit(model='openai/clip-vit-base-patch32',loss='CLIPLoss',train_data=clip_train_da,epochs=3,batch_size=128,learning_rate=1e-6,cpu=False)#绛夊緟杩愯瀹屾垚锛乫inetuned_clip_text_model=finetuner.get_model(clip_run.artifact_id,select_model='clip-text')finetuned_clip_vision_model=finetuner.get_model(clip_run.artifact_id,select_model='clip-vision')鍦ㄦ墍鏈夋悳绱㈢郴缁熶腑锛屾垜浠湅鍒板井璋冨悗MMR\@20鏄庢樉澧炲姞锛孋LIP鍦ㄥ井璋冨悗琛ㄧ幇绐侀鐚涜繘銆傚浜庝娇鐢ㄦ墍鏈変笁绉嶆妧鏈殑娣峰悎鎼滅储锛岀浉瀵规敼杩涜秴杩?2%銆傪煉″熀浜庣缁忕綉缁滅殑AI鎼滅储鎶€鏈殑濂藉鏄兘澶熶娇鐢ㄦ偍鑷繁鐨勬暟鎹泦寰皟鍜岃缁冩ā鍨嬩互閫傚簲鐗瑰畾浠诲姟銆備负浠€涔堟贩鍚堟悳绱㈠姝ら珮鏁堬紵寰堟槑鏄撅紝娣峰悎鎼滅储鏁堟灉寰堝ソ锛屼絾浠呮煡鐪嬪畾閲忔寚鏍囧苟涓嶈兘瀹屽叏鎹曟崏鍒版瘡涓粍浠跺甫鏉ョ殑鏀硅繘銆備緥濡傦紝瀵逛簬鏌ヨ鈥淐D-RW鍏夌洏鈥濓紝BM25姝g‘鍦颁负鏍囨湁鈥淰erbatimCD-RW700MB2X-12X鍙噸鍐欏獟浣撳厜鐩?25浠惰涓昏酱鈥濈殑浜у搧鎵撳垎銆傜劧鑰岋紝SBERT琚寘鍚澶氫笌鎼滅储璇嶇浉鍏崇殑鏈鐨勯暱鎻忚堪鏂囨湰璇浜嗭細鐢变簬CLIP妯″瀷渚濊禆浜庤瑙夌浉浼兼€э紝鍥犳寰堥毦鍖哄垎鈥淐D-RW鍏夌洏鈥濆拰鍏朵粬绫诲瀷鐨勫厜鐩樸€傚鏋滀綘鍘绘帀鏍囩鏂囧瓧锛屽畠浠浜虹被鏉ヨ鏄畬鍏ㄤ竴鏍风殑銆侰LIP妯″瀷缁欏嚭浜嗘渶楂樼殑鎺掑悕锛岃繖鏄剧劧涓庣敤鎴锋鍦ㄥ鎵剧殑浜у搧涓嶅尮閰嶏細褰撴煡璇㈣緭鍏ヤ笌鎻忚堪涓嶅尮閰嶆椂锛孋LIP琛ㄧ幇鍑鸿壊锛屼絾涓庝骇鍝佸浘鍍忕殑瑙嗚鍒嗘瀽鍖归厤銆備緥濡傦紝鏌ヨ鈥渆arbuds鈥濅笌鏂囨湰鏍囩鈥淢axell190329PortableLightweightBackofHeadExtendedComfortSoftTouchRubberMemoryNeckbandStereoCordNeckbandHeadphone-Silver鈥濅笉鍖归厤銆備絾瀹冪‘瀹炵鍚堜笅鍥撅細CLIP缁欒繖娆句骇鍝佹墦浜嗛珮鍒嗭紝鍥犱负CLIP鏍规嵁浜у搧澶栬姝g‘鍦板皢鍏惰瘑鍒负鈥滆€冲鈥濄€係BERT鍜孊M25閮介敊杩囦簡鏈€浣冲尮閰嶏紝灏嗕粬浠殑鏈€楂樺垎缁欎簡浼犵粺鐨勨€滃寘鑰冲紡鈥濊€虫満锛歋BERT鍦ㄤ骇鍝佸叿鏈夎壇濂芥枃鏈俊鎭殑鎯呭喌涓嬭〃鐜拌壇濂斤紝鍗充娇鍖归厤涓嶅噯纭€備緥濡傦紝鏌ヨ鈥渇iber-opticcable鈥濓紝SBERT杩斿洖鐨勫尮閰嶇粨鏋滃涓嬪浘鎵€绀猴細鐩告瘮涔嬩笅锛孋LIP瀵硅繖涓煡璇㈡病鏈夊仛浠讳綍浜嬫儏锛屽洜涓哄畠鏃犳硶浠庤瑙変笂涓庡叾浠栫數缂嗗尯鍒嗗紑鏉ャ€傝瘑鍒厜绾ょ數缂嗭紝CLIP杩斿洖鏈€鍖归厤鐨勪骇鍝佸涓嬶細灏咹ybridVigor闆嗘垚鍒版偍鐨勬悳绱㈢郴缁熶腑鍗充娇鍦ㄥ共鍑€鐨勮瑙夋暟鎹拰璇︾粏鎻忚堪鐨勬儏鍐典笅锛屽熀浜庢枃鏈绱㈡妧鏈粨鍚圓I椹卞姩鐨勭缁忕綉缁滅殑娣峰悎鎼滅储妫€绱㈡瘮浠讳綍涓€涓兘濂姐€傛悳绱㈡妧鏈晥鏋滄洿濂姐€傚ぇ澶氭暟鐜板疄涓栫晫鐨勭敤渚嬮兘涓嶅お鐞嗘兂锛屾弿杩颁笉鍑嗙‘銆佷笉鍏呭垎鎴栧畬鍏ㄧ己澶憋紝浜у搧鍥剧墖閫氬父寰堝樊鎴栨牴鏈笉瀛樺湪銆傚綋鐢ㄦ埛杈撳叆绮剧‘鐨勬枃鏈煡璇㈡椂锛屼粬浠湡鏈涙悳绱㈢郴缁熻繑鍥炴弧鎰忕殑缁撴灉銆傛墍浠ヨ繖涓夌鎶€鏈己涓€涓嶅彲锛岄兘鏄弧瓒崇敤鎴烽渶姹傦紝杩斿洖鑹ソ鍖归厤缁撴灉鎵€蹇呴渶鐨勩€傚熀浜嶫inaAI鐨勬鏋讹紝灏嗘悳绱㈢粨鏋滀笌閽堝鐗瑰畾鐢ㄤ緥鐨勫井璋冪浉缁撳悎锛岀敤鎴峰彲浠ユ瀯寤哄紑绠卞嵆鐢ㄧ殑楂樿川閲忔悳绱㈠簲鐢ㄣ€侸inaAI涓嶆柇鍓嶈锛屾垜浠嚧鍔涗簬閫氳繃鐩磋鐨凱ython妗嗘灦鍜孨oCode瑙e喅鏂规锛屼负鐢ㄦ埛鎻愪緵鏈€鍏堣繘鐨勪簯鍘熺敓绁炵粡AI骞冲彴銆傚鏋滄偍鏈変换浣曢棶棰橈紝娆㈣繋鍔犲叆鎴戜滑鐨凷lack绀惧尯涓庢垜浠仈绯汇€備綔鑰呯畝浠婱ichaelG眉nther锛孞inaAIML绉戝瀹禨cottMartens锛岄珮绾у竷閬撹€呰瘧鑰呯畝浠嬪惔涔﹀畞锛孞inaAI绀惧尯璐$尞鑰呭師鏂囬摼鎺ttps://jina.ai/news/hype-and-h
