馬海祥博客是一個專注于分享SEO優化、網站制作、網絡營銷和運營思維的自媒體博客!
馬海祥博客 > SEO優化 > SEO研究院 > 搜索引擎對相似圖片搜索識別的原理

搜索引擎對相似圖片搜索識別的原理

時間:2013-04-02   文章來源:www.xkwvgc.live   訪問次數:

最近一個朋友在跟我聊網站流量的時候,說他的前段時間剛做了一個圖片網站,通過3個月的奮斗,流量已經超過800ip了,這讓人有點不可思議,不過細細想來也有可能是因為百度的2013年星火計劃的原因。在前段時間百度剛剛發布的《2013年中國網站運營發展趨勢報告》中對2013年網站運營趨勢分析曾明確表明對圖片資源發展的重要性。在列出的四條中也正式聲明:

用戶對圖片的各種需求大幅增長,圖片資源也大幅增長,百度會加大對圖片資源的應用與合作

“2012年用戶對圖片類的需求在高速增長,且互聯網中的圖片資源也在大幅增長,為了更好的滿足用戶體驗,且將優質的圖片資源更好的展現給用戶,在2013年百度會加大對圖片資源的應用與合作。”  具體詳情查看《2012年中國網站發展情況及2013年網站運營發展趨勢匯總》。

那么對于我們這些非專業美工的seo人員來說,可以不去學習如何ps圖片,但是一定要知道搜索引擎是如何辨別圖片的。記得我以前曾發布一篇《Google圖片搜索辨別技術的原理》的文章,給大家介紹了圖片辨別技術的原理,今天同樣也借助馬海祥博客的平臺給大家介紹兩種最簡單的相似圖片搜索原理。

搜索引擎對相似圖片搜索識別的原理

一、顏色分布法

每張圖片都可以生成顏色分布的直方圖(color histogram)。如果兩張圖片的直方圖很接近,就可以認為它們很相似。

相似圖片搜索辨別的原理

任何一種顏色都是由紅綠藍三原色(RGB)構成的,所以上圖共有4張直方圖(三原色直方圖 + 最后合成的直方圖)。

如果每種原色都可以取256個值,那么整個顏色空間共有1600萬種顏色(256的三次方)。針對這1600萬種顏色比較直方圖,計算量實在太大了,因此需要采用簡化方法。可以將0~255分成四個區:0~63為第0區,64~127為第1區,128~191為第2區,192~255為第3區。這意味著紅綠藍分別有4個區,總共可以構成64種組合(4的3次方)。

任何一種顏色必然屬于這64種組合中的一種,這樣就可以統計每一種組合包含的像素數量。

相似圖片搜索的原理-顏色分布法

上圖是某張圖片的顏色分布表,將表中最后一欄提取出來,組成一個64維向量(7414, 230, 0, 0, 8, ..., 109, 0, 0, 3415, 53929)。這個向量就是這張圖片的特征值或者叫"指紋"。

于是,尋找相似圖片就變成了找出與其最相似的向量。這可以用皮爾遜相關系數或者余弦相似度算出。

二、內容特征法

除了顏色構成,還可以從比較圖片內容的相似性入手。

首先,將原圖轉成一張較小的灰度圖片,假定為50x50像素。然后,確定一個闕值,將灰度圖片轉成黑白圖片。

相似圖片搜索的原理-內容特征法

如果兩張圖片很相似,它們的黑白輪廓應該是相近的。于是,問題就變成了,第一步如何確定一個合理的闕值,正確呈現照片中的輪廓?

顯然,前景色與背景色反差越大,輪廓就越明顯。這意味著,如果我們找到一個值,可以使得前景色和背景色各自的“類內差異最小” (minimizing the intra-class variance),或者“類間差異最大”(maximizing the inter-class variance),那么這個值就是理想的闕值。

1979年,日本學者大津展之證明了,“類內差異最小”與“類間差異最大”是同一件事,即對應同一個闕值。他提出一種簡單的算法,可以求出這個闕值,這被稱為“大津法”(Otsu's method)。下面就是他的計算方法。

假定一張圖片共有n個像素,其中灰度值小于闕值的像素為 n1 個,大于等于闕值的像素為 n2 個( n1 + n2 = n )。w1 和 w2 表示這兩種像素各自的比重。

w1 = n1 / n

w2 = n2 / n

再假定,所有灰度值小于闕值的像素的平均值和方差分別為 μ1 和 σ1,所有灰度值大于等于闕值的像素的平均值和方差分別為 μ2 和 σ2。于是,可以得到

類內差異 = w1(σ1的平方) + w2(σ2的平方)

類間差異 = w1w2(μ1-μ2)^2

可以證明,這兩個式子是等價的:得到“類內差異”的最小值,等同于得到“類間差異”的最大值。不過,從計算難度看,后者的計算要容易一些。

下一步用“窮舉法”,將闕值從灰度的最低值到最高值,依次取一遍,分別代入上面的算式。使得“類內差異最小”或“類間差異最大”的那個值,就是最終的闕值。

相似圖片搜索的原理

有了50x50像素的黑白縮略圖,就等于有了一個50x50的0-1矩陣。矩陣的每個值對應原圖的一個像素,0表示黑色,1表示白色。這個矩陣就是一張圖片的特征矩陣。

兩個特征矩陣的不同之處越少,就代表兩張圖片越相似。這可以用“異或運算”實現(即兩個值之中只有一個為1,則運算結果為1,否則運算結果為0)。對不同圖片的特征矩陣進行“異或運算”,結果中的1越少,就是越相似的圖片。

本文發布于馬海祥博客文章,如想轉載,請注明原文網址摘自于http://www.xkwvgc.live/seoyjy/193.html,注明出處;否則,禁止轉載;謝謝配合!

相關標簽搜索: 搜索引擎   相似圖片識別   相似圖片  

上一篇:基于Cookie信息的互聯網精準廣告定向技術研究
下一篇:Alexa排名是什么?

您可能還會對以下這些文章感興趣!

  • 301永久重定向的設置方法大全

    301永久重定向是在搜索引擎優化中很常用的一個域名地址跳轉的操作,可以幫助我們轉移域名的權重,但是在做301重定向的時候由于服務器系統、網站程序語言、域名和鏈接地址的不同,使用的方法也不同,這個時候我們就需要根據具體的網站環境來制定不同的301重定向方法。……【查看全文

    閱讀:9302關鍵詞: 301重定向   永久重定向   301設置   重定向方法   日期:2014-10-17
  • 什么是長尾關鍵詞?

    網站上非目標關鍵詞但也可以帶來搜索流量的關鍵詞,稱為長尾關鍵詞。長尾關鍵詞的特征是比較長,往往是2-3個詞組成,甚至是短語,存在于內容頁面,除了內容頁的標題,還存在于內容中。搜索量非常少,并且不穩定。長尾關鍵詞帶來的客戶,轉化為網站產品客戶的概率比目標……【查看全文

    閱讀:7840關鍵詞: 長尾關鍵詞   關鍵詞   長尾關鍵詞是   關鍵詞是什么   日期:2013-10-12
  • 網站點擊率對關鍵詞排名到底有沒有影響

    網站的總流量對排名并沒有太大的直接影響,但是通過來自搜索引擎某關鍵詞的流量,相比同關鍵詞下的其它網站流量,對網站的該關鍵詞的排名影響較大。其它因素還有:網站用戶停留時間較長,你的網站PV量,跳出率。如果你的網站來自搜索引擎里面的點擊量相比其他來說更多,……【查看全文

    閱讀:4363關鍵詞: 網站點擊率   關鍵詞排名   點擊率   網站排名   關鍵詞   日期:2014-09-12
  • 影響搜索引擎算法和SEO優化的139個相關因素

    眾所周知,網站優化是隨著搜索引擎算法的升級不斷的探索和尋求效果的優化推廣方式,對于網站的SEO優化,也是SEO技術不斷提升的一個過程,隨著搜索引擎的算法在不斷的完善,網站的競爭應該會趨向于網站的內容,網站的內容越好,那么跳出率就不會高,排名也會比較的靠前,……【查看全文

    閱讀:907關鍵詞: 搜索引擎   搜索引擎算法   seo優化   seo因素   seo   日期:2014-07-31
  • 百度索引量下降的原因及解決方法

    作為一名專業的SEO人員,我們很多的時候都在研究站點中有多少頁面可以作為搜索候選結果,也就是一個網站的索引量,所謂網站索引量,就是搜索引擎抓取你網站的數量,這能影響到網站收錄率,是一個非常重要的SEO因素,索引量是流量的基礎,索引量數據的每一個變動都撥動著……【查看全文

    閱讀:5191關鍵詞: 百度索引量   百度   索引量   百度索引   日期:2015-05-21
  • 網站運營的八大SEO策略

    一個大型網站的SEO成功,絕不僅僅是依靠單一SEO技術的成功,最重要的還是靠SEO思維策略,并且把這些SEO思維策略融入到網站運營中,才能使其SEO達到最佳的效果!總的來說,SEO策略就通過實踐、總結、思考和創新來創造或者組合各種資源來達放大突破SEO效果,區別于SEO技術……【查看全文

    閱讀:1657關鍵詞: 網站運營   SEO策略   網站SEO策略   網站SEO   日期:2013-12-27
  • Google圖片搜索辨別技術的原理

    自從做了這個關于seo思維的馬海祥博客以后,最近一直在寫些關于seo經驗的文章跟大家分享,為了使文章更加的生動形象,增加趣味性,我也特意在文章中穿插了一些圖片,于是最近也就經常用百度圖片搜索、google圖片搜索功能,在使用的過程中,也使我對搜索引擎是如何把圖片……【查看全文

    閱讀:1107關鍵詞: Google圖片   圖片搜索   Google圖片搜   日期:2012-09-15
  • 影響谷歌搜索排名算法的5大趨勢

    從2010年開始谷歌的算法調整就非常的頻繁,熊貓、企鵝、蜂鳥算法等都是典型的例子,而這些算法都主要是打擊那些低質量鏈接和內容的網站,打擊黑帽SEO對互聯網帶來的不良影響。而那些給用戶提供高質量內容的網站將會獲得更好的排名,得到更多的訪客。這就意味著你的網站需要給……【查看全文

    閱讀:513關鍵詞: 谷歌搜索   排名算法   谷歌搜索排名   谷歌搜索算法   日期:2014-05-18
  • 百度人工詞:做SEO必須要知道的特殊關鍵詞

    在做SEO的行業里有這樣一個名詞人工詞,這個詞出現的頻率不高,但是卻很受爭議,因為它本身就代表著一種爭議。人工詞簡單地說也就是禁詞,這種詞所有人都想去做,去優化,因為至少他能給你的網站帶來巨大的流量。但是,你或許會遇到這樣的情況,不論你怎么優化,你的網站排名……【查看全文

    閱讀:1709關鍵詞: 百度人工詞   SEO   特殊關鍵詞   人工詞   關鍵詞   日期:2013-11-21
  • 詳解Google Analytics計算流量及統計流量的原理

    對于一個SEO來說,網站流量來源分析是一個至關重要的工作,因為從網站的流量來源分布情況,可以判定出我們近期工作的成效,也可以制定我們下一部工作的重點規劃,而對于大多數站長和SEOer來說,我們所依據的也都是依靠Google Analytics、百度統計和cnzz提供的流量記錄……【查看全文

    閱讀:3121關鍵詞: 計算流量   統計流量   日期:2014-08-02
↓ 點擊查看更多 ↓

互聯網更多>>

SEO優化 更多>>

一個完整的企業網站首頁應該具備什么因素? 如何利用極客精神優化網站的網絡組件和代碼
初一数规律题技巧