<address id="ousso"></address>
<form id="ousso"><track id="ousso"><big id="ousso"></big></track></form>
  1. 高維時空房地產數據的可視分析論文

    時間:2025-08-16 03:05:58 論文范文

    高維時空房地產數據的可視分析論文

      房地產數據是典型的時空高維數據,包含了樓展趨勢.可視化分析房地產數據能直觀、有效、交互盤的地理分布、樓盤價格和銷售量等其他未知的發式地展示數據,幫助用戶發現和分析這些已知的和未知的趨勢,具有重要的科學研究和應用前景.本文首先研究數據的地理位置、空間位置及其他屬性的聚類算法,并將這些算法集成到地學可視化組件、堆棧圖組件、像素條圖組件以及樹圖組件中,各個組件實現不同的可視化功能;然后將這些組件集成在一個基于HTML5開發的可視化分析系統中,實現了各個可視化組件的相互協同操作.本文的可視分析方法可揭示房地產市場的發展,以及房價、銷售數量、時間、文化和政策之間的關系.

    高維時空房地產數據的可視分析論文

      1相關工作

      地學可視化通過人們的感知理解與地理信息進行“交流”,并實現數據探索和決策分析,近20年來,Takatsuka等開發了GeoVISTAStudio可視分析環境,其允許用戶快速地建立自定義的可視化應用組件,用于分析空間數據;在此基礎上,Hardisty等提出了GeoViz開發包,使用基于組件協同的方式來輔助可視化應用程序的創建.

      近年來,很多時序數據可視化新技術不斷地被提出并得到發展.Havre等提出的主題河(ThemeRiver)用于可視化文檔中隨著時間變遷的主題變化;Byron等發展了用于可視化多個時間序列的堆棧圖,并更注重于可視化設計中的幾何特性和美感;Keim等提出了像素條圖,其無需數據的聚集就可以可視化大規模多維時序數據;Ziegler等集成了像素條圖用于可視化金融時序數據.由于房地產數據的銷售情況是離散分布的,因此本文提出了新非等長的時序數據聚類方法和可視化展現形式.

      在網絡應用程序方面,目前瀏覽器本地支持的繪圖逭染技術有SVG,HTML5的Canvas元素繪圖和WebGL等.當前的在線可視化應用有Spotfire?,Manyeyes[7]等.Spotfire是一個比較全面的富含多種可視化方式的商業平臺,可幫助用戶創建自定義的可視化分析程序,但其所含的可視化組件相對比較傳統,功能單一.Manyeyes站點提供多種多樣的獨立的交互式的可視化應用服務,但其是基于JavaApplet來實現各種數據的可視化,普及性不是很好.在用本文方法研發的系統(簡稱本文系統)中使用Canvas來創建各個可視化組件,使用WebGL緩存各個組件的可視化結果來加速可視化的繪制和用戶交互.

      在類似的在線房地產數據可視分析方面,Tableau公司?提供了在線的可自定義的房地產可視分析解決方案,但需要具有相對專業的知識才能使用;Search,ch公司③自動收集了瑞士各大售房網站上的廣告并采用地圖的形式展示出來,可實時地提供樓盤價格等,但其缺乏分析能力;Hotpads公司④同樣提供了基于地圖服務的樓盤銷售與租賃信息,其用房屋圖片的大小和形狀表示不同樓盤的價格及其他屬性等.

      2可視化組件的設計

      本文系統包括5個可視化組件:地學可視化組件(GeoMap),展示樓盤銷售數量變化的堆棧圖組件(StackedGraph),展示樓盤多維屬性的像素條圖組件(Pixel-bar),平行坐標組件(ParallelCoordinatorPlot)和展示數據層次結構的樹圖組件(Treemap).下面重點介紹本文開發的GeoMap,StackedGraph,Pixel-bar和Treemap4個組件.

      2.1GeoMap

      每個樓盤標記用地圖上的一個圓點或者圖標來表示,圓點的顏色和大小用于編碼數據的不同維度,如圖la所示,高銷量樓盤標記覆蓋在低銷量樓盤標記的上面,且在地圖上疊加了規劃單元.圖1b所示為用貨幣符號的大小表示樓盤價格不同的區間段.

      由于在繪制過程中可能需要將數百個樓盤標記展示在一個小區域內,而直接在瀏覽器內繪制大量樓盤會降低運行性能,因此本文將地理位置相近的樓盤進行聚集以提高可視化效果.GoogleGeoAPI小組?提出了基于網格的聚類方法,首先將地圖切分為固定大小的網格,網格的大小隨著地圖縮放比例的變化而自動更改;然后根據各樓盤的經緯度坐標將它們分配到各自的網格中.該方法在瀏覽器中執行速度快,但是存在一個顯著的問題--地理位置相距很近的樓盤可能被分配到不同的網格中.另外一種方法,即傳統的基于距離的聚類方法雖然解決了上述問題,但需要遍歷所有的樓盤標記數次,在用戶瀏覽器中執行速度并不理想.

      本文提出一種改進的基于網格的聚類算法,步驟如下:

      Stepl.如果存在未被聚類的標記,則選擇之;否則,算法結束.

      Step2.如果該標記位于某一聚類所代表的網格中,則將該標記添加至該聚類中,同時計算該網格中所有標記的幾何中心作為該聚類的新聚類中心,轉Stepl;否則,將該標記構造為一個新的聚類,聚類所代表的網格大小根據地圖縮放比例自動設置,轉Stepl.

      該算法只需要遍歷所有的樓盤標記點一次即可完成聚類,執行速度快,能夠快速響應用戶在瀏覽器中對地圖進行縮放的操作,實時更新聚類,如圖lc所示,其中的數字表示該聚類內樓盤的數目.

      本文統計了每個聚類內所含樓盤的屬性,并提出了一種新穎的可視化方式,用放置在聚類圖標周圍的圓弧表示不同的統計信息.如圖lc所示,聚類圖標左邊的圓弧表示該聚類內樓盤的銷售數量,圓弧的長度用于編碼銷量的多少;而右邊的圓弧則用于表示聚類內樓盤的均價.

      2.2StackedGraph2.2.1布局和排序

      堆棧圖有多種布局方式,如傳統的堆棧圖布局方式,ThemeRiver布局方式[3],StreamGraph布局方式[4]和最小擺動布局方式[4]等;以及多種不同的排序方式,如基于堆找圖中各層開始時間點的排序,基于各層動蕩性的排序和基于各層的數據總和大小的排序等.

      在堆棧圖布局方式中,本文將樓盤銷售時間序列轉換成相對應的》個非負、可微且連續的函數/,,/2,…,A,值域轉換為[0,1].定義堆棧圖底部為基準函數g。,第;層&表示g。與時間序列函數的總和,定義為

      排序方式.基于各層動蕩性的排序方式,應將越動蕩(即樓盤銷量變化越明顯)的層放置在圖的外圍用于避免堆棧圖的整體變形,或放置在圖的中央位置用于查看堆棧圖的整體動蕩情況.基于各層數值大小的排序方式,根據各層的數值總和進行從大到小或從小到大的排序.

      不同布局和排序的組合可被適當地應用于房地產數據.本文根據房地產數據的特殊性,提出了堆棧

      圖的布局和排序方式的組合,使其更加適用于房地產數據的分析.如圖2a所示的堆棧圖使用StreamGraph布局和基于動蕩性的排序方式展示了所有樓盤銷售數量的動蕩情況,可以看出,大部分銷售數量高的樓盤所表示的層(顏色較深的層)分布在圖的外圍,且這些樓盤的銷售數量隨著時間變化比較劇烈.因此可以認為,樓盤銷量與銷售所持續的時間以及銷量起伏的動蕩程度存在一定的聯系.

      2.2.2文字標簽

      將表示各層屬性的文字標簽恰當地標注在堆棧圖中的各層也是一個具有挑戰性的問題.較好的設計方案能夠使文字標簽自適應各層的大小,各個文字標簽在堆棧圖中不會造成重疊且具有較好的視覺美感,而在堆棧圖含有數百個層的情況下,僅僅用一張靜態的堆棧圖幾乎不可能很好地達到這個目標.

      本文將銷售數量高的樓盤的標簽直接繪制在圖上,其余樓盤的標簽隨著用戶選擇某一層時自動彈出,如圖2b所示.某一層文字標簽的字體大小S=L/TXH,

      其中,L表示該樓盤的銷量總和,了表示圖中所有樓盤的銷量總和,H表示堆桟圖顯示區域的高度.當S小于某一閾值時,該標簽將不會展示在圖中?由于StreamGraph布局中的文字標簽可以分布在基線的兩側以降低文字標簽的重疊,因此提高了圖的可讀性.

      2.3Pixel-bar

      本文使用像素條圖對樓盤的價格或銷量數據進行可視化,觀察單個樓盤的銷售情況,并對可視化結果進行聚類.在圖3a所示的像素條圖中,每個像素條表示一個樓盤,每個像素條的橫軸表示時間的跨度,每個時間點上的顏色表示該樓盤在該時間上的統計信息,如某一周(或月)內的平均價格或者銷售數量總和.樓盤均價主要分布在10000?40000元之間,而銷售數量分布較廣,從幾套直至上千套?為了避免顏色編碼結果的單一性,本文對銷售數量取對數操作.通過查看像素條圖上的顏色分布,可以清楚地看到樓盤銷售的時間區間以及房地產市場整體的銷售情況和價格走勢.

      由于每個像素條的顯示區域都只占用同樣的高度,因此使用像素條圖展示大量條目的數據可幫助節省顯示空間,且布局更加整齊?但由于大量的像素條被繪制在圖中容易導致用戶感官上的混淆,本文針對房地產數據的特殊性,基于K-means聚類算法[7]對得到的大量像素條進行聚類-

      首先,用戶在地圖上選擇需要用像素條圖進行可視化的樓盤,并設置聚類數目為然后,算法隨機選擇》個樓盤作為初始的聚類中心,迭代剩余所有樓盤,計算其與n個初始聚類中心的距離,該距離可定義為樓盤和聚類中心的平均價格差或者銷售數量的差,并將距離最近的樓盤添加到該聚類中心;最后,計算聚類中心所含樓盤的價格平均值或銷售數量平均值以更新聚類中心,重復以上迭代操作,直至聚類中心不再發生變化.

      如圖3a所示,每一聚類作為一列繪制在聚類后的像素條圖中,聚類內的像素條基于價格從上到下降序排列.

      由于上述方法僅僅局限于樓盤的單個屬性,因此本文提出了一種同時基于樓盤價格和銷量的聚類方法.由于不同樓盤的銷售時間不同,且時間是離散或者持續的,因此本文首先根據樓盤的銷售數量對樓盤進行分段,然后在各段中根據樓盤的價格進行排序.在樓盤分段過程中,首先計算每個樓盤的銷售數量總和并升序排列,如圖3b中折線圖所示,并在該折線圖上使用基于PIPs(perceptuallyimportantpoints)的分段方法M進行識別.圖3b中,&(&,%)和P2,力)作為初始的2個PIPs,P3U3,y3)為離初始2個PIPs所連直線垂直距離最遠的一個點.該垂直距離

      通過同樣的方法迭代被巧分割后的折線段可以得到剩余的PIPs,之后就得到了不同銷售數量的樓盤類別.本文將每個樓盤類別作為一列繪制在圖中,各列根據其平均銷量從左到右升序放置;在各列中,本文根據樓盤均價對樓盤進行降序排列,如圖3c所示.

      2.3Treemap

      本文結合Treemap展示數據的層次結構并揭示其所蘊含的空間信息,Treemap中的布局和排序方式決定了各節點在圖中的排列方式,而這些排列方式決定著Treemap展現其所蘊含著的模式和規律的能力.本文根據房地產數據的特殊性,提出了如下布局方式和排序方式的組合,使其更加適用于房地產數據的分析.

      圖4a所本為含有2個層次的Treemap,其中使用了非常有助于排名類問題的有序正方化布局算法[?.該布局算法首先根據節點所表示數值的大小對節點進行降序排列,并沿著左上角到右下角的對角線將節點放置在圖中.圖4a中第一層次表示杭州的行政劃分單元,嵌套其內的第二層次表示各個樓盤,其節點的面積大小和顏色用于編碼樓盤的銷售均價.

      在有序正方化布局的基礎上,本文直接使用表示樓盤地理位置的經緯度屬性替代之前計算得到的二維位置,即空間有序布局[1°],其非常適合可視化包含空間信息的數據.如圖4b所示,每個節點在樹圖中的位置盡量放置貼近于其所表示的樓盤在地圖上的地理位置;每個節點面積相等,使得布局更加整齊且更有利于保留原有的地理位置信息;節點的顏色用于表示樓盤的價格或者銷量.通過空間有序布局,可以解決保留在Treemap中原始數據的相關地理信息,提高用戶對該類數據的感知能力.

      當只考慮保留數據一維信息時,基于正方化布局的條帶布局方式[11]比較適合.如圖4c所示,其將節點從左到右或者從上到下進行排序,同一層次內節點的寬度(或高度)保持不變.該布局方式執行速度快,且能很好地保證樹圖順序性和連貫可讀性[I2].

      3實驗數據和系統實現

      3.1實驗數據

      本文抓取了杭州房產信息網、杭州透明售房網、住在杭州網和杭州市規劃局網站4個站點的杭州市房地產相關數據.使用本文系統涉及的數據包含了杭州市382個樓盤和超過40000條的銷售數據,時間從2007-09-2011-11.-個樓盤的屬性包括樓盤識別符、名字、坐標的經緯度、其所在的行政單元、規劃單元、物業類型、開發商,以及樓盤每天的預訂數量、交易數量、銷售價格、樓盤總套數、總面積、住宅套數、住宅面積、開盤次數等.

      3.2系統實現

      本文系統服務器端使用J2EE實現,客戶端基于HTML5開發,其可直接運行在任何兼容HTML5的瀏覽器內.該系統在Intel?Pentium?ProcessorE5300(2.66GHz),3GBRAM,NVIDIAGeForceG100GPU(512MBRAM)的計算機上進行測試,由于使用了WebGL技術,其能夠在瀏覽器中快速地渲染可視化結果并進行交互.

      本文針對各個組件設計了良好的交互操作,如組件的縮放操作、樓盤套索選擇操作、用戶偏好選擇等;同時設計了一個顏色選擇工具,幫助用戶選擇適當的顏色與組件進行交互.該顏色選擇工具使用了ColorBrewer[13]顏色方案中的“定性顏色類別(qualitativecolorgroup),’?選定了某一顏色之后,用戶可以使用該顏色框選出需要在其他可視化組件中高亮顯示的樓盤,如圖3c所示.

      在系統實現開發上,任磊等[14]提出了基于交互式信息可視化界面模型以及開發方法Daisy,提供對層次、網絡和多維等數據類型的統一支持.本文使用了基于組件的可視化模型,各個組件單獨分離開來,采用統一的內部協調器將各個組件的廣播事件和監聽事件鏈接起來,實現協同可視化.本文系統概覽如圖5所7K,其中①?④分別對應GeoMap,StackedGraph,Pixel-bar和Treemap.各個可視化組件界面均可設置為半透明,從而避免視覺上各組件間的遮擋.

      4案例分析

      4.1對決策者的可用性分析

      用戶可以在本文系統中使用堆棧圖來探索樓盤銷量的模式與趨勢,以發現一些宏觀的模式,幫助決策者更好地理解此大數據集并做出相應的決策.

      本文系統首先用樓盤套索選擇所有的樓盤并進行分析,如圖6a所示,此堆棧圖采用了傳統的堆棧圖布局方式.通過仔細觀察可以發現,如2008年金融危機導致的銷售低谷,2008年底由于國家與地方政府出臺的一系列房地產調控政策所帶來的2009年房地產銷售高潮,以及2011年國家與地方政府出臺的限購令導致樓盤銷售大幅下滑.

      在分析了所有樓盤的堆棧圖之后,本文進一步可視化了不同地區的樓盤銷售情況,期待能夠發現這些年城市的發展情況.

      圖6b展示了中央商務區和城西樓盤銷售的堆棧圖,圖6c所示為杭州市東南方向的濱江區和北面的九堡等地區的樓盤銷售堆棧圖,杭州市東北方向的下沙區和城北地區的樓盤銷售堆棧圖如圖6d所示.可以發現,圖6b中樓盤銷售時間集中在2008年和2009年,而在中央商務區外圍以及沿著錢塘江的樓盤大部分在2009年被售出(如圖6c所示),更外圍的樓盤的大部分在2009年和2010年被售出.這些堆棧圖幫助我們發現和驗證這些年杭州市發展所存在的外擴趨勢,而且主要往城市的東部和北部擴張.

      4.2用戶反饋和專家訪問

      我們將本文系統展示給10位有剛性需求的普通購房者、5位欲投資房地產的商人以及由7人組成的有專業知識的房地產研究小組,以期獲得有價值的評論和建議.

      反饋結果表明,普通用戶和專家都認為本文系統提供的交互式、可協同的可視分析組件可以幫助他們快速地了解房地產的概況.購房者認為,Treemap的結合可以幫助他們很直觀地看出當前樓盤在地圖上所處的大概位置.除了對本文系統功能的評論外,他們建議可引人經濟學中的房地產模型,如HedonicPriceModel等,以及引人更多的參考因素,如土地價格,來增強系統的綜合分析能力.

      5總結

      本文提出了新的房地產信息可視化方法,研究了基于HTML5的在線可視分析方法,幫助普通用戶和專家快速地感知數據特征以及從數據中發現有趣的“故事在這些組件中,本文提出了諸如基于樓盤地理位置的網格聚類方法、基于樓盤價格和銷量的聚類方法等;同時,又根據房地產數據的特殊性提出了不同布局方式和排序方式的組合,使其更適用于房地產數據的分析.一些成熟的交互技術也被集成到本文方法所實現的系統中,來自普通用戶和專家的反饋均認可了本文系統分析的準確性和有效性.

      下一步,我們計劃將其他城市的房地產數據添加到數據庫中,并集成其他的金融信息、政策信息和新聞;同時,計劃添加更多的交互式分析技術以增強系統的分析能力,并與現有的可視化組件互補.

    【高維時空房地產數據的可視分析論文】相關文章:

    數據分析報告07-15

    數據分析報告03-26

    數據分析報告通用12-15

    數據分析個人報告12-20

    個人的數據分析報告10-27

    銷售數據分析報告07-10

    數據分析報告優秀09-10

    會議室可視化運維管理解決方案06-28

    關于店鋪數據分析報告01-03

    數據分析工作總結10-10

    <address id="ousso"></address>
    <form id="ousso"><track id="ousso"><big id="ousso"></big></track></form>
    1. 日日做夜狠狠爱欧美黑人