Ba năm…
Trong giai đoạn nền kinh tế hội nhập và tăng trưởng mạnh mẽ như hiện nay, thị trường bất động sản (BĐS) Việt Nam đang phải đối mặt với nhiều thách thức, trong đó điển hình là vấn đề thông tin minh bạch.
Nhìn từ góc độ vĩ mô, đây là vấn đề được rất nhiều các nhà đầu tư trong và ngoài nước quan tâm. Theo thông tin từ Bộ Xây dựng, 1 trong số 10 nguyên nhân dẫn đến yếu kém của thị trường BĐS Việt Nam là “hệ thống thông tin, dự báo về thị trường BĐS còn nhiều bất cập, chưa phát huy được vai trò quản lý của nhà nước trong việc định hướng, điều tiết vĩ mô và kiểm soát hoạt động của thị trường”. Điều này xuất phát từ việc thiếu công cụ cho phép quản lý chặt chẽ, giám sát tập trung các số liệu về thị trường. Các nguồn dữ liệu được cung cấp bởi các bên nghiên cứu độc lập còn thiếu nhất quán, gây nhiễu loạn thị trường. Một ví dụ điển hình cho việc nhiễu thông tin là việc cuối quý I năm 2016, CBRE và Savills (2 nhà môi giới và tư vấn bất động sản hàng đầu trên thế giới) họp báo cùng ngày và đưa ra những con số thống kê khác nhau đã khiến thị trường trao đảo, gây hoang mang cho các nhà đầu tư.
Đối với người dùng cá nhân, cụ thể hơn là những người có nhu cầu mua, bán nhà, hiện nay, trên các kênh thông tin bất động sản chưa cung cấp cho họ những thông tin tham chiếu cơ bản để quyết định mua, bán nhà. Cụ thể hơn, thông tin lịch sử biến động giá nhà, chung cư của một BĐS, dự án cụ thể trong quá khứ và dự báo trong tương lai. Điều này dẫn đến tình trạng hét giá, thổi giá cùng tâm lý dè dặt của người mua nhà, khiến cho thị trường BĐS phát triển kém hơn so với tiềm năng thực tế.
“Qua khảo sát, nhóm nghiên cứu nhận thấy, hiện nay, các website BĐS trên thị trường vẫn còn sơ khai, chỉ liệt kê tin rao BĐS thuần tuý như các website rao vặt thông thường, không có đủ nguồn dữ liệu bao quát toàn thị trường cũng như không có công nghệ để xử lý nguồn dữ liệu này. Các doanh nghiệp lớn như Savills, CBRE đã cung cấp số liệu thị trường BĐS, tuy nhiên chỉ dừng ở mức vĩ mô và định kỳ hàng quý. Các báo cáo chuyên biệt thường có chi phí cao do cách thức xây dựng số liệu đa phần thông qua khảo sát và phân tích từ chuyên gia, khó mở rộng và thực thi liên tục, tức thời. Tất cả những vấn đề trên chỉ ra tính cấp thiết cần có một hệ thống thông tin về BĐS cung cấp cho người sử dụng những thông tin thống kê, phân tích khách quan, minh bạch và chất lượng về thị trường BĐS. Hệ thống hỗ trợ đắc cho lực vai trò quản lý của nhà nước trong việc định hướng, điều tiết vĩ mô và kiểm soát hoạt động của thị trường BĐS. Năm 2015, những nghiên cứu đầu tiên về một website nhằm giải quyết những câu hỏi đó được nhóm nghiên cứu bắt tay triển khai. Sau hơn 3 năm triển khai, đến nay Giasan.vn đã hoạt động ổn định, mặc dù mới đưa vào sử dụng nhưng lượt truy cập hàng ngày đã đạt từ 30.000 – 60.000 lượt”. TS Nguyễn Việt Trung cho biết.
Và làn gió mới cho thông tin thị trường bất động sản
Ngay từ khi bắt tay vào xây dựng đề tài, Nhóm đã xác định bốn thách thức lớn cần giải quyết.
Thứ nhất: Để cung cấp thông tin phân tích toàn cảnh về thị trường BĐS, hệ thống cần thu thập dữ liệu từ tất cả các nguồn tin BĐS trên Internet. Để giải quyết vấn đề này, nhóm đã xây dựng được người máy (BOT) thu thập dữ liệu mà tự động tìm kiếm và duyệt Internet. BOT này có khả năng thu thập thông tin có tính chọn lọc cao, tự động phân loại các website, trong các website tự động phân loại trang tin rao BĐS sao cho số lượng các trang phải duyệt là tối ưu và luôn cập nhật. Việc dò tìm tự động này nhằm đảm bảo thu thập được nhiều nhất tin rao nhất có thể, từ đó bám sát toàn cảnh thị trường BĐS. Các điểm mấu chốt mà các BOT thu thập dữ liệu phải đảm bảo: Thu thập tự động nhiều nguồn trên Internet; Phân biệt tên miền, URL là tin rao hay là tin tức; Bám sát các tin rao mới cập nhật đồng thời bóc tách các trang tin rao chi tiết ở mã HTML khác nhau về cùng chuẩn.
Thứ hai: Để phân tích dữ liệu về thị trường BĐS, điều kiện tiên quyết cần nắm bắt địa chỉ của mỗi BĐS mà nó trực thuộc. Vì vậy, bước đầu tiên của quy trình xử lý dữ liệu, giasan.vn cần phải chuẩn hóa địa chỉ của BĐS thành các phần, cụ thể là tỉnh/ thành phố, quận/huyện, phường/xã, đường/phố, dự án. Tuy nhiên địa chỉ của các tin rao BĐS tại Việt Nam thông thường không theo chuẩn mực, viết sai chính tả, thiếu các thành phần phân cấp hành chính hay đơn giản là viết tắt. Điều này khiến cho việc chuẩn hóa địa chỉ một cách tự động là bài toán xử lý ngôn ngữ tự nhiên đầy thách thức. Giasan.vn nghiên cứu và triển khai thành công các kỹ thuật nhận dạng thực thể trong văn bản kết hợp với một cơ sở dữ liệu chuẩn về các cấp hành chính ở Việt Nam để thu được kết quả chuẩn hóa địa chỉ chính xác nhất.
Thứ ba: Do nguyên nhân chủ quan và khách quan, thông tin về BĐS thường xuyên xuất hiện các tin rao có giá quá thấp hoặc quá cao, diện tích không hợp lý. Ngoài ra, người đăng tin BĐS cũng có xu hướng đăng tin trùng lặp lên nhiều website khác nhau hoặc sử dụng các công cụ làm mới những tin cũ. Các tin rao này nếu vẫn đưa vào phân tích và vẽ các biểu đồ chỉ số BĐS sẽ gây ra nhiễu, làm sai khác số liệu thị trường, do vậy cần phải loại bỏ.
Giasan.vn sử dụng kỹ thuật học máy, cụ thể là lớp giải thuật được xây dựng sẽ thu thập và làm sạch dữ liệu trùng lặp. Qua thử nghiệm và hoạt động thực tế, giasan.vn có tốc độ chuẩn hóa bóc tách tự động tương đối nhanh và kết quả thu được có độ chính xác cao.
Với mục tiêu trở thành kênh thông tin tổng hợp, cung cấp đánh giá toàn diện về thị trường BĐS trong thời gian dài, nhóm thực hiện đề tài đã gặp phải thách thức cuối cùng đó là việc lưu trữ và phân tích dữ liệu lớn. Nhận thức được điều này, giasan. vn sử dụng các nền tảng lưu trữ và xử lý dữ liệu lớn nguồn mở như Apache Spark, hệ sinh thái Hadoop triển khai trên cụm máy tính hiệu năng cao. Trên nền tảng xử lý dữ liệu lớn, giasan.vn xây dựng các giải thuật phân tích dữ liệu để đưa ra các báo cáo khách quan về thị trường, liên tục và cập nhật.
Một trong những bài toán cơ bản nhất đó là tính toán giá trị BĐS trung bình theo từng vùng, theo từng loại BĐS và theo từng hình thức giao dịch BĐS. Do số lượng tin đăng BĐS là vô cùng lớn, nếu thực hiện tính toán bằng các truyền thống trên một máy tính với tài nguyên giới hạn, thời gian tính toán sẽ vô cùng lâu. Vì thế các tính toán phải được thực hiện song song, phân tán, tận dụng tối đa tài nguyên phần cứng để đảm bảo thời gian tính toán nằm trong giới hạn cho phép.
Ngoài ra, ứng dụng kỹ thuật phân tích dữ liệu lớn, giasan.vn đã xây dựng được mô hình dự đoán tin rao BĐS là chính chủ hay của môi giới và mô hình định giá BĐS tự động. Giasan.vn đề xuất mô hình định giá BĐS tự động theo phương pháp hồi quy không gian. ■
CÁC TÍNH NĂNG CỦA GIASAN.VN
Thu thập thông tin BĐS toàn thị trường tự động bằng cách xây dựng máy tìm kiếm hướng mục tiêu
Xây dựng hệ thống lưu trữ và xử lý dữ liệu lớn cho dữ liệu BĐS trên toàn lãnh thổ Việt Nam
- Bóc tách thông tin BĐS một cách tường tận sử dụng công nghệ xử lý ngôn ngữ tự nhiên
- Định giá BĐS tự động dựa trên vị trí và các thuộc tính sử dụng các phương pháp học máy cho dữ liệu lớn
- Tính năng tìm kiếm thông tin BĐS theo khu vực với lịch sử giao dịch giá BĐS trung bình qua thời gian theo từng loại BĐS và theo từng mức phân cấp hành chính (tỉnh/thành phố, quận/huyện …).
- Phân loại, nhận dạng người đăng tin BĐS là môi giới hay chính chủ qua hành vi và văn phong trong mô tả về BĐS
- Chấm điểm đánh giá các BĐS cũng như các khu vực tự động về về môi trường, chất lượng, tiện ích.
- Phân tích môi giới theo khu vực hoạt động, chấm điểm theo các tiêu chí chuyên nghiệp, thân thiện, chuyên môn
NGUYỄN SÁNG