假面战队五骑士02在线
  1. 首頁
  2. 資訊

Firouzian:數據工程師是IT行業最熱門的工作

  10月26日消息,2012全球軟件開發大會(杭州站)進入第二天議程,PayPal上海風險技術主管Patrick Firouzian在會上發表主題演講,分享Paypal的在線與離線大數據欺詐風險管理技術

  10月26日消息,2012全球軟件開發大會(杭州站)進入第二天議程,PayPal上海風險技術主管Patrick Firouzian在會上發表主題演講,分享Paypal的在線與離線大數據欺詐風險管理技術。

  據Patrick Firouzian介紹,目前Paypal已出現在世界190個市場上,其支付平臺跨129個國家,交易額達1500億美元。他還指出,對于中國這樣一個有著“世界上最大的一個生產基地”之稱的國家,Paypal是一個非常實用的平臺。在中國上海,PayPal有800名員工,可以提供風險管理、客戶支持,還有技術服務。

  Firouzian表示,目前互聯網上在IT方面最熱門的工作,不是安全而是數據分析。而數據工程師是互聯網上最熱門、工資最高的工作,數據工程師的工作主要是負責處理一個公司硬件設備中存儲的數據,并且分析詮釋數據。

  對于大數據的定義,Firouzian認為大數據不是一個大的數據倉庫。大數據包括價值、速度、種類、流量等。大數據并不是說有很多數據聚集帶一起,而是說你怎么使用這個數據,大數據其實還包含很多技術可以使用。

  他指出,大數據是一個非常成熟的科學,Paypal也在對開放源和工具方面做一些貢獻,相信谷歌(微博)、Facebook的人員也在做這種工作。數據工程師是IT行業最熱門的工作,他認為,這是一門藝術,數據工程師在未來是一個很好的工作,大家可以考慮這個工作。

  今年有來自于騰訊、阿里巴巴、淘寶、盛大、天翼、百度、陌陌、支付寶等公司的一線技術專家,以及國外的Facebook、Tumblr、PayPal、RightScale的講師等國內外技術專家出席了本次大會。

  騰訊科技作為大會戰略合作伙伴、官方指定微博平臺,全程圖文、微博直擊大會盛況。

  Patrick Firouzian:我是ebay,我們是大數據的團隊,杭州很漂亮,這么漂亮的地方,我很高興在你這里,很高興你們也在這里。今天介紹的內容很有意思,剛才大家提到江南STYLE,你們誰會跳這個騎馬舞?我給你們發獎品。這個不要發大微博上,我一會給你發一個獎品。

  接下來我們還是繼續講,今天給大家介紹的內容就是大數據方面的內容,以及欺詐檢測。今天介紹的內容不是大數據方面的培訓,也不是做一個放欺詐方面的培訓,只是給大家提一些想法。現在在我們平臺上面有這么多商戶,大家可以通過Paypal進行付款。大家看到過我們這個標志嗎?用這個東西可以把你的信用卡,你用一個蘋果或者安卓終端就可以了,因為直接可以用你的信用卡,很安全的,里面已經是加密了。總之,這是一種新的方法,讓大家不需要其他東西就可以支付,在中國,這些設備逐漸出現了,接下來會介紹一下Paypal,Paypal大家都比較熟悉,在世界190個市場上都有我們的出現。我們支付平臺跨129個國家,而且我們的交易額達到了1500億美元,我們第一個問題就是大家對Paypal這塊,看到它這個收入,你覺得排十名是哪幾個國家?我們看一下,Paypal拍前面5名收入城市。我們知道中國是世界上最大的一個生產基地,是世界工廠,中國的商戶如何賣他們的產品?他們使用的撇太是什么?他們付款的時候很多是用Paypal,這是一個非常實用的平臺,我們在很多國家都有。在中國上海,我們就有800名員工,我們提供風險管理、客戶支持,還有技術。

  我們知道因特網的欺詐有很多不同的面具,實際上Paypal就是一個銀行,以前你如果搶銀行的話,需要拿武器,進去以后你會說不交錢就開槍。或者有的時候需要里面安裝炸藥,現在在家里就可以搶銀行了,有軟件有電腦就可以賺錢了。但是你還是會被抓進監獄,所以我們要做的工作就是確保這筆錢,你的交易是安全的。有很多人他們想在EBAY上面占便宜,有很多機器人、外星人,什么人都有。你們大家有試過嗎?你如果在我們上面試過欺詐的話,我可以雇傭你,很賺錢,我們知道有很多公司是通過這種方法來賺錢的,他們用黑客方法侵入因特網,這是非常危險的。

  這是一家俄羅斯的公司,他們會賣你一些黑客軟件,這樣你可以侵入一些網站,你可以賺錢。這是一個業務,你看他們有辦公室,而且他們也有客戶支持。如果您賣這樣的軟件,侵入一個公司,比如說淘寶、阿里巴巴,或者是Paypal,你是沒法成功的。比如說你跟他們客戶聯系,讓他們可以幫助你,你覺得很有意思嗎?既然有這樣的事情,但是你可以看出來,每一個因特網的網站里面都是有錢,比如說每個身份,有知識產權,這些都是可以偷的一些財產,我們是軟件工程師,我們要確保因特網的盜竊不會發現。大家覺得這個會議有意思嗎?有意思是吧。在這兩天聽敏捷這個詞聽了多少次了?敏捷是一個很有意思的詞,Paypal、EBAY,我們在很久以前就開始用敏捷了。我們的客戶他們也相信我們的公司,我們通過軟件來進行檢測因特網的欺詐。通過這種方法,你可以更好的保護你的平臺。

  這是我們的客戶,一會兒我會有一些案例給你們做一些分享。在這里,你可以看到這個女孩子在賣一個IPAD,昨天新出的迷你IPAD非常酷。她在紐約,我們知道他的IP地點,知道她的電話號碼。我們再看一下她的交付地址,我們來計算一下兩者之間的差距,很可能他就住在它的送貨地址,看一下她的IP地址,IP物地址也是在紐約,這是都是自動化結算的。再看一下她的IP地址,她是通過代理服務器做的。有可能這里面有一些風險,因為很多人可以用代理服務器來越過防火墻,或者把你的真是身份掩蓋一下,我們有一個軟件可以查出來這些問題。

  我們再看一下她這個地址是不是一個貨代的地址,有可能她在隱藏自己真實的地址。我們在看一下她這個地址還是可以的,到底這個交易是好的還是不好的?我們認為是好的,是沒問題的。接下來我還會給大家講講哪些是比較有高風險的交易。當然,現在我們在解決寫非常有意思的問題,繼續向前看。

  事實上Paypal在全球市場上有幾個市場?30個?190?非常好,你離我很遠,我要想辦法把這個拋給你。還要誰想要?我們經手的是多少個貨幣?我想讓大家不要昏昏欲睡,所以給大家發一些小禮品。大家知道莫爾斯定律,就是電腦的績效隨著年代的推移,不噸的加速提升。我們現在所面臨的復雜化的程度在支付行業里面復雜性和過去相比,要高的多。同時還有欺詐,欺詐也是復雜的多,因為欺詐的面目是千變萬化的,這次欺詐完了之后,下一次欺詐你的其他又完全不一樣了,他們不噸在欺詐方面有新的創新。我們現在媒體處理的是兩億件,事件大家知道MQ嗎?這些所有的實踐都會生成實踐處理系統,他們會產出一些新的事件,我們會使用很多的線上的事件在系統里進行處理,這就意味這所有的事件我們都要對它們做一些工作,進行處理。里面包含很多的情報,這系數據里面很多情報我們都是不知道的。

  大家知道互聯網上最熱門的工作是什么嗎?互聯網上在IT方面最熱門的工作是什么?安全?可能是不能熱門的工作,數據分析是最熱門的。數據工程師是互聯網上最熱門的工作,每個人都希望去尋找一個數據工程師,必須有人對這個數據進行處理,數據進如到系統之后,一個公司就會去買硬件去存儲數據,得到數據得到怎么做?他們把這些數據交給數據工程師,讓他們去處理,并且分析詮釋數據。所以說現在在目前,我們工資最高的,最熱門的工作就是數據工程師了。我們可以去觀察一下,如果我從頭再來開始我的事業路徑的話,我可能會選擇這個工作。

  這個數據從那里來?如果你是一個制造業,或者航空業的公司,你每天會接觸到很多事件,比如說航空公司一個飛機再一次飛行當中所進行的數據是照照自己,而對于支付寶、Paypal來說,我們所要接受的支付前的時間和支付后的事件,里面都包含千萬的數據,這是我們每天多要處理的,我個人自己要去買一個東西的時候,我首先在互聯網上搜尋一些信息,有的時候我在商店去買,但是在中國比較難了,它們不會那么方便的把貨品送上門,現在我們可以選擇不特的方式,比如說在商品支付,線上線下支付,現在情況和過去相比有很大改變,你可以用不同方法購物。

  大的數據是什么?誰知道什么是大數據?大數據是不是一個大的數據倉庫?是嗎?不是的。就是價值、速度、種類、流量。還有誰考慮過這個問題,事實上,它不是指大數據的存儲,這不是大數據的意思。賓并不是說有很多數據聚集帶一起,而是說你怎么使用這個數據,里面還包含很多技術可以進行使用。為什么我們櫥柜是白顏色的?因為在數據庫里面,數據中心里面有很多的這些櫥柜,為什么是白色?因為用白色的話,可能會節能。如果說這些櫥柜是白色的話,我們可以節約電能,可以省下好幾千的美金。大家有沒有聽過HBASE?每天有一個HBASE的演講,所以大家要關注明天的演講日程。我們有各種各樣的產品,你可以去下載,在你的設備當中去運作,這是非常簡單的方法,可以去使用這個工具。

  如果你想開始學習大數據的話,可以自己嘗試,這是一些我們的技術,對于大技術的數據對戰。我們使用一些云數據的應用,我們也用Hadoop,這也是開放源的工具。并且它可以更強勁的支持你的服務,比如說你有一些鼓掌,他可以幫助解決所有的問題。在線上的大數據,我給大家展開一下。軟件里面經常會用到這點,有很多公司都在用這樣一個線上的大數據,所以你可以看到有很大的數據,而且有大數據平臺。在這張圖表立憲有很多箭頭,上方是Paypal點COM的網站,它的數據會進入到數據儲存庫,客戶支持人員會在網上使用這些數據,數據存儲庫處理這個數據之后做出決策,然后這個數據被進行使用,這些是線小時的等待時間,這些數據又被存儲到高速緩存,這些高速緩存是內存中的存儲,里面有足夠內容幫助你做決策。

  大家知道高速緩存的靈活性,我們這些數據可以被非常復雜的事件處理工具去做。你可以看到有很多不的組件,可以幫助我們做時時的決策。

  這是我們的CEP,你可以看到,他有這些事件的總線,一直在發送事件,都是從Paypal這個網站上生成的。我們有一些隱形會做一系列功能,另外我們還有相互聯系的引擎,這是非常重要的,我們復雜的事件處理的系統下的過程。你可以把很多的事件新湖的練習性建設起來,在一般的數據庫里面是沒有能力那么你到這點。相互聯系性就是在很快時間下建立起來的?大家動CEP有沒有什么很好的定義?什么叫事件復雜性?工具的定義是什么?CEP定義到底是什么?我們沒有對它沒有簡單的定義,這是一個非常復雜的技術。我們看一下CEP,CEP是數據庫的反方向,在數據庫上做一次詢問,你會得到一個結果。而對于復雜事件的處理里面,你會有一個詢問,然后你把數據發送到詢問里面,你會得到一個結果。這正好是反過來的一個過程,但是它的影響力也是很強的,因為它的流程也是很復雜的,而且他是會跨域的進行處理。所以說它是一個工具,不知道大家有多少人知道它,了解它?復雜的實踐處理的域是一個新概念,是一個新的技術。起碼我是這么認為的,在這個數據管理的整個事件當中,這是一個獨特的新技術,大家記住我現在說的話。你們在未來會看到我們Qcon會議,里面都會講大事件的內容,我們一定要這么做,不然的話,我們是沒有辦法很快做決策的。除非我們要用到好幾千的客戶支持人員,很多的一些分析師,才能夠很快做決策。

  這個幻燈片很難讀,如果說你有色盲的話,這張圖就更看不清楚了。這個是要說在數據庫里面,有不同強度的工作管理,我把這張圖放在這里,這張圖告訴我們說我們必須去妥協,或者說采用不同的技術去運作,根據個人的運算來考量。看看黃色區域,這是非常快的,CPU高效的部分,而且是高度靈活性的部分都存儲在內存里。看數據庫,比如說高密度,他們也是很好的工作流的管理。但是對IEO和存儲來說,性能不好,存儲非常昂貴。所有的這些都根據你的預算和你的戰略來選擇。你要取得一個平衡,一方面要看一下有多少錢,另外一方面要找出合適你自己情況的策略,這一頁我們可以看到,左邊就是超級安全,右邊是足夠安全。超級安全的速度比較慢,但是在右邊你可能需要做比較快的一個決策,右邊可以這么做。我想問一下,在我們這個Paypal里面,比如說要做一個快速的決策,它的速度是多少?10秒?具體來說,就是你在Paypal上面,你在點擊按紐的時候,出現下一個頁面,不可能是10秒,10秒太慢了。100毫秒?或者更少?實際上還不到100毫秒,速度非常快。

  超級安全這種方法時間是多長?它是非常安全,但是花的時間比較長。比如說要做一個交易的話,你想及時的付款,然后拿到你所想要的東西,里面讓你輸入你的社會保障號碼,所以在這個方面,我們需要做一個平衡。在這頁方面,我們可以看到里面包括三個不同的層級。我們叫離線、在線、時時。有誰知道ATO?就是帳號劫持。1、2、3、4、5,你們大家在笑,我們現場做一個查詢的話,比如說在五年之前,我們做一個查詢的線%的人密碼就用的PASRO這個詞。差不多10%的20%的人是這樣的,當時我們給他郵件,要他們改變密碼。再下面一層有傳統數據庫,除了中間一層,在下面還有大數據的科學,在這里面,我們需要一些離線風險指示的技術,這具體說明什么問題?響應時間就是從毫秒級,甚至決策的時候到數百毫秒,數分鐘,你需要花時間做一個決策。

  我們再看PG,它的一個時間可以從數小時,誰來做決策?財務人員?有可能是你們公司的CEO,他會做一個決策你們能夠承受多大程度的風險,看一下平臺能夠承受的風險是多少。

  為什么這里有猴子和狗、貓,什么意思?我在介紹大數據跟這些內容有什么關系?我們介紹的就是說你覺得有很多內容,他們并不是兼容的。我們討論的數據可以放在一起,我們可以把不同的數據信息整合在一起,在這種情況之下,我們大家都看過網絡日志,我們還有半結構的一些數據。而且HKMLL里面還有,實際上是他們彼此之間的結構。在幾年前,我們做的都是結構性的數據,但是你們大家都是用CQ做數據庫,都可以做的很好。大家用CQ做過網絡日志嗎?里面有很多字提,非常不使用。在里面用起來非常不方便,一些像JAVE的代碼是沒法寫的。如果你把這三者比較一下,就會得到一個客戶在交易時候的圖象,他們花多少時間,到什么地方去。你們知道如何測試機器人?你是怎么看的?他們在每頁上面所停的時間我們是不知道的。

  我們看一下日志,看一下他們在不同頁面所花的時間,比如說這個地方花了5秒,有的時候可能是花了1秒,如果1秒,那可能是機器。因為正常人看的,可能花5秒。接下來我會給大家做一些例子,這個很復雜,也很機密。在這里,我不會講很多詳細的內容,如果說你有問題的話,可以會后找我。這個圖具體就是它可以用來計算不同頁面之間的間隔時間,這是一個變量。我們可以看到這個數據是也不同,的數據源你來到這個集群,這里可以看到一些新的變量,ABC,你可以到DEF這些頁面,如果你發現速度非常快,他們可能在用機器人。我們看過有一些來自網絡日志,還有用戶互動,我們把這些信息整合在一起,很多時候用JAVE來進行測試,這還是比較簡單的。

  第二個案例。昨天我業介紹過,我們可以用一些圖表,我們可以看到里面有很多焰火,實際上它們是圖畫,我們可以通過IP地址,或者通過具體地址,通過電話,它們之間一些相關的關系,這里對我們挑戰就是你如何才能知道這張圖,兩個圖之間的相似度在什么地方,相似度有多少。你說這兩張圖完全一樣,你有多大信心?這是一個機器學習。比如說客戶有4個身份,利民有具體地址,有電話號碼,我們知道他們的交易多少超過1萬美元的,我們知道這是一個欺詐的情況,通過這個圖可以看出來。實際上很多帳號他們之間有很多相關的關系,我們是否可以來交給我們的機器看所有的事件,告訴它們哪些是相似的。如果是發現這些問題,我們把數據發到客戶支持這里,我們會發現一些欺詐的內容,來交給我們的系統,什么是不好的情況,那些圖是不好的,這樣我們有知道什么地方出了問題。如果說還想了解更多詳細內容,會后可以來找我。很多公司都在這么做,他們都想了解更多內容,因為這就是下一步的發展的工作,可以通過不同的事情之間的關系。

  你要做的足夠快的話,你需要用一個藍一模式,這樣計算的時候就比較容易,否則就太復雜了。編程的話,時間會很長。實際上他們也是有很多不同的地方,比如說在KE層有很多區別。這是我們發現最相關的一些內容,我們發現有些圖它們可以達到47%的一個相似形,這樣我們有這么高的一個信息,這是兩個非常不一樣的事件。這就是事件的相關性,在過去很多人通過這個方法可以賺很多錢。現在已經比較平常了,所以我可以告訴你們。過去有人在網上盜竊信用卡的信息,中國現在還不算糟糕,美國,還有加拿大有很大盜竊信用卡的問題,日本也開始出現這種情況。首先他們在Paypal里面做一個注冊,然后把這個錢發到這個帳號里,然后把信用卡盜竊了。他們把這的錢轉入到另外一個帳戶,他們很有信心,他們會等。他們會把這些轉移到銀行帳號里面,很多時候,Paypal的系統并不知道發生什么,不知道信用卡偷掉了。我們會把這兩件事件相互進行聯系,放一個卡,方巾錢,然后把這個錢拿出來,這就是一個模式。然后我從卡里支付,再取出錢,這都是一些模式。我們把這些情況和CEP引擎進行聯系,讓引擎知道有這個情況,就是欺詐。

  我們怎么處理?有的時候我們從所有有的數據當中挖掘出一些價值,有的時候會建立自己的Web,我會使用這些數據,在我們系統中的數據。我們很很多很大的社交媒體網站進行合作,從而可以更好的去獲取數據,來進行挖掘。現在有很多網站都很明智,他們也建立了防火墻,有時候很難進入到他們網站上獲取數據。有一個很有意思的項目,你在下一個會議當中會看到,就是一個社交的聲譽的問題,大家知道是什么意思嗎?你可能已經聽說過,比如說我們之前講到過圖形,在網站上,互聯網上,我們每個人都是在不同的網站上進行互動,比如說微博,還有人人網。你對這些系統都在進行互動,或者說你的大學論壇,還有臉譜網,都在這些網上互動。我們把你當時一個個人,然后去觀察你所有互聯網上互動行為,根據這種互動行為,我們會找到這些互動行為的質量,我們會看到你的網上朋友是什么,看看你朋友是好是壞,看看你朋友對你的評價是什么樣。如果你有一個很好的網絡,而且網絡里面朋友都很好,那么你很有可能是一個好人,但也不是絕對的。

  如果你的網絡是不好的話,你有很可能也是他們中的一分子,你也不是個好人。所以說這種社該的網絡性質是很重要的,根據社該網絡好壞的打分,我們可以來審查你自己的好壞,這樣可以加速你交易的速度,我們可以幫助你把加以做的更快一些。在座有多少人打網游的?你們知道盈利的Paypal資源就是你在網上可以買武器,有很多公司和人在玩這些游戲,他們在建造這些武器,然后賣出去。所以Paypal在這個方面賺很多錢,如果你是一個很好的玩家的話,我們也知道你一直是準時支付,在我們這個交易里面,我讓你馬上可以購買到我們的武器,同意你可以延緩支付。這是一個很好的例子。

  總結一下,在你們去吃午飯之前,我還淺談極具。大數據是一個非常成熟的科學,我們Paypal也在對開放源和工具方面做一些貢獻,我們希望工具能變得更好。我相信谷歌、臉譜網的人員也在做這種工作。數據工程師是IT行業最熱門的工作,我覺得這是一門藝術,大家一定要對此重視。而且要注意到數據工程師在未來是一個很好的工作,你也可以考慮這個工作。信息在互聯網上越來越多,如果考慮大數據的話,可以在互聯網上找到更多數據。數據工程師這個工作在中國市場上越來越多,很可能是我們未來的完美工作。

  總結一下我們過去的做的一系列項目,也是和同濟大學合作的項目。如果大家注冊,看到我們網站的話,你也可以得到免費的蜻蜓,EBAY TECH,這是一些需要幫助的人士做的蜻蜓。我在美國、在美國、在中國,都有不同的工作經驗,在中國有8年工作經驗,工程這方面的經過是我在技術層面,以及在學習層面來說都是最好的工作經驗,而且真正可以滿足我的求知欲。在這里,我也想感謝大家,因為你們現在都是我們的主流,是你們在改變我們互聯網的面貌。

  現場提問:我想問一下風險監控體系是否需要認證類的產品,比如說證書類,或者報領類。還有你如何理解檢測和決策這兩個之間的關系?

  Patrick Firouzian:我們現在所使用的工具在我們前面演講當中已經看到了,我們所有的開放源的產品都沒有被認證過,除非我們有一些云里面,我們所有建立起來的系統都是我們自己建造的。CEP的產品,我們還沒有選擇特別的產品,CEP的產品都是認證過的。有很多產品是公司內部的人知道,是自己打造的。監管和決策之間的關系,我們一直是在監管,我們也是一直在做決策,但是這個監管的結果就是我們可以幫助我們達到一個很高的自信水平,可以給到我們一些警示。我們在上還有很大的一個團隊,他們都在撰寫原則,來決定到底哪個事件和哪個水平之間相聯系。這是一個很大范圍的工作,要么你只是做監管而不做任何決策,或者說你會停止交易,你會給客戶服務量提升一些。

  現場提問:第一個問題理解上有點偏差,我想問有沒有使用交校驗類的產品。我們在風險監控的時候,我們識別出來的風險,識別和我們最終決策,對這個用戶是接收還是拒絕?這兩個關系在我們實踐上有沒有分離?

  Patrick Firouzian:第一個問題,如果你用這種短信方式去挑戰對方的話,我們確實是做了。對于現在交付方面,我們也會這么做。如果我們想知道是不是你在做這個加以的話,我們有時候會用到你的手機,因為我知道你手機的號碼,我們會在線上問你號碼,把你手機接受的PIN碼輸入到網站。未來我們可以通過生物方法,當然還有短信,也是確認的好方法,所以我們用不同的方法,而且一切都是我們自己建立起來的方法。當然,我可能還有些產品不知道,我相信有很多產品在用。一旦這些事件出現失誤的話,你有可能就是在欺詐,而且我們有很強的信息說你在欺詐的話,我們就不會讓你繼續交易。這樣一來,我們讓你進入到另外一個界面,讓你填寫地址郵箱,這些都是我們流程里面做的。謝謝。

  十大最佳第二職業榜:軟件開發、UI設計上榜2012.07.13

本文來自投稿,不代表本站立場,如若轉載,請注明出處。

假面战队五骑士02在线 王中王高手论坛·手机版 真人ag娱乐在哪下载 二八杠技巧口诀论坛 手机上炸金花技巧规律 福彩欢乐生肖开奖直播 时时彩稳定赚钱 瑞彩网是骗局吗 黑龙江时时开奖时间 单机二十一点 重庆时时官网开奖结果 网上投注 中国五洲彩票 北京时时规律时间表 天津随心玩捕鱼