Doba je plná zdieľania, kto nesharuje, neexistuje. Preto som sa i ja rozhodol, že vyzdieľam niektoré naše skúseností z podnikania s novými technológiami, s čím sa nerozlučne spája pestrofarebná zbierka slepých uličiek, vydretých víťazstiev, zase slepých uličiek a k tomu kopa frustrácie, ale aj srandy.
Čo sme za firmu si môžete prečítať na našom webe, alebo si vypočuť v podcaste. Preto preskočím úvodné predstavovanie a prejdem rovno k tomu, čo ma núti k napísaniu týchto riadkov.
Rozhodol som sa tieto zápisky napísať pre prípad, že by sme sa z lesa nevrátili. Naším lesom je totiž aplikovanie nových technológií Machine learning a AI do praxe. Akokoľvek sa snažíme čítať, počúvať a učiť zo skúsenosti iných, aj tak je náš les plný slepých uličiek, pascí, ako aj ďalších dobrodruhov, ktorí ak budú úspešnejší, tak v tom lese už môžeme zostať navždy, naša mapa slepých uličiek už nikoho nebude zaujímať.
Takže keď sa nás potomkovia opýtajú, aké to bolo budovať krajšie zajtrajšky, nech existujú nejaké zápisky, ktoré napovedia, ako sme sa s tým popasovali. Nielen spomienkovým optimizmom treba zoceľovať budúce generácie. Popíšem teda našu skúsenosť na reálnom vývoji digitálnej služby obhliadky vozidla s použitím strojového učenia a AI. Čiže ak sa vystríhate tejto technológie, či drobnej prechádzky do poisťováckej oblasti, nečítajte ďalej, bude to nuda.
Ak ste si niečo o nás zistili, už viete, že napríklad digitalizácia v poisťovníctve je naša doména dlhú dobu. Napríklad takú online kalkulačku pre havarijné poistenie auta sme robili už mnohokrát. Videli sme, že tento poisťovací produkt nie je možné online predať end-to-end kvôli potrebe fyzickej obhliadky. Znamená to sériu kvalitných fotografií doplnenú dátami, ktorú spravidla robí zaškolený obhliadkar.
Stanovili sme si teda problém: Žiadosti o havaríjne poistenie obsahujúce fotografie auta musí nejaký pracovník manuálne kontrolovať a validovať.
Stanovili sme si aj riešenie: Tým, že sme sa začali zaoberať ML a AI, chceli sme vyskúšať, či by sme prácu obhliadkara (morálny rozmer oberania obhliadkara o prácu je samostatná kapitola, o ktorej sa rád porozprávam s podobne pokrokom postihnutými firmami) vedeli nahradiť samoobhliadkou, ktorú urobí poistník sám a kde by úlohu policajta, ktorý kontroluje či sú fotky a dáta Ok, nahradilo AI.
Znamená to navigovať používateľa tak, aby urobil sériu čo najkvalitnejších a najpravdivejších fotiek, pričom dostáva online spätnú väzbu či sa mu to darí, alebo si to má zopakovať. Za dôležité považujeme udržať tento proces živý, kým používateľ nedokonči celý nákupný proces, inak nebude poistka dokončená, iba tak sa podarí prekonať kruté čaro negatívneho business case.
A tak sme sa rozhodli, že pre poisťovňu namiesto školení ďalších obhliadkarov skúsime naučiť túto rutinu stroj. Náš ML tím (pre rodoľubov "Kolektív výskumných pracovníkov v oblasti strojového učenia") sa zaoberal oblasťou computer vision už dlhšie, čiže sme tušili čo asi treba - definovať problém, navrhnúť riešenie, vybrať technológiu a zohnať dostatočný počet dát na učenie stroja. Dnes už vieme, že tomu niečo dôležité ešte chýbalo, na jednu vec sme zabudli. Ako prvé bolo potrebné zistiť, či problém, ktorý sa chystáme riešiť, naozaj existuje a či je naozaj taký atraktívny, že sa ho oplatí riešiť. A toto treba zistiť priamo u majiteľa potenciálneho problému, ktorý cíti jeho dopady a stojí mu za námahu urobiť niečo inak, aby sa problému zbavil. Áno, aj po toľkých rokoch práce pre poisťovne sa nám stalo, že nadšenie zatemnilo naše mysle a ženúc sa za technologickou výzvou, zabudli sme sa opýtať, či nás v cieli čaká prvá cena v podobe niekoho, kto našu snahu ocení aspoň vľúdnym slovom (tobôž platbou), alebo len našou vlastnou ekonomikou vystavený účet za našu pochabosť.
Toto sme si uvedomili až neskôr, kládli sme otázky a konečne dostávali odpovede. Mali sme šťastie začiatočníka, naše dodatočné overenie dopadlo pozitívne. Problém existuje, minimálne na trhoch, kde sme sa pýtali, jeho početnosť výskytu ako aj hodnota sú však limitované, preto treba triezvo uvažovať s potenciálom nášho riešenia.
Čiže lekcia prvá: Rozum musí prebiť nadšenie. Aj po toľkých rokoch práce v tejto business oblasti si treba overiť, či sú naše hypotézy správne. Fail fast je tu najefektívnejší, účet za chybu z nadšenia najnižší. Už viem, ľahko sa to hovorí, lebo niekedy je sakra ťažké nájsť toho, koho sa môžeme pýtať.
Vráťme sa teda k výzve, ktorú sme si sami dali. A to je vysoko blbuvzdorná appka s múdrym strojom za oponou, ktorá overí, že:
Po prvom kontakte nás však potenciálny zákazník veľmi rýchlo poslal do vyššieho levelu, takže naša snaha bola odmenená výrazným zvýšením nastavenej latky a stáli sme pred novými problémami. Tie sme sformulovali ako pozitívne a negatívne use cases:
Vedeli sme, že musíme začať od dát, a tak sme najprv nafotili naše autá, potom všetky v dostupných rodinách, potom aj u všetkých kamarátov. Nestačilo. Desiatky datasetov boli málo. Ďalšie datasety sme už získavali z dostupných zdrojov tak, aby sme sa dostali k stovkám a následne až k desiatkam tisíc fotografií. Fotografie je potrebné otagovať - dať do vizuálnych sektorov (rámčekov) to, čo má stroj hľadať. To je celkom nepekná, rutinná a ubíjajúca práca, zvlášť ak pred vami stoja desiatky tisíc fotiek. Klobúk dole pred kolegami nielen z ML tímu, lebo pomáhala celá firma, otagovali túto masu a stále si zachovali príčetnosť a duševné zdravie. Motivácia je silná vec a preniesla nás aj cez toto. Pekný článok o skúsenosti z "lejblovania" veľkého počtu fotiek napísal kolega tu.
Dobre, dáta máme. Ako sa však dopracujeme k niečomu, čo dáva hodnotu na výstupe? Rozhodli sme sa, že to zoberieme cez niečo, čo sme nazvali filtrami. Fotky a ďalšie dáta preženieme na stroji cez filter, ktorý povie, či, alebo nakoľko spĺňa stanovené kritériá. Napríklad filter na správne odfotenie strany auta musí povedať, či je na fotke auto zľava, alebo nie. Filter na kvalitu ostrosti musí povedať, či je fotka dostatočne ostrá, aby sme ju akceptovali. Filter na odčítanie odometra musí správne vrátiť číslo najazdených kilometrov z palubovky.
Stanovili sme si prvý set takýchto filtrov a išli sme jeden po druhom (ich dnešný stav si môžete pozrieť tu linka web CC). A že to bola sranda. Ako príklad prípadu použitia si môžete predstaviť obhliadkara, ktorý musí skontrolovať, či fotky z obhliadky obsahujú všetky požadované časti auta. Naučili sme stroj kategorizovať fotografie s úspešnosťou nad 98 % na testovacom datasete, avšak pri testovaní v reálnej prevádzke sme pri jeho odpovediach nevedeli, či sa máme smiať, alebo plakať. Stroj mal problém kategorizovať fotografie auta zľava a sprava. Jedného obzvlášť kreatívneho dňa nám napadlo zistiť, ako sa stroj zachová, keď fotografiu rozdelíme na polovicu. Zistili sme, že keď dostal stroj kufor auta z boku, považoval ho za ľavú stranu auta, a keď dostal kapotu auta zboku, považoval ju za pravú stranu. Uvedomili sme si, že tento jav vyplýva z vlastnosti konvolučných neuronónových sietí, ktorou je translačná invariantnosť (obrázok). Jedna z lekcií na tejto ceste je, že je dôležité poznať dobre technológie, ktoré používate.
Napíš nám na monika.oravcova@aston.sk,
alebo zavolaj na 0917 987 173.